企业文化专题研究：定量视角看企业文化基于机器学习的研究

来源：互联网
|
2022-06-20
|
0 条评论
|
T小字　 T大字

　　本文利用最新的机器学习技术（词嵌入模型），基于 209480 份财报电话会议记录文本数据，生成了一套文化词典；而后分别针对创新、诚信、质量、尊重和团队合作五大价值观，对 2001-2018 年间每家企业的企业文化进行年度打分。相比于传统的基于研发支出和专利数量的企业创新能力度量方法，本文的企业文化度量方法可以反映企业的更多信息，涉及的范围更为广泛。此外，通过实证，我们发现企业文化与企业业务成果之间存在相关性（业务成果包括经营效率、风险承担能力、盈余管理能力、高管薪酬设计、企业价值和交易能力）。并且在经济不景气的情况下，企业文化与企业绩效的联系更加紧密。最后，本文提供了一些具有启发性的证据，表明企业文化可以由重大的企业事件（例如兼并和收购）塑造。

　　什么是企业文化？据 O’Reilly 和 Chatman (1996, p. 160)，企业文化是“一个共用的价值观系统和一套组织成员的态度行为准则”。与根深蒂固的国家文化价值观不同的是，企业文化具有路径依赖性，并且可以被某些企业事件改变和塑造 (Weber、Shenkar 和 Raveh 1996; Guiso、Sapienza 和 Zingales 2015; Graham et al. 2018; Grennan 2018)。企业文化之所以重要，是因为企业员工难免会面临无法被事先妥当规范的情景 (O’Reilly 1989; Kreps 1990)。尽管这一主题非常重要，然而现存文献对大样本的研究仍十分有限，这可能是由于企业文化的概念比较模糊，导致了实证研究中的度量问题

　　在本文中，我们提出了一种半监督机器学习方法来衡量企业文化。我们的出发点是标普 500 中的企业在其网站上常提及的五个价值观(Guiso、Sapienza 和 Zingales 2015)：“创新”、“诚信”、“质量”、“尊重”和“团队合作”，这其中的每一个词汇都代表了企业的核心价值观。我们通过引入一种量化文本的新型机器学习方法（Mikolov 等人，2013 年；word2vec 模型），基于词嵌入模型对金融和会计领域相关研究做出了重要的方贡献。

　　首先，本文基于词嵌入模型训练了一个神经网络模型，针对财报电话会议文本数据，通过联系上下文的方式来学习其中所有单词和短语的含义。然后，基于该模型的结果，我们构建了一套“文化词典”，其中包含了与每个文化价值观密切相关的单词和短语。例如，这个神经网络会自动学习像“联盟(alliance)”和“生态系统(ecosystem)”这样的单词、像 “双赢（win-win）”这样的短语、甚至是像“肩并肩(shoulder to shoulder)”和 “亲密的(hand in glove)”这样的俚语，然后将其分类为企业文化词典中的“团队合作”部分。接着，通过对会议记录中的该类单词和短语进行加权频率计数，我们可以得到一个企业在“团队合作”这一项的得分。

　　使用财报电话会议记录来计算企业文化的得分的原因如下：第一，高管团队会极大地影响一个企业目前的文化(例如，Guiso, Sapienza 和 Zingales 2015; Graham 等人 2019)。Guiso、Sapienza 和 Zingales (2015)进一步说明，要想使一个特定的价值观深入人心，企业领导必须以身作则，践行并宣传这个价值观。如果管理者可以做到“言行一致”，那么其在电话会议中的发言在一定程度上可以真实反映公司的价值观。第二，财报电话会议的主要目的并不是讨论一个企业的价值观，而是企业的经营和绩效。一个企业的网站或者新闻稿中所描述的信息并非一定有效，因为在那里他们将相对容易地运用“套话”来宣扬他们的价值观。

　　为了确保信息有效，我们衡量企业文化时使用的是电话会议中的问答环节（QA），而不是演讲的部分，以此减少企业过度的自我营销问题。在问答环节中，管理者几乎没有机会选择要讨论的主题 (Lee 2016)。第三点，我们的方法判别并分类了与特定的企业文化最相关的单词和短语，创建了一个相对详尽的文化词典。此外，我们的方法在对企业文化进行打分时，对出现得较频繁的单词/短语赋予了更低的权重——这将有助于解决过度关注“声明”价值观的问题。在打分之前，我们也会删除主观感彩过于浓重的段落(Larcker 和 Zakolyukina 2012)。正如 Loughran 和 McDonald (2011)所指出的，电话会议记录中的非平凡的词语会不可避免地面临被错误分类的问题，我们关心的是错误分类的情况占比有多少。在本文中，我们将尽可能地用通俗易懂的语言，介绍一种全新的机器学习方法，助力金融和会计领域的研究。

　　首先，本文基于 2001 至 2018 年间 Thomson Reuters’ StreetEvents 数据库中的 209480 份财报电话会议记录，训练了词嵌入模型，获得了 7501 个不同企业的企业文化价值观（共 62664 条企业的年度数据）。我们选择运用“创新”、“诚信”、 “质量”、“尊重”和“团队合作”这些最成熟、最实用的指标，来检验我们的企业文化衡量方法的有效性。我们发现企业文化价值观与这些标志有很强的正相关关系。同时，我们也将本文基于 QA 部分的度量方法与基于以下内容的度量方法进行了比较：

　　(c)将词嵌入模型应用于年度报告( 10 - Ks )中的管理层讨论与分析部分（MD & A）。

　　接下来，我们将探讨强大的企业文化对企业业务成果的影响。我们发现，拥有强大企业文化的公司，通常有着更高的运行效率、更高的风险承受能力、更少的盈余管理、更有效的高管薪酬设计方案（更有利于培养风险承担能力和明确长期导向），以及更高的企业价值。并且，在经济不景气的时期，企业文化与绩效之间具有更明显的联系。在另一个应用实例中，我们检验了企业文化在兼并收购（M&As）中扮演的角色，使用的数据是 2003 至 2018 年间近 8000 次兼并收购数据。首先，我们发现，在“创新”和“尊重”这两项价值观得分高的企业更有可能成为收购者，而在“诚信”和“质量”这两项价值观得分高的企业则不大可能成为收购者。就兼并双方的匹配度而言，我们发现，文化价值观更相近的企业更有可能达成交易。我们进一步发现，在控制了并购方与目标企业的企业文化匹配程度后，并购方的价值观与其目标企业在并购前的价值观有着正相关关系——这表明企业文化本身也受到并购的影响。

　　本文对管理、会计、财务等领域的企业文化相关研究做出了重要的、长远的贡献。尽管这一主题很重要，但在以往有关企业文化与企业政策的研究中，主要是采用企业文化的代理指标(Biggerstaff、Cicero和 Puckett 2015; Davidson、Dey和 Smith 2015)或依赖调查/访谈所提供的证据(例如，Guiso、Sapienza 和 Zingales 2015; Graham 等人 2018, 2019)。本文通过使用一种最新的机器学习技术——词嵌入模型(Mikolov 等人 2013)来衡量企业文化。该模型可以随着时间的推移，轻松适用于大量的公司样本，从而扩展和补充了以往的研究工作。研究表明，相比于传统的基于研发支出和专利数量的企业创新性度量方法，本文的企业文化度量方法可以反映企业的更多信息，涉及的范围更为广泛。并且我们发现，基于大样本数据，企业文化与效益产出在任何维度都存在相关性。

　　据我们所知，本文是金融和会计学领域中的第一篇将神经网络语言模型应用于定性分析公司披露的文章。这个神经网络语言模型是“深度学习”的前沿理论 (e.g., LeCun, Bengio 和 Hinton 2015)中的一个重要部分。

　　从方的角度来看，我们的贡献主要有两个方面。首先，我们引入词嵌入模型作为一种量化单词含义的新方法。Loughran 和 McDonald（2016）指出，大多数文本分析方法仅仅在文档层面进行，且忽略了文字间的顺序和其所处的语境，将单词视作了一个个独立个体。在许多应用场景背后都包含着这种“词袋”的假设。比如语气（情感）的测量、手动构建单词表 (Loughran 和 McDonald 2011; Henry 和 Leone 2016)、文本分类(Routledge 和 Sacchetto和 Smith 2018)和主题建模(Huang等人 2018; Lowry、Michaely和 Volkova 2020)。词嵌入模型( word2vec )通过使用神经网络，实现对词的上下文语境进行深度解析，从而超越了这个假设。因此，单词和短语被编码成数字向量，而不是被视作单独的标志。这种矢量化提供了一种在表达层面量化语义而不仅仅是句法的有效方法。

　　第二，我们提出了一种全新的用于文本分析的半监督机器学习方法。这个方法介于监督学习方法和无监督学习方法之间。监督学习方法需要大量带标记的观测值作为训练集——这些观测值通常以企业效益产出的形式呈现(例如预测并购，参见 Routledge, Sacchetto 和 Smith [2018]；管理层竞选，参见 Erel 等人[2019])；无监督学习则最大限度地减少了人为的输入，让数据自动呈现其内在含义(例如主题建模，参见 Huang 等人[2018]和 Li 等人[2020])。相比而言，我们的方法并不依赖人为标记的文档，但是我们仍然可以为算法提供有限但关键的指导(即文化价值及其种子词), 让它能够从财报电话会议文本数据中归纳和收集企业文化信息。因此，我们的方法可被应用于在以下两种情况中，从企业披露报告中衡量其他预定义的企业属性：（1）缺乏明确的企业效益产出结果或者人为标记的数据，这种情况下监督学习并不适用；（2）预定义的企业属性相当微妙，无法在数据中自动显现，这种情况下主题建模(例如隐式狄利克雷方法，即 LDA 方法)也不适用。

　　调查显示（Graham 等人，2018 年），当高管们被问及对建立企业文化影响最大的因素时，超过一半的人认为，其现任 CEO 是影响最大的因素，而不是公司所有者、创始人、市场声誉或形象、内部政策和程序以及过去经历的困难时期等。早期的研究结果（Biggerstaff, Cicero, Puckett (2015), Davidson, Dey, Smith (2015), Guiso, Sapienza, 和 Zingales (2015)）与该调查结论保持一致。这些研究运用了 CEO 的属性和行为来作为企业文化的代理变量。财报电话会议是一种常用的企业外部沟通渠道，主要涉及 CEO（有时也有其他高管）与分析师们的交谈 ——我们希望，它能解释这些企业以及其领导企业的重要企业价值观； Graham 等人(2018) 也推荐将财报电话会议作为衡量企业文化的主要途径。

　　诚然，使用财报电话会议作为数据来源时存在一个重要问题：管理者可能会试图在会议期间粉饰自己的企业文化。值得说明的是，这些会议的首要目的应该是讨论企业的运营和绩效，而不是营销自己的企业文化。以往的研究表明，财报电话会议除了提供关于营收的信息之外，还提供了与价值观息息相关的信息。电话会议的信息质量大多归功于其交互性，这种交互性也使得电话会议包含更多针对会议参与者提出的具体问题的即时性回答(Frankel, Johnson, and Skinner 1999; M atsumoto, Pronk, and Roelofsen 2011; Lee 2016)。因此，高管对企业经营和绩效进行的讨论，使得我们最终可以应用财报电话会议，对企业文化进行评分。相较于 QA 部分，电话会议中的演讲部分很可能是提前打好了草稿，或者经过企业律师和投资者关系部精修的。而 QA 部分有更强的自主性，让管理者们几乎无法作假。在实验中，我们担心样本数据中混入了太多管理者们的“套话”，所以选择了 QA 部分来衡量企业文化。

　　从方的角度来看，我们使用的方法也有助于提高样本数据的有效性。一个合理的假设是，“讲套话”的管理者会更倾向于使用常用词，如表示价值观的词本身。我们的方法能够学习成百上千、甚至成千上万的与每一个文化价值观存在关联的单词和短语。而企业的文化得分是由所有这些词和短语的组合共同决定的，而不仅仅是管理者更容易提及的表示价值观的词所决定的。此外，由于词嵌入方法是从相邻的词/短语中学习一个词或短语的意义，所以，除非管理者能够在 QA 部分特意将某个流行词放在上下文中来帮助我们理解该词的含义，否则我们的方法不一定会将这个流行词收录在文化词典中。最后，我们采用了单词加权的方案：在对企业文化进行评分时，对电话会议中出现频率较高的词或者词组赋予较低的权重，这有助于减轻我们可能捕捉“陈述”价值观的担忧。为了进一步缓解这一担忧，我们将在第 4 节中就本文方法的有效性提供证明。

　　尽管如此，我们的单词列表和衡量方式是无法摆脱噪声的影响的，我们在未来仍需要做更多的工作来改进我们的方法。本研究中，尽管管理者们的意图是不可观测的，我们的目标是提供一种基于最佳可用数据源来衡量企业文化的新方法。（报告来源：未来智库）

　　我们从 homson Reuters’ StreetEvents (SE)数据库中获取了 2001 年 1 月 1 日至 2018 年 5 月 25 日之间的财报电话会议记录。每个文件都包含了每次电话会议的通话记录正文和有助于我们在 Compustat 数据库中匹配公司信息的元数据：股票代码、公司名称、事件标题、电话会议的日期。匹配后，电线条企业年度数据（包括 209,480 个 QA 部分）组成。

　　我们使用 Stanford CoreNLP 包来对文本进行预处理和解析。3 Internet Appendix 的第 2、3 部分提供了这些步骤的详细说明。我们把文档分割为句子和单词，然后把单词还原成它们的基本形式。我们进行命名实体识别( Named Entityecognition，NER )，以用预先定义的标记替换命名实体——如位置、时间、人员和公司名称。4最重要的是，就像 Routledge, Sacchetto 和 Smith (2018)所说明的那样，从企业披露中收集信息时，短语(搭配)起着至关重要的作用。在其工作的基础上，我们采用两步法来提取一般和特定语料的短语。

　　在步骤一中，我们使用 CoreNLP 包中的依赖解析器来识别固定的、由多个词语组成的表达(例如“相对于”)和复合词(例如 “知识产权”、“医疗提供商”)。这些短语通常是普通英语词汇中的一部分，或者是可以根据词与词之间的语法关系而进行推断的短语。5在步骤二当中，我们利用 gensim 库的短语模块，来查找特定语料库的两词和三词短语 (即在财报电话会议记录里 QA 部分中，在统计学意义上显著地共同出现的词语)。6例如，在第二部分中学习到的短语，包括“前瞻声明（forward-looking statement）”和“多此一举（beat (a) dead horse）”。我们使用下划线“_”将所有短语连接成一个单词。结果表明，在财报电话会议中，短语是文化价值观传播的关键部分。

　　越来越多金融和会计领域的研究者依赖自动化文本分析技术来从企业披露中提取有用信息。一个普遍使用的方法是对具有共同含义的字典中的单词进行计数。例如，一些字典，像 Harvard’s General 标签类别, Loughran 和 McDonald (2011), Linguistic Inquiry 和 Word Count (LIWC) (Pennebaker et al. 2015)，已经被广泛用于测量文本的语气(情感)。然而，开发用于衡量企业文化的词典可能是一项艰巨的任务。就像 Loughran 和 McDonald (2016)所指出的，创建一个实用的词典需要很好地把握商业案例的语境。像 Loughran，McDonald (2011)和 LIWC所提出的，传统的解决方法是让专家手动检查特定语境中常见的词汇，并将其分类。在应用这种方法生成企业文化词典时，会出现几个直接的难题。

　　首先，企业文化的讨论通常会以一种微妙的方式进行。与反映一般商业观点的语言不同，企业文化可以用频率较低的单词、缩略语、短语或习语来描述，而这些单词只有在特定的语境中才有意义。例如，在财报电话会议当中，人们可以理解“双向车道（two-way street）”这个短语是与团队合作有关的，然而，脱离了这个语境，即使是金融专家也很难从数百万个孤立的单词和短语中辨认出这个短语。其二，企业文化可以是一个难以捉摸的度的结构。

　　这种内在的复杂性意味着，即使可以从一组文档中提取所有与文化相关的词和短语，与语气分析相比，对它们进行分类也将是一项更复杂的任务。当人们面临五种或五种以上的选择(例如我们设定的五种文化价值观)时，很难以一致和客观的方式对每个单词进行分类。第三，即便是专家也无法创建和维护能够适应商业世界不断变化的词典。随着技术和产业的发展，商业词汇体系会不断吸收和排除新的词语。例如，在 20 世纪初创建的一本词典可能无法预知人工智能这个单词将在 20 年后与企业创新息息相关；同样，它可能会忽视“自由职业者”这样的词——它无法预料到自由职业者在当今劳动力队伍中的作用越来越大。

　　总的来说，虽然深入了解业务运营的专家在理论上可以根据上下文理解单词和短语的细微的含义，但这样的做法往往是不切实际且成本效益低下的。因此，我们提供了一种基于机器学习的替代方案来应对这些挑战。我们提出的这个方法从定义每个文化价值观的种子词语开始，并基于定性的企业披露报告，自动创建一套高质量的词典。这个方法的核心是基于语境学习单词（短语）的含义的词嵌入模型。7我们的方法不仅仅可以生成衡量企业文化的词典，也可用来生成适用于其他学科领域的词典。

　　词嵌入模型的目标是用数值向量表示语义(即词的意义)。反过来，词向量允许我们使用简单的向量算法来确定词与词之间的关系。在我们的实践中，我们首先计算任意两个词向量之间的余弦相似度，以此来判断两个词是否为同义词。基于学习到的词语与特定文化价值观的种子词之间的相似关系，可以识别出描述文化价值的一组广义词和短语的集合，并据此对企业进行评分。

　　词嵌入模型的原理是基于语言学中一个简单的、经过时间检验的概念之上：与相同的相邻词共同出现的词具有相似的意义( Harris 1954 )；因此，该模型从常见的相邻词中识别同义词。一个简单的词嵌入方法是构造一个计数向量，该向量会计算语料库中出现在焦点词附近的其他词(例如，离焦点词不超过一定距离的词)的次数。一旦我们通过对每个词的相邻词进行计数而建立一个这样的计数向量，理论上，我们便可以通过计算任意一对词语的计数向量的余弦相似度，来估算它们之间的关联度。然而事实上，所有词语和它们可能的相邻词的组合是巨大的，使得简单的基于计数的词嵌入方法很难被实现；因此，我们需要一个全新的方法。

　　作为自然语言处理（NLP）技术的突破，word2vec (Mikolov 等人 2013)采用神经网络来高效地学习可以表明词语含义的、密集且低维的向量。从本质上来说， word2vec 通过一个“阅读”文本文档的神经网络，来“学习”一个具体词语的含义，并由此学着去预测其所有相邻词语。神经网络中的参数是随机初始化的。随着学习的进行，神经网络中的参数通过反向传播(即神经网络的标准训练算法)进行调整，从而不断提高神经网络对词语邻近词的预测能力。在对文档进行多次迭代后完成学习之时，这些参数将成为一个单词的有效向量表示。该向量具有固定的维度，通常在 50 - 500 之间，并将捕获该词与其相邻词之间原始共现关系的属性。 Levy 和 Goldberg ( 2014 )的研究表明，word2vec 实现的向量化，类似于相邻单词计数矩阵的奇异值分解(即是降维技术)。请读者参考 Internet Appendix 中的 4.4 部分以便获得 word2vec 更多理论推导。

　　我们使用 Python 中的 gensim 库来训练 word2vec 模型。其他深度学习包，如 TensorFlow和PyTorch，也可以用于训练模型。我们将词向量的维数设定为300；如果两个单词在句子中相距不超过 5 个单词，我们将它们定义为相邻词，同时我们省略了语料库中出现少于 5 次的单词。Internet Appendix 中 4.5 节进一步解释了训练该模型的超参数。8训练后，该模型将语料中的 764,276 个单词全部转换为 300 维向量，用以表示该单词的含义。

　　衡量企业文化的出发点是标普 500 企业在其企业网站上最常提到的五个价值观( Guiso，Sapienza，Zingales 2015 )，这五个价值观与对应出现频率分别为：创新( 80 %)、诚信( 70 % )、质量( 60 % )、尊重( 70 % )和团队合作( 50 % )。Guiso， Sapienza 和 Zingales ( 2015 )在考察了每个企业自己的、企业之间的每一个价值观聚类的所有词及其出现频率后，为每个价值观提供了其含义单位(即种子词)。 Loughran 和 McDonald ( 2011 )指出，为其他学科开发的词表会错误地对金融文本中的常用词进行分类，因此，在我们使用财报电话会议来衡量企业文化的背景下，从公司网站( Guiso、Sapienza 和 Zingales 2015 )中筛选出的词表，可能并不完全适用。因此，在训练了 word2vec 模型之后（据此我们可以获得每个价值观/种子词的词向量），我们手动地检查了 Guiso, Sapienza 和 Zingales (2015)所归纳的价值观 /种子词，以确保在以下两个标准下，每类文化价值观都由一组连贯的种子词所明确定义：

　　1. 标准 1：这个词或短语出现在财报电话会议中。在这一标准下，像“做正确的事”（诚信）和“超出预期”（质量）这样的短语被我们剔除。

　　2. 标准 2：在电话会议的 QA 部分的语境下，一个单词或者短语的同义词（借助 word2vec）与企业文化价值观有着非常明晰的相关性。“成长”(创新)和“多样性”(尊重)等词被我们剔除，因为它们的同义词表明，“成长”更可能是描述过去的业绩，“多样性”则更可能是描述多样化战略。

　　在排除了 Guiso, Sapienza 和 Zingales (2015)的词典中一些不符合上述标准的价值观/种子词之后，我们也会添加新的种子词。这些新添加的单词包括：（1） Guiso, Sapienza, 和 Zingales(2015)中原始种子词的其他形式。例如，如果已知“合作”（名词）在列表中，则它的同义词“合作的”（形容词）和“合作”（动词）也会被加入列表；（2）Guiso，Sapienza 和 Zingales ( 2015 )中比原始种子词更具体明确的短语变体，例如，我们不使用“承诺”，而是加入了 “顾客承诺” (质量)。

　　我们使用经过训练的 word2vec 模型来开发一个扩展的、特定于上下文的词典来衡量企业文化价值。如前所述，我们可以计算任意两个词向量之间的余弦相似度来量化它们的关联，而后将财报电话会议中的单词与定义每个文化价值的种子词相关联，来构建文化词典。我们用下面的例子来说明这个过程。

　　最后，我们手动地检查所有自动生成的词典中的单词，并剔除不合适的单词。考虑一个单词是否应该被剔除时，我们仔细地学习了它在财报电话会议中的语意。大多数被剔除的单词是 CoreNLP 包遗漏的命名实体(例如 gs1 和 dana-farber )，它们在行业背景方面过于具体(例如“厨师”和“药剂师”)，或者在含义方面过于笼统 (例如“重要性”和“工作”)。

　　在生成了企业文化字典之后，我们在会计年度层面分别对每个公司五种文化价值观进行度量。我们采用与每个价值观相关联的词数除以文档中的词总数的加权方式来计数，权重为tf . idf，其中tf (词频)表示文档中的词频，idf (逆文档频率) 表示文档与语料库中的词的逆频率。本质上，这种加权方案既考虑了文档中单词的重要性，也考虑了语料库中单词的重要性。

　　鉴于我们对企业文化的测度方法是全新的，运用业界公认的、经过广泛实践的指标来检验我们的测度方法，就显得尤为重要。为此，我们对这五种文化价值观使用了大量的指标。为了验证“创新”这个文化价值观，我们使用 ln (专利)、研发支出和创新优势这几个指标。14ln (专利)是 1 加一年内提交并最终授予的专利数的自然对数。数据来源于 Kogan 等人 (2017)。研发支出特指按总资产标准化的研发支出。创新优势是一个指示变量，如果认为企业在创新和研发方面具有优势，则赋值为 1，否则为 0。Kinder，Lydenberg & Domini ( KLD 2006 )将创新中的优势定义为“这个公司是其行业中研究和开发的领导者，特别是他会将引人注目的创新产品推向市场”。此数据来源于 KLD。

　　为了验证“诚信”这个文化价值，我们采用了会计中的渎职行为和高管期权授予回溯（backdating executives’ option grants）这两个指标(Biggerstaff, Cicero, 和 Puckett 2015)。重新声明是一个指示变量，如果企业后来对(年度或季度)财务报表进行了重新声明，则取 1，否则为 0。此数据来源于 Audit Analytics。回溯（backdating）是一个指示变量，如果授予企业 CEO 的期权是回溯的，则其值为 1，否则为 0。为了识别回溯，我们遵循 Heron 和 Lie ( 2009 )的估计方法，其假设是，在没有回溯或其他类型的授予日操纵的情况下，授予日前后一个月股票收益的分布应该大致相同。CEO 期权授予数据来源于汤森路透( Thomson Reuters )的内幕资料库。

　　为了验证“质量”这个文化价值，我们使用产品质量、产品安全和头部品牌这几个指标。产品质量是一个指示变量，如果企业被认为在产品质量方面有优势，则取 1，否则为 0。KLD ( 2006 )将产品质量方面的优势定义为“公司有一个长期、完善、广泛用于全公司的质量规划，或者说它有一个在美国业界被公认优秀的质量规划。” 产品安全是一个指示变量，如果企业被认为在产品安全这一块毫无隐忧，则取值为 1，否则为 0。KLD ( 2006 )将产品安全方面的隐忧定义为公司最近支付了大量罚款或受到民事处罚，或参与了最近发生的重大争议或受到监管的行动——这些都涉及其产品和服务的安全。这两个变量的数据皆来自 KLD。头部品牌是一个指示变量，如果企业在 Brand Finance 中排名前 500 名，则其值为 1，否则为 0。该列表由 Brand Finance 构建( ，数据范围为 2007 年至 2017 年。

　　为了验证“尊重”这个文化价值，我们使用多样性和“最佳雇主”称号这两个指标。前者是在多样性方面的优势减去在多样性方面的隐忧，数据来源于 KLD；后者是一个指示变量，如果一个企业被列入《财富》( Fortune )的美国 100 家最佳公司 ( Best Company to Work in America )排行榜，则其取值为 1，否则为 0；评判能否列于榜中的主要标准是工作满意度、公平性和友爱程度。Edmans ( 2011 )的研究表明，财富榜上的企业相比其他企业，员工满意度更高。此列表数据截至 2017 年。

　　为了验证“团队合作”这一文化价值，我们使用了员工参与程度、合资企业数量( JVs )和战略联盟数量( SAs )这几个指标。前者是一个指示变量，如果企业被认为在员工参与方面具有优势，则取值为 1，否则为 0。KLD ( 2006 )将员工参与定义为“公司大力支持员工参与企业活动，或其大多数员工可获得股票期权的所有权；收益共享、持股、财务信息共享，或者参与管理决策。”数据来源于 KLD。后者是企业在给定年份内形成的 JVs 和 SAs 的数量。数据来源于 Thomson Reuters 的 SDC 数据库。

　　上述验证工作中的一个隐忧是，有了这些测试的指标，我们对企业文化的测量可能会变得多余，因为它们本身具有高度的相关性。但是我们相信，我们的企业文化的度量方法是对企业财务研究的重要补充，原因如下。

　　首先，虽然企业文化在企业政策或绩效方面可能尚未见成效( Graham 等人 2018 年，2019 年)，但是强大的企业文化渗透在公司运营和员工行为的各个方面。本文中，我们重点讨论了五种最常见的文化价值观及其指标，以确保分析的可操作性。

　　第二，我们用来验证某一特定价值观的指标集，通常远不如该价值观本身的含义丰富。例如，一个创新的文化远不仅仅是研发投入和专利数量，还有更多的意义，比如商业机密、新颖/原始的营销战略、优化的生产工艺和高效的后台运营等。同样，文化价值观“诚信”的验证也不局限于我们使用的两个关于渎职的指标。

　　第三，我们的企业文化测度方式，其数据覆盖面和质量远远优于大多数指标。尤其，我们可以使用财报电话会议衡量任何一个企业的企业文化（包括根据 1934 年《证券交易法》注册的公司；Gao, Harford 和 Li 2013），而大多数指标却只能用于公营公司。例如，考虑文化价值观“创新”，一个普遍的问题是， Compustat 中只有不到 40%的企业报告了正的研发投入，而且约 15 %的企业重复提供可申请专利的创新产出( Bena 和 Li 2014；Koh 等人 2019 )。此外，我们的企业文化价值度量是连续的，而用于有效性检验的指标很多是二进制的(除了 ln ( Patent )，R & D 支出，多样性和 JVs / SAs 数量)，因此在横截面上的变化有限。（报告来源：未来智库）

　　我们对企业文化的主要衡量标准是通过将文化词典应用于电话会议的 QA 部分来获得的。将文化词典应用到完整的通话记录中后，我们便生成一组可供选择的企业文化价值度量，并将其后缀标记为_ Full。

　　鉴于本文是第一个将词嵌入模型应用于企业文化量化研究的文章，我们不可避免地会遇到这样的问题：与使用 Guiso，Sapienza 和 Zingales ( 2015 )提供的种子词列表和特定的价值词(例如，“创新”)的简单计数方法相比，我们的方法表现如何? 在 QA部分中，我们调用种子词(加上价值词)的简单计数来生成一组新的企业文化价值度量结果，并用后缀_ seed 对其进行标记。

　　截止目前，我们都是使用财报电话会议文本数据来评估企业文化。另一种选择是采用 10 - Ks 的 MD & A 部分——该部分经常被用于企业披露的文本分析。我们将词嵌入模型应用于 1993 – 2017 会计年度 10 - Ks 的 MD & A 部分，生成另一套可供选择的企业文化价值度量，并使用后缀_ 10k 对其进行标注。

　　最后，我们同样也考虑了给企业文化打分的另外两种替代方案。第一是将词嵌入模型应用于员工的评论，如尽管这些评论是学习企业文化的合理来源(Graham 等人 2018; Grennan 2018)，但这些数据却并不公开。此外，来自员工评论网站的数据时间覆盖范围有限，导致许多公司的评论很少。20第二个选择是将主题建模工具如 LDA 应用于财报电话会议。然而，由于 LDA 是一种无监督的学习模型，因此无法保证所发现的主题与企业文化相关。Huang 等人 (2018) 发现大多数从财报电话会议中提取的主题信息，或与行业相关，或是与业绩相关。

　　总的来说，多次的有效性验证、与替代方案之间的比较都表明，词嵌入模型生成了一个高质量的文化词典，可用于对企业文化价值进行有效评分。

　　有人可能会担心管理者们会在电话会议中过度自我营销，也因此担心我们的方法不能很好地提炼企业文化。在本节中，我们将检验我们的衡量方法是否容易受到管理者情绪化话语的影响。

　　我们使用语言查询和字数统计（LIWC），来捕捉电话的 QA 部分中每个语句段落的积极和消极情绪。LIWC 是一种计算机程序，用于研究个人口头和书面演讲中出现的各种情绪成分（Tausczik 和 Pennebaker，2010 年）。Larcker 和 Zakolyukina（2012）提供了一种会计应用程序，在该应用程序中，他们使用 LIWC 来检测电话会议中高度情绪化的讨论部分。

　　为了实现这种稳健性检查，我们删除了每一份记录中，那些积极（消极）情绪得分最高的段落的前四分之一部分。然后，我们使用修改后的语料库重新计算企业文化价值得分。当我们排除充满积极情绪的段落时，在公司的年度水平上，新测量值与原始测量值之间的相关性在 0.909（质量）到 0.961（团队合作）之间，当我们排除充满消极情绪的段落时，相关性在 0.898（质量）到 0.942（团队合作）之间。

　　作为一项补充调查，我们使用 Larcker 和 Zakolyukina（2012）开发的替代词列表重复上述分析，仅仅捕捉极度积极的情绪——作者认为这些情绪是 CEO 们在通话中发表欺骗性讲话的重要标志。新测量值与原始测量值的相关系数在 0.880（诚信）到 0.927（团队合作）之间。总之，较高的相关系数表明，管理者们在电话会议中的自我营销对本文衡量企业文化的方法没有影响。

　　词嵌入模型的一大局限是一个单词的多重含义被融合形成了一个单一的向量。我们的语料库来自一个特定的领域——财报电话会议记录，与维基百科这样的更一般的语料库相比，从财报电话会议记录这样的语料库中派生出的词的含义几乎都是明确的(Magnini 等人 2002; Henry 和 Leone 2016)。尽管如此，我们还是通过检查我们的主要分析中使用的文化价值观，与使用删除了多义词的字典衡量的文化价值观之间的相关性来进行稳健性检查。

　　我们使用 Pelevina 等人（2016）开发的算法从嵌入向量中学习词义。该算法的原理是，对于字典中的每个焦点词，我们首先使用经过训练的 word2vec 模型，找到与其最高度相关的同义词。紧接着，根据同义词彼此之间的相似程度，将它们分成不同的组。若某一个焦点词的同义词之间存在多个组别，则意味着这个焦点词有着多重的含义。

　　我们发现，在我们的词典中，仅有很小一部分的单词（12%，212 个词）有多重含义。我们从词典中移除了那些具有多重含义的单词之后，用相同的方法对 QA 部分量化计算了文化价值观。在五个价值观中，包含多义词和没有多义词的测量值之间的相关性很高，从 0.868（质量）到 0.939（团队合作），这表明对于我们的研究来说，多义词的影响有限。考虑到语料库的高度相关性和所聚焦的特定领域，我们选择在词典中保留多义词。

　　在最近一项针对北美 CEO 和首席财务官（CFO）的调查中，超过一半的高管将企业文化视为影响公司价值的三大因素之一，且超过 90%的高管认为，改善企业文化将提高公司价值。在并购活动中，企业文化的契合是非常重要的，以至于大约一半的高管会选择放弃企业文化不一致的并购目标（Graham 等人 2019）。通过在财报电线vec 模型来给企业文化价值观打分，本文基于大样本数据，检验了“拥有强大企业文化”的影响。

　　根据 Graham 等人(2018)的研究，企业管理层将企业文化描述成一种“信赖系统”、“协调机制”和“一只无形的手”。他们通常相信企业文化影响着一个公司各项活动的方方面面。在这一部分，我们将通过 Graham 等人(2018, 2019)的调查或采访所提供的证据，探索在运行效率、风险承担、盈余管理的动机、高管薪酬设计和公司价值中，企业文化如何发挥作用。

　　与 Graham 等人(2018)的采访所提供的证据一致的是，通过资产周转率和存货周转率指标，我们发现，那些具有强大的企业文化的公司和其较高的运行效率之间存在着正相关关系。Graham 等人(2019)的调查所得的证据为“有效的企业文化如何提高风险承担能力”提供了一个例子。通过月度股票收益率的标准差，我们发现，具有强大企业文化的公司和其总体上较强的风险承担能力之间具有正相关关系。

　　据 Graham 等人(2019)所述，被采访的高管们一致地将有效的企业文化和企业对长期目标的关注联系起来，这也会对短期盈余管理和高管薪酬设计产生影响。我们将应计利润作为盈余管理能力的替代变量，我们发现具有强大企业文化的公司和其应计利润之间具有负相关关系。如果董事会适应相同的企业文化，高管薪酬的设定方式将符合现有价值观，并将进一步培养风险承担能力和明晰企业长期的方向。与这一推测一致的是，我们发现了企业文化的强度和 CEO 的财富-绩效敏感性（delta）有正相关关系，同时企业文化强度和 CEO 对财富和股票波动的敏感性也呈正相关（vega、Coles、Daniel 和 Naveen，2006），且企业文化的强度还和 CEO 任职期间的薪酬有正相关关系（Gopalan 等人，2014 年）。

　　根据 Graham et al. (2018)，在艰难的运营环境中，文化与绩效之间的联系会更加明显——因为强大的企业文化使高管和普通员工能够基于长远的视角做出一致的决策和努力。

　　为了考察非常时期企业文化对绩效的影响，我们重点关注金融危机对金融公司的影响（根据 Fama French 48 行业分类，这些公司从事银行、保险、房地产和贸易）；以及英国石油公司（BP）Deeper Horizon 漏油事件对石油公司的影响。我们对金融危机的相关影响的测试很大程度上参考了 Lins, Servaes, 和 Tamayo (2017)的实验。样本期间从 2007 到 2010 年，且金融危机的发生期间是从 2008 年 8 月（早在 9 月雷曼兄弟破产之前）到 2019 年 3 月（标普 500 指数触及最低点时）。探究 BP 的漏油事件相关影响的样本期间是从 2009 年到 2012 年，漏油事件的期间是从 2010 年 5 月到 2011 年 2 月。

　　总之，与以往研究所提供的证据一致(例如，Guiso, Sapienza, Zingales 2015; Graham 等人 2018, 2019)，我们也发现，企业文化与企业运营的方方面面都有关系，包括运营效率、风险承担能力、收益管理能力、高管薪酬激励设计、企业价值，并且，企业文化与绩效之间的关系在非常时期更加显著。我们注意到，在尝试将企业文化与业务成果相匹配时，并不存在一套完美的识别方案，因此上述大多数发现仅仅可以证明它们之间存在某种相关关系。

　　在并购的场景中，若合并公司的价值观和偏好相互冲突，那么他们的员工必须共同努力，以实现协同效应。如果他们对开展业务的最佳方式没有一致的信念，那么会出现诸多问题：诸如公司目标不匹配、不信任、士气低落、员工压力大和离职率高，并进一步阻碍团队合作和协调，从而使合并后的磨合变得困难，并降低生产效率。例如，在具有强大“创新”文化的企业中，通过创新打造未来市场机会是最终的目标，而在具有强“质量”文化的企业中，长期目标往往是：通过内部效率改进、实施更好的流程和质量改进来为企业创造价值。我们认为，整合两个文化差异较大的公司的成本将减少协同带来的收益，甚至远超协同收益。因此我们预计，发生在企业文化相互冲突的公司之间的交易将会非常少。这种文化适应的假说也表明，企业之间的文化差异是并购是否发生的关键决定因素。

　　然而，另一方面，企业文化在并购中起到的影响也是有限的。首先，与根深蒂固的国家文化价值观有所不同，企业文化是路径依赖的，并可以被企业的主要活动所改变(Weber, Shenkar, 和 Raveh 1996)。Nahavandi、Malekzadeh (1988) 、 Cartwright 和 Cooper (1993) 强调了并购中的文化适应和文化移植过程——并购后的整合过程会使得企业文化发生一定程度的变化。第二，企业文化的一致性也可以通过互补实现，而不总是通过相似实现；并且，兼容的文化也并不意味着相似的文化(Weber、Shenkar、Raveh 1996; Krishnan、Miller、和 Judge 1997)。最后，根据兼并中的 q 理论(Jovanovic 和 Rousseau 2002)，合同、经济激励和完全接管，可以一定程度上解决组织兼容的问题，让文化差异在并购中的影响降到最低。因此，文化适应假说也预测，不同文化的企业的合并，将促进一种由双方共同决定的文化的形成。

　　我们采用了度量企业文化差异的两个最普遍使用的总括指标——“企业文化相似度”。“企业文化相似度”是反映企业文化的两个 5*1 维向量之间的余弦相似性，这些向量捕捉了两个企业的文化价值。这个总括指标的值越高，那么这两个企业的文化就越相近。“文化距离”是所有五种文化价值观中公司之间差异的平方和的开方（即欧几里德距离）。这一总括指标的值越低，表明这两个企业之间的企业文化就越相近。

　　尽管如此，与企业文化没有直接关系的其他研究结果，与以往在并购领域的研究结果是一致的(例如，Moeller, Schlingemann、Stulz 2004; Li, Qiu 和 Shen 2018)。特别地，我们发现，经营业绩更好、销售增长更快、往期年回报率更高、机构投资人持股比例更高的公司，更有可能成为收购方，而杠杆率更高的公司则不太可能成为收购方。

　　在人类学和跨文化心理学的领域，文化移植通常被定义为“由于文化元素在两个方向的扩散导致两个文化系统的变化”(Berry 1980, p. 215)。我们推测，一个成功的企业并购同时也将会促进收购方的成员和被收购方的相互适应，并且将会很好地解决出现的矛盾；因此，并购本身就能够塑造和改变企业文化。

　　为了更好地探索文化移植，我们需要并购方在其所聚焦的交易完成后，持续 1 年（3 年）不再从事其他重大交易。这些样本包括交易完成后 1 年（3 年）的 492（335）笔交易。为了提取一种区别于在企业文化匹配中收购方企业文化的特定企业文化，我们进行了普通最小二乘法（OLS）的回归运算，其中，目标公司在交易宣布前一年的特定文化价值观是因变量，而收购方的相应文化价值和收购方在交易宣布前一年的特征是解释变量。回归残差项是在控制收购方及其意向收购方之间文化一致性后，目标企业的特定企业文化。如果像 M&As这样的企业活动也能够塑造、改变企业文化，那么我们有理由相信，合并后的企业的文化与合并前的被收购方的特定文化显著相关。

　　本文发现，词嵌入模型（一种人工神经网络自然语言模型）可以对特定语境下的单词和短语的含义进行学习。我们运用该模型，提出了一种全新的有监督的机器学习方法，并生成了一个文化词典，针对企业披露内容量化分析了企业文化情况。我们将本文方法应用于 209,480 份财报电话会议文本数据，获得了在 2001 年-2018 年期间，62,664 个企业年度数据中，排名最靠前的五种企业文化价值观的得分(“创新”、“诚信”、“质量”、“尊重”和“团队合作”——由 Guiso,、Sapienza 和 Zingales (2015)提出)。为了检验我们的指标的有效性并说明我们的方法相较于几种备选方案的优势，我们做了大量的检测。我们发现，企业文化与业务成果相关（业务成果包括运营效率、风险承担能力、盈余管理能力、高管薪酬设计和公司价值）。在非常时期，企业文化与企业绩效之间的联系更加紧密。最后，我们发现企业文化在并购事件中起着重要作用，并且在并购后，收购者的文化价值观与其目标公司在并购前的文化价值观呈正相关，这表明企业文化是可以被重大企业事件（如并购）所塑造和改变的。根据本文的结果，机器学习方法对衡量企业文化非常有用，并且可以为社会科学领域中更多的应用场景提供支持。

免责声明：本站所有信息均搜集自互联网，并不代表本站观点，本站不对其真实合法性负责。如有信息侵犯了您的权益，请告知，本站将立刻处理。联系QQ：1640731186