Coh-Metrix指标说明

总览 Coh-Metrix是一个计算工具,它能产生文本的语言和话语表征的指标。这些值可以用许多不同的方式来研究明确文本的衔接和文本的心理表征的一致性。我们对衔接的定义包括显性文本的特征,这些特征在帮助读者在精神上连接文本中的观点方面发挥了一些作用(Graesser, McNamara, & Louwerse, 2003)。连贯性的定义存在许多争论,从理论上讲,文本的连贯性是由语言表征和知识表征之间的互动来定义的。然而,当我们把焦点放在文本上时,连贯性可以被定义为文本中可能有助于心理表征连贯性的特征(即连贯性的各个方面)。 Coh-Metrix提供了此类衔接特征的指标。

  1. 初步信息 本文件包含对纳入网站Coh-Metrix 3.0版的108个指标的描述。这些描述的目的是为那些想在这个版本的Coh-Metrix上工作的人提供简洁的规范。关于Coh-Metrix指标和架构的更多理论信息,见Graesser, McNamara, Louwerse and Cai (2004)和Graesser and McNamara (2011)。对于每个级别的指标,都提供了示例分数。 然而,需要注意的是,即使文本的微小变化也会导致Coh-Metrix输出的巨大变化。还需要注意的是,这些分数往往受制于第三方解析器、词典和词频数据库的输出,这些都是Coh-Metrix无法控制的。

  2. Coh-Metrix概念 为了说明Coh-Metrix 3.0中的指标所依据的算法,需要对一些关键概念进行定义。

相邻句子与所有句子 相邻的句子是指在一个跨度的文本中连续的句子。 例如,如果一段文本有4个句子,那么相邻的句子就是第1-2、2-3和3-4句。相对的,整句可能是 1-2,2-3,3-4,1-3,1-4,和2-4中的任何一种搭配。为了不同的目的,可以用不同的方式定义文本的跨度,但是段落的跨度和整个文件的跨度是有区别的。Coh-Metrix 3.0中的相邻句子忽略了段落之间的衔接。

句子之间的加权距离与非加权距离 这种区别在更高级的Coh-Metrix(1.2)版本中普遍存在,但在Coh-Metrix 3.0中使用的大多数指标中没有。当句子之间的距离被加权时,两个句子在文本中的距离越远,其权重就越小。当距离不加权时,所有的句子对都有相同的权重。除了少数例外,Coh-Metrix 3.0中的句子之间的距离是不加权的。

发生率分数与比率分数的比较 发生率得分是指每1000个词中被分类的单位数量。例如,代词的发生率得分将计算出1000个词中被归类为代词的数量。它相当于一些研究人员所说的比率或密度分数。相比之下,比率分数是一种相对测量,它将一类单位的发生率与另一类单位的发生率进行比较。例如,代词比率是代词的发生率除以名词短语的发生率。比率分数比较两个不同的指标(单位类别),而发生率分数只适用于一个指标。

重复得分 重复得分是根据被归入类别的文本单元序列计算的。这个分数是序列中相邻的单元对属于同一类别的比例。如果一个序列中有N个单元,就有(N-1)对相邻的单元。同一类别的相邻对的数量除以N-1。例如,我们计算了一个A、B、C类别序列的重复得分。 类别序列。A B B B C A A C C B B B B A C C 邻接重复0 1 1 0 0 1 0 1 0 1 1 1 0 0 1 这个序列的重复得分是8/15