相关分析
前面几节所介绍的统计方法,仅限于描述单变量的集中趋势、离散程度等数据分布特征。但客观现象总是相互依存和相互联系的。那么,探究事物和现象之间数量联系的统计方法就是相关分析。
一.相关的基本概念
1.函数关系与相关关系
事物或现象之间总是相互联系的,并且可以通过一定的数量关系反映出来。比如,教育需求量与居民收入水平之间,科研投入与科研产出之间等等,都有着一定的依存关系。而这种依存关系一般可分为两种类型:一种是函数关系,另一种是相关关系。
函数关系是指事物或现象之间存在着严格的依存关系,其主要特征是它的确定性,即对一个变量的每一个值,另一个变量都具有惟一确定的值与之相对应。变量之间的函数关系通常可以用函数式确切地表示出来。例如,圆的周长C对于半径r的依存关系就是函数关系:C=2πr。
如果我们所研究的事物或现象之间,存在着一定的数量关系,即当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但按某种规律在一定的范围内变化。我们把变量之间的这种不稳定、不精确的变化关系称为相关关系。相关的概念是19世纪后期,英国弗朗西斯·高尔顿爵士在研究遗传的生物与心理特性时提出的。
相关关系反映出变量之间虽然相互影响,具有依存关系,但彼此之间是不能一一对应的。例如,学生成绩与其智力因素、各科学习成绩之间的关系、教育投资额与经济发展水平的关系、社会环境与人民健康的关系等等,都反映出客观现象中存在的相关关系。
在复杂的社会系统中,各种事物或现象之间的联系大多体现为相关关系,而不是函数关系,这主要是由于影响一个变量的因素很多,而其中一些因素还没有被人们所完全认识和掌握,或是处于已经认识但对其产生的影响还不能完全控制和测量。另外,有些因素尽管可以控制和测量,但在操作过程中或多或少都会有误差,所有这些偶然因素的综合作用导致了变量之间的不确定性。
2.相关关系的种类
从不同的分类角度进行分析,相关关系可以有多种分类。
(1)根据相关程度的不同,相关关系可分为完全相关、不完全相关和无相关。
当一种现象的数量变化完全由另一种现象的数量变化所确定,这两种现象间的关系为完全相关。例如,在价格保持不变的情况下,某种商品的销售总额与其销售量之间的关系总是成正比。在这种情况下,相关关系就是变成了函数关系。因此我们也可以说函数关系是相关关系的一个特例。
如果两个现象之间互不影响,其数量变化各自独立,我们称其为不相关现象。例如,一般认为学习成绩的高低与天气变化是不相关的。
如果两种现象之间的关系介于不相关和完全相关之间,则称其为不完全相关。通常我们看到的相关现象都属于这种不完全相关。
(2)根据变量值变动方向的趋势,相关关系可分为正相关和负相关。
正相关是指一个变量数值增加或减少时,另一个变量的数值也随之增加或减少,两个变量变化方向相同。例如,技能水平随着练习次数的增加而提高。
负相关是指两个变量变化方向相反,即随着一个变量数值的增加,另一个变量的数值反而减少;或随着一个变量数值的减少,另一个变量数值反而增加。例如,练习次数与遗忘量之间的相关关系。
(3)根据变量关系的形态,相关关系可分为直线相关和曲线相关。本节只论述直线相关。
两个变量中的一个变量增加,另一个变量随之发生大致均等的增加或减少,近似地表现为一条直线,这种相关关系就称为直线相关。直线相关在相关散点图上可呈现为一条直线的倾向。
当两个变量中的一个变量变动时,另一个变量也相应地发生变动,但这种变动不是均等的,近似地表现为一条曲线,这种相关关系被称为曲线相关。曲线相关在相关散点图上可呈现为弯月形。
(4)根据研究变量的多少,可分为单相关、复相关。
所研究的只是两个变量之间的相关关系,可称为单相关。例如,我们研究的是学生数学成绩与物理成绩之间的关系,这种相关关系就是单相关。
如果所研究的是一个变量与两个或两个以上的其它变量的相关关系,称为复相关。例如,研究人的营养与人的身高、体重之间的关系,学生的学习成绩与其学习动机、方法、习惯等方面的关系,都属于复相关。
二.相关分析
在统计学中,一般将描述和分析两个或两个以上变量之间相关的性质及其相关程度的过程,称之为相关分析。相关分析的目的主要是力求通过具体的数量描述,呈现研究变量之间的相互关系的密切程度及其变化规律,探求相互关系的研究模式,以利于统计预测和推断,为做出正确决策提供参考依据。
1.相关分析的作用
相关分析在教育研究中的作用是多方面的,具体概括如下:
(1)判断变量之间有无联系
确定研究现象之间是否具有依存关系,这是相关分析的起点,也是我们研究各种现象之间相互关系的前提条件。因为只有确定了依存关系的存在,才有继续研究和探索各种现象之间相互作用、制约以及变化规律的必要和价值。
(2)确定选择相关关系的表现形式及相关分析方法
在确定了变量之间存在依存关系之后,就需要明确体现变量相互关系的具体表现形式。在此基础上,选择恰当的相关分析方法,只有这样才能确保研究目的的实现,收到预期的效果。否则,如果把非线性相关错判为线性相关,按照线性相关的性质选择相关分析的方法,就会导致错误的结论。
(3)把握相关关系的方向与密切程度
我们知道,变量之间的相关关系是一种不精确的数量关系,相关分析就是要从这种不确定的数量关系中,判断相关关系的方向和密切程度。
(4)相关分析不但可以描述变量之间的关系状况,而且用来进行预测。另外,相关分析还可以用来评价测量量具的信度、效度以及项目的区分度等。
2.相关系数
相关系数是在直线相关条件下,说明两个变量之间相关程度以及相关方向的统计分析指标。相关系数一般可以通过计算得到。作为样本相关系数,常用字母r表示;作为总体相关系数,常用字母ρ表示。
相关系数的数值范围是介于–1与+1之间(即–1≤r≤1),常用小数形式表示,一般要取小数点后两位数字来表示,以便比较精确地描述其相关程度。
两个变量之间的相关程度用相关系数r的绝对值表示,其绝对值越接近1,表明两个变量的相关程度越高;其绝对值越接近于0,表明两个变量相关程度越低。如果其绝对值等于零1,则表示两个变量完全直线相关。如果其绝对值为零,则表示两个变量完全不相关(不是直线相关)。
变量相关的方向通过相关系数r所具有的符号来表示,“+”号表示正相关,即0≤r≤1。“﹣”表示负相关,即0≥r≥﹣1。
在使用相关系数时应该注意下面的几个问题:
(1)相关系数只是一个比率值,并不具备与相关变量相同的测量单位。正因为如此,相关系数不适于进行算术四则运算,在比较相关程度时,只能说相关系数绝对值大者要比绝对值小者相关更密切一些,不能用倍数或差数来说明彼此的关系。例如,我们可以说相关系数r为0.7的两个变量比相关系数r为0.35的两个变量之间的相关程度要更密切一些,但不能说相关系数r为0.7的两个变量的相关程度是相关系数r为0.35的两个变量的相关程度的二倍。同样,我们也不能认为相关系数从0.4增加到07所反映的相关程度与相关系数从06增加到09所反映的相关程度相等。
(2)相关系数r受变量取值区间大小及样本数目多少的影响比较大。一般来说,变量的取值区间越大,样本数目越多,相关系数r受抽样误差的影响就越少越可靠。否则,如果变量取值区间小,样本所含数目较少,受抽样误差的影响较大,就有可能对本来无关的两种现象,计算出较大的相关系数,得出错误的结论。例如,研究学生的身高与学习有无关系,如果只选6、7个人,就很可能遇到身材越矮学习越好的巧合,那么,这时计算出来的相关系数可能很大(甚至接近于1),但实际上这两类现象之间并无关系。因此,在研究现象之间关系的时候,应该适当加大变量的取值区间并收集足够多的样本数目。一般计算相关的成对数据的数目不应少于30对。
(3)来自于不同群体且不同质的事物的相关系数不能进行比较。
(4)对于不同类型的数据,计算相关系数的方法也不相同。