【什么是相关系数】相关系数是统计学中用于衡量两个变量之间线性关系强度和方向的一个数值指标。它可以帮助我们了解一个变量的变化是否与另一个变量的变化有关联,以及这种关联是正向还是负向的。
相关系数的取值范围在 -1 到 1 之间:
- 1 表示完全正相关,即一个变量增加时,另一个变量也按比例增加;
- 0 表示没有线性相关性;
- -1 表示完全负相关,即一个变量增加时,另一个变量按比例减少。
最常用的相关系数是皮尔逊相关系数(Pearson Correlation Coefficient),它适用于连续型数据,并假设数据呈正态分布。此外,还有斯皮尔曼等级相关系数(Spearman Rank Correlation) 和 肯德尔等级相关系数(Kendall’s Tau),它们适用于非正态或有序数据。
相关系数总结表
指标名称 | 公式/定义 | 取值范围 | 适用数据类型 | 特点说明 |
皮尔逊相关系数 | $ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} $ | -1 ~ 1 | 连续型数据 | 最常用,反映线性关系 |
斯皮尔曼相关系数 | 基于变量的排名计算 | -1 ~ 1 | 有序数据、非正态数据 | 不依赖数据分布,适合非线性关系 |
肯德尔相关系数 | 基于一致性对的数量 | -1 ~ 1 | 分类数据、有序数据 | 适用于小样本,强调一致性和排序关系 |
通过相关系数,我们可以初步判断两个变量是否存在某种联系,但需要注意的是:相关不等于因果。即使两个变量高度相关,也不意味着其中一个导致另一个。需要结合实际背景和进一步分析才能得出更准确的结论。