【相关系数r的计算公式】在统计学中,相关系数(Correlation Coefficient)是衡量两个变量之间线性关系强度和方向的一个重要指标。其中,皮尔逊相关系数(Pearson Correlation Coefficient)是最常用的一种,用字母“r”表示。它能够帮助我们判断两个变量是否具有正相关、负相关或无相关关系。
一、相关系数r的定义
相关系数r的取值范围在-1到1之间:
- r = 1:完全正相关
- r = -1:完全负相关
- r = 0:无线性相关关系
r越接近1或-1,说明两个变量之间的线性关系越强;r越接近0,则说明关系越弱。
二、相关系数r的计算公式
皮尔逊相关系数r的计算公式如下:
$$
r = \frac{n\sum xy - (\sum x)(\sum y)}{\sqrt{[n\sum x^2 - (\sum x)^2][n\sum y^2 - (\sum y)^2]}}
$$
其中:
- $ n $ 是样本数量
- $ x $ 和 $ y $ 是两个变量的观测值
- $ \sum xy $ 是每个对应数据对的乘积之和
- $ \sum x $ 和 $ \sum y $ 分别是x和y的总和
- $ \sum x^2 $ 和 $ \sum y^2 $ 是x和y的平方和
三、计算步骤简要总结
| 步骤 | 内容 |
| 1 | 收集两组数据(x, y) |
| 2 | 计算所有x的和(Σx)、y的和(Σy) |
| 3 | 计算x²、y²及xy的和(Σx², Σy², Σxy) |
| 4 | 将数值代入公式进行计算 |
| 5 | 得出r值并解释其含义 |
四、示例计算(表格展示)
假设我们有以下两组数据:
| x | y | x² | y² | xy |
| 1 | 2 | 1 | 4 | 2 |
| 2 | 4 | 4 | 16 | 8 |
| 3 | 6 | 9 | 36 | 18 |
| 4 | 8 | 16 | 64 | 32 |
| 5 | 10 | 25 | 100 | 50 |
计算过程:
- $ n = 5 $
- $ \sum x = 1 + 2 + 3 + 4 + 5 = 15 $
- $ \sum y = 2 + 4 + 6 + 8 + 10 = 30 $
- $ \sum x^2 = 1 + 4 + 9 + 16 + 25 = 55 $
- $ \sum y^2 = 4 + 16 + 36 + 64 + 100 = 220 $
- $ \sum xy = 2 + 8 + 18 + 32 + 50 = 110 $
代入公式:
$$
r = \frac{5 \times 110 - (15 \times 30)}{\sqrt{[5 \times 55 - (15)^2][5 \times 220 - (30)^2]}} = \frac{550 - 450}{\sqrt{(275 - 225)(1100 - 900)}} = \frac{100}{\sqrt{50 \times 200}} = \frac{100}{\sqrt{10000}} = \frac{100}{100} = 1
$$
结论: r = 1,说明x与y之间存在完全正相关关系。
五、注意事项
- 相关系数只反映线性关系,不能说明因果关系。
- 数据应为连续变量,且满足正态分布或近似正态分布。
- 异常值可能显著影响r的值。
- 当数据量较少时,相关系数的稳定性较低。
通过以上内容,我们可以更清晰地理解相关系数r的计算方法及其实际应用价值。在实际分析中,结合图表和统计检验可以更全面地评估变量之间的关系。


