Nhảy tới nội dung

Covariance và Correlation

· 4 phút để đọc
Lê Huỳnh Đức

Covariance (Hiệp phương sai) và Correlation (Hệ số tương quan) là hai khái niệm trong lĩnh vực xác suất thống kê. Cả hai khái niệm này đều nói về mối quan hệ giữa hai biến với nhau, hay nói cách khác hai chỉ số này dùng để thể hiện sự phụ thuộc giữa hai biến.

Covariance là gì?

Covariance thể hiện mối quan hệ giữa hai biến với nhau, có thể là đồng biến (positive covariance) hoặc nghịch biến (negative covariance).

Định nghĩa : Cho 2 biến ngẫu nhiên X, Y với kì vọng μX\mu_XμY\mu_Y covariance của X, Y được tính bằng công thức :

Cov(X,Y)=E[(XμX)(YμY)]Cov(X, Y)=E[(X−\mu_X)*(Y−\mu_Y)]

Các tính chất của Covariance :

  1. Cov(aX+b,cY+d)=acCov(X,Y)Cov(aX + b, cY + d)=acCov(X, Y) với a,b,c,da, b, c, d cho trước
  2. Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)Cov(X1 + X2 ,Y)=Cov(X1, Y) + Cov(X2, Y)
  3. Cov(X,X)=Var(X)Cov(X, X)=Var(X)
  4. Cov(X,Y)=E(XY)μXμYCov(X, Y)=E(XY)−\mu_X * \mu_Y
  5. Var(X,Y)=Var(X)+Var(Y)+2Cov(X,Y)Var(X, Y)=Var(X) + Var(Y) + 2 * Cov(X, Y)
  6. X,YX, Y độc lập thì Cov(X,Y)=0Cov(X, Y)=0 .

Lưu ý :

Từ (3)(3)(4)(4) ta có Var(X)=E(X2)(μX)2Var(X) = E(X^2) − (\mu_X)^2. Nếu X, Y độc lập từ 5 có thể suy ra được Var(X,Y)=Var(X)+Var(Y)Var(X, Y)=Var(X) + Var(Y).

Với Tính chất (6)(6), điều ngược lại không đúng, nghĩa là Cov(X,Y)=0Cov(X, Y)=0 không có nghĩa là X, Y độc lập với nhau. Ví dụ X=[2,1,1,2]X = [-2 , -1 , 1 , 2]Y=X2=[4,1,1,4]Y = X^2 = [4 , 1, 1 , 4] khi đó Cov(X,Y)=0Cov(X, Y)=0 mặc dù X và Y có mối tương quan với nhau

Correlation là gì?

Để thể hiện mối quan hệ giữa 2 biến là “mạnh” hay “yếu”, chúng ta sử dụng correlation thay cho covariance.

Định nghĩa : Correlation coefficient của hai biến X và Y được tính theo công thức

Cor(X,Y)=ρ=Cov(X,Y)/(σXσY)Cor(X,Y) = ρ= Cov(X, Y) / (\sigma_X * \sigma_Y)

Các tính chất của Correlation

  1. Correlation là Covariance được chuẩn hóa của hai biến X, Y

  2. Correlation thể hiện một tỉ lệ, do đó nó không có đơn vị đo

  3. 1ρ1−1 \le \rho \le 1 (ρ=1\rho = −1 khi và chỉ khi Y=aX+bY = aX + b và a<0a \lt 0 và ρ=1\rho = 1 khi và chỉ khi Y=aX+bY = aX + b và a>0a \gt 0)

Chứng minh tính chất 3

0Var(XσXYσY)=Var(XσX)+Var(YσY)2Cov(XσX,YσY)=22ρρ10 \le Var(\frac{X}{\sigma_X}−\frac{Y}{\sigma_{Y}}) = Var(\frac{X}{\sigma_X}) + Var(\frac{Y}{\sigma_Y}) − 2Cov(\frac{X}{\sigma_X},\frac{Y}{\sigma_Y}) = 2 − 2\rho \Rightarrow \rho \le 1

Tương tự 0Var(XσX+YσY)ρ10 \le Var(\frac{X}{\sigma_X}+\frac{Y}{\sigma_{Y}}) \Rightarrow \rho \ge −1

Biểu diễn mối quan hệ X, và Y với giá trị ρ\rho (correlation)

So sánh giữa covariance và correlation

  1. Cả covariance và correlation đều thể hiện mối quan hệ giữa hai biến.
  2. Covariance có range từ -\infty đến ++\infty . Correlation nằm trong khoảng từ - 1 đến 1.
  3. Covariance thể hiện mối quan hệ giữa hai biến, correlation thể hiện được mối quan hệ giữa hai hoặc nhiều biến.

Ví dụ

Tập dữ liệu view của 2 kênh truyền hình tại 1 thời điểm (20h - 21h thứ năm mỗi tuần) trong 1 tháng là

X=[50772,73756,74251,77601]X = [50772, 73756, 74251, 77601]

Y=[102492,100406,97762,98191]Y = [102492, 100406, 97762, 98191]

Ta tiến hành tính các thông số cơ bản

μX=50772+73756+74251+776014=69095.00\mu_X = \frac{50772 + 73756 + 74251 + 77601}{4} = 69095.00

μY=102492+100406+97762+981914=99712.75\mu_Y = \frac{102492 + 100406 + 97762 + 98191}{4} = 99712.75

σX2=(50772μX)2+(73756μX)2+...4=114098405.5σX=10681.69\sigma_X^2 = \frac{(50772 - \mu_X)^2 +(73756 - \mu_X)^2 + ... }{4} = 114098405.5 \Rightarrow \sigma_X = 10681.69

σY2=(102492μY)2+(100406μY)2+...4=114098405.5σY=1892.48\sigma_Y^2 = \frac{(102492 - \mu_Y)^2 +(100406 - \mu_Y)^2 + ... }{4} = 114098405.5 \Rightarrow \sigma_Y = 1892.48

Từ đó ta tính covariance và correlation

Cov(X,Y)=(5077269095.00)(10249299712.75)+(7375669095.00)(10040699712.75)+...4=17673758.0Cov(X,Y) = \frac{(50772 - 69095.00) * (102492- 99712.75) + (73756- 69095.00) * (100406- 99712.75) + ... }{4} = -17673758.0

Corr(X,Y)=Cov(X,Y)σXσY=17673758.010681.691892.48=0.87Corr(X,Y) = \frac{Cov(X,Y)}{\sigma_X * \sigma_Y} = \frac{-17673758.0} {10681.69 * 1892.48} = -0.87

Tags:
Math

Follow Fanpage của mình để nhận được thông tin về các bài viết mới nhất nhé!! https://www.facebook.com/datasciencedances/