Hiện tượng phương sai thay đổi của dữ liệu (Heteroskedasticity)

 

Phương sai thay đổi (phương sai không bằng nhau) trong thành phần hạng nhiễu. Có nhiều lý do của phương sai thay đổi, như hiện diện của các quan sát bất thường trong dữ liệu (outliers), sai dạng hàm của mô hình hồi quy, hoặc chuyển đổi dữ liệu không đúng, hoặc hỗn hợp các quan sát với các thước đo quy mô khác nhau (như hỗn hợp các gia đình thu nhập cao với các gia đình thu nhập thấp).


Phương sai thay đổi có các hậu quả: 

1. Phương sai thay đổi không làm thay đổi các tính chất không chệch (unbiasedness) và nhất quán (consistency) của các ước lượng OLS. 

2. Nhưng các ước lượng OLS không còn hiệu quả, hoặc không có phương sai bé nhất nữa. Nghĩa là, chúng không còn là các ước lượng tuyến tính không chệch tốt nhất (BLUE); chúng chỉ đơn giản là các ước lượng tuyến tính không chệch (LUE).

3. Kết quả là, các kiểm định t và F dựa trên các giả định chuẩn của mô hình hồi quy tuyến tính cổ điển không thể tin cậy, dẫn đến các kết luận sai lầm về ý nghĩa thống kê của các hệ số hồi quy được ước lượng. 

4. Khi có hiện tượng phương sai thay đổi, các ước lượng BLUE được cung cấp bởi phương pháp bình phương bé nhất có trọng số (WLS, weighted least squares). 

Cách phát hiện heteroskedasticity:

1. Vẽ đồ thị

Mô hình hồi quy của chúng ta:

. reg ysq income

Bảng 2: Kết quả hồi quy
Bảng 1: Kết quả hồi quy

. predict e, resid

. predict yhat1
(option xb assumed; fitted values)

. scatter e yhat1

. scatter e income

2. Kiểm định Breusch-Pagan (BP) 
Kiểm định này gồm các bước sau đây: 
1. Ước lượng hồi quy OLS, như ở Bảng 2, và lưu phần dư OLS, tạo biến phần dư bình phương, (ei)^2 từ hồi quy này. 
2. Hồi quy (ei)^2 theo k biến giải thích trong mô hình; ý tưởng ở đây là xem phần dư bình phương (như một đại diện của hạng nhiễu bình phương) có liên quan với một hoặc nhiều biến X. Bạn cũng có thể chọn các biến giải thích khác mà bạn cho là có liên quan đến phương sai hạng nhiễu. Sau đó chạy phương trình hồi quy sau đây: 
Trong đó v là hạng nhiễu. 
Lưu R2 từ hồi quy (2); gọi là R2aux (tức R2 của hồi quy phụ), vì phương trình (2) là hồi quy phụ của phương trình hồi quy chính (1) (xem Bảng 1). Ý tưởng đằng sau phương trình (2) là tìm hiểu xem liệu phần dư bình phương có quan hệ gì với một hoặc nhiều biến giải thích, nếu có thì đó là dấu hiệu cho chúng ta biết có lẽ có phương sai thay đổi hiện diện trong dữ liệu.
3. Giả thuyết không (H0) ở đây là phương sai của hạng nhiễu là đồng nhất, nghĩa là, tất cả các hệ số độ dốc trong phương trình (2) đồng thời bằng 0. Bạn có thể sử dụng thống kê F từ hồi quy này với (k - 1) và (n - k) là bậc tự do trên tử số và mẫu số để kiểm định giả thuyết H0 này. Nếu thống kê F tính toán từ phương trình (2) có ý nghĩa thống kê, chúng ta có thể bác bỏ giả thuyết về phương sai không đổi. Nếu không có ý nghĩa thống kê, thì chúng ta có thể không bác bỏ giả thuyết H0 này.  
4. Một cách khác, chúng ta có thể sử dụng thống kê Chi bình phương. Chúng ta có thể thấy rằng dưới giả thuyết H0 về phương sai không đổi, tích của R2aux (được tính ở bước 2) và số quan sát (n) theo phân phối Chi bình phương, với số bậc tự do bằng với số biến giải thích trong mô hình. Nếu giá trị Chi bình phương tính toán có một giá trị xác suất thấp, chúng ta có thể bác bỏ giả thuyết H0 về phương sai không đổi
Một lưu ý cảnh báo: Kiểm định này là một kiểm định mẫu lớn và có thể không phù hợp trong các mẫu nhỏ
Thực hiện trên STATA như sau:

. gen e2 = e^2

. reg e2 income

. test income
 ( 1)  income = 0
  F(  1,  3464) =  887.57
  Prob > F =    0.0000

. quietly reg ysq income
. hettest, rhs fstat

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity 
  Ho: Constant variance
  Variables: income
  F(1 , 3464)  =   887.57
  Prob > F     =   0.0000

. hettest, rhs

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity 
  Ho: Constant variance
  Variables: income
  chi2(1)      =106732.81
  Prob > chi2  =   0.0000

. hettest

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity 
  Ho: Constant variance
  Variables: fitted values of ysq
  chi2(1)      =106732.81
  Prob > chi2  =   0.0000

3. Kiểm định White 's test
1. Hồi quy phần dư bình phương theo các biến giải thích, bình phương của các biến giải thích, và tích từng cặp giữa các biến giải thích này. 
2. Thu giá trị R2 từ hồi quy (phụ) này và nhân R2 với số quan sát. Dưới giả thuyết H0 là phương sai không đổi, thì tích (nR2) theo phân phối Chi bình phương với số bậc tự do bằng với số hệ số ước lượng. Kiểm định White tổng quát hơn và linh hoạt hơn so với kiểm định BP. Thực hiện trên STATA như sau:
Thực hiện thủ công:
. gen income2 = income^2
. quietly reg e2 income income2
. disp e(r2)*e(N)
2578.1794
. disp chi2tail(2,e(r2)*e(N))
0
Chạy tự động bằng lệnh có sẵn:
. quietly reg ysq income
. imtest, white

Nguồn tham khảo: Damodar Gujarati - Econometrics by Example-Palgrave (2011)

Minh Tran

minhphuocbaotran.blogspot.com

0 comments:

Post a Comment