1. Định hình mô hình hồi quy tuyến tính
![]() |
Các chấm đỏ là các giá trị quan sát, đường thẳng dốc lên là đường hồi quy |
Dạng phổ quát,
Dạng viết gọn,
Trong đó,
Y là biến được hồi quy (regressand variable)/ biến phụ thuộc (dependent variable)/ biến được giải thích (explained variable)
X là biến hồi quy (vector of regressors)/ biến độc lập (independent variable)/ biến giải thích (explanatory variable)
e là sai số (error term) / nhiễu (residual)
β0 là hệ số chặn (intercept)
β1 là hệ số góc của biến X1
Một cách chung nhất, β là hệ số hồi quy (regression coefficients) hay tham số hồi quy (regression parameter). Chúng là những thứ mà ta phải ước lượng. Mỗi hệ số góc đo tỷ lệ thay đổi (riêng phần) giá trị trung bình (mean value) của Y khi giá trị hồi quy tăng 1 đơn vị (mọi yếu tố khác không đổi - ceteris paribus). Nói cách khác, β1 cho ta biết khi X1 tăng 1 đơn vị thì Y thay đổi β1 đơn vị (với điều kiện mọi biến X khác – X2, X3,… không đổi)
2. Phương pháp bình phương tối thiểu - Ordinary Least Square (OLS)
là phương pháp được sử dụng để ước lượng những hệ số trong một phương trình hồi quy tuyến tính sao cho tổng bình phương phần dư RSS (Residual Sum of Squares) là nhỏ nhất
Ta cần tìm tập hợp các biến X và Y để tìm β. Việc tìm β là một bài toán tối ưu (Optimization problem)
3. Mức độ phù hợp (Goodness of fit - R2)
R2, hệ số xác định (coefficient of determination) là giá trị dùng để đo sự phù hợp của đường hồi quy ước lượng. Nó biểu thị tỷ lệ biến thiên của biến phụ thuộc (Y) do tổng mức biến thiên của các biến giải thích (X) gây ra.
R2 mang giá trị từ 0 (no fit) đến 1 (perfect fit): 0 ≤ R2 ≤ 1
Trong đó,Tổng bình phương hồi quy ESS (Explained Sum of Squares):
Y mũ là biến dự báo (predicted variable), Y ngang là giá trị trung bình (mean) |
Tổng bình phương phần dư RSS (Residual Sum of Squares):
e là sai số (error term) |
Tổng bình phương toàn phần TSS (Total Sum of Squares):
Y là giá trị quan sát (observation) |
ESS, RSS và TSS được biểu diễn trên đồ thị như sau:
Nếu RSS = 0 suy ra Σe2 = 0 thì tất cả các giá trị quan sát phải nằm trên đường hồi quy và khi này, R2 = 1. Ngược lại, nếu RSS quá lớn, các quan sát nằm cách xa đường hồi quy, và khi này, R2 = 0
4. Bậc tự do - Degree of Freedom (df)
n là tổng số quan sát (total number of observations)
k là tổng các hệ số dự báo (total number of estimated coefficients)
Nếu bỏ nhiều biến vào mô hình hồi quy (df lớn) thì R2 càng lớn, mô hình càng chính xác. Ví dụ:
Y = β0 + β1 X1 thì R2 = 0.2
Y = β0 + β1 X1 + β2 X2 thì R2 = 0.25
Y = β0 + β1 X1 + β2 X2 + β3 X3 thì R2 = 0.3
Nhưng lấy biến như thế nào? Căn cứ vào:
+ Các lý thuyết có sẵn (Theories)
+ Các bài nghiên cứu (Research papers)
+ ...
5. R2 điều chỉnh.
Như phần 4 đã trình bày, nếu bỏ nhiều biến hồi quy vào thì R2 càng lớn. Nhưng điều này KHÔNG thực sự đúng. Nếu quá nhiều biến số, hiện tượng quá khớp (overfitting) sẽ xảy ra, khi đó:
+ Mô hình quá khớp với bộ dữ liệu (mẫu) là quá khớp: khả năng dự báo trong mẫu đó là tốt nhưng khi ráp với các mẫu khác thì cho kết quả kém.
+ Xảy ra khi sử dụng nhiều biến số nhưng số lượng quan sát lại ít.
Cách khắc phục:
Sử dụng R2 điều chỉnh (Adjusted R-squared), được tính bằng công thức:
![]() |
Chấm xanh là giá trị quan sát |
![]() |
RSS quá lớn |
![]() |
RSS quá nhỏ |
df for RSS = n - k
Trong đó,n là tổng số quan sát (total number of observations)
k là tổng các hệ số dự báo (total number of estimated coefficients)
Nếu bỏ nhiều biến vào mô hình hồi quy (df lớn) thì R2 càng lớn, mô hình càng chính xác. Ví dụ:
Y = β0 + β1 X1 thì R2 = 0.2
Y = β0 + β1 X1 + β2 X2 thì R2 = 0.25
Y = β0 + β1 X1 + β2 X2 + β3 X3 thì R2 = 0.3
Nhưng lấy biến như thế nào? Căn cứ vào:
+ Các lý thuyết có sẵn (Theories)
+ Các bài nghiên cứu (Research papers)
+ ...
5. R2 điều chỉnh.
Như phần 4 đã trình bày, nếu bỏ nhiều biến hồi quy vào thì R2 càng lớn. Nhưng điều này KHÔNG thực sự đúng. Nếu quá nhiều biến số, hiện tượng quá khớp (overfitting) sẽ xảy ra, khi đó:
+ Mô hình quá khớp với bộ dữ liệu (mẫu) là quá khớp: khả năng dự báo trong mẫu đó là tốt nhưng khi ráp với các mẫu khác thì cho kết quả kém.
+ Xảy ra khi sử dụng nhiều biến số nhưng số lượng quan sát lại ít.
Cách khắc phục:
Sử dụng R2 điều chỉnh (Adjusted R-squared), được tính bằng công thức:
Blackjack Table Games at The Casino Wylde | MapYRO
ReplyDeletePlay Blackjack with 순천 출장마사지 real dealers from around the world. 대구광역 출장안마 Great amenities for your 안성 출장샵 casino day, 강원도 출장마사지 free games and easy Blackjack Table Games. 속초 출장마사지