Thứ Năm, 12 tháng 9, 2013

HỒI QUY TUYẾN TÍNH - PP OLS

Hồi quy là nghiên cứu sự tác động của biến độc lập đến biến phụ thuộc và nếu biết được giá trị của biến độc lập thì ta ước lượng được giá trị của biến phụ thuộc.
Hàm hồi quy (Y: biến phụ thuộc, X: biến độc lập)
Hàm hồi quy 2 biến Y=f(X) + U (U: sai số ngẫu nhiên)
Nếu f là tuyến tính (mũ của biến độc lập là 1 và các biến cách nhau bởi dấu cộng) thì Y=b1+b2X+U
   b2 cho biết lượng thay đổi trung bình của Y khi X thay đổi một đơn vị.

* Chọn hồi quy mẫu nào?
- Sai số nhiều hay ít =>R2?
- Hồi quy mẫu có đại diện tốt cho tổng thể hay không? => 5 giả thuyết của OLS
- Hồi quy mẫu có phù hợp với lý thuyết hay không và có phục vụ cho mục đích nghiên cứu hay không?

1) Hệ số xác định của mô hình
R2= 1- RSS/TSS = ESS/TSS
Nếu R2=0 => Mô hình không phù hợp với mẫu nghiên cứu.
Nếu R2=1 => Mô hình hoàn toàn phù hợp với mẫu nghiên cứu.

*Ý nghĩa của R2
R2 cho biết mức độ giải thích của các biến độc lập trong mô hình với sự biến động xung quanh giá trị trung bình của Y.
Phần còn lại 1-R2 là phần biến động của Y chưa được giải thích gây ra bởi sai số và các biến chưa đưa vào mô hình.
Ví dụ: R2=96,77% có ý nghĩa: Các biến độc lập chi phí chào hàng, chi phí quảng cáo đã giải thích được 96,77% của doanh thu Y quanh giá trị trung bình của nó.

*Kiểm định R2
Đặt giả thuyết H0 sao cho sai lầm loại 1 là nghiêm trọng hơn sai lầm loại 2.
Ví dụ: có bệnh nhưng không chữa bệnh đc xem là sai lầm nghiêm trọng hơn so với không bệnh nhưng lại chữa bệnh => giả thuyết H0 là có bệnh.
Vậy giả thuyết để kiểm định hệ số xác định của mô hình (đang trong mục tiêu kiểm định mô hình hồi quy) là H0: R2=0
Mức ý nghĩa anpha là khả năng mắc sai lầm nghiêm trọng (mức ý nghĩa của kiểm định)
+ Nếu F > F tra bảng => bác bỏ H0
+ Nếu F < F tra bảng => chấp nhận H0
hoặc
+ Nếu p_value < anpha =>bác bỏ H0
+ Nếu p_value >= anpha => chấp nhận H0.

*Khi càng thêm biến độc lập vào mô hình thì R2 càng tăng (và số quan sát càng nhiều ~ bậc tự do càng lớn thì R2 càng giảm vì sai số càng cao)
Ta xem xét R2 hiệu chỉnh
Khi thêm biến thì (1) k tăng => R2 hiệu chỉnh sẽ giảm;
                            (2) R2 tăng => R2 hiệu chỉnh tăng.
Kết luận:
 + Khi thêm biến, nếu R2 hiệu chỉnh tăng => việc thêm biến là tốt cho mô hình
 + Khi thêm biến, nếu R2 hiệu chỉnh giảm => việc thêm biến là không tốt cho mô hình.

2. 5 giả thiết của OLS

- Giả thiết 1: Mối quan hệ giữa biến phụ thuộc và biến độc lập là tuyến tính. Các biến độc lập cho trước và không ngẫu nhiên. (Có thể hiểu tính không ngẫu nhiên ở đây là giá trị của biến độc lập không đổi qua các lần đo - giá trị là lặp lại với mẫu lặp lại).
- Giả thiết 2: Sai số trong mô hình có giá trị trung bình bằng 0 và phương sai của sai số là không đổi.
- Giả thiết 3: Không có sự tương quan giữa các biến độc lập trong mô hình. (tương quan giữa các biến độc lập trong cùng một quan sát)
- Giả thiết 4: Không có sự tương quan giữa các sai số trong mô hình. (tương quan giữa các quan sát -nghĩa là số liệu thu thập từ người 1, ko tương quan với số liệu thu thập dc từ người thứ 2,3..n; dùng mẫu để kết luận mô hình nhưng nếu nó tương quan với nhau thì sẽ không chính xác)
- Giả thiết 5: Không có sự tương quan giữa biến độc lập và sai số trong mô hình.

*Tính vững và hiệu quả của mô hình
Tính hiệu quả: các lần ước lượng chênh lệch với nhau rất ít (phương sai của các lần ước lượng nhỏ)
+ Tính vững: các ước lượng xoay quanh giá trị đúng
Ví dụ: Các lần ước lượng rất gần nhau và gần giá trị đúng (vừa vững và vừa hiệu quả)
=> Yêu cầu tính vững là đầu tiên.
Nếu bộ số liệu thỏa mãn cả 5 điều kiện OLS (vừa vững vừa hiệu quả) thì bất kỳ mẫu nào nó cũng đều cho kết quả phản ánh đúng tổng thể.
- Giả thiết 2 vi phạm => phương sai thay đổi => Ước lượng OLS ko hiệu quả
- Giả thiết 3 vi phạm => đa cộng tuyến => OLS ko bị ảnh hưởng về tính vững và tính hiệu quả
- Giả thiết 4 vi phạm => hiện tượng tự tương quan => OLS ko hiệu quả
- Giả thiết 5 vi phạm => hiện tượng nội sinh => OLS là ko vững (quan trọng)

Không có nhận xét nào:

Đăng nhận xét