Thứ Năm, 24 tháng 4, 2014

Panel data - FEM và REM

- Dữ liệu theo chuỗi  thời gian, ta quan sát giá trị của một hay nhiều biến trong một khoảng thời gian (ví dụ như GDP trong một vài quý  hay vài năm).
- Trong dữ liệu chéo theo không gian, giá trị của một hay nhiều biến được thu thập cho một vài đơn vị mẫu, hay thực thể,  vào cùng một thời điểm (ví dụ như tỷ lệ tội phạm trong 50 bang ở Hoa Kỳ trong một năm nhất định).

Dữ liệu bảng được sử dụng nhiều trong các nghiên cứu gần đây đặc biệt trong kinh tế vi mô khi nghiên cứu về hộ gia đình, doanh nghiệp,...
Dữ liệu bảng là sự kết hợp dữ liệu theo "cá nhân" ( individual - mang nghĩa phổ quát) và theo thời gian. Do đó, khi các nhà phân tích cần theo dõi hay tìm hiểu các vấn đề dựa trên dữ liệu thời gian của hàng loạt các " cá nhân" thì phân tích dữ liệu bảng là phù hợp là phức tạp hơn so với các dữ liệu cross-section.

- Trong dữ liệu bảng, đơn vị chéo theo không gian (ví dụ như hộ gia đình, doanh nghiệp, hay tiểu bang) được khảo sát theo thời gian.  Nói vắn tắt, dữ liệu bảng  có cả bình diện không gian cũng như thời gian.

Tại sao phải sử dụng dữ liệu bảng?

1. Vì dữ liệu bảng liên quan đến các cá nhân, doanh nghiệp, tiểu bang, đất nước, v.v… theo thời gian, nên nhất định phải có tính dị biệt  (không đồng nhất)  trong các đơn vị này. Kỹ thuật ước lượng dữ liệu bảng có thể chính thức xem xét đến tính dị biệt đó bằng cách xem xét các biến số có tính đặc thù theo từng cá nhân,  được trình bày ngay sau đây. Ta sử dụng thuật ngữ cá nhân  theo ý nghĩa chung bao gồm các đơn vị vi mô như các cá nhân, các doanh nghiệp, tiểu bang, và đất nước.
2.  Thông qua kết hợp các chuỗi  theo thời gian của các quan sát  theo không gian, dữ liệu bảng cung cấp  ‘những dữ liệu có nhiều thông tin hơn, đa dạng hơn, ít cộng tuyến hơn giữa các biến số, nhiều bậc tự do hơn và hiệu quả hơn.’
3.  Thông qua nghiên cứu các quan sát theo không gian lặp lại, dữ liệu bảng phù hợp hơn để nghiên cứu tính động của thay đổi. Tình trạng thất nghiệp, luân chuyển công việc, và tính lưu chuyển lao động sẽ được nghiên cứu tốt hơn với dữ liệu bảng.
4.  Dữ liệu bảng có thể phát hiện và đo lường tốt hơn những ảnh hưởng mà không thể quan sát trong dữ liệu chuỗi thời gian thuần túy hay dữ liệu chéo theo không gian thuần túy. Ví dụ, ảnh hưởng của luật tiền lương tối thiểu đối với việc làm và thu nhập có thể được nghiên cứu tốt hơn nếu chúng ta xem xét các đợt gia tăng tiền lương tối thiểu liên tiếp nhau trong mức lương tối thiểu của liên bang và (hoặc) tiểu bang.
5.  Dữ liệu bảng giúp ta nghiên cứu những mô hình hành vi phức tạp hơn. Ví dụ, các hiện tượng như lợi thế kinh tế theo qui mô và thay đổi kỹ thuật có thể được xem xét thông qua dữ liệu bảng tốt hơn so với dữ liệu theo chuỗi thời gian thuần túy hay theo không gian thuần túy.
6.  Bằng cách thu thập những số liệu có sẵn  cho vài nghìn đơn vị, dữ liệu bảng có thể tối thiểu hóa sự thiên lệch có thể xảy ra nếu ta tổng hợp các cá nhân hay các doanh nghiệp thành số liệu tổng.

Theo qui ước, ta chọn i là ký hiệu đơn vị theo không gian  và t là ký hiệu theo thời gian. Ta giả định rằng
có một số lượng tối đa  N đơn vị chéo  và một số lượng tối đa T thời đoạn. Nếu mỗi đơn vị theo không gian có cùng một số  lượng  quan sát  như nhau  theo chuỗi thời gian, thì dữ liệu bảng này được gọi là bảng cân đối. Trong bảng hiện đang xem xét, ta có một bảng cân đối, vì mỗi công ty trong mẫu đều có 20 quan sát. Nếu số quan sát khác nhau giữa các phần tử của bảng, ta gọi đó là bảng không cân đối. Trong chương này, nói chung ta chỉ quan tâm đến bảng cân đối.

1. Mô hình FEM:

*Tung độ gốc và hệ số góc giống nhau giữa các công ty và qua thời gian (phần dư thể hiện sự khác biệt giữa công ty và qua thời gian)
                            Yit = beta1 + beta2*X2it + beta3*X3it + Uit.

*Hệ số góc không đổi và tung độ gốc thay đổi theo (giữa các đơn vị chéo; giữa các đơn vị chéo và thời gian; và thời gian)
 +Tung độ gốc thay đổi theo i và hệ số góc không đổi
   Mô hình những các ảnh hưởng cố định (fixed effects) hay mô hình bình phương tối thiểu các biến        giả (LSDV) 
                           Yit = beta1i + beta2*X2it + beta3*X3it + Uit.
    - Mỗi thực thể đều có những đặc điểm riêng biệt, có thể ảnh hưởng đến các biến giải thích. Ví dụ: Cách         thức kinh doanh của một công ty có thể ảnh hưởngđến giá trị của công ty hay trữ lượng vốn của nó.
    - Giả thiết rằng có sự tương quan giữa phần dư của mỗi thực thể (có chứa các đặc điểm riêng) với các         biến giải thích.
    - FE có thể kiểm soát và tách ảnh hưởng của các đặc điểm riêng biệt (không đổi theo thời gian) này ra           khỏi các biến giải thích để chúng ta có thể ước lượng những ảnh hưởng thực (net effects) của biến giải           thích lên biến phụ thuộc.
    - Các đặc điểm riêng biệt (không đổi theo thời gian) này là đơn nhất đối với 1 thực thể và không tương         quan với đặc điểm của các thực thể khác.
 + Tung độ gốc thay đổi theo t và hệ số góc không đổi
                   Yt = beta1t + beta2*X2it + beta3*X3it + Uit.

  Cũng giống như ta sử dụng biến giả để xem xét ảnh hưởng cá nhân (công ty), ta cũng có thể xem xét  ảnh       hưởng thời gian theo  ý nghĩa là hàm đầu tư Grunfeld dịch chuyển theo thời gian do những yếu tố như thay     đổi công nghệ, thay đổi chính sách thuế hay qui định của chính phủ và các ảnh hưởng bên ngoài như chiến     tranh và những xung đột khác.
Tung độ gốc thay đổi theo i và t và hệ số góc không đổi

* Tung độ thay đổi và hệ số góc thay đổi

* Những hạn chế của FEM hay LSDV:
- Có quá nhiều biến được tạo ra trong mô hình, do đó có khả năng làm giảm bậc tự do và làm tăng khả năng sự đa cộng tuyến của mô hình.
- FEM không đo lường được tác nhân không thay đổi theo thời gian như giới tính, màu da, hay chủng tộc.

2. Mô hình REM:

 - Đặc điểm riêng giữa các thực thể được giả sử là ngẫu nhiên và không tương quan đến các biến giải thích thì chúng ta dùng REM.
 - REM xem các phần dư của mỗi thực thể (không tương quan với biến giải thích) là một biến giải thích mới.

PHƯƠNG SAI THAY ĐỔI

1. Bản chất của phương sai thay đổi
* Ví dụ về phương sai thay đổi giữa hàm thu nhập và tiết kiệm. Y = aX + b +Ui. Khi thu nhập tăng lên, tiết kiệm trung bình cũng tăng lên nhưng thực tế các gia đình có thu nhập càng cao hơn biến thiên trong tiết kiệm của họ cũng cao hơn. Nghĩa là thu nhập càng cao số lượng gia đình chi tiêu nhiều và ít (tiết kiệm ít và nhiều) so với mức trung bình cũng tăng theo.

* Nguyên nhân  
- Theo các  mô hình học tập  -sai lầm, khi mọi người học hỏi, các sai lầm về hành vi của họ ngày càng nhỏ đi theo thời gian. Trong trường hợp này,được dự kiến là sẽ giảm dần. Ví dụ, biểu diễn quan hệ giữa sai sót đánh máy xảy ra trong một khoảng thời gian cho trước với số giờ thực tập đánh máy. Cho thấy, khi số giờ thực tập đánh  máy tăng lên, số các sai sót đánh máy trung bình cũng như phương sai của chúng giảm xuống.

- Khi thu nhập tăng lên, người dân có nhiều  thu nhập tự định  hơn và phạm vi lựa chọn về việc sử dụng thu nhập cũng tăng lên. Vì vậy, phương sai có nhiều khả năng tăng lên với thu nhập. Do vậy, trong hồi quy tiết kiệm - thu nhập, ta sẽ thấy phương sai tăng lên theo thu nhập do người dân có nhiều lựa chọn hơn về hành vi tiết kiệm của mình. Tương tự, các công ty có nhiều lợi  nhuận hơn thường cho thấy có nhiều biến thiên hơn trong chính sách trả cổ tức so với các công ty có lợi nhuận thấp. Cũng như vậy, cong ty có hướng phát triển thì có khả năng cho thấy có nhiều biến thiên lớn trong tỷ lệ trả cổ tức so ới công ty có mức độ phát triển không đổi.

-Khi các kỹ thuật thu nhập số liệu được cải thiện, phương sai có nhiều khả năng giảm. Như vậy, các ngân hàng có thiết bị xử lý số liệu phức tạp thường phạm ít sai lầm trong các báo cáo hàng tháng hay hàng quý về khách hàng của họ hơn là các ngân hàng không có các phương tiện này

- Phương sai thay đổi cũng có thể nảy sinh do sự hiện diện của  yếu tố tách biệt  (outlier, còn gọi là yếu tố nằm ngoài). Một quan sát nằm ngoài là một quan sát rất khác (có thể rất nhỏ hay rất lớn) với các quan sát khác trong mẫu. Việc bao gồm hay loại trừ một quan sát như thế, đặc biệt là nếu như cỡ mẫu nhỏ, có thể làm thay đổi đáng kể các kết quả phân tích hồi quy. Ví dụ, hãy xem xét đồ thị phân tán  trong Hình 11.4. Dựa và số liệu trong bài tập 11.20, hình 11.4 vẽ tốc độ thay đổi phần trăm của giá cổ phiếu (Y) và giá tiêu dùng (X) trong giai đoạn sau Chiến tranh Thế giới thứ II tới 1969 cho 20 nước. Trong hình vẽ này, quan sát về  Y  và  X  của Chilê có thể được coi như là một quan sát tách biệt bởi vì các giá trị  Y và X của Chilê lớn hơn nhiều so với các nước còn lại. Trong các trường hợp này, khó có thể duy trì giả thiết về phương sai 
không thay đổi. Trong bài tập 11.20 bạn được yêu cầu tìm xem điều gì  xảy ra đối với các kết quả hồi quy nếu các quan sát của Chilê được loại bỏ khỏi phân tích.

- Một nguồn tạo ra phương sai thay đổi nữa nảy sinh từ việc vi phạm Giả thiết 9 của mô hình hồi quy tuyến tính cổ điển (CLRM) rằng mô hình hồi quy được xác định một cách đúng đắn. Mặc dù ta sẽ thảo luận nội dung các sai số dặc trưng đầy đủ hơn trong Chương 13, thường thì cái mà có vẻ như phương sai thay đổi có thể là do một số biến quan trọng bị loại bỏ khỏi mô hình. Như vậy, trong hàm cầu một hàng hóa, nếu ta không đưa  giá cả của các hàng hóa bổ sung hay cạnh tranh với mặt hàng xem xét vào mô hình (thiên lệch của biến bị loại bỏ), các phần dư thu được từ hồi quy có thể cho thấy một ấn tượng rõ nét rằng phương sai của sai số có thể không cố định. Nhưng nếu các biến bỏ sót được đưa vào mô hình, ấn tượng đó có thể 
biến mất.

Lưu ý rằng vấn đề phương sai thay đổi thường phổ biến hơn trong số liệu chéo so với số liệu chuỗi thời gian. Trong số liệu chéo, người ta thường làm việc với các thành viên của một tổng thể tại một thời điểm, như người tiêu dùng riêng biệt hay gia đình họ, công ty, ngành kinh tế, hay khu vực địa lý như bang, quốc gia, thành phố, v.v… Hơn nữa, các thành viên này có thể có quy mô khác nhau như công ty quy mô nhỏ, vừa hay lớn, hay thu nhập thấp, vừa hay cao. Mặt khác, trong số liệu chuỗi thời gian, các biến có xu hướng có thứ tự về độ lớn giống nhau do người ta thường thu thập số liệu của cùng một đối tượng trong một khoảng thời gian. Ví dụ như GNP, chi tiêu tiêu dùng, tiết kiệm, hay việc làm tại Hoa Kỳ trong giai đoạn 1950-1994.

Để minh họa cho vấn đề phương sai thay đổi thường xảy ra trong phân tích số liệu chéo, hãy xem Bảng 11.1. Bảng này cho ta số liệu về lương bình quân một lao động trong 10  ngành công nghiệp chế tạo sản phẩm không lâu bền, phân loại theo quy mô lao động của doanh nghiệp hay cơ cấu tổ chức trong năm 1958. Bảng 11.1 cũng cho ta số liệu về năng suất bình quân của 9 nhóm quy mô lao động.
Mặc dù các ngành khác nhau về cơ cấu sản lượng, Bảng 11.1 cho thấy rõ rằng, tính một cách trung bình, các công ty lớn trả lương cao hơn các công ty nhỏ. Ví dụ, các công ty sử dụng từ 1 đến 4 lao động trả trung bình khoảng 4843 USD. Nhưng lưu ý rằng có biến thiên đáng kể trong thu nhập giữa các phân loại quy mô lao động khác nhau. Điều này được biểu thị bằng độ lệch chuẩn ước lượng của thu nhập. Nó cũng được nhận thấy từ số liệu đi cùng, trong đó biểu thị dải thu nhập trong từng nhóm quy mô lao động. Như Hình 11.4 mô tả, dải (giá trị cao nhất  -  giá trị thấp nhất), một đại lượng thô về mức độ biến thiên, thay đổi theo nhóm quy mô lao động, từ đó cho thấy phương sai thay đổi trong thu nhập của các nhóm quy mô lao động khác nhau.

Hãy nhớ rằng beta mũ là ước lượng tuyến tính không thiên lệch tốt nhất nếu giả thuyết mô hình cổ điển, bao gồm cả giả thuyết về phương sai không thay đổi, được thỏa mãn. Ước lượng này có còn là ước lượng tuyến tính không thiên lệch tốt nhất nữa không khi tả bỏ giả thuyết về phương sai không thay đổi và thay nó bằng giả thuyết về phương sai thay đổi? Ta có thể chứng minh rằng beta mũ vẫn là tuyến tính và không thiên lệch. Trên thực tế để tạo sự không thiên lệch của beta mũ không nhất thiết các yếu tố nhiễu (Ui) phải có phương sai thay đổi. Thực tế, phương sai của Ui, không thay đổi hay thay đổi, không có vai trò trong việc xác định tính chất không thiên lệch.
Hãy nhớ lại, beta mũ tuyến tính không thiên lệch, có "hiệu quả" và "tốt nhất" khi nó có phương sai nhỏ nhất trong nhóm các ước lượng tuyến tính không thiên lệch. Trong trường hợp này, beta mũ không còn là phương sai tốt nhất, nhỏ nhất. Vậy đâu là ước lượng tuyến tính không thiên lệch tốt nhất trong trường hợp có sự hiện diện của phương sai thay đổi.

Tại sao ước lượng beta mũ heo phương pháp bình phương tối thiểu thông thường (OLS) không phải là tốt nhất, mặc dù nó vẫn không bị thiên lệch? Về trực giác, ta có thể nhận thấy lý do từ Hình 11.5. Như Hình này mô tả, mức thu nhập giữa các nhóm quy mô lao động có độ biến thiên đáng kể. Nếu ta thực hiện hồi quy mức lương bình quân một lao động theo quy mô lao động, ta sẽ thấy cần sử dụng kiến thức cho rằng thu nhập có tính biến thiên lớn giữa các nhóm. Một cách lý tưởng, ta muốn thiết kế một chương trình ước lượng qua đó các quan sát từ tổng thể với độ biến thiên cao sẽ có trọng số thấp hơn những quan sát từ  tổng thể có độ biến thiên nhỏ hơn. Xem xét Hình 11.5, ta sẽ cho trọng số lớn hơn đối với các quan sát từ các nhóm quy mô lao động như 10-19 và 20-49 so với các quan sát từ nhóm quy mô lao động như 5-9 và 250-499 bởi vì các quan sát từ nhóm quy mô lao động  như 10-19 và 20-49 phân bố gần các giá trị trung bình của chúng
hơn, và từ đó cho phép ta ước lượng hàm hồi quy tổng thể (PRF) chính xác hơn.
Tuy nhiên, phương pháp OLS thông thường không tuân theo cách làm này và do vậy không sử dụng “thông tin” về tính  biến thiên không bằng nhau của biến phụ thuộc  Y, như lương lao động trong Hình 11.5: Phương pháp OLS cho mỗi quan sát các trọng số hay tầm quan trọng như nhau. Nhưng một phương pháp ước lượng, gọi là  bình phương tối thiểu tổng quát (GLS), đưa các thông tin này vào mô hình và do vậy có khả năng đưa ra các ước lượng tuyến tính không thiên lệch tốt nhất (BLUE).
Phép biến đổi các biến gốc để các biến đã biến đổi thỏa mãn các giả thiết của mô hình cổ điển và sau đó áp dụng phương pháp OLS đối với chúng được gọi là phương pháp bình phương tối thiểu tổng quát.  Nói ngắn gọn, GLS là OLS đối với các biến đã biến đổi để thỏa mãn các giả thiết bình phương tối thiểu tiêu chuẩn. Các ước lượng tính được như vậy được gọi là các  ước lượng GLS, và chính các ước lượng này mới có tính chất BLUE. 

CÁC HẬU QUẢ CỦA VIỆC SỬ DỤNG OLS KHI CÓ SỰ HIỆN DIỆN CỦA PHƯƠNG SAI THAY ĐỔI
Như ta đã thấy cả beta mũ và beta mũ * đều là các ước lượng tuyến tính không chệch: trong việc lấy mẫu lặp lại, tín một cách trung bình, beta mũ và beta mũ * sẽ bằng với giá trị đúng của beta, tức là, cả hai là các ước lượng không thiên lệch. Nhưng ta biết rằng chi có beta mũ sao là hiệu quả, tức là, có phương sai nhỏ nhất. Điều gì xảy ra với khoảng tin cậy, kiểm định giả thiết và các thủ tục khác của chúng ta nếu ta tiếp tục sử dụng ước lượng OLS của beta mũ.
- Kiểm định hệ số hồi quy không đáng tin cậy: Các kiểm định t và F có nhiều khả năng cho ta các kết quả không chính xác bởi vì phương sai beta mũ quá lớn và cái là một hệ số không có ý nghĩa thống kê có thể trên thực tế lại có ý nghĩa nếu các khoảng tin cậy đúng được thiết lập trên cơ sở GLS.
- Ước lượng hệ số hồi quy bằng PP OLS không hiệu quả.