计量经济学期末复习笔记

[TOC]

Multiple Regression Analysis: Further Issues

Effects of Data Scaling on OLS Statistics

因变量除以a

OLS estimates: 全部除以a

Standard errors: 除以a

t统计量:不变

confidence intervals: 变小a倍

$R^2$: 不变

$\hat{u}_i=\hat{u}_i/16$ SSR 变小256倍

$\widehat{\sigma}=\sqrt{S S R /(n-k-1)}=\sqrt{S S R / 1,385}$ ,$\hat{\sigma}$变小16倍

自变量除以a:

只有对应的回归系数变小a倍。

Standardized Coefficients

z-score:$\frac{变量-均值}{标准差}$
$$
\begin{aligned}
y_{i}-\bar{y} &=\left(\widehat{\beta}{0}-\widehat{\beta}{0}\right)+\widehat{\beta}{1}\left(x{i 1}-\bar{x}{1}\right)+\widehat{\beta}{2}\left(x_{i 2}-\bar{x}{2}\right)+\ldots \
&+\widehat{\beta}
{k}\left(x_{i k}-\bar{x}{k}\right)+\left(\widehat{u}{i}-\overline{\widehat{u}}\right) \
&=\widehat{\beta}{1}\left(x{i 1}-\bar{x}{1}\right)+\widehat{\beta}{2}\left(x_{i 2}-\bar{x}{2}\right)+\ldots+\widehat{\beta}{k}\left(x_{i k}-\bar{x}{k}\right)+\widehat{u}{i}
\end{aligned}​
$$

用y的z-score 对 $x_1$ 到$x_k$的z-score 做回归

$$
\begin{aligned}
\left(y_{i}-\bar{y}\right) / \widehat{\sigma}{y} &=\left(\widehat{\sigma}{1} / \widehat{\sigma}{y}\right) \widehat{\beta}{1}\left[\left(x_{i 1}-\bar{x}{1}\right) / \widehat{\sigma}{1}\right] +\left(\widehat{\sigma}{2} / \widehat{\sigma}{y}\right) \widehat{\beta}{2}\left[\left(x{i 2}-\bar{x}{2}\right) / \widehat{\sigma}{2}\right]+\ldots \
&+\left(\widehat{\sigma}{k} / \widehat{\sigma}{y}\right) \widehat{\beta}{k}\left[\left(x{i k}-\bar{x}{k}\right) / \widehat{\sigma}{k}\right]+\left(\widehat{u}{i} / \widehat{\sigma}{y}\right) .
\end{aligned}
$$

$$
z_{y}=\widehat{b}{1} z{1}+\widehat{b}{2} z{2}+\ldots+\widehat{b}{k} z{k}+\text { error }
$$

$$
\widehat{b}{j}=\left(\widehat{\sigma}{j} / \widehat{\sigma}{y}\right) \widehat{\beta}{j} \text { for } j=1, \ldots, k
$$

Interpretation: If $x_1$ increases by on standard deviation, then $\hat{y}$ changes by $\hat{b}_1$ standard deviations.

标准化后的回归系数在不同自变量之间可以相互比较。

回归时不包括截距项(截距项等于零)。

t 统计量保持不变。

More on Specification and Data Issue

对使用对数函数形式的进一步讨论

一致性:如果随着样本量的增加,估计量“收敛”到要估计的参数的真实值,则估计量是一致的

无偏性:如果估计量平均达到真实参数值,则它是无偏的

无偏性 是关于估计量抽样分布的期望值的陈述。一致性是关于随着样本数量的增加“估计量的抽样分布走向何处”的陈述。

  1. 由于exp(.)是非线性函数,所以不是无偏估计,但是他是$100\times[exp(\beta_2)-1]$的一致估计。因为极限计算可以交换 连续函数的顺序,期望值算子不可以。

  2. 如果百分比变化比较小的话,调整并不是很有必要(例如5.2%的变化调整后基本上仍然是5.1%左右)

  3. 及时百分比变化很大,用回归系数直接近似百分比变化也仍然有好处:自变量增加一单位$\Delta x = 1$时和减少一单位$\Delta x =-1$时,因变量的百分比并不相等,回归系数总是在这两个值之间。

  4. 取log可以忽略单位

  5. 取log可以缓解异方差和偏态分布的问题

  6. 取log可以缩小变量的取值范围,使得OLS估计量对outliers不那么敏感。

  7. 取log适用于大正整数,不适用于接近0或者负值很多的情况。

  8. percentage change and percent point change: 从8%到9%提高了一个百分点(percentage),但是百分比(percentage point)变化是12.5%。

  9. 在y非负但可能等于零的时候,有时会才用log(1+y).

  10. 存在取log无法解决的异方差和偏态分布问题,此时可能会用托宾和泊松分布等。

  11. 使用对数形式的因变量的缺陷:更难预测原变量的值。

  12. 不应该将取完log(y)的方程的$R^2$和原来的模型的$R^2$相互比较。

Models with Quadratics

$$
y=\beta_{0}+\beta_{1} x+\beta_{2} x^{2}+u
$$

$$
\hat{y}=\beta_{0}+\beta_{1} x+\beta_{2} x^{2}
$$

$$
\Delta \hat{y} \approx\left(\hat{\beta}{1}+2 \hat{\beta}{2} x\right) \Delta x, \text { so } \Delta \hat{y} / \Delta x \approx \hat{\beta}{1}+2 \hat{\beta}{2} x
$$

x和y之间的斜率收到x的取值的影响。除了x=0的时候$\hat{\beta}_1$可以被认为是从x=0到x=1的近似斜率,此外都比需要考虑x的取值。

转折点是$x^{*}=\left|\hat{\beta}{1} /\left(2 \hat{\beta}{2}\right)\right|$

  1. 如果转折点靠右(靠左)的样本量很少,那么转折点没有什么实际意义,只看样本量比较多的那一边就好了。
  2. 不能因为二次项前边的回归系数比较小,就认为二次项的影响并不重要:必须计算partial effect 并且看它随x如何变化才能篇段平方项在实践中的重要性。为此,比较二次模型下变化的斜率和具有先形象的模型的斜率是非常有用的。
  3. 估计有可能是有偏误的(仍说得到的拐点的位置不太可信的时候)
  4. 当一个模型的因变量是对数形式而自变量是二次形式的时候作解释需要比较小心。

$$
\begin{array}{c}
\text { log(price) }=\beta_{0}+\beta_{1} \log (n o x)+\beta_{2}[\log (n o x)]^{2} \
+\beta_{y} c r i m e+\beta_{4} r o o m s+\beta_{s} r o o m s^{2}+\beta_{6} \text { stratio }+u .
\end{array}
$$

price 对nox的弹性是$\beta_{1}+2 \beta_{2} \log (n o x)$

含有交互项的模型

$$
\text { price }=\beta_{0}+\beta_{1} s q r f t+\beta_{2} b d r m s+\beta_{3} s q r f i \times b d r m s+\beta_{4} b t h r m s+u
$$

需要在有意义的sqrft数值(比如样本的均值或中位数)处计算bdrms对price的影响。

当sqrft=0时,$\beta_2$衡量的是bdrms对于price的影响,然而sqrft=0没有什么实际意义,这时可以进行一些变形:
$$
y=\alpha_{0}+\delta_{1} x_{1}+\delta_{2} x_{2}+\beta_{3}\left(x_{1}-\mu_{1}\right)\left(x_{2}-\mu_{2}\right)+u
$$
$\delta 2$是$x_1$等于均值的时候$x_2$对y的partial effect。(易证$\delta{2}=\beta_{2}+\beta_{3} \mu_{1}$)

  1. 含交互项的时候需要看联合检验
  2. 需要将交互项中的另一个自变量取有意义的值然后再看另一个自变量的partial effect。

$$
\begin{aligned}
\text {stndfnl}=& \beta_{0}+\beta_{1} \text {atndrte}+\beta_{2} p r i G P A+\beta_{3} A C T+\beta_{4} p r i G P A^{2} \
&+\beta_{5} A C T^{2}+\beta_{6} \text {priGPA}\times \text{atndrte}+u
\end{aligned}
$$

atndrte的partial effect是否显著:将交互项变为$(\text {priGPA}-2.59)\times \text {atndrte.}$

priGPA对stnbdfnl的影响:用$(p r i G P A-2.59)^{2}$ 取代$priGPA^2$

用$\text { priGPA}\times \text{(atndrte - 82)}$ 取代交互项从而使得priGPA的系数是均值水平上的偏效应。

计算平均偏效应 (Average Partial Effects)

$\mathrm{APE}{\text {pricre }}=\hat{\beta}{2}+2 \hat{\beta}{4} \overline{p r i G P A}+\beta{6} \overline{atndrte}$

$\operatorname{APE}{\text {atndrte}}=\hat{\beta}{1}+\hat{\beta}_{6} \overline{\text {priGPA}}$

==利用APE是OLS系数的线性组合这一事实计算正确的标准误(?)==

Goodnees-of-Fit and Selection of Regressors

  1. 模型的弱解释力和$\beta_j$的无偏估计无关
  2. 在方程中增加变量时,$R^2$的相对变化非常有用:联合显著性检验的F统计量取决于无约束模型和约束模型的$R^2$的差值。
  3. $R^2$偏小使得难以通过模型当中的自变量的取值预测y的取值。

Adjusted $R^2$

R-squared:
$$
R^{2}=1-(\operatorname{SSR} / n) /(\operatorname{SST} / n)
$$
population R-squared: ($\sigma_{u}^{2}$为误差项的总体方差,$\sigma_{y}^{2}$为因变量的总体方差)
$$
\rho^{2}=1-\sigma_{u}^{2} / \sigma_{y}^{2}
$$
Adjusted R-sqaured:

$\mathrm{SST} /(n-1)$是$\sigma_{y}^{2}$的无偏估计

$\hat{\sigma}^{2}=\operatorname{SSR} /(n-k-1)$,从而:
$$
\begin{aligned}
\bar{R}^{2} &=1-[\mathrm{SSR} /(n-k-1)] /[\mathrm{SST} /(n-1)] \
&=1-\hat{\sigma}^{2} /[\mathrm{SST} /(n-1)]
\end{aligned}
$$

$$
\bar{R}^{2}=1-\left(1-R^{2}\right)(n-1) /(n-k-1)
$$

  1. 调整后的$R^2$的作用:对在模型中另外增加自变量进行了惩罚。(只有在新变量的t统计量绝对值大于1,调整后的$R^2$才会增加。)

  2. 如果样本量很小,而自变量个数很大,$\bar{R}^2$有可能元小余$R^2$甚至有可能取负值(意味着相对于模型自由度个数而言是一个很差的拟合模型)

  3. F统计量使用的是$R^2$而不是调整后的$R^2$,使用调整后的$R^2$是不成立的。

利用调整$R^2$在两个非嵌套模型 (Nonnested Models) 中进行选择

F统计量不能告诉我们在一组联合显著的变量当中,究竟是哪个变量真正有影响。F统计量只能检验嵌套模型(例如约束模型和无约束模型)
$$
\begin{array}{l}
\log (\text {salary})=\beta_{0}+\beta_{1} \text {years}+\beta_{2} \text {gamesyr}+\beta_{3} \text {bavg}+\beta_{4} \text {hunsyr}+u \
\log (\text {salary})=\beta_{0}+\beta_{1} \text {years}+\beta_{2} \text {gamesyr}+\beta_{3} \text {bavg}+\beta_{4} \text {rbisyr}+u
\end{array}
$$
使用$R^2$或调整后的$R^2$得到的结论相同
$$
\begin{array}{l}
\text { rdintens }=\beta_{0}+\beta_{1} \log (\text {sales})+u \
\text {rdintens}=\beta_{0}+\beta_{1} \text {sales}+\beta_{2} \text {sales}^{2}+u .
\end{array}
$$
由于包含的自变量的个数不一样,需要使用调整后的$R^2$进行补偿。

思考题6.4:解释为什么通过最大化调整后的$R^2$或最小化$\hat\sigma$(回归标准误)来选择模型是一回事: $\bar R^2=1-\hat{\sigma}^{2} /[\mathrm{SST} /(n-1)]$

说明:在两个非潜逃模型之间进行选择时,使用$\bar R^2$有一个重要的局限性:我们不能用它在因变量的不同函数形式之间进行选择(例如比较难以判断究竟是y更好还是log(y)更好,两个模型拟合的实际上是完全不同的因变量)。

回归分析中控制变量过多

控制变量过多:多元回归分析中对于一个回归系数的解释是“在其他条件不变的情况下x增加1单位y增加$\beta$单位”。一些情形中,某些自变量会随x的变化而发生变化,将这些自变量放入模型是没有意义的。

可以接受的情况:既控制学校的质量又控制教育程度会导致嘀咕学校质量对收入回报的贡献,可以分别做加入教育程度和不加入教育程度两组模型,然后估计学校质量对收入汇报的影响范围。

不可以接受的情况:y是房产的价格,x中包括房产价值的另一种度量。

增加回归元以减少误差方差

对于哪些既影响y由于我们所关心的自变量无关的自编总应该进入模型:不会带来多重共线性,又可以减少误差项的方差。在样本容量比较大的情况下,OLS估计量的标准误都将减少。

预测和残差分析

Confidence Intervals for Predictions

The estimator we would like to estimate:
$$
\begin{aligned}
\theta_{0} &=\beta_{0}+\beta_{1} c_{1}+\beta_{2} c_{2}+\ldots+\beta_{k} c_{k} \
&=E\left(y \mid x_{1}=c_{1}, x_{2}=c_{2}, \ldots, x_{k}=c_{k}\right)
\end{aligned}
$$
the estimator of $\theta_0$ is : $\widehat{\theta}{0}=\widehat{\beta}{0}+\widehat{\beta}{1} c{1}+\widehat{\beta}{2} c{2}+\ldots+\widehat{\beta}{k} c{k}$

为了计算$\theta_0$的置信区间我们需要计算$\hat\theta_0$的标准误

做变换$\beta_{0}=\theta_{0}-\beta_{1} c_{1}-\ldots-\beta_{k} c_{k}$

$se(\hat\theta_0)$ 是构造后的新回归模型的截距项的标准误:

$y=\theta_{0}+\beta_{1}\left(x_{1}-c_{1}\right)+\beta_{2}\left(x_{2}-c_{2}\right)+\ldots+\beta_{k}\left(x_{k}-c_{k}\right)+u$

$\left[\widehat{\theta}{0}-c \cdot \operatorname{se}\left(\widehat{\theta}{0}\right), \widehat{\theta}{0}+c \cdot \operatorname{se}\left(\widehat{\theta}{0}\right)\right]$ c是给定显著度水平的critical value

当每个解释变量的样本均值为零时截距估计量的方差最小,所以当$x_j$取均值的时候,预测值的方差最小
$$
\operatorname{Var}\left(\widehat{\beta}{0}\right)=\frac{\sigma^{2} n^{-1} \Sigma x{i}^{2}}{\sum\left(x_{i}-\bar{x}\right)^{2}}
$$
==子总体中平均个体的置信空间不等于总体中一个特定单位的置信区间。==

confidence intervals for particular unit:
$$
y^{0}=\beta_{0}+\beta_{1} x_{1}^{0}+\beta_{2} x_{2}^{0}+\ldots+\beta_{k} x_{k}^{0}+u^{0}\
\widehat{y}^{0}=\widehat{\beta}{0}+\widehat{\beta}{1} x_{1}^{0}+\widehat{\beta}{2} x{2}^{0}+\ldots+\widehat{\beta}{k} x{k}^{0}\
prediction \ error:\ \widehat{e}^{0}=y^{0}-\widehat{y}^{0}=\left(\beta_{0}-\widehat{\beta}{0}\right)+\left(\beta{1}-\widehat{\beta}{1}\right) x{1}^{0}+\ldots+\left(\beta_{k}-\widehat{\beta}{k}\right) x{k}^{0}+u^{0}
$$
期望:由于所有估计量是无偏的,且有$E[u^0]=0$,所以$E[\hat e^0]=0$, $E[\hat y^0]=E[y^0]$

方差:
$$
\begin{aligned}
\operatorname{Var}\left(\widehat{e}^{0}\right) &=\operatorname{Var}\left(y^{0}-\widehat{y}^{0}\right) \
&=\operatorname{Var}\left(\beta_{0}+\beta_{1} x_{1}^{0}+\beta_{2} x_{2}^{0}+\ldots+\beta_{k} x_{k}^{0}+u^{0}-\widehat{y}^{0}\right) \
&=\operatorname{Var}\left(\widehat{y}^{0}\right)+\operatorname{Var}\left(u^{0}\right)=\operatorname{Var}\left(\widehat{y}^{0}\right)+\sigma^{2}
\end{aligned}
$$
$Var(\hat e^0)$的两个来源:(1) sampling error in $\hat y^0$, 由于估计$\beta_j$而产生,可以通过扩大样本量而减小 (2) $\sigma^2=Var(u^0)$是总体误差项的方差,不随样本量的变化而变化,是主导部分。

标准误:(用$Var(\hat y^0)$和$\sigma^2$的无偏估计量进行了替代)
$$
\operatorname{se}\left(\hat{e}^{0}\right)=\left{\left[\operatorname{se}\left(\hat{y}^{0}\right)\right]^{2}+\hat{\sigma}^{2}\right}^{1 / 2}
$$
分布:

$ \hat{e}^{0} / \mathrm{se}\left(\hat{e}^{0}\right) $服从自由度为n-(k+1)的t分布,从而:
$$
\mathrm{P}\left[-t_{.025} \leq \hat{e}^{0} / \mathrm{se}\left(\hat{e}^{0}\right) \leq t_{025}\right]=.95
$$
由于$t_{0.025}$约等于1.96,所以$y^0$的95% prediction interval 为:$\hat{y}^{0} \pm t_{0.025} \cdot \operatorname{se}\left(\hat{e}^{0}\right)$

除非df比较小,好的经验法则是把95%置信区间算成$\hat{y}^{0} \pm 2 \cdot \operatorname{se}\left(\hat{e}^{0}\right)$,用来反映$u^0$中我们没有控制的因素。

残差分析

残差分析:看因变量的实际值 是高于还是低于预测值。

构造残差:$\hat{u}{i}=y{i}-\hat{y}_{i}$,看残差是正的还是负的

Predicting y Whenn log(y) Is the Dependent Variable

$$
\log (y)=\beta_{0}+\beta_{1} x_{1}+\ldots+\beta_{k} x_{k}+u\
\widehat{\log (y)}=\widehat{\beta}{0}+\widehat{\beta}{1} x_{1}+\ldots+\widehat{\beta}{k} x{k}
$$

不能认为,$\hat y = exp(\hat{log(y)})$

如果假定u符合正态分布,即 $u \sim N\left(0, \sigma_{u}^{2}\right), E\left(e^{u}\right)=e^{\frac{1}{2} \sigma_{u}^{2}}$

$$
\begin{aligned}
E[y \mid X] &=E\left[e^{\log (y)} \mid X\right] \
&=e^{\beta_{0}+\beta_{1} x_{1}+\ldots+\beta_{k} x_{k}} E\left(e^{u} \mid X\right) \
&=\exp \left(\beta_{0}+\beta_{1} x_{1}+\ldots+\beta_{k} x_{k}\right)\exp \left(\frac{\sigma^{2}}{2}\right) \
\widehat{y}&=\exp \left(\frac{\widehat{\sigma}^{2}}{2}\right) \exp (\widehat{\log y})
\end{aligned}
$$

说明:

  1. 对于很大的$\hat \sigma$调整因子可能显著大于1
  2. 该估计是一致估计担不是无偏估计
  3. 该估计依赖与误差项u的正态性

如果只假定u独立于解释变量而不假定u服从正态分布,设$E(e^u)=\alpha_0$(一定大于1),则:
$$
E[y \mid X]=\alpha_{0} \exp (\log (y))=\alpha_{0} \exp \left(\beta_{0}+\beta_{1} x_{1}+\ldots+\beta_{k} x_{k}\right)
$$

$$
\widehat{y}=\hat \alpha_0 \exp (\widehat{\log y})
$$

得到$\alpha_0$的一致估计量的方法一:

  1. 定义$m_{i}=\exp \left(\beta_{0}+\beta_{1} x_{i 1}+\cdots+\beta_{k} x_{i k}\right)$,则有$\mathrm{E}\left(y_{i} \mid m_{i}\right)=\alpha_{0} m_{i}$
  2. 利用OLS估计值$\hat \beta_j$替代,$\hat{m}{i}=\exp \left(\widehat{\log y{i}} \right)$
  3. 用y对$\hat m_i$做一个无截距项的回归,回归得到的OLS回归系数就是$\alpha_0$的一个一致(但不无偏的)估计量
  4. 这一方法不能保证得到的$\alpha_0$的估计量一定大于1.

Dummy Variables

A Single Dummy Independent Variable

为什么使用1和0来描述定性信息?使得方程的解释更为清晰

$\text { wage }=\beta_{0}+\delta_{0} \text { female }+\beta_{1} \text { educ }+u$

$\begin{array}{l}
E(u \mid \text { female, educ })=0 \\delta_{0}=E(\text { wage } \mid \text { female }=1, e d u c)-E(\text { wage } \mid \text { female }=0, e d u c)
\end{array}$

受教育相同,差值$\delta _0$由性别导致,在图标中是男性和女性之间的截距变化

Dummy Variable Trap 加入由虚拟变量表示的定类变量的全部类别所导致的完全共线性问题。

去掉截距项之后可以把所有类别都包括进来,例如:$\text { wage }=\beta_{0} \text { male }+\alpha_{0} \text { female }+\beta_{1} \text { educ }+u \text { , }$其中,$\beta_0$是男性的截距,$\alpha_0$是女性的截距。

但是这样做并不好:(1)使得相对于机组差别的检验变得非常繁琐 (2)对于这种模型,学界没有一致同意的R-squared的计算方法。由于没有截距项且模型拟合比较差的时候$R^2$可能是负的,所以统计软件一般会默认计算未中心化的R-squared,也就是用$\mathrm{SST}{0}=\sum{i=1}^{n} y_{i}^{2}$替代SST. 然而$R^2_0$几乎总是要大于$R^2$。

Dummy Variables and Logged Dependent Variables

the exact percentage difference in the predicted y is : $100 \cdot\left[\exp \left(\widehat{\beta}_{1}\right)-1\right]$

需要注意的是,必须要保留$\hat \beta_1$的符号。

如果忽略base group(不看自变量是从0到1还是从1到0)或者百分比变化比较小的话,可以直接用回归系数进行预测

如果不忽略base group 的话,百分比变化会根据计算方式(base group)的选择发生变化。

使用多类别虚拟变量

对于一个有g个类别的分类变量,一般只讲g-1个dummies放入回归方程,忽略掉的那个类别成为base group。

  1. 一致但是不是无偏的。

代数式很好记

OLS 是两阶段 最小二乘法的特例。

一致性的问题:从公式出发,$\hat{\beta}{1}^{IV}=\frac{\sum\left(z{i}-\bar{z}\right)\left(y_{j}-\bar{y}\right)}{\sum\left(z_{i}-\bar{z}\right)\left(x_{i}-\bar{x}\right)}$
$$
\beta_{1}+\frac{\sum\left(z_{i}-\bar{z}\right)\left(u_{i}-\bar{u}\right)}{\sum\left(z_{i}-\bar{z}\right)\left(x_{i}-\bar{x}\right)}
$$

$$
\begin{array}{l}
p \lim {n \rightarrow \infty} \beta{1}^{IV}=\beta_{1}+\frac{\operatorname{cov}(z, u)}{\cos (z, x)}
\end{array}
$$
当n趋于无穷的时候,cov(z, u)=0, 又因为cov(z, x) 不等于0,所以此时$\beta_1^{IV}$等于$\beta_1$

一致性的估计但不是无偏的。

使用虚拟变量表示序数信息

使用虚拟变量表示定序变量的有点是:允许定序变量的不同等级对因变量拥有不同的作用。

对固定偏效应进行检验:见书第188页。
$$
M B R=\beta_{0}+\delta_{1} C R_{1}+\delta_{2} C R_{2}+\delta_{3} C R_{3}+\delta_{4} C R_{4}+\text { other factors. }\
MBR = \beta_0 + \delta_{1}\left(C R_{1}+2 C R_{2}+3 C R_{3}+4 C R_{4}\right)+\text { other factors. }
$$
定序变量序数太多可以改成定类变量。

设计虚拟变量的交互作用

虚拟变量之间的交互作用

虚拟变量*虚拟变量相较于创建一堆dummy variables 而言没有什么优势

Interacting Dummies with Continuous Variables

虚拟变量与连续变量交互可以使得连续变量产生不同的斜率。

$\begin{aligned}
\log (\text {wage}) &=\left(\beta_{0}+\delta_{0} \text { female }\right)+\left(\beta_{1}+\delta_{1} \text { female }\right) \text { educ }+u \
&=\beta_{0}+\delta_{0} \text { female }+\beta_{1} e d u c+\delta_{1} \text { female } \cdot e d u c+u
\end{aligned}$

$H_{0}: \delta_{1}=0$ The Wage differential should be the same for all levels of education.

$H_{0}: \delta_{0}=0, \delta_{1}=0$ Average wages are identical for men and women who have the same level of education.

注意:将虚拟变量与其他解释变量做交互,(例如同时加入female 和 female*edu)可能引入多重共线性问题,使得估计量的标准差大幅上升。

一种缓解方法:用$\text { female } \cdot(e d u c-\overline{e d u c})$代替$\text { female}\cdot educ $替代后的模型中,只有female的回归系数和标准误发生了变化。

Testing for Differences in Regression Functions across Groups

原假设:两个总体或两个组具有同一个回归函数。备择假设:各组之间有一个或多个斜率是不同的。

使用fully interacted model 来进行检验。

The Chow Test

unrestricted model: $y=\beta_{g, 0}+\beta_{g, 1} x_{1}+\beta_{g, 2} x_{2}+\ldots+\beta_{g, k} x_{k}+u$

restricted model: $y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\ldots+\beta_{k} x_{k}+u$

无约束模型是两个分组跑的回归,自由度为n-2(k+1)(相当于一个fully interacted model 包含k个自变量、k个交互项、1个虚拟变量本身)

约束模型是同一个回归用了全部的样本,自由度为n-k-1 (只放了k个自变量)

SSR1: 来自第一组样本跑出来的unrestricted model

SSR2: 来自第二组样本跑出来的unrestricted model

$S S R_{u r}=S S R_{1}+S S R_{2}$

$$
F=\frac{\left[S S R_{P}-\left(S S R_{1}+S S R_{2}\right)\right]}{S S R_{1}+S S R_{2}} \cdot \frac{[n-2(k+1)]}{k+1}
$$
Chow test 的缺点:

原假设中,两个分组不能有任何差别,但有时我们会希望两组的截距存在差异,然后再来检验斜率是否存在差别。

此时我们需要做一个只允许截距变化的回归(原假设不对截距进行约束),F统计量变为:
$$
F=\frac{\left[S S R_{P}-\left(S S R_{1}+S S R_{2}\right)\right]}{S S R_{1}+S S R_{2}} \cdot \frac{[n-2(k+1)]}{k}
$$

The Linear Probability Model (Binary Dependent Variables)

$$
\begin{aligned}
E(y \mid \mathrm{x}) &=P(y=1 \mid \mathrm{x}) E(y=1)+P(y=0 \mid \mathrm{x}) E(y=0) \
&=P(y=1 \mid \mathrm{x}) \cdot 1+P(y=0 \mid \mathrm{x}) \cdot 0 \
&=P(y=1 \mid \mathrm{x}) \
& \Rightarrow P(y=1 \mid \mathrm{x})=\beta_{0}+\beta_{1} x_{1}+\ldots+\beta_{k} x_{k}
\end{aligned}
$$

$P(y=1 \mid \mathrm{x})$ 为 response probability

$\Delta P(y=1 \mid \mathbf{x})=\beta_{j} \Delta x_{j}$

问题:

  1. LPM模型当中,预测的因变量的概率有可能小余0或大于1。LPM对于自变量取值在样本均值附近的情况预测比较准确
  2. LPM模型认为因变量的概率与自变量线性相关,但是实际上概率不可能与自变量所有的可能值线性相关。

二值因变量拟合优度的测量:

$\tilde{y}{i}=1 \text { if } \hat{y}{i} \geq .5 \text { and } \tilde{y}{i}=0 \text { if } \hat{y}{i}<.5$

然后利用$\tilde y$和$y$的数据看正确预测百分比。

二值变量与异方差性 :

当y是二值变量的时候,其以x为条件的方差为$\operatorname{Var}(y \mid \mathbf{x})=P(y=1 \mid \mathbf{x})[1-P(y=1 \mid \mathbf{x})]$

其中$ P(y=1 \mid \mathrm{x})=\beta_{0}+\beta_{1} x_{1}+\ldots+\beta_{k} x_{k}$ 这意味着除非概率与任何一个自变量都不相关,否则概率模型中一定存在着异方差性。

Heteroskedasticity does not cause bias in OLS estimators, but the t
and F statistics needs the homoskedasticity assumption. Hence the
standard errors in LPM are wrong, but usually not far of.

More on Policy Analysis and Program Evaluation

注意的因素包括:

  1. 影响因变量的并且与自变量相关的无法观测到的因素。
  2. 警惕与所关心的二值系变量系统相关的因素(例如不同种族在教育背景和财富上存在系统差异)
  3. 是否参与一个项目并不是随机决定的(self-selection problem)从而是否参与的二值变量与补课观测的因素系统相关$E(u \mid \text {participate}=1) \neq E(u \mid \text {participate}=0)$

Heteroscedasticity

异方差对OLS造成的影响

异方差性:不可观测因素的方差随总体的不同部分(由不同的解释变量值所决定)而变化。

异方差不会影响:

  1. 不会影响OLS估计量的一致性和无偏性
  2. 不会影响$R^2$和$\bar{R}^2$

异方差会影响:

  1. $\operatorname{Var}\left(\widehat{\beta}_{j}\right)$ 有偏从而影响 $se(\hat \beta_j)$ t tests, & confidence intervals.
  2. F 统计量不再服从F分布
  3. OLS不再是BLUE

Robust Standard Errors

异方差情况下 误差项的方差为:$\operatorname{Var}\left(u_{i} \mid x_{i 1}, \ldots, x_{i k}\right)=\sigma_{i}^{2}$,与x的取值相关

推导:

其中$\hat r_{ij}$是将$x_J$对所有其他自变量做回归所得到的第i个残差; $SSR_j$是这个回归的残差的平方和;$u_i$是原回归中的误差项。
$$
\begin{aligned}
\widehat{\beta}{j} &=\frac{\sum{i=1}^{n} \hat{r}{i j} y{i}}{\sum_{i=1}^{n} \hat{r}{i j}^{2}} \
&=\frac{\sum
{i=1}^{n} \widehat{r}{i j}\left(\beta{0}+\beta_{1} x_{i 1}+\beta_{2} x_{i 2}+\ldots+\beta_{k} x_{i k}+u_{i}\right)}{\sum_{i=1}^{n} \widehat{r}{i j}^{2}} \
&=\beta
{j}+\frac{\sum_{i=1}^{n} \widehat{r}{i j} u{i}}{\sum_{i=1}^{n} \widehat{r}_{i j}^{2}}
\end{aligned}
$$

$$
\begin{aligned}
\operatorname{Var}\left(\widehat{\beta}{j}\right) &=\operatorname{Var}\left(\frac{\sum{i=1}^{n} \widehat{r}{i j} u{i}}{\sum_{i=1}^{n} \hat{r}{i j}^{2}}\right)=\operatorname{Var}\left(\frac{\sum{i=1}^{n} \widehat{r}{i j} u{i}}{S S R_{j}}\right) \
&=\frac{\sum_{i=1}^{n} \widehat{r}{i j}^{2} \sigma{i}^{2}}{S S R_{j}^{2}}
\end{aligned}
$$

White shows that the residuals $\hat u_i$ may be used to derive a valid estimator of $Var(\hat \beta_j)$ if n is large
$$
\widehat{\operatorname{Var}\left(\widehat{\beta}{j}\right)}=\frac{\sum{i=1}^{n} \hat{r}{i j}^{2} \widehat{u}{i}^{2}}{S S R_{j}^{2}}
$$
robust standard errors:
$$
\operatorname{se}\left(\widehat{\beta}{j}\right)=\sqrt{\left.\widehat{\operatorname{Var}\left(\widehat{\beta}{j}\right.}\right)}=\sqrt{\frac{\sum_{i=1}^{n} \hat{r}{i j}^{2} \hat{u}{i}^{2}}{S S R_{j}^{2}}}
$$
也可以对自由度进行调整(样本量大的时候不必要):
$$
\operatorname{se}\left(\widehat{\beta}{j}\right)=\sqrt{\left.\widehat{\operatorname{Var}\left(\widehat{\beta}{j}\right.}\right)}=\sqrt{\frac{n}{n-k-1} \frac{\sum_{i=1}^{n} \hat{r}{i j}^{2} \hat{u}{i}^{2}}{S S R_{j}^{2}}}
$$
说明:

  1. Robust se 与普通se相比可大可小,一般会更大(结果更可能不显著)
  2. $x_j$变化很小,或者多重共线性可能导致robust se 非常大(与之前标准差讨论过的问题一致)

为什么我们会想要使用普通的OLS标准误?

  1. 如果同方差假设成立,并且误差服从正态分布,那么无论样本容量大小如何,普通的t统计量都服从精确的t分布。而robust se和robust t只有在样本量比较大的时候才能适用。
  2. 在大样本量的情况下,尤其是截面数据中会用robust se

Heteroscedasticity-Robust F Stastic

又被称为异方差稳健的Wald Statistic.,用软件包来计算

Heteroskedasticity-Robust Chow test

在方程中加入female 与其他所有解释变量的交互项,对这所有的交互项进行异方差稳健的F检验,检验其联合显著性。

Testing for Heteroscedasticity

除非证明方程存在异方差,经济学家更愿意报告同场的OLS标准误和检验统计量。而如果异方差存在,可以通过其他方法得到比OLS更好地估计量,因而需要检验异方差性。

Breusch-Pagan Test for Heteroscedasticity

异方差检验的原假设:
$$
H_{0}: \operatorname{Var}\left(u \mid x_{1}, \ldots, x_{k}\right)=\sigma^{2}\
加上MLR4,即E\left(u \mid x_{1}, \ldots, x_{k}\right)=0,可以转化为:\
H_{0}: \operatorname{Var}\left(u \mid x_{1}, \ldots, x_{k}\right)=E\left(u^{2} \mid x_{1}, \ldots, x_{k}\right)=E\left(u^{2}\right)=\sigma^{2}
$$
检验$u^2$是否与解释变量相关——$u^2$是否与x的一组线性方程相关:

  1. 做OLS回归,得到每个观测值i的残差的平方$\widehat{u}_{i}^2$
  2. 做回归$\widehat{u}{i}^{2}=\delta{0}+\delta_{1} x_{1}+\delta_{2} x_{2}+\ldots+\delta_{k} x_{k}+\text { error }$,得到本回归的R-squared 即 $R_{\widehat{u}^{2}}^{2}$
  3. 用F统计量进行联合检验。$F=\frac{R_{\hat{u}^{2}}^{2} / k}{\left(1-R_{\tilde{U}^{2}}^{2}\right) /(n-k-1)} \sim F_{k, n-k-1}$ 其中k是解释变量的个数,原假设为$H_{0}: \delta_{1}=\delta_{2}=\ldots=\delta_{k}=0$

额外的说明:

  1. 如果我们认为异方差值只取决于一些自变量,那么只将$\widehat{u}^2$与我们怀疑的自变量回归就可以了。此时自由度值只取决于含$\widehat{u}^2$的这个回归中的解释变量的个数。
  2. 如果残差的平方只对单个自变量做回归,那么用的是t统计量去做检验

White Test for Heteroscedasticity

误差的平方$u^2$与所有的自变量、自变量的平方和自变量的交叉想都不相关。

在包含三个解释变量情况下的White test model:
$$
\begin{array}{c}
\widehat{u}^{2}=\delta_{0}+\delta_{1} x_{1}+\delta_{2} x_{2}+\delta_{3} x_{3}+\delta_{4} x_{1}^{2}+\delta_{5} x_{2}^{2}+\delta_{6} x_{3}^{2} \
+\delta_{7} x_{1} x_{2}+\delta_{8} x_{1} x_{3}+\delta_{9} x_{2} x_{3}+\text { error. }
\end{array}
$$
一种改进的方法:
$$
\widehat{u}^{2}=\delta_{0}+\delta_{1} \hat{y}+\delta_{2} \hat{y}^{2}+\text { error. }
$$

  1. 做OLS回归,得到每个观测值i的fitted value $\hat y_i$和残差的平方$\hat u_i^2$
  2. 做回归$\widehat{u}^{2}=\delta_{0}+\delta_{1} \hat{y}+\delta_{2} \hat{y}^{2}+\text { error. }$,得到本回归的R-squared,即$R_{\widehat{u}^{2}}^{2}$ (注意用的是y的拟合值而不是y本身)
  3. 用F统计量进行联合检验

说明:

if MLR.4 is violated (i.e., $E(y\mid x)$is misspecified) then a test for heteroscedasticity can reject H0, even if $Var(y\mid X)$ is constant. 比如我们在模型中漏掉了二次项,或者在应该用对数模型的时候用了水平模型。由于方程形式误设问题比异方差问题更重要,所以可以先对函数形式进行检验。

Weighted Least Squares (WLS) Estimation

如果正确估计了方差的形式,WLS将比OLS更有效,并且能够得到具有t和F分布的t和F统计量/

The Heteroskedasticity Is Known up to a Multiplicative Constant

假设$\operatorname{Var}\left(u_{i} \mid x_{i 1}, \ldots, x_{i k}\right)=\sigma^{2} h\left(x_{i 1}, \ldots, x_{i k}\right)$,其中$h_{i}=h\left(x_{i 1}, \ldots, x_{i k}\right)$是决定方差的解释变量的某种函数。

设h(x)已知,且满足:

  1. hi >0
  2. hi对于不同观测变量而言是变化的
  3. 虽然总体参数$\sigma ^2$未知但是可以从样本中进行估计

$y_{i}=\beta_{0}+\beta_{1} x_{i 1}+\beta_{2} x_{i 2}+\ldots+\beta_{k} x_{i k}+u_{i}$ 左右两边同除$\sqrt{h_i}$
$$
\begin{aligned}
y_{i} / \sqrt{h_{i}}& =\beta_{0} / \sqrt{h_{i}}+\beta_{1}\left(x_{i 1} / \sqrt{h_{i}}\right)+\beta_{2}\left(x_{i 2} / \sqrt{h_{i}}\right)+\ldots \
&+ \beta_{k}\left(x_{i k} / \sqrt{h_{i}}\right)+\left(u_{i} / \sqrt{h_{i}}\right) \
\Rightarrow y_{i}^{} &=\beta_{0} x_{i 0}^{}+\beta_{1} x_{i 1}^{}+\ldots+\beta_{k} x_{i k}^{}+u_{i}^{} \
E\left(u_{i}^{
}\right) &=E\left(u_{i} / \sqrt{h_{i}}\right)=\frac{1}{\sqrt{h_{i}}} E\left(u_{i}\right)=0 \
\operatorname{Var}\left(u_{i}^{}\right)&=E\left(\left(u_{i}^{}\right)^{2}\right) =E\left(\left(u_{i} / \sqrt{h_{i}}\right)^{2}\right)=E\left(u_{i}^{2}\right) / h_{i}=\left(\sigma^{2} h_{i}\right) / h_{i}=\sigma^{2}
\end{aligned}
$$
说明:

  1. 通过WLS得到的估计量是generalized least squares estimatiors.
  2. 需要将估计量放到原模型中解释
  3. $\beta_j$最小化残差平方的加权和,其权数为$1/ h_i$
  4. WLS模型汇报$R^2$,其含义是$y^$(而非y)的方差被$x_j^$解释的比例。$R^2$本身的含义并不重要,但是可以用来计算F统计量。
  5. 使用WLS模型的时候,应该用统计软件内置的WLS模型包,而不是手动调整因变量、自变量后跑OLS。原因是手动跑出的OLS汇报的R^2并不是一个很好的拟合优度的测量:统计软件在计算SST的时候没有很好地对 $y^*$进行中心化处理。但手动跑出的R^2对F统计量的计算没什么影响。

如果个人层次的方程满足高斯-马尔科夫假定,那么人均方程中的误差就与人口规模的倒数成比例。

Feasible Generalized Least Squares (FGLS)

在不知道$h^i=h(x_{i1}, …, x_{ik})$的情况下估计$\hat h_i$

假定:$\operatorname{Var}\left(u_{i} \mid x_{i 1}, \ldots, x_{i k}\right)=\sigma^{2} h_{i}=\sigma^{2} \exp \left(\delta_{0}+\delta_{1} x_{i 1}+\delta_{2} x_{i 2}+\ldots+\delta_{k} x_{i k}\right)$

在BP - test中曾经使用线性方程来检验异方差性,但是这里使用的却是非线性方程(指数方程),因为WLS需要确保预测的方差都是正的。
$$
\begin{array}{l}
\Rightarrow u^{2}=\sigma^{2} \exp \left(\delta_{0}+\delta_{1} x_{1}+\delta_{2} x_{2}+\ldots+\delta_{k} x_{k}\right) \nu \
\quad \text { with } E\left(\nu \mid x_{1}, \ldots, x_{k}\right)=1 \
\Rightarrow \log \left(u^{2}\right)=\alpha_{0}+\delta_{1} x_{1}+\delta_{2} x_{2}+\ldots+\delta_{k} x_{k}+e \
\text { with } E\left(e \mid x_{1}, \ldots, x_{k}\right)=E\left(\log (\nu) \mid x_{1}, \ldots, x_{k}\right)=0
\end{array}
$$
步骤:

  1. 做OLS回归$y$ on $x_{1}, x_{2}, \ldots, x_{k}$获得残差$\widehat{u}$
  2. 计算$\log \left(\widehat{u}^{2}\right)$
  3. 做回归$\log \left(\widehat{u}^{2}\right) \text { on } x_{1}, \ldots, x_{k}$,获得$\widehat{g}{i} \equiv \widehat{\log \left(\widehat{u}{i}^{2}\right)}$
    1. 也可以用$\log \left(\widehat{u}^{2}\right) \text { on } \widehat{y}, \widehat{y}^{2}$获得$\hat g_i$
  4. 求出拟合值的指数:$\widehat{h}=\exp (\widehat{g})$
  5. 做WLS回归$y=\beta_{0}+\beta_{1} x_{1}+\ldots+\beta_{k} x_{k}+u$,其中权重为$1 / \widehat{h}$

说明:

  1. WLS的估计量是无偏的,但是用数据估计$h_i$的FGLS所得到的估计量并不是无偏的,(也不是BLUE)。
  2. FGLS的估计量也是针对总体方程$y=\beta_{0}+\beta_{1} x_{1}+\cdots+\beta_{k} x_{k}+u$作出的。
  3. 使用FGLS而不是OLS的原因在于,异方差情况下,FGLS的估计量比OLS更一致和渐近有效,同时在大样本的情况下t统计量和F统计量满足t和F分布。
  4. 在计算F统计量的时候需要注意,约束模型和无约束模型中应该使用一样的权重。==应该先用OLS估计无约束模型。==(?)
  5. 如果OLS和WLS得到符号不同但都统计显著的估计值,或者估计值数量上的差异非常大,说明MLR4 可能不成立(存在方程形式误设问题等),正式的检验方式是使用Hasuman检验。

思考题8.4:检验WLS是否消除异方差

  1. 使用WLS回归中估计出来的$\hat u_i$和$y_i$
  2. reg $u_{i}^{2} \hat{h}{i} \text { on } \widehat{y}{i} / \sqrt{h}{i} \text { and } \widehat{y}{i}^{2} / \hat{h}_{i}$
  3. 计算F统计量

如果假定的异方差函数是错误的

这意味着$\operatorname{Var}\left(u_{i} \mid \mathrm{x}{i}\right) \neq \sigma^{2} h{i}$

在MLR.4成立的情况下,异方差函数假定错误不会导致WLS估计量有偏。(因而如果OILS和WLS的估计量之间存在巨大差别的话,我们会怀疑存在方程形式误设问题)

模型仍然存在异方差问题,se和检验用得统计量不可靠。

  1. 即使是WLS中也使用稳健标准误和检验统计量
  2. 当异方差问题非常严重的时候,与其不考虑异方差问题直接用OLS,使用错误的异方差形式并应用WLS要更好(异方差问题不严重的时候无法判断WLS和OLS哪个更有效,可以用得到的回归系数的标准误来简单判断)

Heteroscedasticity in the Linear Probability Model (LPM)

当因变量是二值变量时,除非所有斜率参数都为零,否则模型一定包含异方差性。

解决方法:

  1. OLS + 稳健标准误

  2. 使用FGLS:

    $$
    \operatorname{Var}(y \mid \mathbf{x})=p(\mathbf{x})[1-p(\mathbf{x})]\
    \widehat{h}{i}=\widehat{y}{i}\left(1-\hat{y}{i}\right)
    $$
    问题在于$\widehat{y}
    {i}$有可能大于1或小于0,而FGLS要求$\widehat{h}{i}$必须大于0.,一种解决方法是小于零的时候去$\widehat{y}{i}=0.01$,大于1的时候取$\widehat{y}_{i}=0.99$,如果出现很多位于单位区间的之的话,那么最好还是只用OLS;或者用Probit或Logit模型

步骤:

  1. 做OLS回归,得到$\widehat{y}_{i}$

  2. 看$\widehat{y}_{i}$是否落在单位区间,否则进行调整,或者弃用FGLS法

  3. 构建调整方差的方程$\widehat{h}{i}=\widehat{y}{i}\left(1-\hat{y}_{i}\right)$

  4. 使用$1 / \widehat{h}$作为权重作WLS回归。

More on Specification and Data Issues

Functional Form Misspecification

遗漏变量偏误:遗漏的变量是模型中一个解释变量的函数,这导致误差项u和解释变量$x_j$相关,使得$x_j$成为内生变量。

方程形式误设:可被视为遗漏变量问题的特殊形式,意味着多元回归模型没有正确地解释因变量和所观测的解释变量之间的关系

方程形式误设的常见情况:遗漏了平方项,遗漏了交互项,应该取对数的时候用了level form

方程形式误设问题的检验:F test for joint exclusion restrictions

加减可能遗漏的变量形式来看是不是联合显著

RESET as a General Test for Functional Form Misspecification

reset: regression specification error test

假设MLR4已经得到满足,那么在方程中添加自变量的非线性关系是不显著的

此外,在方程中添加显著解释变量的二次项还可能面临以下问题:

1. 消耗自由度
2. 不一解释回归系数的含义
3. 二次项并不能解决所有非线性关系产生的问题。

RESET检验的步骤:

  1. 进行OLS回归$y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\ldots+\beta_{k} x_{k}+u$得到$\hat y$
  2. 做回归$y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\ldots+\beta_{k} x_{k}+\delta_{1} \hat{y}^{2}+\delta_{2} \hat{y}^{3}+\text { error }$
  3. 用F统计量进行联合检验$H_{0}: \delta_{1}=\delta_{2}=0$,在大样本情况下F统计量服从$F_{2, \ n-k-1-2}$分布

RESET的缺陷:

  1. 不能告诉我们怎么解决方程形式误设问题
  2. 此外,只要遗漏变量的期望值是模型中所包括的自变量的线性函数,RESET就无法检验变量遗漏的问题
  3. 如果正确设置了方程形式,RESET无法检验异方差问题

Tests against Nonnested Alternatives: Davidson-MacKinnon test

Davidson-MacKinnon test: 用于决定一个解释变量应该使用level形式还是Log形式
$$
test\ y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+u\
against \ y=\beta_{0}+\beta_{1} \log \left(x_{1}\right)+\beta_{2} \log \left(x_{2}\right)+u
$$
两个模型是非嵌套的,不能使用F统计量来检验(用的自变量不同)。

步骤:

  1. 估计第一个方程(水平)得到预测值$\hat y$

  2. 估计第二个方程得到(对数)得到预测值$\hat {\hat y}$

  3. 估计以下方程:
    $$
    \begin{array}{c}
    y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\theta_{1} \hat{\hat{y}} \
    y=\beta_{0}+\beta_{1} \log \left(x_{1}\right)+\beta_{2} \log \left(x_{2}\right)+\theta_{2} \hat{y}+\text { error }
    \end{array}
    $$

  4. 用t统计量看$\hat \theta_1$和$\hat \theta_2$是否显著(例如如果$\hat \theta_1$显著的话说明应该用Log形式)

局限:

  1. 两个方程可能同时被拒绝或没被拒绝,如果同时没被拒绝的话,可以用adjusted R-squared 来选择
  2. level被拒绝不意味着log就是正确的
  3. 如果两组方程使用的自变量不同的话,不能使用DM test
  4. 如过两组方程使用的因变量不同(一个level 一个log)的话也不行

Proxy Variables

代理变量主要用于解决/减缓遗漏变量导致的偏误

例如在研究教育和经验对工资的回报的时候使用IQ来作为能力的代理变量(关注的无偏估计不是有关能力的)
$$
y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\beta_{3} x_{3}^{}+u
$$
其中$x_3^
$是观测不到的变量,并且有$x_{3}^{*}=\delta_{0}+\delta_{3} x_{3}+\nu_{3}$

得到$\beta_1$和$\beta_2$无偏估计的前提:

  1. u与$x_{1}, x_{2}, x_{3}^{}, x_{3}$均无关(从而当$x_{1}, x_{2}, x_{3}^{}$加入方程的时候,$x_{3}$就成为了无关变量)

  2. $\nu_{3}$与$x_{1}, x_{2}, x_{3}$无关,$E\left(x_{3}^{} \mid x_{1}, x_{2}, x_{3}\right)=E\left(x_{3}^{} \mid x_{3}\right)=\delta_{0}+\delta_{3} x_{3}$也就是说当固定$x_3$的时候,$x_3^*$的期望与$x_1, x_2$无关
    $$
    y=\left(\beta_{0}+\beta_{3} \delta_{0}\right)+\beta_{1} x_{1}+\beta_{2} x_{2}+\beta_{3} \delta_{3} x_{3}+u+\beta_{3} \nu_{3}\
    y=\alpha_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\alpha_{3} x_{3}+e
    $$

  3. 如果不可观测变量与全部可观测变量均相关,则:
    $$
    x_{3}^{*}=\delta_{0}+\delta_{1} x_{1}+\delta_{2} x_{2}+\delta_{3} x_{3}+\nu_{3}\
    \begin{aligned}
    y=&\left(\beta_{0}+\beta_{3} \delta_{0}\right)+\left(\beta_{1}+\beta_{3} \delta_{1} x_{1}\right)+\left(\beta_{2}+\beta_{3} \delta_{2}\right) x_{2} \
    &+\beta_{3} \delta_{3} x_{3}+u+\beta_{3} \nu_{3}
    \end{aligned}
    $$

思考题9.2

当$edu \cdot IQ$在方程中的商筹,educ 的系数度量了edu在IQ=0的时候对log(wage)的影响。(教育的篇效应是$\beta_1+\beta_9IQ$)在总体平均IQ为100的时候,教育回报约为0.052.

交互项不显著,引入后导致独立项也不显著——应当使用没有放入交互项的模型。(p244)

代理变量与多重共线性:

  1. 代理变量的加入可以降低u,从而使得se变小
  2. 如果想要获得篇miaggxn的$\beta$多重共线性是补课避免的。

滞后变量作为代理变量

被忽略的变量与多个解释变量相关,但是无法得到这个意识变量的核实的代理变量。此时会考虑让因变量滞后进入模型。
$$
\text { crime }=\beta_{0}+\beta_{1} \text { unem }+\beta_{2} \text { expend }+\beta_{3} \text { crime }{-1}+u
$$
由于历史犯罪率高的城市更可能在预防犯罪上花钱,因而影响犯罪率的未观测的变量可能与预防犯罪开销相关,使得$\beta_2$有偏。$crime
{-1}$表示的是之前某个年度的犯罪率。方程的含义变成如果两个城市以前有相同的犯罪率,现在又有相同的失业率,那么$beta_2$就度量了执法指出每增加1美元对犯罪率的影响。

Measure Error

测量误差和不可观测变量问题的区别:测量对象是有非常好的定义的,而不可观测变量没有清楚的可以测量的定义。

Measurement Error in the Dependent Variable

$$
y^{}=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\ldots+\beta_{k} x_{k}+u
$$
其中$y^
$不可见,y是$y^$的测量$e_{0}=y-y^{}$
$$
y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\ldots+\beta_{k} x_{k}+u+e_{0}
$$

无偏的条件:

  1. $E\left(e_{0} \mid x_{1}, \ldots, x_{k}\right)=0$
  2. 如果$e_0$和$u$无关,$\operatorname{Var}\left(u+e_{0}\right)=\sigma_{u}^{2}+\sigma_{e}^{2}>\sigma_{u}^{2}$(方差变大是无法避免的)

取log的时候,测量偏误形式:$\log (s c r a p)=\log \left(s c r a p^{*}\right)+e_{0}$

Measurement Error in an Explanatory Variable

$$
y=\beta_{0}+\beta_{1} x_{1}^{}+u\e_{1}=x_{1}-x_{1}^{}\
y=\beta_{0}+\beta_{1} x_{1}+\left(u-\beta_{1} e_{1}\right)
\
E\left(u \mid x_{1}\right)=E\left(u \mid x_{1}^{}\right)=E\left(u \mid x_{1}^{}, x_{1}\right)=0 \Rightarrow E\left(y \mid x_{1}^{}, x_{1}\right)=E\left(y \mid x_{1}^{}\right)
$$

假设一:$\operatorname{Cov}\left(x_{1}, e_{1}\right)=0$ 测量出来的结果和测量误差无关
$$
\operatorname{Cov}\left(x_{1}, u\right)=\operatorname{Cov}\left(x_{1}, e_{1}\right)=0\
\operatorname{Cov}\left(x_{1}, u-\beta_{1} e_{1}\right)=0
$$
$\operatorname{Var}\left(u-\beta_{1} e_{1}\right)=\sigma_{u}^{2}+\beta_{1}^{2} \sigma_{e_{1}}^{2}$,从而误差方差变大,但是不会影响OLS特性(无偏性、一致等)

假设二:Classical Erros in Variable (CEV) assumption $\operatorname{Cov}\left(x_{i}^{}, e_{1}\right)=0$ 真实变量与测量误差无关
$$
\operatorname{Cov}\left(x_{1}, e_{1}\right)=E\left(x_{1}, e_{1}\right)=E\left(x_{1}^{
}, e_{1}\right)+E\left(e_{1}^{2}\right)=0+\sigma_{e_{1}}^{2}=\sigma_{e_{1}}^{2}\
\operatorname{Cov}\left(x_{1}, u-\beta_{1} e_{1}\right)=-\beta_{1} \operatorname{Cov}\left(x_{1}, e_{1}\right)=-\beta_{1} \sigma_{e_{1}}^{2}
$$
亦即测量变量必定和测量误差相关,从而也必定与纳入测量变量后的模型中的误差项相关,这导致OLS回归估计系数有偏且不一致。
$$
\begin{aligned}
\operatorname{plim} \widehat{\beta}{1}%=\beta{1}+\frac{\operatorname{Cov}\left(x_{1}, \text { error }\right)}{\operatorname{Var}\left(x_{1}\right)}\
&=\beta_{1}+\frac{\operatorname{Cov}\left(x_{1}, u-\beta_{1} e_{1}\right)}{\operatorname{Var}\left(x_{1}\right)} \
&=\beta_{1}-\frac{\beta_{1} \sigma_{e_{1}}^{2}}{\sigma_{x_{1}^{}}^{2}+\sigma_{e_{1}}^{2}} \
&=\beta_{1}\left(1-\frac{\sigma_{e_{1}}^{2}}{\sigma_{x_{1}^{
}}^{2}+\sigma_{e_{1}}^{2}}\right) \
&=\beta_{1}\left(\frac{\sigma_{x_{1}^{}}^{2}}{\sigma_{x_{1}^{}}^{2}+\sigma_{e_{1}}^{2}}\right)
\end{aligned}
$$
结论:

  1. 单变量回归中存在衰减偏误 attenuation bias($\hat \beta_1$的绝对值总是比$\beta_1$小),多变量回归中不能判断偏误的大小和方向
  2. 使用工具变量解决

Missing Data, Nonrandom Samples and Outliers

MLR2: a random sample of n obervations

Missing Data

If the data are missing at random, then the size of the random
sample is simply reduced.

Although this makes the estimates less precise, it does not introduce
any bias.

可以通过在模型中同时加入存在缺失值的解释变量和代表这个解释变量是否缺失的虚拟变量进行解决(比需要加入虚拟变量,否则相当于默认用0代替解释变量的缺失值)

A problem can arise if the data is missing systematically - say high
income individuals refuse to provide income data.

Non Random Sample

If the sample selection based on the independent variables, the
estimators are unbiased. This is called exogenous sample selection. (估计的仍然是同一条线,只不过可能只估计了上半段或者下半段)

If the sample selection based on the dependent variables, this is called
endogenous sample selection.

Stratified sampling可能会导致内生性样本选择(例如增加少数群体的代表性,防止想要研究的少数群体的样本非常稀少),然而由于选择时考虑的因素如果是因变量的话,就会导致产生内生性样本选择问题。这时可以通过

思考题9.4:

如果我们对在任总统的竞选指出对选民支持率的影响感兴趣。某些在任总统作出不追求连任的选择。如果我们只能搜集到那些确实希望连任的在任者在投票支持率和指出方面的数据,那么这里有内生样本选择的可能吗?

A: 一个在任总统参加或不参加竞选的决策,可能与他对选举结果的预期相关。(The decision to work might be related to unobserved factors that
affect (potential) wages.)因此样本中的在任者可能比所有可能参加连任竞选的在任者的能力更强。如果所关心的总体包括所有在任者,则会导致样本选择问题,如果只关心追求连任者,就不存在样本选择问题。

Outliers

Outliers: 对OLS估计值有比较强的影响的若干观测。将其从回归中去掉,会使得OLS估计值发生很大的变化。

对于存在极端值的情况,应该分别做保留极端只和去掉极端值的两个回归。

应对极端值的方式:

  1. Drop 掉
  2. 使用对极端值不那么敏感的方程形式(例如取对数)
  3. 使用对极端值不那么敏感的模型(例如Least Absolute Deviations 而不是OLS)

发现极端值的方法:

​ Studentized residuals = residuals/其标准差估计值,可以通过在模型中加入一个只对outlier observation取1 的虚拟变量进行非常简单的实现。(然而studentized residuals的大小不一定与一个观测对OLS斜率估计值的影响大小相对应)

LAD Least Absolute Deviations

$$
\min {b{0}, b_{1}, \ldots, b_{k}} \sum_{i=1}^{n}\left|y_{i}-b_{0}-b_{1} x_{i 1}-\ldots-b_{k} x_{i k}\right|
$$

优点:

  1. Because LAD does not give increasing weight to larger residuals, it is
    much less sensitive to changes in the extreme values of the data than
    OLS.

    LAD is designed to estimate the parameters of the conditional
    median of y given x1; x2; …, xk rather than the conditional mean. 而中位数不受极端值的影响。

  2. 由于LAD估计的是中位数,其在经过单调变换后很容易得到偏效应和估计量。(例如取对数)($Med(\cdot)$相较于$E(\cdot)$的优势。)

In Stata, LAD can be estimated using qreg command, also called
median regression.

缺点:

  1. 所有关于LAD估计量的统计推断只有在样本容量逐渐增大的情况下才是合理的。
  2. Notice that when mean and median are different, (y并不围绕$\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\ldots+\beta_{k} x_{k}$对称分布,换言之,总体误差项u并不关于0对称) OLS and LAD will
    produce quite different estimation results. 但如果假定模型中的总体误差独立于x1 xk,那么无论u的分布是否对称,LAD和OLS斜率的估计值应该只因抽样误差而有所区别。截距的估计值通常不同。
  3. 不是条件均值的文件估计量,要么给定x后u关于0对称分布,要么u必须独立于x

Instrumental Variables

Omitted Variables in a Simple Regression Model

解决遗漏变量问题的方法:

  1. 讨论存在的偏误
  2. 代理变量
  3. 面板数据 assume that the unobserved effects do not change over time
  4. 工具变量

IV变量z需要满足的假定

  1. 工具外生性 Instrument exogeneity z与u不相关,即$\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\ldots+\beta_{k} x_{k}$。(无法通过计量方式被检验,只能被说明)

  2. 工具相关性 Instrument relevance$\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\ldots+\beta_{k} x_{k}$ 工具变量需要与内生变量相关。

    检验方法:$x=\pi_{0}+\pi_{1} z+v$ 中$\pi_{1}=\frac{\operatorname{cov}(z, x)}{\operatorname{var}(z)}\neq 0$

Identification with Instrumental Variables
$$
由y=\beta_{0}+\beta_{1} x+u\
\operatorname{cov}(z, y)=\beta_{1} \operatorname{cov}(z, x)+\operatorname{cov}(z, u)\
如果z与u无关.\ \beta_{1}=\frac{\operatorname{cov}(z, y)}{\operatorname{cov}(z, x)}
$$
$\beta_1$的insturmental variables estimator:
$$
\begin{array}{c}
\widehat{\beta}{1}=\frac{\sum{i=1}^{n}\left(z_{i}-\bar{z}\right)\left(y_{i}-\bar{y}\right)}{\sum_{i=1}^{n}\left(z_{i}-\bar{z}\right)\left(x_{i}-\bar{x}\right)} \
\widehat{\beta}{0}=\bar{y}-\widehat{\beta}{1} \bar{x}
\end{array}
$$
A simple application of law of large numbers shows that the IV
estimator is consistent. A simple application of law of large numbers shows that the IV
estimator is consistent. But keep in mind that in small samples the IV estimator can have a
substantial bias, so that large samples are preferred.

Statistical Inference with IV

为了对$\beta_1$进行统计推断,需要使用se来计算t统计量和置信区间。假设误差项u对工具变量z满足条件同方差假设。:(注意不是对x满足同方差假设):$E\left(u^{2} \mid z\right)=\sigma^{2}=\operatorname{Var}(u)$

满足三个假定后,$\hat \beta_1$的渐近方差 asymptotic varianc为:$\operatorname{Var}\left(\hat{\beta}{1}\right)=\frac{\sigma^{2}}{n \sigma{x}^{2} \rho_{x, z}^{2}}=\frac{\widehat{\sigma}^{2}}{S S T_{x} \cdot R_{x, z}^{2}}$

说明:

  1. $\sigma ^2$: $\widehat{u}{i}=y{i}-\hat \beta_{0}-\hat \beta_{1} x_{i}$, $\widehat{\sigma}^{2}=\frac{1}{n-2} \sum_{i=1}^{n} \widehat{u}{i}^{2}$ 其中$\hat \beta{0},\ \hat \beta_{1}$为IV的估计量
  2. $ \sigma_{x }^{2}$: $\frac{S S T_{X}}{n}$
  3. $\rho_{x, z}^{2}$ 是the square of the population corelation between x and z. run reg of xi on zi and obtain R-squared.

由于$R^2$总是小于1,这意味着IV的estimator的方差更大,standandard error变大,估计的显著性变小。但是如果x和z相关性非常大的话(趋于1)standard error就会越接近本来的。$cov(x,u)\neq 0$的时候,渐近方差会非常大

低劣工具变量条件下IV的性质

低劣工具变量的问题:

  1. 如果z与x弱相关,IV估计量的标准误可能很大
  2. 如果z与x若相关,即使z与u只是适度相关,IV估计量的渐近偏误可能很大

$\operatorname{plim} \hat{\beta}{1, \mathrm{IV}}=\beta{1}+\frac{\operatorname{Corr}(z, u)}{\operatorname{Corr}(z, x)} \cdot \frac{\sigma_{u}}{\sigma_{x}}$ 若z,u之间的相关系数小于z,x之间的相关系数使用IV不一定比使用OLS好。

$\operatorname{plim} \hat{\beta}{1, \text { ous }}=\beta{1}+\operatorname{Corr}(x, u) \cdot \frac{\sigma_{u}}{\sigma_{x}}$ IV和OLS的渐近偏误方向可能不同。

$R^2$ of IV Estimation

$R^{2}=1-S S R / S S T$

  1. 其中SSR 是IV残差的平方和,SST是y的平方和。
  2. IV的$R^2$可能是负的:SSR可能比SST大。
  3. When x and u are correlated, we cannot decompose the variance of y
    into $\operatorname{Var}(y)=\beta_{1}^{2} \operatorname{Var}(x)+\operatorname{Var}(u)$ 从而导致$R^2$没有一个很好的解释。
  4. 不能直接用在F检验中做联合检验。

然而使用IV的目的不是为了追求拟合优度,如果不能一致地估计除$u_1$的话,$R^2$再高可能也没什么用

IV Estimation of the Multiple Regression Model

structural equation $y_{1}=\beta_{0}+\beta_{1} y_{2}+\beta_{2} z_{1}+u_{1}$。$y_1, y_2$内生(与u相关)$z_1$外生(与u无关)

reduced form equation: $y_{2}=\pi_{0}+\pi_{1} z_{1}+\cdots+\pi_{k-1} z_{k-1}+\pi_{k} z_{k}+v_{2}$ 含义是用所有的外生变量来表示一个内生变量。

reduced form equation of $y_1$: $y_{1}=\gamma_{0}+\gamma_{1} z_{1}+\cdots+\gamma_{k^{4}}+e_{1}$ 其中$\gamma_{k}=\beta_{1} \pi_{k}, \text { and } e_{1}=u_{1}+\beta_{1} v_{2}$

例子:$y_2$是一个表示是否参加项目的0-1变量;$z_k$十一个表示项目参与资格的0-1变量。此时$\gamma_k=\beta_1 \pi_k$表示了拥有资格的影响,而不是世纪参与的影响,意向参加治疗参数$\gamma_k=\beta_1 \pi_k$取决于世纪参与$\beta_1$和由于参与资格而发生的世纪参与概率变化的$\pi_k$

$z_1$作为解释 变量出现在了模型中,因而不能作为$y_2$的工具变量,我们需要额外找一个没有出现的外生变量$ z_2$。满足:$z_1,\ z_2$与$u_1$不相关(外生),$u_1$零均值。$E\left(u_{1}\right)=0, \operatorname{Cov}\left(z_{1}, u_{1}\right)=0, \text { and } \operatorname{Cov}\left(z_{2}, u_{1}\right)=0$

Method of moments approach:
$$
\begin{aligned}
\sum_{i=1}^{n}\left(y_{i 1}-\widehat{\beta}{0}-\widehat{\beta}{1} y_{i 2}-\widehat{\beta}{2} z{i 1}\right) &=0 \
\sum_{i=1}^{n} z_{i 1}\left(y_{i 1}-\widehat{\beta}{0}-\widehat{\beta}{1} y_{i 2}-\widehat{\beta}{2} z{i 1}\right) &=0 \
\sum_{i=1}^{n} z_{i 2}\left(y_{i 1}-\widehat{\beta}{0}-\widehat{\beta}{1} y_{i 2}-\widehat{\beta}{2} z{i 1}\right) &=0
\end{aligned}
$$
$y_{2}=\pi_{0}+\pi_{1} z_{1}+\pi_{2} z_{2}+v_{2}, \pi_{2} \neq 0$ (排除了$z_1$的影响后,$y_2$和$z_2$依然相关;外生解释变量之间不存在完全线性关系)

Two Stage Least Squares

单个内生解释变量

structural equation: $y_{1}=\beta_{0}+\beta_{1} y_{2}+\beta_{2} z_{1}+u_{1}$除$z_1$外还有$z_2,\ z_3$两个外生解释变量。

Exclusion restrictions: (1)$z_2,\ z_3$不包括在structrual equation中 (2)$z_2,\ z_3$与$u_1$无关。

$y_2$的reduced equation 给出与$y_2$最高度相关的线性组合:$y_{2}=\pi_{0}+\pi_{1} z_{1}+\pi_{2} z_{2}+\pi_{3} z_{3}+\nu_2$

$y_2$最好的IV是:$y_{2}^{*}=\pi_{0}+\pi_{1} z_{1}+\pi_{2} z_{2}+\pi_{3} z_{3}$(剔除了了$y_2$中与$u_1$相关的部分)

​ 为了使$y_2$不与$z_1$完全相关(否则缺少模型外的外生变量),需要假设$\pi_{2} \neq 0\text{或者} \pi_{3} \neq 0$ (可以用F统计量进行检验)

做OLS回归得到拟合值:$\hat{y}{2}=\hat{\pi}{0}+\hat{\pi}{1} z{1}+\hat{\pi}{2} z{2}+\hat{\pi}{3} z{3}$

将得到的拟合值作为$y_2$的工具变量代入原来的矩方法中的第三个方程,得到IV估计量(在多重工具的情况下,也叫做两阶段最小而成(2SLS)估计量)。$\sum_{i=1}^{n} \hat{y}{i2}\left(y{i 1}-\hat{\beta}{0}-\hat{\beta}{1} y_{i 2}-\hat{\beta}{2} z{i}\right)=0$

第一阶段是得到拟合值,第二阶段是做$y_1$对$\hat y_2$和$z_1$的OLS回归。

需要避免手动做2SLS,手动操作得到的se和检验统计量是不正确的。

多重共线性与2SLS

The (asymptotic) variance of the $2 \mathrm{SLS}$ estimator of $\beta_{1}$ can be approximated as $\frac{\sigma^{2}}{\widehat{S S T}{2}\left(1-\widehat{R}{2}^{2}\right)}$

$\text { where } \sigma^{2}=\operatorname{Var}\left(u_{1}\right), \widehat{S S T}{2} \text { is total variation in } \widehat{y}{2}, \text { and } \widehat{R}_{2}^{2} \text { 是第一阶段获得内生变量拟合值的} R^{2}$

2SLS得到的方差更大,原因是:

  1. $\hat y_2$的变化比$y_2$更小

  2. $\hat y_2$与其他外生解释变量的相关性比$y_2$高得多(即存在多重共线性问题)

    大样本可以一定程度上换届$\hat R_2 ^2$过大的问题

检测弱工具变量

Staiger and Stock: 即使样本规模非常大,2SLS 估计量也可能是有偏的,并且其分布显著不同于标准正态分布。

经验法则:一阶段t值的绝对值大于$\sqrt 10 = 3.2$ ; 2SLS的时候F>10,就可以继续使用一般工具变量的结论。

多个内生解释变量

$y_{1}=\beta_{0}+\beta_{1} y_{2}+\beta_{2} y_{3}+\beta_{3} z_{1}+\beta_{4} z_{2}+\beta_{5} z_{3}+u_{1}$ 使用2SLS的时候需要至少两个不包括在结构方程中的外生变量作为$y_2$和$y_3$的工具变量。另外,$y_2$和$y_3$的简约方程中不能只有同一个外生变量显著(相当于只有一个工具变量)。

秩条件:多个内生解释变量识别的必要条件:被排除的外生解释变量至少和内生解释变量的数量一样多。

用IV的方法解决测量误差

CEV假定成立的情况下,$y=\beta_{0}+\beta_{1} x_{1}^{}+u\e_{1}=x_{1}-x_{1}^{}\
y=\beta_{0}+\beta_{1} x_{1}+\left(u-\beta_{1} e_{1}\right)$$x_1$是内生变量,IV的方法是找到$x_1^$的另一个度量$z_1=x_1^+a_1$并满足$a_1$与$e_1$不相关,然后用$z_1$做$x_1$的工具变量。(这一问题还可以再嵌套一个代理变量的问题,例如用两个测验的成绩,一个作为另一个成绩的工具变量来代理能力。)

内生性检验与过度识别约束检验

内生性检验

内生性检验的目的:确定解释变量是否内生,以及2SLS是否必要

$y_{1}=\beta_{0}+\beta_{1} y_{2}+\beta_{2} z_{1}+\beta_{3} z_{2}+u_{1}$

$y_{2}=\pi_{0}+\pi_{1} z_{1}+\pi_{2} z_{2}+\pi_{3} z_{3}+\pi_{4} z_{4}+v_{2}$

由于$z_j$与$u_1$无关,$y_2$与$u_1$无关当且仅当$v_2$与$u_1$无关。

$u_{1}=\delta_{1} v_{2}+e_{1}$

$y_{1}=\beta_{0}+\beta_{1} y_{2}+\beta_{2} z_{1}+\beta_{3} z_{2}+\delta_{1} \widehat{v}_{2}+\text { error }$

$H_0: \delta_1 = 0$

步骤:

  1. 用$y_2$对所有外生变量回归,估计出来残差$\hat v_2$
  2. 把$\hat v_2$放到结构方程中,然后检验其回归系数是否显著,如果显著的话$y_2$就是内生变量。(异方差稳健的t统计量)

Pooled Cross-Sectional and Panel Data

pooled cross-sectional data: 不是 面板数据,多个时间点,但是每次的样本是重新抽的。 可以扩大样本量和研究事件上的动态变化。

如果只放年份dummy的话,会得到总体的corhort差异。放入其他变量的含义是,背景相同的人(教育、收入、种族等),生育行为随时代发展的变化。

$\begin{aligned}
\log (\text { wage }) &=\beta_{0}+\delta_{0} y 85+\beta_{1} e d u c+\delta_{1} e d u c \times y 85+\beta_{2} \text { exper } \
&+\beta_{3} \text { exper }^{2}+\beta_{4} \text { union }+\beta_{5} \text { female }+\delta_{5} \text { female } \times y 85+u
\end{aligned}$交互项的含义:85年和78年相比,教育回报的差异。The intercept for 1978 is $\beta_{0}$, and the intercept for 1985 is $\beta_{0}+\delta_{0}$.

The Chow Test for Structural Change across Time

1st step: estimate the restricted model by doing a pooled regression allowing for different time intercepts; obtain $S S R_{r}$
2nd step: run a regression for each of the $T$ time periods and obtain the SSR for each time period.
$$
S S R_{u r}=S S R_{1}+S S R_{2}+\cdots+S S R_{T}
$$
3rd step: Compute the $F$ statistic as usual:
$$
\frac{\left(S S R_{r}-S S R_{u r}\right)}{S S R_{u r}} \cdot \frac{n-T-T k}{(T-1) k}
$$
(若虚拟变量分为M类,则unrestricted model 中待估参数有M+Mk个,需要检验的约束有(M-1)k个)

Policy Analysis with Pooled Cross-Sectional Data (DID)

$$
\begin{array}{|c|c|c|}
\hline & \begin{array}{c}
D_{i}=1 \
\text { (participants) }
\end{array} & \begin{array}{c}
D_{i}=0 \
\text { (non-participants) }
\end{array} \
\hline y_{t i}+\Delta_{i} & \text { observable } & \begin{array}{c}
\text { unobservable } \
\text { (counterfactual) }
\end{array} \
\hline y_{t i} & \begin{array}{c}
\text { unobservable } \
\text { (counterfactual) }
\end{array} & \text { observable } \
\hline
\end{array}
$$

We may use the regression model to estimate causal effects.
But we are unable to measure on individual causal effect, a suitable strategy is to estimate average causal effect.

$x_{1}, \ldots, x_{k}:$ Variables that affect the outcome measure and the participation in the intervention.

$D:$ Dummy variable: 1 for participants, 0 for non-participants.

$T:$ Dummy variable: 1 for period $t$ after the intervention, 0 for period $t^{\prime}$ before the intervention.

Cross-Section Comparison

Identification assumption: The average value of the outcome measure of participants would have changed in the same way as the outcome measure of non-participants if the participants had not participated in the intervention:
$$
E\left(y_{t} \mid x_{1}, \ldots, x_{k}, D=1\right)=E\left(y_{t} \mid x_{1}, \ldots, x_{k}, D=0\right)
$$