Анатолыев Е. Л. - Эконометрика
Курс служит введением в принципы современного искусства эконометрического оценивания и построения выводов как для кросс-данных, так и для временных рядов. Неудовлетворенность точным подходом заставляет нас рассмотреть две альтернативы: асимтотический и бутстраповский подходы. Изучив определенные важные эконометрические тонкости обоих подходов, курс концентрируется на построении и изучении свойств линейных оценок. Тем не менее, заключительная часть курса посвящена простейшим нелинейным моделям и методам.
Акцент делается на решении концептуальных задач эконометрики, нежели на математических тонкостях; тем не менее, последние иногда неизбежны. Домашние задания по курсу содержат как теоретические задачи, так и практические задания, подразумевающие использование пакета GAUSS, Задания служат важным ингредиентом обучающего процесса, в котором часто будут встречаться теоретические и эмпирические примеры,
2 Рекомендуемая литература
1, Goldberger, A, A Course in Econometrics, Harvard University Press
2, Greene, W, Econometric Analysis, 3rd edition
3, Poteher, B,, Prueha, I, (2001) Basic elements of asymptotic theory , in: A Companion to Theoretical Econometrics, edited by Baltagi, B,, Blackwell Publishers
4, Horowitz, J, (2001) The bootstrap, in: Handbook of Econometrics, vol, 5, Elsevier Science, North-Holland
I Приближенный подход к построению статистиче
ских выводов
1 Сравнение точного и приближенного подходов
Часто при эмпирическом анализе данных возникает ситуация, когда эконометрист, имея оценку некоторого параметра, хочет изучить ее статистические свойства. Для этого ему необходимо знать функцию распределения полученной оценки. Например, функция распределения всегда бывает нужна для построения доверительных интервалов или тестирования статистических гипотез.
Существует два подхода к вопросу о распределении оцениваемого параметра: точный и приближенный.
Точный подход основан на предположении о точном виде распределения данных. Затем распределение данных трансформируется в распределение построенной оценки.
Пример: Пусть условное распределение переменной Y имеет вид нормального со средним X в н дисперсией a2In, т,е,
Y |Х - N (Хв, a2In)
Тогда стандартная OLS оценка тоже имеет нормальное условное распределение:
воьн = (Х'Х )~1Х 'Y |Х - N (в, a2(X' X )~1)
Недостатки точного подхода достаточно очевидны. Во-первых, чтобы использовать точный подход, необходимо сделать предположение о виде функции распределения данных. Во-вторых, точный подход обычно ограничивается нормальным распределением, поскольку если данные имеют распределение, отличное от нормального, аналитический вывод распределения искомой оценки зачастую становится очень трудоемкой задачей. Наконец, точный подход ограничивает класс моделей и оцениваемых параметров, по-еущеетву, сводя всё к линейному случаю.
Нелинейность модели снова делает вывод распределения оцениваемого параметра вычислительно трудной задачей.
Приближенный подход основан на аппроксимации распределения оцениваемого параметра, В настоящее время существует два метода, относящихся к приближенному подходу: асимтотический и бутстра,повский.
Идея асимптотического метода в том, чтобы для построения приблизительного распределения оцениваемого параметра использовать предельное распределение выборочных средних. Несомненным достоинством такого подхода является факт, что используемые предельные распределения обычно являются стандартными и затабу-лированными, что делает ненужными сложные математические выкладки, С другой стороны, асимтотическая аппроксимация распределения оценки может быть плохой, и более того, мы не знаем, насколько хороша полученная оценка. Кроме того, аеим-тотический подход может также потребовать значительных аналитических вычислений,
Бутстраповский метод аппроксимирует распределение оцениваемого параметра, используя эмпирическое распределение данных ,
В настоящее время эконометристы предпочитают использовать приближенный подход, поскольку точный требует очень сильного предположения о виде распределения исходной выборки. Разумно считать, что это распределение неизвестно исследователю.
2 Концепции асимптотической теории
Основными понятиями асимптотической теории являются состоятельность, асимптотическая, нормальность и асимптотическая эффективность.
Пусть нас интересуют асимптотические свойства оценки Д, полученной из выборки размера и. Поскольку мы предполагаем случайную природу исходных данных, то и построенная оценка будет случайной величиной. Таким образом, мы имеем последовательность случайных величин - для каждого и своя Д, Тогда оценка Д называется :
- Состоятельной, если Д Д где в - истинное значение оцениваемого параметра,
- Асимптотически нормальной, если и6(Д в) ^ N(д, Е)
- Асимптотически более эффективпой, чем Д2), если при
Л(Д в) N(д, Е)
и6(Д2) в) ^ N(д,Е)
матрица (Е(2) Е) является положительно определенной,
Очевидно, что состоятельность оценки необходима, сели мы хотим делать какие-либо количественные выводы об истинном параметре, исходя из полученной оценки. Асимптотическая нормальность важна по той причине, что построение статистических тестов или критических интервалов требует знания распределения оценки, Т, к, точного распределения мы не знаем, то пользуемся асимптотическим, нормальным распределением.
Эффективность оценки желательна, поскольку чем более эффективна оценка, тем точнее она предсказывает истинный параметр. Грубо говоря, дисперсия эффективной оценки мимнимальна среди дисперсий оценок некоторого класса, Таким образом, при использовании асимптотического подхода нас интересуют три вещи: состоятельность, асимптотическая нормальность и асимптотическая эффективность.
3 Кое-что о последовательностях случайных величин
При предположении о случайной природе исходной выборки (данных), построенные оценки являются, как правило, случайными величинами. Для дальнейшего исследования статистических свойств оценок дадим несколько определений и результатов, относящихся к моделям сходимости последовательностей случайных величин.
Определение 1 (сходимость почти наверное). Матричная последовательность Zn случайных величин сходится к случай ной матрице Z почти наверное (или с ее-роятностъю единица), т.е, Zn -^ Z, если
Pr{ lim Zn = Z} = 1,
П
t, e, "почти каждая" траектория сходится к Z,
Определение 2 (сходимость по вероятности). Матричная последовательность Zn случайных величин сходится к случай ной матрице Z по вероятности, т.е, Zn Р-^ Z или p lim Zn = Z, если
Ve 0 lim Pr{||Zn Z|| e} = 0,
n^
t, e, вероятность "больших отклонений" от Z стремится к 0,
Определение 3 (сходимость в средне-квадратичных отклонениях). Матричная последовательность Zn случайных величин сходится к случай ной матрице Z е средне-квадратичных отклонениях, т.е, Zn ^ Z , если
lim E[||Zn ZII2] = 0,
n^
т, e, среднеквадратичная ошибка стремится к 0,
Определение 4 (сходимость по распределению). Матричная последовательность Zn случайных величин сходится к случай ной матрице Z по распределению, т, е, Zn U Z или Zn U Dz, где DZ - распределение Z, если
lim Pr{Zn z} = Pr{Z z}
n
для всех точек непрерывности z распределения Dz,
Можно показать, что сходимость по вероятности следует из сходимости почти наверное или сходим,ости в средне-квадратичных отклонениях . Сходимость по распределению, в свою очередь, вытекает из сходим,ости по вероятности,.
Результат 1. {Zn U Z или Zn С Z} ^ Zn U Z Результат 2. Zn U Z ^ Zn U Z.
Результат 3. Если Z - константа, то {Zn U Z} ^ Zn U Z
Пример: Рассмотрим последовательность случайных величин
ZZZZ Z
{ n} = {Т, 1 ,У’ 1
где Z имеет стандартное нормальное распределение N(0,1). Тогда E(Zn) = 0 и Var(Zn) = Дг.
Таким образом Zn U 0, а, следователь но, и Zn U 0 (см. Результат !)¦
4 Кое-что о последовательностях функций случайных величин
Существует также несколько полезных теорем, которые нам понадобятся впоследствии. Здесь они приведены без доказательств.
Теорема (Манна-Вальда), Пусть функция g : RklXk2 u RllXlr непрерывнa, a Zn -последовательность случайных величин, тогда:
- Если Zn U Z, то g(Zn) U g(Z).
- Если Zn U Z, to g(Zn) U g(Z).
- Если Zn U Z и g линейна, то g(Zn) U g(Z).
- Есл и Zn U Z, to g(Zn) U g(Z).
Замечание: Если Z константа, то для выполнения теоремы достаточна только локальная непрерывность функции g в точке Z.
Теорема (Слуцкого), Если последовательность случайных величин Un сходится по вероятности к некоторой константе U, а последовательность случайных величин Vn сходится по распределению к случайной величине V, т,е, Un U U и Vn U V, то:
- Un + Vn U U + V
- Un Vn U UV
- U-1Vn U U-1V, если Pr{det(Un) = 0} = 0
Ещё раз обратим внимание на тот факт, что в теореме Слуцкого одна последовательность должна сходиться по вероятности к константе. Если это не так, то теорема, вообще говоря, не верна.
Следующий пример демонстрирует это.
Пример: Пусть случайная величина Z имеет стандартное нормальное распределение, т. е, Z ~ N(0,1), Рассмотрим две последовательности случайных величин: {Zn} = {Z,Z,Z,Z,...} и {Xn} = {Z, Z, Z, Z,... }. Ясно, что {Zn} U Z и {Xn} U Z, Однако, {Zn + Xn} = {2Z, 0, 2Z, 0, 2Z,... }, Таким образом, последовательность суммы случайных величин не сходится по вероятности к Z, Т.е. теорема Слуцкого неприменима.
Теорема (Дельта Метод), Пусть последовательность случайных векторов Z размерности k х 1 удовлетворяет уеловию ^n(Zn Z) U N(0, Е), где Z = plim Zn -константа, и функция д: Rk u R1 непрерывно дифференцируем а в точке Z, Тогда
?П(дЩ) g(Z)) U N(0,GEG')
гдеС = 2гіД |z_z.
Примеры 1 и 2 демонстрируют применение теоремы Манна-Вальда и Дельта Метода на практике.
Пример 1: Пусть x U ц и Дп(х ц) U N(0, Е), Рассмотрим непрерывно дифференцируемую функцию g(x) = x'x. По теореме Манна-Вальда
Е1/2ДП(х ц) U N(0,4)
где (Е-1/2)'Е-1/2 = Е-1, Таким образом, получаем результат:
Дп(х цУЕ-1(х ц) U x2(k).
Используя Дельта Метод, получим:
\fn(x'x Д д) -^ N(0,4д'Ед),
учитывая, что G = = 2хД = 2д'
Пример 2: Пусть
г(хг
'n _
_\Х2
Рассмотрим выражение ¦ По теореме Манна-Вальда:
Ді
Д2
N (0,Д).
Хі Ді d N (0,1) Х2 Д2 N (0, 1)
Cauchy.
Т е, интересующая нас величина имеет распределение Коши, Теперь рассмотрим непрерывно дифференцируемую функцию д няя Дельта Метод, имеем:
, Приме-
xo *
__Ді
Д2 ’ Д2
(Ml)
Таким образом,
2\
1+ ^
\Ю2
д2
Хі
Х2
Ді
Д2
5 Законы Больших Чисел (ЗБЧ) и Центральные Предельные Теоремы (ЦПТ) для независимых наблюдений
Основными инструментами построения статистических выводов в асимптотическом подходе являются Законы Больших Чисел (ЗБЧ) и Центральные Предельные Теоремы, (ЦПТ), ЗБЧ представляет собой результат о сходимости выборочного среднего, ЦПТ дает представление о предельном распределении выборочного среднего. Существует довольно большое количество формулировок ЗБЧ и ЦПТ.
Нас будут интересовать ЗБЧ и ЦПТ для двух основных случаев: независимые наблюдения и стационарные, эргодичные временные ряды, Далее приводятся ЗБЧ и ЦПТ для независимых или серийно неекоррелированных скалярных случайных величин.
Теорема А (Колмогорова, независимые одинаково распределенные наблюдения). Пусть случайные величины |^га}=і независимы и одинаково распределены. Кроме того, пусть существует математическое ожидание E\Zi\, Тогда:
E [Z*].
Теорема В (Колмогорова, независимые однородные наблюдения). Пусть случайные величины {Zn}=1 независимы и имеют конечные дисперсии а2, Если
І=11? ж т
- Е Zi - E
^
1Е Zi
i= 1
i=1
Теорема С (Чебышева, некоррелированные наблюдения). Пусть случайные величины {Zn}=1 некоррелированы, т.е. Cov(Zi, Zj) = 0 для i = j, Если П? ^П=1 а2
0, то:
Е Zi - E
Е Zi
i=i
0.
i= 1
Теорема E (Линдберга-Леви, независимые одинаково распределенные наблюдения). Пусть случайные величины {Zn}=1 независимы и одинаково распределены с математическим ожиданием E||Zi| = д и дисперсией Var[Zi] = а2. Тогда:
 |
| i=1 |
N(0, а2).
Теорема F (Ляпунова, независимые однородные наблюдения). Пусть случайные величины {Zn}=1 независимы с математическим ожиданием E[Zi] = ді, дисперсией Var[Zi] = а2 и третьим центральным моментом E [|Zi ді|3] = ?і. Тогда, если
1/3
(ЕП=і ?і)
(ЕП=і а2)1/2 n
то
N (0,1).
En=1(Zi ді) _±
(EL, а?)1/2
6 Статистические выводы с помощью асимптотического подхода
Идея построения статистических выводов при помощи асимптотического метода довольно очевидна. Вместо точного распределения оценки берется асимптотическое, на основании которого строятся тестовые статистики.
Пример:
V(Zn д) N(0, а2)
В данном случае мы имеем дело с выборочным средним Zn, которое согласно ЦПТ имеет асимтотически нормальное распределение. Заметим, что в данном случае распределение зависит от неизвестного параметра а2, поэтому етатиетика Zn является непивоталъной статистикой.
Определение: Статистика называется (асимтотически) пивотальной, если ее (асимптотическое) распределение не зависит от неизвестных параметров.
Возвращаясь к нашему примеру, мы можем получить пивотальную статистику, построив состоятельную оценку дИСперСИИ а2:
N(0,1),
Vn(Zn - д) \fn{Zn - д) о
т.к. согласно ЦПТ ^n(Z§i-p) С N(0,1), а в силу состоятельности оценки О2, § С 1, Теперь, зная асимптотическое распределение построенной статистики можно построить доверительный интервал. Так аеимтотичеекий доверительный питервал для д будет: [Zn - Jnд-f ^;Zn + ^qf-(01)] ¦
Предположим теперь, что нам нужно протестировать гипотезу Н0 : д = д0. Согласно построенному нами а процентному доверительному интервалу гипотеза будет оТВергаТЬСЯ, если ? 1 ^ а . В противном случае гипотеза принимается.
Итак, с данным примером все кажется ясным, но возникает резонный вопрос: как построить состоятельную оценку дисперсии? Оказывается, выборочная дисперсия будет состоятельной оценкой для дисперсии:
1 ?(Zi - Z,,)2 = 1 ?(Z - д)2 - (Zn - д)2 С О,
\ n ^ \ n
^ г=1 ^ г=1
\2 Р
поскольку из ЗБЧ n ?- д)2 -С E[(Z* - д)2] = a2, a (Zn - д)
7 Асимптотический подход для временных рядов
До сих пор мы рассматривали асимптотические свойства оценок в случае независимых наблюдений, Т.е., если у нас есть последовательность Z1; Z2, Z3, ..., Zn, мы могли сказать, что у нас имеется n наблюдений, В случае временных рядов (наблюдений во времени) это, вообще говоря, не так. Каждая траектория Z1, Z2, Z3,..., ZT представляет собой в общем случае одно наблюдение, что сильно затрудняет анализ.
Для того, чтобы сделать использование асимтотического метода во временных рядах возможным, на природу исходных данных накладывают определенные ограничения: предположения о стационарности и эргодичности. Грубо говоря, стационарность-это "устойчивость" распределения Zt во времени, а эргодичность- это "потеря памяти со временем". Дадим более четкие определения:
Определение: Временной ряд называется строго стационарным, если совместное распределение Zt, Zt-1,..., Zt-k те зависит от t для любых к.
Поскольку точное определение эргодичности использует понятия теории меры и сигма-алгебры, дадим интуитивное определение: "Определение": Временной ряд Zt называется эргодичпым, если Zt и Zt+k асимптотически независимы при к ^ х.
Приведем примеры различных стационарных (нестационарных) и эргодичных (неэр-годичных)временных рядов:
Пример 1 (стационарные и эргодичные ряды):
- Zt ~ iid (независимые одинаково распределенные наблюдения)
- ?t ~ White Noise (Белый Шум)
- AR( 1) : zt = pzt-1 + ?t, |p| 1
- MA(1) : zt = ?t + ??t-1
Пример 2 (нестационарные и неэргодичные ряды):
- Random Walk (Случайное блуждание): zt = zt-1 + ?t
Диепереия наблюдений растет со временем: V ar(zt) = Var(zt-1) + о2, т.е. ряд нестационарен. Кроме того, шоки "не забываются" со временем: zt+k = zt +
Ek
i=i ?t+i, т-е- РЯД неэргодичен.
Пример 3 (стационарные и неэргодичные ряды):
- z N (0,1); zt = z + ?^^де ?t a z независимы.
Очевидно, что ряд стационарен, но неэргодичен.
Пример 4 (нестационарные и эргодичные ряды):
- Сезонный ряд: zt = s(r,t) + ?t, где s(r,t) = s(r,t + т),
Результат: Если случайный процесс zt является стационарным и эр годичным, и если Yt = f (zt,zt-1...) - случайная величина, то Yt является стационарным и эрго-дичным рядом.
Определение: Информацией в момент времени t называются все реализовавшиеся значения zk вплоть до zt, т.е.
It = {zt,zt-1.. .}.
Определение: Ряд zt называется последовательностью мартингальных приращений (MDS) по отношению к своему прошлому, если E[zt|It-1] = 0,
Сформулируем ЗБЧ и ЦПТ для временных рядов.
Теорема D (Биркоффа-Хинчина, зависимые наблюдения). Пусть ряд {Zt}+=’_IX стационарен и эргодичен. Кроме того, пусть E\Zt| то, тогда
т
E [Z]
t=i
при T и то.
Теорема G (Биллингслея, последовательность мартингальных приращений). Пусть ряд {Z^+C-^, стационарен, эргодичен и является MDS по отношению к своему прошлому. Кроме того, пусть а2 = E[Zt2] то, тогда
Vr^Zt
v т t=i
N (0 ,а2)
при T и то.
Теорема Н (зависимые наблюдения). Пусть ряд {Zt}+=_х стационарен и эргодичен. Кроме того, пусть
а2 = Cov[Zt,Zt_j] то.
І=-ж
Тогда при определенных условиях,
(T ? Zt - E[Ztlj -U N(0, а2)
при T и то.
Приведем примеры использования изложеньи выше теорем для исследования аеим-тотичееких свойств оценок во временных рядах.
Пример: Рассмотрим авторегрессионный процесс первого порядка ( AR(1)):
Xt = pxt_ 1 + ?.; \p\ 1; ?t ~ iid(0, а2).
Нас интересуют аеимтотичеекие свойства оценки OLS:
лТ
Et=2 xt_ixt = . Е1=2 xt_i?t
P +
т 2
t=2 xt_ 1
E-o x:
t= 2 xt_1
По теореме Биркоффа-Хинчина (Теорема D):
т
^^xt_i?t U E[xt_i?t] = Ф t=2
J2xt-1 E [x2-1].
T- 1
t=2
Следовательно, по теореме Слуцкого оценка p является состоятельной оценкой, т.е.
Теперь найдем аеимтотичеекое распределение OLS оценки:
V^T
ITf t=2 Xt-1?t
VT (p - p)
/T
T x2 V T - 1
-1 Z_t-2 xt-1 V
T-
Очевидно, что \ TTTг 1a tzt SL2 x2_1 ^ E[x2_1] (Теорема D),
V T 1 T 1
Покажем, что последовательность xt-1et является последовательностью мартингал fa-ных приращений (MDS) по отношению к информационному множеству
It-1 {xt-20-1, xt-зО-2 - - - }
E[xt-1?t|It-1] E[E[xt-1^t|xt-1,xt-20-1 - ..]|It-1] 0.
Т.е. последовательность xt-1et является MDS, Таким образом, мы можем применить ЦПТ Биллингслея для временных рядов (Теорема G):
T
^xt-1?t t=2
1
/Т-1
N(0, E[x?_1?t2]).
Заметив, что E [xf] Var[xt] p2Var[xt-1] + a2 --p, результат:
получим окончательный
/T (?- p) -^ N(0,1 - p2).
Соответствующая пивотальная статистика будет:
/Т (р - р) d
N (0,1).
В результате, доверительный интервал для р:
1 - р2
Т
CIp
1.96
Обратимся еще раз к теореме Н, Вид вариационной матрицы в аеимтотичееком распределении оценки требует некоторого пояснения. Когда мы имеем дело е последовательностью мартингальных приращений Zt; математическое ожн mime E [ZtZt-j ] равно нулю, т.е, E[ZtZt-j-] 0 для j 0, поэтому асимтотическая вариация для MDS
имеет простой вид: а2 = E[Zt2], Однако, всё сложнее для более зависимых наблюдений:
?zt
t=i
-Var
Var 1t= i
T [TVar(Zt) + (T - 1)Cov(Zt; Zt+i) + (T - 1)Cov(Z,; Zt-i) + (T - 2)Cov(Zt; Zt+2) + (T - 2)Cov(Zt; Z-) + ... +
^ Cov(Zt; Z-).
Cov(Zi; Zt) + Cov(Zt; Zi)]
T ^oo
3 = -ж
Рассмотрим пример, e зависимыми наблюдениями, когда вариационную матрицу аеимтотичеекого распределения приходится считать по указанной выше формуле. Ясно, что в этом случае ошибки должны быть екоррелироваными.
Пример: Рассмотрим процесс скользящего среднего первого порядка ( MA(1)):
zt = ?t + Bet-1; ?t ~ iid(0, a2).
Заметим, что
Var(zt) = (1 + ?2)а2; Cov(zt; zt-i) = Ba2; Cov(zt; zt - j) = 0, j 1.
В этом случае,
Y Cov(zt; zt-j) = (1 + ?2)а2 + 2?а2 = (1 + ?)2а2.
І=-ж
Тогда, согласно теореме Н:
? Zt N(0, (1 + ?)2(72).
VT t=i
Обратим внимание на то, что в этом случае zt те является MDS относительно It = {zt-i, zt-2, zt-3 . . .}, Т.к, E[zt\zt-i,zt-2, ..] = ??tl = 0.
В случае, если наблюдения являются зависимыми, для получения пивотальной статики возникает необходимость оценивания асимтотической дисперсионной матрицы. Согласно теореме Н, вид искомой оценки должен быть:
т т -i т
Й = T ?(z, - zHZ. - Z)' + ? - ? {(Z, - Z)(Z,_j - Z)' + (Zt - Z)(Zt+j - Z)'}.
t=i j=i t=j+i
Однако, такая оценка не будет состоятельной, т.е. О О, Дело в том, что из-за конечности выборки невозможно оценить состоятельно крайние члены ряда. Таким образом (пользуясь эргодичностью), необходимо "обрезать" ряд на каком-то члене m Т, таком, чтобы при T ^ то : мы имели m ^ то и m ^ 0.
В 1987 году Ньюи и Веет предложили состоятельную оценку вариационной матрицы, которая по построению является положительно определенной :
min(T,T+j)
Е (Z - Z)(Z,_j -
t=max(1,1+j)
JjM 1
m + 1) TМ1
j=-N ?
? NW
Z )'.
Для приложений была предложена следующая формула выбора m:
Т \ 1/3
іо?у
Такой выбор m дает хорошие результаты в смысле построения оценок, за исключением тех случаев, когда затухание возмущений в процессе происходит медленно, т, е,, корни соответствующих полиномов лежат близко к единичному кругу.
Вернемся к уже рассмотренному примеру МА(1): zt = et+?щ-:1, Результат, который мы получили:
Е zt N(0, (1 + ?)2^2).
?Т t=i
Допустим теперь, что мы хотим получить состоятельную оценку для асимтотической дисперсии. На практике у нас есть 3 возможных способа:
- Мы можем получить еоетоятельные оценки ? ? и а2 ^ а2, а затем, согласно полученному результату, сконструировать состоятельную оценку асимтотической дисперсии: ?2 = (1 + О)2 а2.
- Зная, что искомая дисперсия выражается как а2 = Var(zt) + 2Cov(zt; zt-1), мы можем сконструировать состоятельную оценку в виде:
a2z = Var(zt) + 2Cov(zt; zt-i), где
1 t 1 t
Var(zt) = T E zt2; Cov(zt; zt-i) = T E ztzt-1.
t= 1 t=2
Мы можем использовать приведенную выше оценку Ньюи-Веста:
min(T,T+j)
N
z Е (1
j=-N
|j I
і2
ztzt-j.
t=max(1,1+j)
8 Введение в асимтотический подход для нестационарных про
цессов
Если временной ряд не обладает свойством стационарности, то построение статистических выводов значительно усложняется. Здесь мы рассмотрим простейший пример нестационарного процесса. Пусть процесс Xt описывается уравнением случайного блуждания, те.:
Xt = Xt-1 + ?t; ?t ~ iid(0,a2); Xq = 0.
1 ?? ? ?т 2 T t + 1
/ у Xt = + ?T-1 + ¦ ¦ ¦ ± Щ-?t + ¦ ¦ ¦ + ?1.
t=l
Тогда выборочное среднее выражается следующим образом: т
T
Следовательно,
2\2 /Iх 2'
X*l = a2 ( 1 +
t=1
To есть
H = a2 = O(T).Var( X
t=1
В результате мы получим следующие асимптотики:
1 Е X Vi; T Е Xi-i?‘^ Е X2 p
t- 1 V3,
T 3/2
t=1
t=1
t=1
где V1, V2, V3 - некоторые случайные величины.
Если мы теперь используем OLS оценку, то асимтотические свойства этой оценки будут следующие:
V2
?з.
T (р 1)
Во-первых, мы видим, что OLS оценка в данном случае суперсостоятельна, поскольку скорость сходимости к аеимтотичеекому распределению есть T, Во-вторых, асим-тотическое распределение нестандартно, оно носит название распределения Дики-Фуллера.
II Бутстраповский подход
1 Приближение истинного распределения бутстраповским
В основе бутетраповекого подхода лежит идея, что истинное распределение данных может быть апроксимировано эмпирическим. Таким образом может быть получено
приблизительное распределение интересующей нас статистики. Пусть из исходной генеральной совокупности с распределением F(x) была получена выборка размера и, Тогда эмпирическая функция распределения Fn (x) = П ^ і=1 I (Xi Д x) равномерно почти наверное стремится к F(x) при и ^ то, И это благоприятно отражается на свойствах бутстрапа.
Приближение с помощью симуляций
Чтобы более наглядно пояснить бутстраповский метод, рассмотрим простейший пример. Пусть у нас есть всего два наблюдения:

Допустим, нас интересует коэффициент регрессии у на х, т.е. Уі = ?xi + ?і. В этом случае OLS оценка равна:
х = xiyi + x2y2 = 1 х 2 + 2 х 1 = 4 xl + x2 12 + 22 5 ’
Эмпирическая функция распределения данных будет:
/x\ ( (1,2)' w/prob 1/2 \У/ I (2,1)' w/prob 1/2
По отношению к этому распределению, данные из двух наблюдений распределены следующим образом:
!¦ Д = Д = (l) w/prob 1/4
2' (Х1) = С|) = (2) wfprd, 1/4
3- (Xl) = (l); (y|) = (2) w/prob 1/4
4 (Xj) =(2); (У|) = (1) wtproh 1/4
Строя OLS оценки для каждой псевдовыборки, получим бутетраповекое распределение OLS оценки:
{1/2 w/prob 1/4 4/5 w/prob 1/2 .
2 w/prob 1/4
Теперь с помощью этого бутетраповекого распределения можно построить доверительные интервалы или тестировать какие-либо гипотезы.
Пример, рассмотренный нами, был чрезвычайно прост: размер исходной выборки был равен 2, В общем случае, когда мы имеем и наблюдений, количество псевдостатистик имеет порядок ип. Таким образом, в вычислительном плане задача сильно усложняется по мере роста и.
2 Приближение с помощью симуляций
Как уже упоминалось, при значительных выборках объем вычислений для получения бутстраповского распределения сильно возрастает. Поэтому, как правило, процедура бутстрапа осуществляется е помощью компьютера. Здесь мы приведем описательный алгоритм построения бутстраповских доверительных интервалов,
Бутстраповский алгоритм:
1, Выбирается количество пеевдовыборок B (обычно около 1000), Для b = 1, 2,... ,B строятся пеевдовыборки (zl; Д;...; zn)ь- Элементы пеевдовыборок выбираются случайным образом с возвращением из исходной выборки (щ;...; zn), Для каждой пеевдовыборки вычисляется пеевдоетатиетика ?1 = 0((Д;...; zn)b),
2, Полученные пеевдоетатиетики ?\.. .?в сортируются в возрастающем порядке,
В качестве квантилей а1, а2 берутся соответствующие значения ?^Ваі], ?В(1-а2)+1р Таким образом, получаем доверительный интервал,
3 Какие статистики бутстрапить?
Ответ на вопрос, какие статистики лучше использовать при построении доверительных интервалов е помощью бутстрапа, кроется в двух простых соображениях. Во-первых, бутстраповское распределение центрировано не около истинного значения статистики, а около его выборочного аналога.
Во-вторых, полагается бутетрапиро-вть асимптотически пивотальные статистики.
Рассмотрим несколько вариантов бутстраповских статистик, используемых для построения доверительных интервалов и подчеркнем их положительные и отрицательные качества. Пусть нас интересует статистика Д
se(A) J ь= 1
- Холловский доверительный интервал: Холл предложил использовать для построения доверительного интервала рецентрированную статистику ? = ф ф, что снимает проблему смещения, связанного е конечностью выборки. Таким образом, получается бутстраповское распределение (3; = фі 3}ь=і- Соответствующие квантили: qa/2, ql-a/2. Доверительный интервал:
ОІи = \в ql-,/2 в /2].
Холловский доверительный интервал дает лучшую, чем Эфроновекий, аппроксимацию уровней значимости. Дополнительным плюсом использования Хойловского доверительного интервала является отсутствие необходимости оценивания стандартных ошибок,
- t-процентный доверительный интервал: Использует в качестве бутстра-
пируемой статистики t-статистику, Т.е. Таким образом, получается бут-
етраповекое распределение статистики: \ в\_в \ , Соответствующие кванти-
ли: qa/2, ql-a/2- Доверительный интервал:
CIt = ф se(f3)ql-a/2; 3 se{J3)qa/2\.
t-процентный доверительный интервал еще лучше аппроксимирует истинные уровни значимости, чем Холловский доверительный интервал. Тем не менее, не рекомендуется его использовать, если стандартные ошибки трудно построить качественно,
4 Корректировка смещения
Бутстрап зачастую позволяет скорректировать смещение, связанное с конечностью выборки. Пусть у нас есть смещенная статистика:
7 : Е Й = в.
Тогда мы можем выразить смещение следующим образом:
Bias = Е[Д] в.
Если у нас есть возможность состоятельно оценить смещение, то мы можем скорректировать исходную статистику:
в = в Bias.
Смещение же оценивается с помощью бутстрапа:
_ 1 в _ _
Bias* = Е * [в*] в = вь* 7
Ь=1
Таким образом, скорректированная статистика есть
в=в у 7 в) =2в 7’-
5 Тестирование гипотез при помощи бутстрапа
Одной из основных целей бутстрапа является тестирование различных гипотез. Именно для этого нам необходимо строить эмпирические распределения статистик, Раемот-рим как с помощью бутстрапа итестируются простейшие статистические гипотезы:
Гипотеза Н0 : в = в0 (скаляр).
- Альтернативна гипотеза одно сторонняя На : в в0
Бутстрапим t-процентную статистику:
7 = .
se(7)
Получаем бутетраповекое распределение этой статистики и соответствующий квантиль:
, ^ в
вь в
se(7b)
*
а*
5і
Ь=1
вв
se(f3)
Итак, гипотеза Н0 отвергается, если 70
q1
а'
* = |в* - в|
- Альтернативна гипотеза двусторонняя Ha : в = в
В этом случае мы бутетрапим симметричную t-процентную статистику:
? = -в.
se(P)
Получаем бутетраповекое распределение и квантиль:
в
’ se(ei) ;ь=1
Гипотеза Н0 отвергается, если ? = |/3-в? *_а.
Гипотеза Н : в = в (вектор). В этом случае мы бутетрапим Вальдовекую статистику :
? =(в- в)'?-ЧД- в).
Соответственно, получаем бутетраповекое распределение и квантиль:
?1 = (вЬ - Щ-'(Я - Д)}^ ^ і-с
Гипотеза Н отвергается, если
?
? = (в - в)'?7(в - в) 1-с
Гипотеза Н : R/ = т (линейные ограничения). В случае линейных ограничений, где собственно R - матрица ограничений, снова бутетрапитея Вальдовекая статистика:
? = (R/3 - т)'(Д%R')-1(Rp - т).
Далее, рецентрируя статистику, получаем бутетраповекое распределение, из которого находим соответствующий квантиль:
Д* = (д? - дщдцюддвь* - двщ=і ^ 1-с
Заметим еще раз, что чтобы избавиться от смещения, связанного е конечностью выборки, мы рецентрируем бутетраповекую статистику. Если бы мы этого не сделали, то получили бы смещенное бутетраповекое распределение.
Гипотеза Н отвергается, если
? = (RP - r)'(R%R')-1(R/ - т) q*1-a.
6 Асимтотическое рафинирование
Иногда говорят, что с помощью бутстрапа достигается асимтотическое рафинирование, В этом разделе мы обсудим что такое асимтотическое рафинирование и в каких случаях оно происходит.
Пусть у нас есть некоторая статистика ?, истинное распределение которой Fg^x), Тогда бутетраповекое распределение этой статистики F| (x), Говорят, что с помощью бутстрапа достигается асимтотическое рафинирование, если при увеличении объема выборки аппроксимация истинного распределения бутетраповеким точнее, чем асимптотическим (в смысле ошибки аппроксимации).
Приведем примеры, использующие разложение Эджворта функции распределения статистики вокруг предельного распределения.
Пример 1: t-статистика.
Пусть статистика, интересующая нас, есть
? = .
se(p)
Ее асимтотическое распределение, как мы уже видели, является стандартным нормальным: ? F N(0,1) (т.е. статистика пивотальная), Обозначим точное распределение статистики - Fg-(x), а бутстраповское - F|(x), Для кумулятивной функции стандартного нормального распределения используем обычное обозначение: Ф(х), Итак, разложим истинное и бутераповекое распределения вокруг асимптотического:
hi (x,F) h2(x,F)
n3/2
1
n3/2
Fjj(x) = Ф(х) +
F?(x) = ®(x) + ’hiFIl + Mxi?) + O
Здесь hi(x, F) - четная no x, непрерывная no F функция; h2(x, F) - нечетная no x, непрерывная no F функция. Ошибки аппроксимации точного распределения асим-тотическим и бутетраповеким, соответственно:
$(x) F?(x)
hi(x,F) + O( _
hi(x, F)
hi(x,F) + o
F|(x) - Fd(x)
hi(x, F) hi(x, F) имеет асим-
Здесь мы воспользовались тем фактом, что разность
ПТОТИК? Д=, ПОСКОЛЬКУ
л/га 5
F(x) = P[xi x} = E [l[xj x]] ^
/П (f(x) - F(x)j ^ N(0, P[xi x}P[xi x}).
Таким образом, в данном примере использование бутстрапа приводит к асимтоти-чеекому рафинированию.
Пример 2: непивотальная статистика. Рассмотрим статистику
f = /П((3 - р) ^ N(0,Ve).
Сохранив обозначение кумулятивных функций распределения для точного раепре-деления и бутстраповского из предыдущего примера, обозначим аеимптотичеекое распределение Ф^?ц). Заметим, что теперь наша статистика непивотальная, т.е. аеимтотичеекое распределение зависит от неизвестного параметра. Аналогично предыдущему примеру, разложим точное и бутстраповское распределения вокруг асим-тотичеекого:
F(x) = ФЦ, Ve) + h|/nF) + O A
? \ п \ п
щ*) = Ф(*,?д + hl/xnF) + 0(П).
Ошибки аппроксимации для асимптотического и бутстраповского распределений считаются аналогично предыдущему примеру:
hlCF2 + А і
/п V п
ф(x,Vв) - F^(x)
F|(x) - F^(x) = ф(x, ?~;) - Ф^ ?~) + 0 (П j = ^/= j .
Как видно, в данном случае использование бутстрапа не приводит к асимптотическому рафинированию. Вообще, как правило, бутстрапирование непивоталъных оценок не дает аеимтотичеекого рафинирования.
Пример 3: симметричная t-статистика. Теперь рассмотрим в качестве примера симметричную t-статистику:
f = \F-F\ -^ n(0, l). se(F)
Сохраняя обозначения предыдущих примеров, распишем точное и бутстраповское распределения:
2h2(x, F)
f - в se(F)
Fg(x) = Prob[0 x} = Prob[-x
x} = 2Ф(x) - l +
п3/2
F|(x) = 2Ф(х) - 1 + + O
n3/2
Таким образом, ошибки аппроксимации для асимптотики и бутстрапа:
2Ф(х) - 1 - F-j-(x) = O ( -
1
Fi(x) - ад = n (^2(х,F) - h2(x, f ^ + o(JL) = 0 (Пд) -
Таким образом, мы получаем асимптотическое рафинирование. Заметим, что бутстрап симметричного двустороннего теста имеет ошибку более высокого порядка, чем бутстрап одностороннего теста.
7 Построение псевдовыборок при бутстрапе (случай независимых наблюдений)
Рассмотрим случай простейшей множественной регрессии с независимыми наблюдениями :
Уі = x'e + ei; E[ei|xi] = 0; {(xi,y)} ~ iid-
Существует несколько альтернаттивных способов построения псевдовыборки для этой регрессии:
1, Непараметрическое построение псевдовыборки: Из исходных наблюдений {(xi,yi)}n=1 случайно с возвращением извлекаются п наблюдений (x*,y*),
2, Построение псевдовыборки по остаткам: Сначала оценивается модель и находится состоятельная оценка F- Затем, вычисляются ос татки: Fi = yi xiF¦ Из множества пар {(xi,Fi)}n=1 случайным образом с возрвращением выбирается псевдовыборка (x*,F)- Затем восстанавливается независимая переменная y* = xi*F + Fi- Заметим, что данный метод построения псевдовыборки идентичен непараметрическому методу (идентичность пропадает в более сложных случаях),
3, Построение псевдовыборки по остаткам (специальный случай): Если исследователю заранее известно, что ошибки и регрессоры независимы, то эффективность бутстрапа можно увеличить, выбирая случайно с возвращением x* из {xi}rn=1 w F* из {Fi}™=1 по отдельности,
можно увеличить (по сравнению е предыдущим случаем), выбирая регрессоры и остатки для пеевдовыборки по отдельности. Кроме того, остатки стоит вытягивать из нормального распределения, т.е. х* извлекаются случайно с возвращением из {xj}n=i, а е* из N(0, а ).
8 Построение псевдовыборок в бутстрапе (случай временных рядов)
Временной ряд отличается от независимых наблюдений тем, что имеет связь между наблюдениями (наблюдения зависимы). Поэтому случайное перемешивание при бутстрапе может разрушить временную структуру.
Чтобы избежать этого, используется блочный бутстрап, в котором пеевдовыборка строится из перемешанных блоков исходной выборки. Аналогично случаю независимых переменных, во временых рядах возможно построение пеевдовыборки по остаткам и непараметричеекое построение пеевдовыборки.
Однако, последнее используется чаще, поскольку остатки могут не быть независимыми одинаково распределенными. Рассмотрим несколько альтернативных способов построения блочной пеевдовыборки.
1, Построение пеевдовыборки из перекрывающихся блоков: Исходная выборка делится на некоторое количество прокрывающихся блоков одинаковой длины. Длина блока выбирается исследователем исходя из временной структуры ряда. Пусть {yt}J=1 - исходная выборка, a l - длина блока.
Тогда в первый блок войдут наблюдения y1,..., yl; во второй - y2,...,yl+1; в третий -уз,..., yl+2; и наконец в T l + 1-ый - наблюдения yT-l+1,..., yT, При построении пеевдовыборки блоки выбираются случайно е возвращением. Обычно длина пеевдовыборки совпадает е длиной исходного ряда.
стационарной исходной выборки получаются нестационарные псевдовыборки. Чтобы получить стационарную псевдовыборку, был предложен способ ее построения, основанный на нефиксированной длине блоков, А именно, задается вероятность конца блока р. Таким образом, первый элемент псевдовыборки выбирается случайно.
Затем, с вероятностью (1 р) в текущий блок включается следующий элемент исходной выборки, а с вероятностью р начинается новый блок, первый элемент которого снова выбирается случайно из исходной выборки, Так продолжается, пока в псевдовыборку не будет набрано нужное количество элементов (совпадающее с количеством наблюдений в исходной выборке).
III Основные эконометрические понятия
1 Условное математическое ожидание
Данный раздел кратко повторяет основные понятия, изученные в курсе статистики и теории вероятностей.
Пусть (X, Y) - случайная пара. Функция совместной плотности распределения f(x,v)(x,y) О
обладает свойством нормировки:
f(x,Y )(x,y)dxdy = 1.
' OO J СЮ
Вероятность попасть в некоторый отрезок \a,b\ х [c,d], определяется как:
pd pb
Prob{a X b; c Y d} = / f(X,Y)(x,y)dxdy.
Jc J a
Маргинальная функция плотности распределения X задается выражением: + ГО
fx(x)
f(X,Y )(x,y)dy.
-го
Условная функция плотности распределения Y при X = x:
f(X,Y )(x,y) fX (x)
fY |x (x,y)
Условные вероятности попадания в отрезок определяются выражеиями:
Prob{c Y d | X = x} = J fY|x=x(x,y)dy;
Ia fx (x)dx
Prob{c Y d | a X b} = -c fx,Y(xy^dxdy
Условное математическое ожидание Y при условии X = x:
r+ж
E [Y | X = x]
yfY |x=x(x,y)dy.
Заметим, что функция условного математического ожидания E [Y | X] является случайной величиной (т,к, X - случаен), кроме того, выполняется закон последовательных математических ожиданий :
E[h(X,Y)] = E[E[h(X,Y) | X]],
где h(X, Y) - произвольная функция от (X, Y), В простом (непрерывном) случае справедливость этого закона легко показать:
р+ж г+ж
*+ж
ц+ж
h(x,y)f(X,Y )(x,y)dxdy
h(x,y)fY |x (x,y)dy
fx (x)dx.
' сю о сю
2 Предсказание
Часто в эконометрике встречается задача, когда исследователь хочет по переменным X (регрессоры) предсказать значение Y (независимая переменная), В статистике и теории вероятности существует несколько результатов, связанных с такой постановкой задачи.
Теорема: Оптимальным предиктором Y из X в смысле минимизации среднеквадратичной ошибки предсказания является условное математическое ожидание E [Y | X], Доказательство: Пусть g(X) - наш предиктор. Тогда среднеквадратичная ошибка предсказания будет выражаться следующим образом:
MSPE = E[(Y - g(X))2] = E[(Y - E[Y|X] + E[Y|X] - g(X))2] =
= E[(Y - E[Y|X])2] + E[(E[Y|X] - g(X))2] E[(Y - E[Y|X])2]
Заметим, что равенство достигается при g(X) = E[Y|X], т,е, условное математическое ожидание действительно минимизирует среднеквадратичную ошибку предсказания.
Определение: Ошибкой оптимального предсказания называется величина: e = Y -
E [Y |X ].
Ошибка оптимального предсказания обладает следующим свойством:
E[e|X] = 0; ^ E[e] = 0; ^ E[eh(X)] = 0.
Т.е. условное математическое ожидание является несмещенным предиктором.
Определение: Линейным предиктором Y по X называется любая линейная функция от X: g(X) = а + bX.
Теорема: Оптимальным линейным предиктором Y по X в смысле минимизации среднеквадратичной ошибки предсказания называется наилучший линейный предиктор (BLP):
BLP(YIX) = а + pX; в = CV(X’Y); а = Е[Y] - /ЗЕ[X].
var(X)
Доказательство:
MSPE = Е[(Y - а - bX)2] mm
a,b
Условия первого порядка:
E[2(Y - а - bX)] = 0;
-Е[2(Y - а - bX)X] = 0.
Следовательно, мы получаем а и З из условия теоремы.
Теорема: Наилучшей линейной аппроксимацией для условного среднего Е[Y|X] в смысле минимизации среднеквадратичной ошибки аппроксимации является наилучший линейный предиктор BLP(Y|X),
Доказательство: Аналогично доказательству предыдущей теоремы нужно решить оптимизационную задачу:
MSAE = Е[(Е[Y|X] - а - bX)2] mm.
a,b
Получим а и З го условия теоремы, т.е, BLP(Y|X).
Определение: Ошибкой наилучшего линейного предсказания называется величина: u = Y - BLP(YX).
Она обладает следующим свойством:
Е [u] = 0; Е [uX ] = 0.
Теорема: Если условное среднее Е[Y|X] линейно по X, то:
E[Y |X] = BLP (Y |X).
3 Свойства двумерного нормального распределения
Рассмотрим двумерную величину, распределенную нормально:
Ду ДX
рах ау
крах ау ау J
Ее плотность распределения задается следующим выражением:
f х-^х\ 2 ?-йу\2 _ 2р (х-^х )(у-му )
\ ах J у ay J Р ах ау
/(х,у )(х,У)
exp
2пахауу/1 - р2
2(1 - Р2)
Ниже перечислены свойства такого распределения:
1, Каждая из компонент двумерной нормальной величины распределена нормально:
X ~ N(Дх, аХ).
2, Условное распределение Y\х нормально:
Y\х ~ N і^іу + р(х - Дх), а2(1 - p2)J .
Из этого свойства также вытекает условная гомоекедаетичноеть и E [Y \Х] BLP [X\Y ].
3, Если корреляция р 0, то Y и X независимы,
4, Линейная функция от нормальной случайной величины является также нормальной случайной величиной:
ау рах ау\
2 )
A'
Ду
\Х) у ?Дх/ \рах ау а
Здесь A - 2 х 2 матрица линейного преобразования
4 Свойства многомерного нормального распределения
Пусть Y - многомерная нормальная величина, т,е,
Y - N(д, У),
где д - вектор средних к х 1; У - вариационная матрица к х к.
Плотность распределения Y:
(У - У)'? (У - У)
/г (У)
exp
(2n)fc/2|S|1/2 Представим Y в виде 2-х частей:
?11 ?12 ?21 ?22 ,
У1 У2
N (у, ?)
Тогда многомерное нормальное распределение обладает следующими свойствами:
1, Y1 ~ N(Уl, ?11),
2, Y2|y1 ~ N (у2 + B'(у1 - У1), ?22 - B'?nB), где B = ^ ?12.
3, Если ?12 = 0, то Y1 и Y2 независимы,
4, g + HY ~ N(д + Ну, H?И'), где g - фиксированный вектор, a H - матрица линейного преобразования ,
5 Принцип аналогий
При построении всевозможных оценок используют принцип аналогий, основная идея которого в замене истинной функции распределения эмпирической. Пусть интересующий нас параметр ? известным образом зависит от функции распределения X, FX(x), Тогда, согласно принципу аналогий, оценку ? можно построить, заменив истинную функцию распределения X на ее выборочный аналог:
1 п
Fn(x) = - V] I[xi x].
i=1
Приведем соответствующие примеры:
Пример 1: Пусть интересующий нас параметр:
xdF (x),
? = E [X ]
тогда, по принципу аналогий, его оценка будет:
- 10
xdFn(x) = - xi.
- n t!
Пример 2 (Оценка OLS): Покажем, что оценка OLS также является аналоговой оценкой. Исходная регрессионная модель:
Уі = xie + ei; E [e xi] = 0.
Тогда параметр в находится из условия: E\(уг х'ф)xj\ = 0, Его вид:
в = (E (xjx')) 1E (xiyi).
Используя принцип аналогий, получим OLS оценку:
-і
в = f n ^ n ^ ХгУг
г=і / \ г=і
Пример 3 (Оценка OLS): Оценку OLS можно получить как аналоговую и из условия минимизации среднеквадратичной ошибки. Исходная регрессионная модель в этом случае:
Уг = xie + ег; E \ei|xi] = 0.
Последнее условие можно выразить как:
E\уг xгв|xг] = 0; ^ E\уг^г] = Еф.
Параметр в находится из условия минимизации среднеквадратичной ошибки:
в = argminE\(уг xг)2].
b
Соответствующее аналоговое условие записывается в виде:
1 п
3 = argmin у (уг x^)2.
b
г=1
Очевидно, что результатом решения этой экстремальной задачи является OLS оценка.
6 Регрессия (основные понятия)
Пусть у нас сеть пара (у, x), где у - скаляр, ax- вектор.
Определение: Регрессией называется некоторое "свойство" условного распределения у при заданном x.
Приведем несколько примеров регрессий:
Пример 1 (Регрессия условного среднего): Нас интересует E^x].
Пример 2 (Медианная регрессия): Нас интересует Med^lx],
Пример 3 (Квантильная регрессия): Нас интересует q^lx].
Пример 4 (Регрессия моды): Нас интересует Mode[y\x\,
Рассмотрим подробнее регрессию условного среднего, которая наиболее часто используется в эконометрическом анализе. Ошибкой регрессии среднего называется величина, задаваемая выражением:
e = У - E[y\x-\
Эта ошибка обладает следующими свойствами:
- E [e\x\ = 0;
- E [e\ = 0;
- E[eh(x)\ = 0 для любой функции h(x);
- Регрессоры x и ошибка e могут не быть независимыми.
Таким образом, регрессионная модель условного среднего записывается:
у = E [y\x\ + e; E [e\x\ = 0.
Обычно исследователь, обладая некоторой совокупностью независимых наблюдений {(Уі, xi)}™=i; выбраных случайным образом из генеральной совокупности (у, x), хочет оценить, используя эти данные, функцию E[y\x\. Существует несколько различных подходов к данной задаче:
1, Непараметрическое оценивание: При таком подходе единственным ограничением на модель является предположение о гладкости функции E [y\x\,
3, Полупараметрическое оценивание: Полупараметрическое оценивани представляет собой нечто среднее между параметрическим и непараметричееким подходами. Чтобы прояснить ситуацию, приведем пример. Мы предполагаем, что вид функции условного среднего нам неизвестен, однако известно, что она зависит от линейной комбинации регрессоров и неизвестных параметров, т.е.: E[y\x\ = g(x'в), где вид g(.) неизвестен, однако известно, что эта функция зависит от скалярного произведения х'в,где в ~ вектор неизвестных параметров,
IV Регрессия линейного среднего
1 Оценка по методу наименьших квадратов OLS
Пусть E [y\x\ = х'в, тогда модель регрессии условного среднего записывается следующим образом:
Уі = х'в + е*; E [ei\xi\=0; {(yi,x*)}
iid.
i=l
Предположим, что матрица E [x*xi\ - невырожденная. Тогда параметр в-, минимизирующий среднеквадратичную ошибку будет решением задачи:
в = argminE [(y* x*b)\.
Пользуясь принципом аналогий, можно переписать экстремальную задачу в следующем виде:

Собственно это и сеть оценка наименьших квадратов (OLS),
2 Асмтотические свойства оценки OLS
Рассмотрим асимптотические свойства OLS оценки, для этого перепишем ее в следующем виде:
| в = в + |
 |
Как мы уже знаем, оценка OLS состоятельна, т.е, в ^ в- Кроме того, OLS оценка асимптотически распределена нормально:

где мы использовали следующие обозначения:
Qxx E [xixi ]; Qe2xx E[ei xixi] Var[xiei].
Очевидно, что приведенные асимптотически свойства следуют из ЦПТ и ЗБЧ, Ясно, что закона больших чисел следует:
1 х Л
- Хіві E[Хіві] = E\xiE\ei\xi}} = 0,
n
і=1
что влечёт состоятельность OLS оценки. Кроме того, из центральной предельной теоремы для независимых одинаково распределенных величин следует:
П
E Хіві N (0,Var[xiei]) = N (0,Qe2xx) ,
i= 1
что приводит к асимптотической нормальности OLS оценки.

Рассмотрим специальный случай, когда ошибка линейной регрессии условно го-моекедаетична, т.е.
E [e2\xi] = а2 = const.
В этом случае Qe2xx = a2Qxx и асимтотическое раепределение OLS оценки имеет вариационную матрицу упрощенного вида:
ХПф - в) N (0,a2Q-J) .
Кроме того, легко построить состоятельную оценку этой вариационной матрицы:
Qxx Л xixi ^ Q
n
i= 1
J2(Vi - xia)
a2.
i=1
Последнее довольно легко показать: 1
Е(Уі - xie)
i= 1 n
E(yi- xie)2 + ~E(xiв - xia)2 + ~E(yi- xie )(xie - xie)
i= 1
i= 1
i= 1
- ?(# - xie)2 +(в - в)' (_ E xixi I(в - в) + _ E(*- xie)xi(e - в).
n ^ 1 n ^ / n ¦‘f^
i=1
i=1
i=1
Далее, применяя ЗБЧ и теорему Слуцкого, получим:
-У\у% - xiP)
n ^
. ..,2 Р 2
i - xip) a ¦
і=1
i=l
(в - в)'' ( П У xix4 (e - 3) -^0;
2 _ ^
i=1
n У (y- xie)xi(e - 3) -^ 0
Т.е. это и означает состоятельность оценки условной диепереии регрессионной ошиб
ки:
- У (yi - xi3)
n
2 Р 2
i - xie) a
i= 1
Теперь рассмотрим общий случай гетероекедаетичноети, В этом случае нам нужно состоятельно оценить матрицу Qe2xx, Можно показать, что состоятельной оценкой этой матрицы будет следующая:
Свойства OLS оценки в конечных выборках
Qe2xx Л xixi(yi xiP) ^ Qe2x
П -‘г-'
1
i= 1
Итак, состоятельная оценка вариационной матрицы OLS оценки в случае гетероекедаетичноети запишется как:
3 Q-x Qe2xxQ2
^2xixi) (nУxixi(yi-УО2) (nуxixi
i=1 ) \n i=1 ) \n i=1
ч _1
1 П
Будем называть стандартной ошибкой параметра Д величину:
se[(3i) =
Тогда t-статистика будет пивотальной оценкой, асимптотическое распределение которой является стандартным нормальным:
N (0,1).
3 - fa d
se(/3j)
Вальдовекая статистика для ограничений общего вида h(P) = 0, где число ограничений l k, имеет распределение Хи-квадрат:
W = h(/3)' \H3в']-1 h(3) -+ x2(l).
Здесь использовано обозначение:
dh(e)
дв'
3 Свойства OLS оценки в конечных выборках
Выедем следующие обозначения:
X = (xi,x2,... ,хпУ; Y = (уі,?2,...,?пУ; е = (ei,e2,... ,en)'.
Тогда уже знакомую нам регрессионную модель линейного условного среднего можно переписать в матричном виде:
Y = Хв + е; E [e|X ] = 0.
Оценка OLS в таком случае запишется как
Д = (X' X )-1Х 'Y = в + (X 'X )-1Х 'е.
Эта оценка обладает следующими свойствами:
- Условная несмещенность:
E[e|X ] = в + (X 'X )-1X'E [e|X ] = в.
- Безусловная несмещенность (следуют из условной несмещенности),
- Условная вариация оценки:
Var[f3lX] = (X'X )-1X'QX (X'X )-1, где Q = Var[Y|X] = E[ee'|X].
4 Оценка по обобщеному методу наименьших квадратов (GLS)
Определение 1 (класс линейных оценок): Пусть E[Y|X] = Xв¦ Классом линейных оценок в называется класс, содержащий оценки вида A(X)Y, где A(X) -матрица k х и, которая зависит только от X,
Пример: Для OLS оценки: A(X) = (X'X)-1X'.
Определение 2 (класс линейных несмещенных оценок):
Пусть E[Y|X] = X^, Классом линейных несмещенных оценок в называется класс, содержащий оценки вида A(X)Y, где A(X) - матрица k х и, зависящая только от X и удовлетворяющая условию A(X)X = Ik.
Пример: Для OLS оценки: A(X)X = (X'X)-1 X'X = Ik.
Заметим, что Var[A(X)Y|X] = A(X)QA(X)', Мы хотим найти наилучшую линейную несмещенную оценку, которая минимизирует Var[A(X)Y |X],
Теорема (Гаусса-Маркова): Наилучшей линейной несмещенной оценкой (BLUE) линейной регрессии условного среднего является оценка:
3 = A*(X )Y;
A*(X) = (X'Q-1X )-1X'Q-1.
В этом случае вариационная матрица оценки имеет вид:
?агЩХ] = (X'Q-1X )-1.
Доказательство: Очевидно, что оценка 3 принадлежит классу линейных несмещенных оценок:
A*(X )X = Ik.
Возьмем произвольную матрицу A(X), такую, что A(X)X = Ik, В этом случае имеют место следующие равенства:
(A(X) - A*(X))X = 0;
(A(X) - A*(X))QA*(X)' = (A(X) - A*(X))QQ-1X(X'Q-1X)-1 = 0.
Тогда:
Var[A(X )Y |X] = A(X )QA(X)' =
= (A(X) - A*(X) + A*(X))Q(A(X) - A*(X) + A*(X)) =
= (A(X) - A*(X))Q(A(X) - A*(X))' + Var[A*(X)Y|X] Var[3|X].
Следовательно, оценка /3 является наилучшей в классе линейных несмещенных оценок, Именно эта оценка и называется оценокой обобщенного метода наименьших квадратов (GLS),
Следствие 1: Оценка GLS /3 является эффективной в классе линейных несмещенных оценок.
Следствие 2: Если ошибка линейной регрессии условного среднего обладает свойством условной гомоекедаетичноети, то (3gls = Pols- Т.е. OLS и GLS оценки совпадают.
Ниже приведена таблица, содержащая условные вариационные матрицы оценок OLS и GLS в конечных выборках для случаев гетеро и гомоекедаетичноети:
|
OLS |
GLS |
| Гомоекедаетичноеть |
a2(X 'X )-1 |
a2(X 'X )-1 |
| Гетероекедаетичноеть |
(X 'X )-1X 'QX (X 'X )-1 |
(X 'Q-1X )-1 |
Замечание 1: Оценка GLS 3 является недоступной, поскольку матрица О неизвестна.
Замечание 2: Оценка GLS в является частным случаем оценки взвешенного метода наименьших квадратов WLS:
3wls = (X 'WX )~lX'WY, где W - положительно определенная матрица.
5 Асимтотические свойства оценок GLS
Рассмотрим асимтотические свойства GLS оценки. Для этого представим ее в следующем виде:
n , \ -1 1 n
XjXj \ ^ xiei
п a2(xi)J п a2(xi)'
Пользуясь законом больших чисел и центральной предельной теоремой, получим:
р . Гр'
ХДЦ' i
a2(xi)
xiei
a2(xi)
xiei
a2(xi)
0;
iW
Xie
Последнее выражение следует из того, что:
E [e2lxi]
Q щ.
a2
Таким образом, оценка GLS является состоятельной и аеимтотичееки нормальной. Ниже приведена таблица, содержащая асимтотические вариационные матрицы оценок OLS и GLS для случаев гетеро и гомоскедастичности:
|
OLS |
GLS |
| Гомоскедастичность |
2Q-X |
Q = 0’"2QXx1 |
| Гетероскедастичность |
Qxx Qe2xxQ-x |
q-1
Q XX
__ |
Теорема: Оценка GLS в асимптотически эффективна в классе оценок вида:
-і
"У ZiU
п
вIV
ZiX'i
i= 1
i= 1
где zi = f (xi) для любой функции f : Rk ^ Rk.
Доказательство: Заметим, что оценки OLS и GLS принадлежат указанному классу,
т.к. для OLS zi = xi; а для GLS zi =
. Рассмотрим оценку
-2(xi)
-і
1Е ZiXi 1Е Ziyi.
1 ' I 1 '
Рту
i=1
i=1
Легко показать, что она состоятельна и асимптотически нормальна, Аеимтотичеекая вариационная матрица этой оценки выглядит следующим образом:
Vzz Q-x Qe2zzQxz ,
ГДе Qzx E[zixi]j Qe2zz
вариация оценки GLS равна Q
E[zizie2] = E[zizia2(xi)]. Зная, что асимптотическая
Л1, рассмотрим разность:
^2
-1
xixi
Vzz - QxX = (E[Zixi]) 1 E[Zizia2(xi)] (E[xizi]) 1 - ( E
,-i
a2(xi)
/141
(E [viui]) 1 E[vivi](E [uivi]) 1 - (E [uiui])
,/14-1
/14 1
./14 1
(E [viui]) 1 E [vivi] - E [viui] (E [щиД 1 E [u^i] (E [uivi])
/14 1
(E[viui]) 1 E[wiW] (E[uivi]) 1 0.
Здесь vi = zia(xi); ui = -X-G; wi = vi - E[viui](E[uiui]) 1ui. Таким образом, мы
-(xi )
показали, что оценка GLS асимптотически эффективна.
Результат: Оценка GLS является аналоговой оценкой, полученной по принципу аналогий. А именно, оценка GLS получается из условия:
1 ~ Е(Уі - xi/3) x
xi
0.
0;
ei
a(xi)
i=1
a(xi)
Отсюда получается оценка GLS (3.
6 Доступная оценка GLS
Как уже было замечено, для того, чтобы получить оценку GLS нам необходимо знать вариационную матрицу ошибок Q (или a2(xi)). Естественно полагать, что эти параметры являются неизвестными априори, поэтому они должны быть оценены.
Обычно в таких случаях предполагают, что дисперсия ошибок сеть линейная функция от некоторой трансформации xi:
a2(xi) = E [e2|xi] = zi у,
где Zj есть некоторая трансформация xi; например zi = xi или zi = x?, Если предпо
ложение правильное, то можно построить регрессию на остатках, а именно:
e = zjY + ?і; E [e|zj] = 0.
Затем, оценив исходную регрессию и регрессию на остатках, имеем:
7j = Уі - х'іІЗ = ej + x-(в - в);
Y.
ziz'j zie? + ? zix'(в - 7)ei + ? zi(x'(в - 7))^
Таким образом, мы получаем состоятельную оценку дисперсии ошибки:
7?(хі) = zi 7
после чего, мы можем построить доступную оценку обобщенного метода наименьших квадратов (FGLS):
-і
xiyi
i=1 2(хі) ) 72(хі)
(X 'П-1X )-1X 'П-1Y.
Pf
Приведем алгоритм построения оценки FGLS:
1, Используя метод OLS оценить исходную регрессию и получить остатки 7І для i = 1,..., п Прогнать регрессию на остатках, получить оценки 7 и построить оценки дисперсии ошибок 7 (xi) или П,
-1
rp . /V*'
A'jvt'i
7 (Xj)
xiyi
Pf
(X '7-1X )-1X '7-1Y.
72(xj)
Вообще говоря, такой алгоритм построения оценок дисперсии ошибок не гарантирует их положительность. Ниже приведены способы как избежать 7 (xi) 0,
1, Выбрать некоторое 6 0, Затем, положить:
7(xi) = max(zj7; 6).
2, Выбросить наблюдения, для которых 7(xi) 0,
3, Положить 72(хі) = П Y^j=1 zj7 для тех наблюдений, для которых 7(xi) 0,
Результат: Если екедаетичная функция (зависимость условной дисперсии ошибок от я*) правильно определена, то оценка доступного метода GLS Др асимптотически эквивалентна оценке GLS /3. Т.е.:
?П(/Зе - в) N(0,Q-X).
О2
Состоятельная оценка асимптотической вариации в этом случае равна:
,x %Xi a2(xi)
Если екедаетичная функция определена неправильно, то оценка Др, тем не менее, остается состоятельной и асимптотически нормальной:
ДП(/Зр Д) ^ N (о, QJQг*e2Q
где использованы следующие обозначения:
/V* . /V*'
j^ij^ * 2
/у . /у-i
Q x2 = E
a2
Q xx e2 E
Lz^r L(ziY)2
Состоятельная оценка асимптотической вариации в этом случае равна:
-i
-1
/у* . /у7 f /у . /у7
(Ж2 43
X*Xj
; Zi 7
\ Л Xi
7v
7 Регрессия с неслучайной выборкой
В случае, когда наблюдения представляют собой неслучайную выборку, вариационная матрица ошибок Q Var\Y\X] не является диагональной. Вариация OLS оценки 3 (X'X)-1X7Y в этом случае:
Var[/3\X ] (X'X )-1X'QX (X'X )-1.
Вариация GLS оценки Д (X'tt-1X)-1X'tt-1Y:
Var[/3\X ] (X'Q-1X )-1.
Таким образом, чтобы построить пивотальную статистику в случае неслучайных наблюдений необходимо параметризовать вариационную матрицу ошибок Q небольшим числом параметров.
8 OLS и GLS во временных рядах
Рассмотрим следующую регрессионную модель:
yt = х'Ф + et; E [et|/t-i] = 0; E[e2 = a2(It_i),
где {(xt,yt)}T=1 - стационарный и эргодичный процесс, а
It_1 {yt_ 1, yt_2 , . . . ; xt, xt_1 , . . . }
Примерами таких моделей могут служить следующие:
- AR(p) - процесс, когда xt = (yt_i,yt_2,... ,yt_p)/-
- Модель формирования обменного курса валют:
st+i st = а + P(ft st) + et; E [et1 It_i] = .
Здесь ft - цена форвардного контракта, a st - текущий обменный курс,
- Модель формирования инфляции:
nt+1 = а + Pit + et; E [et|It_i] = .
Здесь nt+1 - инфляция, a it - процентная ставка.
Заметим, что условное математическое ожидание на X E[Y|Х] = Хр.
Рассмотрим свойства оценок OLS и GLS в указанной выше модели,
OLS оценка: Ясно, что оценка OLS состоятельна:
(т \ -1 т
xtxt) xtyt-^ ^.
t=i j t=i
Это следует из того, что:
E [xtet] = E [E [xtet|It_i]] = E [xtE [et|It_i]] = 0.
Кроме того, из центральной предельной теоремы для последовательности мартин-гальных приращений следует асимптотическая нормальность OLS оценки:
СГ(Д - в) -- N(0, Ve); Ve = ,
где Qxx = E [xtxt]; Qe2xx = E \xtx'te^\. Недиагональные элементы матрицы Qe2xx равны 0, поскольку:
E [xtetx't-j et-j ] = E [E [xtetxt- et-j |1t-i]] = E [xtE [et| It-i]xt-j et-j ] = 0.
GLS оценка: Оценка GLS в моделях с отсутствующей серийной корреляцией ошибок, очевидно, тоже будет состоятельна и асимптотически нормальна. Выглядит GLS оценка следующим обрзом:
-1 T
xt
^2(1t-1)
xt
2(It-1)
yt.
xy-
На практике GLS оценка редко используется во временных рядах, поскольку требует знания или состоятельного оценивания екедаетичной функции a2(It-1), которая потенциально зависит от всей предыстории.
Теперь рассмотрим общую регрессионную модель временных рядов с серийной корреляцией ошибок:
yt = xtP + et; E [et|1t-q] = 0; E [e2|1t-q] = V2(It-q), где It-q = {yt-q ,yt-q-1, . . . '; xt,xt-1, . . .}.
Примерами таких моделей могут служить следующие:
- Модель ARMA(p, q)\ xt = (yt-q, yt-q-1,..., yt-q-p+1)'-
- Модель формирования обменного курса валют:
st+q st = а + в (ft;q st) + et; E [et|It-q] = 0.
Здесь ft;q - цена форвардного контр акта на q периодов вперед, a st - текущий обменный курс,
- Модель формирования инфляции:
nt+q = а + eit;q + et; E [et|It-q] = 0.
Здесь nt+q - инфляция, a it;q - процентная ставка на q периодов вперед.
Оценка остается состоятельной и асимптотически нормальной, т.е.:
?Т(Д- в) N(0, Ve); Ve = Q-JfexQ
e2xx
где матрица Qe2xx считается по формуле:
OLS оценка:
| 1 |
 |
Д = ]xtyt.
xx
Qe2xx E [xtx't ef] + ^(E[xt xt-j etet-j ] + E [xtxt+j etet+j ]).
Для j q 1:
E [xtx't-j etet-j ] = E[E [xtX't-j etet-j |1t-q ]] = E [xtxt-j E [et|/t-]et-j ] = 0.
Чтобы состоятельно оценить асимптотическую вариацию оценки OLS Vp в случае серийной корреляции ошибок нужно пользоваться формулой Ньюи-Веста.
GLS оценка: Оценка GLS не используется в моделях е серийной корреляцией ошибок, Заметим,что в этом случае:

V Линейные модели е инструментальными перемен
ными
1 Эндогенные переменные
Бывают случаи, когда условное среднее на независимой переменной на регрессорах E[y|x] не является интересующим нас объектом. Приведем несколько примеров:
Пример 1: Пусть E[y|x*] = (x*)'^, однако переменные x* являются ненаблюдаемыми, Вместо этого, исследователь наблюдает переменные x = x* + и, где и - независима от x* и у, В этом случае, как легко показать, регрессионная оценка OLS будет несостоятельной:
у = (x*)'^ + e = (x и)'в + e;
у = x'P + v; v = e u' в; E [xv] = E [(x* + u)(e и' в)] = E [uu'] = 0;
E[v|x] = 0 ^ Д -?- Д
В такой ситуации мы имеем смещенность оценки, связанную с ошибкой измерения.
Пример 2: Пусть у нас есть система линейных уравнений:
Спрос: Q = ві P + ep
Предложение : Q = в2 P + e2;
где ( ) ~ iid(0, I2).
?е2/
Очевидно, что в этом случае регрессоры коррелируют с ошибками, т,е,:
E [ei|P]=0; E[e2|P] = 0.
Тогда, используя оценку OLS в регрессии Q на P, получим:
p E [QP]
E [P2]
Решая исходную систему легко получить:
Q\ = 1 (в2 ві \ /еі
p) = ві+Ж\ 1 -J Ve2
Откуда сразу же следует:
e [QP] = I27г; E [P2]
ві + в2 в1 + в2
Таким образом, оценка OLS несостоятельна ни для въ ни для в2;
ъ E [QP] = в2 - ві в ' E [P2] 2 .
В обоих примерах переменные, коррелирующие с ошибками, являются эндогеными.
Определение: Переменная x эндогенной в структурном уравнении у =
х'в + e если E[e|x] = 0,
Определение: Вектор z размерности l называется инструментом для регрессионного уравнения у = х'в + e если E[e|z] = 0, т,е, z - экзогенная переменная.
Заметим, что в обычной регрессии условного среднего регрессоры являются экзогенными переменными, Т.е. для модели:
у = х'в + e; E [e|x] = 0; E [e2|x] = а2(х),
z = x является инструментом и экзогенной переменной.
2 Случай, когда количество инструментов и регрессоров совпадает
Рассмотрим случай, когда количество инструментов l совпадает с количеством регрессоров к, т.е. l = к, Пусть матрица Qzz = E[zz'\ невырождена. Из определения инструментов следует:
E [e|z\ = 0 ^ E [ze\ = 0.
Последнее условие носит название условия валидности инструментов, Применяя к нему принцип аналогий, получим условие:
1 п
- V\zi(yi - x'ifiiv) = 0.
i= 1
Из этого условия, получаем инструментальную оценку:
(п \ 1 п
5i Е*у-
i=1 ) i= 1
Заметим, что для того, чтобы получить инструментальную оценку необходимо выполнение условия релевантности, т.е, матрица E[zx'\ должна быть невырожденной, В матричном виде инструментальная оценка выглядит следующим образом:
ві? = (Z'X )-1Z'Y; Z = (z1 ,z2,..., zn)'.
В конечных выборках инструментальная оценка смещена, однако является состоятельной и асимптотически нормальной:
E [в/v |Z,X \ = (Z X )-1Z' E [Y |Z,X \ = в;
кП(в/? - в) ± N(0, Ve); Ve = Q1Qe2zzQ-z1.
Состоятельные оценки матриц Qzx,Qe2zz:
ді yi хівІ?.
ziz'e2-
Qe
р.
л.
1 n
Qzx =1У
i=1
Замечание: Домножение инструментальных переменных на любую соразмерную невырожденную матрицу констант C те меняет вида инструментальной оценки /3І?.
3 Случай, когда количество инструментов превышает количество регрессоров
Рассмотрим случай, когда l к, Пусть матрица E[ziz'i\ = Qzz невырождена. Идея построения инструментальной оценки в этом случае состоит в том, чтобы найти линейный предиктор x с помощью z:
Xi = Г zi + Ui; E [ziu'i ] = 0. Из последнего условия находим Г:
E[zi(xi - rzi)'] = 0;
^ Г' = (E [zizi ])-1E [zixi] = Q-^Qzx
Теперь, возвращаясь к исходной структурной форме можем переписать:
Уі = xie + ei; E [ei|zi] = 0;
^ Уі = (rzi + Ui)'e + ei = (rzi)'e + ?і; Vi = ei + uifi. Очевидно, выполняются следующие соотношения:
E [Г ziVi] = rE [zi(ei + ui/)] = 0.
Тогда, параметр структурной регрессии можно записать:
в = (E [ГZi(ГZi),])-1E ГіУі] = (Qxz Q-z1Qzx)-1Qxz Q-^Qzy.
Применяя принцип аналогий получим инструментальную оценку для случая, когда число инструментов превышает число регрессоров:
-1
-1
-1
n /и \ n \ n /и \ n
^2SLS = (5^ xizi (5^ zizi I zixi ) xizi ( X] zizi ) S ziyi.
i=1 \i=1 / i=1 ) i=1 \i=1 / i=1
Или в матричной форме:
e2sLS = (X'Z (Z'Z)Z'X )-1X'Z (Z'Z)Z'Y.
Эта инструментальная оценка состоятельна и асимптотически нормальна, однако не является эффективной в общем случае.
E [ziei] = 0 ^ /?2sls ^ в; Vn(/^2SLs в) ^ N(0, V2sls);
Особым случаем является случай условной гомоекедаетичноети, когда E [e?|zj] = а2 = const. В этом случае асимптотическая вариационная матрица упрощается:

-1
V2SLS а (QxzQzz Qzx)
поскольку Qe2zz = a2Qzz,
Заметим, что для того, чтобы построить оценку (32SLS, необходимо выполнение условия идентификации, т.е. ранг матрицы Qxzдoлжeн быть равен количеству регрессоров k:
rank(Qxz) = k.
Замечание: Оценку j32SLS можно выразить следующим образом:


Здесь - инструменты, С точки зрения эффективности полученной оценки инструменты являются неоптимальными,
4 Случай, когда количество инструментов меньше числа ре-гессоров
Если матрица Qzx имеет ранг, меныний k, то условие идентификации не выполнено, В этом случае, построенные инструментальные оценки будут иметь другие (плохие) асимптотические свойства.
Пример: Рассмотрим следующую модель:
l = k = 1; yi = вхі + вц, E [eilzi ] = 0; E [xiZi] = 0.
Последнее выражение означает, что не выполнено условие релевантности инструментов, Согласно центральной предельной теореме выполняются следующие соотношения:
 |
Qz2x2 ) . |
Таким образом, инструментальная оценка уже не будет асимптотически нормальной:
ві? = |^ = в + /П ^ ^ 4 в + Cauchy. zixi ,/n,z2i ZiXi
Т.е.. асимптотическое распределение оценки не является асимптотически нормальным и не имеет среднего.
Если у нас есть подозрение, что инструменты нерелевантные, стоит вначале протестировать гипотезу: H0 : E\xizi] = 0, Если гипотеза отвергается, то инструмент релевантный.
5 Бутстрапирование оценок инструментальных переменных
Процедура бутстрапа для инструментальных оценок практически ничем не отличается от построения бутетраповекого распределения для обычной статистики независимых наблюдений. Из исходной выборки (xi, yi, zi) строится псе вдовы борка {(x*, y*, z*) }п=1.
Случай l = k (Just ID):
Ді? = (У zixi) 52 ziyi;
-i
-i
в!? = (У z*xi*) 52z*yl;
Асимптотическая вариационная матрица:
-i
еі? = п (у zixf) у ziz'е2 (у xizi
Её бутстраповский аналог:
е? = п (у z* xi*)- у z* 4*е2 (у x* z
Случай l k (Over ID): Сразу заметим, что хотя в популяции выполнено условие E\ziei] = 0, для эмпирической функции распределения оно нарушается, т.е,
1 п
Л ziei = 0.
п -‘Н'
Таким образом, делая бутстрап, не нужно забывать про рецентрирование. Итак, инструментальные оценки:
-1
%sls = (...) 1 уxizi(52ziz0 52ziyi;
(.. .*)-1 у x*zi * (у z*zi *) 1 (у z*y* - у,
2 SLS
Асимптотические вариационные матрицы:
e2SLS = п(...) 1 ^ Xiz'i ZiZ') ^ Ziz'ef Ziz') ^ ZiXi(...) 1;
-і
= n(.. . *)1 ^ x*z'* z*z'*^ 1 ^ u*ui* z*z'*^ 1 ^ Z*X*(.. .*)
Здесь и* = Z*е* - П ЦЦ Zjej.
6 Инструментальные переменные во временных рядах
Рассмотрим следующую модель временного ряда:
yt = х[в + et\ E [et\It-i ] = 0;
It 1 {yt- 1, yt-2 ... ; Xt, Xt- 1 , . . . } ;
Zt (yt1, yt2 , . . . , yt ly ; xt, Xt 1, ... , Xtlx ) .
Результат: Оценка (32SLS состоятельна и асимптотически нормальна:
в2SLS ^ в; ?Т(в2SLS в) ^ N(0, V2sls).
Инструментальная оценка j32SLS является асимптотически более эффективной, чем оценка OLS,
Теперь рассмотрим модель, допускающую автокорреляцию ошибок:
yt = XtP + et; E[et\Itq ] = 0; Zt = {ytq ,...,ytiy; Xt,...,Xtix}'.
Хотя общие результаты здесь такие-же, как и в предыдущем случае, для вычисления асимптотической вариации необходимо использовать формулу Ньюи-Веста из-за серийной корреляции ошибок.
VI Оценка регрессионных моделей с нелинейным средним
1 Нелинейности в регрессиях
Пусть условное среднее E[y\X] = q(x,P), где g(- , - ) - нелинейная функция, В этом случае мы имеем дело с нелинейной моделью. Тем не менее, существуют случаи нелинейностей в регрессиях, сводящиеся к линейному случаю с помощью трансформаций :
1, Пусть д(х,в) нелинейна то регрессорам x и линейна то параметрам в-, тогда можно выполнить такую трансформацию х ^ z, что E[y|z] = z'в-
Пример 1: Пусть условное среднее выражается нелинейной функцией регрессоров следующего вида:
д(х, в) = во + віХі + в2Х2 + взХіХ2 + в4Х? + вбХ^
Тогда подходящей трансформацией будет:
z = {1,Х1,Х2,Х1Х2,Х2, х2}.
Пример 2: Условное среднее выражается нелинейной функцией регрессоров следующего вида:
д(Х, в) = во + віХ + в2Х2 +----+ врХр.
Соответствующая трансформация регрессоров:
z = {1, Х,..., ХР}.
Тут, однако, необходимо отметить, что возникает сложность в интерпретации коэффициентов:
^ = ві + 2в2Х + - - - + рвРХр-1.
Неясно, какое х подставлять в данную формулу, чтобы получить численное значение. Варианты:
- Оценить в каком-то конкретном х, которое определяется из контекста задачи,
- Использовать среднее значение Х,
- Использовать средние значения степеней Х, х2,... ,хр-і
В любом случае, коэффициенты вь в2,..., вР не имеют экономического смысла. Имеет смысл только их некоторая комбинация,
2, "По-существу линейные" модели Рассмотрим такой пример:
уг = А%К*L- exp(ei); E[ег|А, К, L] = 0.
В данном примере логарифмическая трансформация модели сводит ее к линейному случаю:
E[log Y| log Аг, log Кг, log Li] = log Аг + a log Кг + (1 - a) log Li.
2 Нелинейные регрессионные модели
В данном разделе рассмотрим существенно нелинейные модели, которые не приводятся к линейным, т.е.:
E [y\x\ = д(хв) = z'e
для любой функции z{x).
Примеры:
- д(х,в) = A + А^ту;
- д(х,в) = ві + в2евзх;
- g(x, в) = (ві + в2Хі)1[х2 вз\ + (в4 + вбХі)1[х2 вз\.
Пусть функция д(х,в) дифференцируема по обоим аргументам.
Определение: Величина дя(в’в = дв(х,в) называется псевдорегрессором.
Пример: В качестве примера рассмотрим обычную линейную регрессию, т.е,:
д(х,в ) = х'в ^ дв (х) = х.
В данном примере пеевдорегреееор не зависит от параметра в-, однако, в общем случае, пеевдорегреееоры зависят от параметров модели,
3 Оценка нелинейного метода наименьших квадратов (NLLS)
Мы знаем, что параметр в есть решение минимизационной задачи:
в = argminE[(уі - д(хі,Ь))2\.
b
Используя принцип аналогий, получим оценку нелинейного метода наименьших квадратов (NLLS):
1 п
в = argmin- ?Чуі - д(х*, Ь))2. b n
i=1
Условие первого порядка:
1 п _
- У2(Уі - g(xi, в))дв(хі, в) = .
і= 1
Ясно, что точное аналитическое выражение для в получить в общем случае невозможно, поэтому обычно для построения NLLS оценок пользуются численными методами.
Получение оценки NLLS методом концентрации:
Одним из возможных численных методов получения NLLS оценки является метод концентрации. Разделим параметры задачи на две группы, удовлетворяющие условиям :
в = (y1 л2 );
д{х,в) = y1 x(Y2).
Т.е. грубо говоря, условное среднее линейно по параметрам и нелинейно по параметрам д2- Кроме того, предполагается, что число параметров y2 невелжо: к2 = 1 или к2 = 2,
Пример: В качестве примера приведем следующую модель:
д(х, в) = ві + в2евзХх.
Тогда соответствующее разделение параметров следующее:
Yi = (ві,в2)'-; Y2 = Аз ^ x(Y2) = (1,хевзж)/.
В подобных случаях используется 2-х шаговая процедура оценивания параметра:
min_5r(yi - Yixi(Y2))2
Y1 П ^
/3 = argmin
Y2
i=i
Поскольку размерность y2 маленькая, то оптимум легко находится на сетке.
Приведем алгоритм метода концентрации:
- Для параметра y2 на некотором интервале [y2, Y2] берется сетка,
- Для каждого y2 на этой оцениваетея 31(y2) методом OLS и вычисляется
численное целевое значение ^ YI(yi 31(y2)/xi(Y2))2-
- Из всех значений y2 на сетке выбирается то, для которого целевое значение наименьшее.
- Если необходимо, в окрестности полученного значения у2 строится более мелкая сетка, и процедура повторяется.
Получение оценки NLLS методом линеаризации:
Другим возможным численным методом получения NLLS оценки является линеаризация условия первого порядка. Допустим, что P1 - начальное предположение о численном значении оцениваемых параметров.Тогда, е помощью линеаризации предлагается итеративная процедура перехода Pj ^ Pj+1- Эта процедура продолжается до тех пор, пока для достаточно малого е не будет выполнено условие: \Pj+1 Pj| е. Более подробно, линеаризованное условие первого порядка для оценки NLLS:
1 п ^ _
- ^2(?і 9Іхг, Pj) 9в(xi, Pj)(Pj+1 Pj))gp(xi, Pj) ~ 0.
n i=i
Вводи обозначение;
(n \ 1 n
J^ge (xi,pj )ge (xi,pj )j J^ge (xi,pj )(Vi g(xi,/pj)),
i=1 J i= 1
получим итеративную процедуру в виде:
Pj+1 Pj + dj.
Если dj слишком велико (процедура те сходится), то выбир аетея некоторое A j ? [0,1], такое, чтобы целевая функция была минимальной, а процедура изменяется:
Pj+1 = Pj + Aj dj.
4 Асимптотические свойства оценки NLLS
Определение: Говорят, что задача удовлетворяет условию идентификации, если b = Д тогда и только тогда, когда g(x,P) = g(x,b) с вероятностью 1,
Можно переписать оптимизационную адачу нахождения параметра в этом случае как:
Р = argminЕ[(y g(x,b))2] = argmin [Е[(y g(x,p))2] + Е[(g(x,e) g(x,b))2]\ .
b b
Примеры:
- Рассмотрим в качестве примера идентификации линейный случай. Пусть матрица Qxx = E [хх'] - невырождена, Тогда, если в = Ъ выполняется соотношение:
E[(х'в - х'Ъ)2] = (в - b)'QxxX0 - b) 0.
Следовательно, х'в = х'Ъ.
- Рассмотрим теперь пример, где нет идентификации:
д(х, в) = ві + в2eв4+взx = ві + eloge2+e4+e3x.
Очевидно, что идентифицировать параметры в2 и в4 одновременно невозможно.
Определение: Последовательность случайных функций |^(0)}™=1 удовлетворяет равномерному закону больших чисел (РЗБЧ), если:
.. 1 sup У ? n
n ^ n
V Zi(9) - plim n V Zi(e)\\
0.
Лемма: Если последовательность (Zi(0)}rn=1 удовлетворяет РЗБЧ и 0 -X в, то:
Доказательство: Запишем последовательность неравенств, воспользовавшись РЗБЧ и теоремой Манна-Вальда:
^ Zi(0n)
p lim Zi(0)
n
i= 1
i=1 -I ?,
plim Zi(0)
n ^
plim У^ Zi(0)
n ^
i= 1
i= 1
л n л n
sup
?
- V Zi(B) - p lim- V Zi(0) n ^ n
i=1 i=1
plim У^ Zi(0) n
plim У^ Zi(0) n
0.
i=1 -I ?.
i=1
Следствия: Следствиями доказанной леммы являются:
?
i= 1
(Зв
Qe2x
i=1
Qgg n ? ? дв(хі’Д)дв(хі’Д) * Qgg,
W Qgg = E\9l3(х,в)#в(х,в)/].
Теорема: Пусть выполнены следующие требования:
1, Выполнено условие идентификации: д(х,в) = д(х,Ь) при Ь = в-
2, Функция д(х, в) дважды непрерывно дифференцируема по Ь,
3, Для следующих последовательностей выполняется РЗБЧ:
(Уі - д(хив))2; де(х^в)дв(xi,в)/; (Уі - g(xi,в)) ддвдв*’в)
4, Матрица Qgg невырождена:
Qgg = E \дв(х,в )дв(х,в),].
5, Существует матрица:
Qe2gg E\дв(х’в)дв(х, в) e ].
Тогда для оценки NLLS выполнены следующие соотношения:
Д в; ^n(/p - в) N(0’ Q-glQe2ggQ-g1).
Доказательство:
1, Состоятельность: Для любого е 0 с вероятностью, стремящейся к 1 при n ^ то, мы имеем:
Х](Уі - д(хі’Д))
^2(Уі - д(хі’в))2 +
і= 1
i=1
т.к. оценка в минимизирует выражение:
1 п
-?^(Уі - д(хі’Ь))2. n
Поскольку РЗБЧ выполняется для (у д(хі,в))2, то:
Е[(Уі g(xi, Д))2] - ^2(Уі g(xi, Д))2 +е.
n 3
П
і=1
Аналогично:
- ХДуі g(xi, в ))2 Е [(Уі g(xi, в ))2] + q.
n ^ 3
і=1
Суммируя эти три неравенства, получаем:
E[(У gfe Д))2] Е[(У g(xi, в))2] + е
Теперь определим е, Для этого выберем открытую окрестность в N (в). Поскольку в решает задачу минимизации, то должно быть выполнено следующее соотношение:
, mf Е[(У g(x,b))2] Е[(У g(x,e))].
beN (в)с
Тогда выберем следующее е:
е = inf. Е[(У g(x,b))2] Е[(У g(x,e))].
beN (в)с
Соответственно, выполнено следующее соотношение:
Е[(У g(x,^)2] inf Е[(У g(x,b))2L
beN (в)с
что собственно означает, что в ? N (в). Следовател ьно, в в-
2, Асимптотическая нормальность: Разложим условие первого порядка в ряд Тэйлора вокруг в:
Е(Уі g(xi,в))gв (хі,в) +
і=1
n
(Уі g^^)) ^вдХ^ ^ ge (хі,в)/
+
n -‘Н'
(в в) = о,
і=1
где в лежит между в и в покомпонентно. Следовательно:
-1
(Уі g(xi,^)) ^ ge fo^ge (хі,^)/
і=1
n
-р УД(Уі g(xi, в ))ge (хі,в) vn ^
? і=1
32 = argmin
Y2
n Е(Уі- 3і xi (Y2))
і=і
(Уі g(xi,в)) в ^ ge(х’в (х'в
-1
N (0, Qe2gg)
Рассмотрим специальный случай:
E [е2| Xj\ = а2 = const.
В этом случае асимптотическая дисперсионная матрица имеет упрощенную форму: Qe^gg = ^Qgg ] ^ VniP - /3) Д N (0,
5 Эффективность и взвешенная оценка NLLS
Как уже говорилось, оценка NLLS является аналоговой оценкой, полученной из условия: E[еде(х,в)] = 0, Оказывается, можно построить другую аналоговую оценку несколько изменив условие:
фв(х,в) ' а2(х)
0.
Из принципа аналогий, соответственно:
П
J2(yi- д(х^,й)
i=1
дв (хг,/з)
а2(хі)
0.
Оценка в, полученная из этого условия является взвешенной нелинейной оценкой метода наименьших квадратов. Эта оценка является решением минимизационной задачи:
в = argmin b n
i=1
(yi- д(хі,ь)) а2(хі) '
Оценка WNLLS 3 состоятельна и асимптотически нормальна:
3 Д в; ?П(Р - в) Д N(0, Q-1);
а2
Q щ
а2
дв(х,в )дв(х,в У
а2 (х)
Результат: Оценка WNLLS 3 является асимптотически эффективной в классе оценок, удовлетворяющих условию:
1 п
-У](Уі - g(xi, Piv ))zi = Ф
i=1
где zi - произвольная функция от хі; имеющая ту же размерность к х
6 Приложение: Модель бинарного выбора.
Рассмотрим следующую нелинейную модель:
1 x'iP + ei 0;
0 иначе;
ei|xi ~ N(0,1).
Уі
Тогда условное среднее:
E [уі|хі]
P{хів + ei 0|хі} = P{ei -хів|хі} = Ф(хІв).
Оценка NLLS в этом случае:
1 n
в = argmin у (yi Ф(x'b))2;
ь n U
в Л в; ?П((3 в) Л N(0, Q-gtQe*ggQ-);
Qgg = E [/ (хів )2xixi]; 9в (хі,в) = / (хів )хі;
Qe2gg = E [/ (xi в )2 (Уі Ф(хІв ))2xiXi].
Эффективная оценка WNLLS:
a2(xi) = ?йг[уі|хі] = Ф(хІв )(1 Ф(хІв)) = const;
Д - 1 ^ (Уі Ф(хІb))2
р = argmin у -
і. n
ь n 7=1 Ф(хІ/3)(1 Ф(ХД))
f (x' в)2хІх І
Ее асимптотические свойства:
Д Л в; ДД в) Л N (0, (E
-Ц
Ф(Х в )(1 ф(хІв))
7 Статистические выводы, когда при нулевой гипотезе один из параметров неидентифицирован.
Существует особая ситуация, когда тестирование статистических гипотез нестандартно, Рассмотрим два примера:
Пример 1:
1
1 + eXi - в
E [ei |хі] = 0.
(А + в2хі) + (в3 + в4хі)
+ ei;
Уі
Если нулевая гипотеза состоит в том, что в3 = в4 = 0, то при этой нулевой гипотезе параметр в5 не идентифицируется. Такая ситуация приводит к нестандартной процедуре построения теста.
Пример 2: Рассмотрим вариант ARCH-M модели:
yt Ра + х'Фі + + et; E 1 ^t 1] 0;
E [et2|/t1] at ao + ад2 r
Если нулевая гипотеза состоит в отсутствии ARCH эффекта, т.е. H0 : a1 0, то при нулевой гипотезе параметр 7 не идентифицируется.
Решение проблемы: Пусть в (в1 ,в2) где в1 идентифицируется при нулевой гипотезе, а в2 - нет. Постоим ВальдоБСкую статистику W(в2) для всех возможных значений в2. Тогда статистика:
sup W supW (в2)
в2
сходится по распределению к некоторому нестандартному распределению, которое получают с помощью симуляций.
63
В дальнейшем мы подробнее обсудим бутстраповский подход
Здесь ns - скорость сходим ости; у - асимтотическое сме щение; ? - асимптотическая дисперсионная матрица.
Эфроновский доверительный интервал: В данном случае, статистикой, используемой при бутстрапе, является интересующая нас статистика, т.е. ? = Д Таким образом, мы получаем бутстраповское распределение {?П = ДДД^ Соответствующие квантили распределения: Д/2, Д-а/2- Доверительный интервал:
СІЕ = \qa/2; ql-a/2].
Эфроновский доверительный интервал был популярен, когда бутстраповсий подход только начинал использоваться. На самом деле, этот доверительный интервал дает плохую аппроксимацию истинных уровней значимости, поскольку сохраняет смещение исходной выборки.
Симметричный t-процентный доверительный интервал: Использует в качестве бутетрапируемой "симметричную t-статистику": |/3~~|, Соответствующее распределение б?тетраповекой статистики: \ 13-3 I . Квантиль: q^, До-
I se(P{, ) J ь=і
верительный интервал:
CI|t| = Ф 8еФ)оі-а; 3 + se{f3)q1_a\.
Симметричный t-процентный доверительный интервал имеет в определенных случаях преимущество перед t-процентным доверительным интервалом, А именно, если асимптотическое распределение статистики 3 в симметрично, то CI|t| дает лучшую аппроксимацию уровней значимости.
n
¦E(x) = -V 1[xi x]; n ¦‘f^
Построение псевдовыборки по остаткам (специальный случай): Если исследователь знает, что ошибки и регрессоры независимы и, кроме того, ошибки распределены нормально, т.е. ei ~ N(0,а2), то эффективность бутстрапа
Построение пеевдовыборки из неперекрывающихся блоков: В данном случае исходная выборка делится на некоторое количество неперекрывающихся блоков фиксированой длины. Длина блока также как и в предыдущем случае выбирается исследователем.
Пусть исходная выборка состоит из наблюдений {yt}}[=1. Тогда в первый блок войдут наблюдения y1,...,yl; во второй -yi+1,..., y2l; и наконец, в последний у-ый блок - наблюдения y[т]-l+1,..., y[т].
При построении пеевдовыборки блоки выбираются случайным образом с возвращением, длина пеевдовыборки совпадает, как правило, с длиной исходного ряда.
Построение стационарной пеевдовыборки: Предыдущие два варианта построения пеевдовыборки, как правило, нарушают стационарность ряда, т.е, из
Параметрическое оценивание: При таком подходе предполагается известным вид функции E[y\x\ = g(x, в), которая по предположению зависит от неизвестных параметров в €= Rk. Эти параметры оцениваются, что даёт оценку для g(x,e)¦ Таким образом, функция условного среднего параметризуется, отсюда и название метода.
Нужно отметить, что параметрический метод оценивания является более эффективным, чем непараметрический, если спецификация модели правильная, т.е. исследователь предположил правильный вид функции g(x,e)¦ Однако, если функция условного среднего параметризована неверно, то параметрическое оценивани приводит к несостоятельным результатам.
Построить оценку FGLS:
При фиксированном параметре y2 параметр y1 оценивается методом OLS: 3i(Y2) = (X/(Y2)X (Y2))-iX'(Y2)Y; X (Y2) = (xi(Y2),...,x2(Y2))/.
Численно решается оптимизационная задача:
Экономика: Знания - Циклы - Макроэкономика