Оценка значимости параметров уравнения парной линейной регрессии. Оценка статистической значимости уравнения регрессии и его параметров

Оценив параметры a и b , мы получили уравнение регрессии, по которому можно оценить значения y по заданным значениям x . Естественно полагать, что расчетные значения зависимой переменной не будут совпадать с действительными значениями, так как линия регрессии описывает взаимосвязь лишь в среднем, в общем. Отдельные значения рассеяны вокруг нее. Таким образом, надежность получаемых по уравнению регрессии расчетных значений во многом определяется рассеянием наблюдаемых значений вокруг линии регрессии. На практике, как правило, дисперсия ошибок неизвестна и оценивается по наблюдениям одновременно с параметрами регрессии a и b . Вполне логично предположить, что оценка связана с суммой квадратов остатков регрессии. Величина является выборочной оценкой дисперсии возмущений , содержащихся в теоретической модели . Можно показать, что для модели парной регрессии

где - отклонение фактического значения зависимой переменной от ее расчетного значения.

Если , то для всех наблюдений фактические значения зависимой переменной совпадают с расчетными (теоретическими) значениями. Графически это означает, что теоретическая линия регрессии (линия, построенная по функции ) проходит через все точки корреляционного поля, что возможно только при строго функциональной связи. Следовательно, результативный признак у полностью обусловлен влиянием фактора х.

Обычно на практике имеет место некоторое рассеивание точек корреляционного поля относительно теоретической линии регрессии, т. е. отклонения эмпирических данных от теоретических . Этот разброс обусловлен как влиянием фактора х , т.е. регрессией y по х , (такую дисперсию называют объясненной, так как она объясняется уравнением регрессии),так и действием прочих причин (необъясненная вариация, случайная). Величина этих отклонений и лежит в основе расчета показателей качества уравнения.

Согласно основному положению дисперсионного анализа общая сумма квадратов отклонений зависимой переменной y от среднего значения может быть разложена на две составляющие: объясненную уравнением регрессии и необъясненную:

,

где - значения y , вычисленные по уравнению .

Найдем отношение суммы квадратов отклонений, объясненной уравнением регрессии, к общей сумме квадратов:

, откуда

. (7.6)

Отношение части дисперсии, объясненной уравнением регрессии к общей дисперсии результативного признака называется коэффициентом детерминации . Значение не может превзойти единицы и это максимальное значение будет только достигнуто при , т.е. когда каждое отклонение равно нулю и поэтому все точки диаграммы рассеяния в точности лежат на прямой.

Коэффициент детерминации характеризует долю объясненной регрессией дисперсии в общей величине дисперсии зависимой переменной. Соответственно величина характеризует долю вариации (дисперсии) у, необъясненную уравнением регрессии, а значит, вызванную влиянием прочих неучтенных в модели факторов. Чем ближе к единице, тем выше качество модели.



При парной линейной регрессии коэффициент детерминации равен квадрату парного линейного коэффициента корреляции: .

Корень из этого коэффициента детерминации есть коэффициент (индекс) множественной корреляции, или теоретическое корреляционное отношение.

Для того чтобы узнать, действительно ли полученное при оценке регрессии значение коэффициента детерминации отражает истинную зависимость между y и x выполняют проверку значимости построенного уравнения в целом и отдельных параметров. Проверка значимости уравнения регрессии позволяет узнать, пригодно уравнение регрессии для практического использования, например, для прогноза или нет.

При этом выдвигают основную гипотезу о незначимости уравнения в целом, которая формально сводится к гипотезе о равенстве нулю параметров регрессии, или, что то же самое, о равенстве нулю коэффициента детерминации: . Альтернативная гипотеза о значимости уравнения - гипотеза о неравенстве нулю параметров регрессии или о неравенстве нулю коэффициента детерминации: .

Для проверки значимости модели регрессии используют F- критерий Фишера, вычисляемый как отношение суммы квадратов (в расчете на одну независимую переменную) к остаточной сумме квадратов (в расчете на одну степень свободы):

, (7.7)

где k – число независимых переменных.

После деления числителя и знаменателя соотношения (7.7) на общую сумму квадратов отклонений зависимой переменной, F- критерий может быть эквивалентно выражен на основе коэффициента :

.

Если нулевая гипотеза справедлива, то объясненная уравнением регрессии и необъясненная (остаточная) дисперсии не отличаются друг от друга.

Расчетное значение F- критерий сравнивается с критическим значением, которое зависит от числа независимых переменных k , и от числа степеней свободы (n-k-1) . Табличное (критическое) значение F- критерия – это максимальная величина отношений дисперсий, которое может иметь место при случайном расхождении их для заданного уровня вероятности наличия нулевой гипотезы. Если расчетное значение F- критерий больше табличного при заданном уровне значимости, то нулевая гипотеза об отсутствии связи отклоняется и делается вывод о существенности этой связи, т.е. модель считается значимой.

Для модели парной регрессии

.

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его коэффициентов. Для этого определяется стандартная ошибка каждого из параметров. Стандартные ошибки коэффициентов регрессии параметров определяются по формулам:

, (7.8)

(7.9)

Стандартные ошибки коэффициентов регрессии или среднеквадратические отклонения, рассчитанные по формулам (7.8,7.9), как правило, приводятся в результатах расчета модели регрессии в статистических пакетах.

Опираясь на среднеквадратические ошибки коэффициентов регрессии, проверяют значимость этих коэффициентов используя обычную схему проверки статистических гипотез.

В качестве основной гипотезы выдвигают гипотезу о незначимом отличии от нуля «истинного» коэффициента регрессии. Альтернативной гипотезой при этом является гипотеза обратная, т. е. о неравенстве нулю «истинного» параметра регрессии. Проверка этой гипотезы осуществляется с помощью t- статистики, имеющей t -распределение Стьюдента:

Затем расчетные значения t- статистики сравниваются с критическими значениями t- статистики, определяемыми по таблицам распределения Стьюдента. Критическое значение определяется в зависимости от уровня значимости α и числа степеней свободы, которое равно (n-k-1), п - число наблюдений, k - число независимых переменных. В случае линейной парной регрессии число степеней свободы равно (п- 2). Критическое значение также может быть вычислено на компьютере с помощью встроенной функции СТЬЮДРАСПОБР пакета Ехсеl.

Если расчетное значение t- статистики больше критического, то основную гипотезу отвергают и считают, что с вероятностью (1-α) «истинный» коэффициент регрессии значимо отличается от нуля, что является статистическим подтверждением существования линейной зависимости соответствующих переменных.

Если расчетное значение t- статистики меньше критического, то нет оснований отвергать основную гипотезу, т. е. «истинный» коэффициент регрессии незначимо отличается от нуля при уровне значимости α . В этом случае фактор, соответствующий этому коэффициенту должен быть исключен из модели.

Значимость коэффициента регрессии можно установить методом построения доверительного интервала. Доверительный интервал для параметров регрессии a и b определяют следующим образом:

,

,

где определяется по таблице распределения Стьюдента для уровня значимости α и числа степеней свободы (п- 2) для парной регрессии.

Поскольку коэффициенты регрессии в эконометрических исследованиях имеют четкую экономическую интерпретацию, доверительные интервалы не должны содержать нуль. Истинное значение коэффициента регрессии не может одновременно содержать положительные и отрицательные величины, в том числе и нуль, иначе мы получаем противоречивые результаты при экономической интерпретации коэффициентов, чего не может быть. Таким образом, коэффициент значим, если полученный доверительный интервал не накрывает нуль.

Пример 7.4. По данным примера 7.1:

а) Построить парную линейную модель регрессии зависимости прибыли от реализации от отпускной цены с использованием программных средств обработки данных.

б) Оценить значимость уравнения регрессии в целом, используя F- критерий Фишера при α=0,05.

в) Оценить значимость коэффициентов модели регрессии, используя t -критерий Стьюдента при α=0,05 и α=0,1.

Для проведения регрессионного анализа используем стандартную офисную программу EXCEL. Построение регрессионной модели проведем с помощью инструмента РЕГРЕССИЯ настройки ПАКЕТ АНАЛИЗА (рис.7.5), запуск которого осуществляется следующим образом:

СервисАнализ данныхРЕГРЕССИЯОК.

Рис.7.5. Использование инструмента РЕГРЕССИЯ

В диалоговом окне РЕГРЕССИЯ в поле Входной интервал Y необходимо ввести адрес диапазона ячеек, содержащих зависимую переменную. В поле Входной интервал Х нужно ввести адреса одного или нескольких диапазонов, содержащих значения независимых переменных Флажок Метки в первой строке – устанавливается в активное состояние, если выделены и заголовки столбцов. На рис. 7.6. показана экранная форма вычисления модели регрессии с помощью инструмента РЕГРЕССИЯ.

Рис. 7.6. Построение модели парной регрессии с помощью

инструмента РЕГРЕССИЯ

В результате работы инструмента РЕГРЕСИЯ формируется следующий протокол регрессионного анализа (рис.7.7).

Рис. 7.7. Протокол регрессионного анализа

Уравнение зависимости прибыли от реализации от отпускной цены имеет вид:

Оценку значимости уравнения регрессии проведем используя F- критерий Фишера. Значение F- критерий Фишера возьмем из таблицы «Дисперсионный анализ» протокола EXCEL (рис. 7.7.). Расчетное значение F- критерия 53,372. Табличное значение F- критерия при уровне значимости α=0,05 и числе степеней свободы составляет 4,964. Так как , то уравнение считается значимым.

Расчетные значения t -критерия Стьюдента для коэффициентов уравнения регрессии приведены в результативной таблице (рис. 7.7). Табличное значение t -критерия Стьюдента при уровне значимости α=0,05 и 10 степенях свободы составляет 2,228. Для коэффициента регрессии a , следовательно коэффициент a не значим. Для коэффициента регрессии b , следовательно, коэффициент b значим.

В социально-экономических исследованиях часто приходится работать в условиях ограниченной совокупности, либо с выборочными данными. Поэтому после математических параметров уравнение регрессии необходимо оценить их и уравнение в целом на статистическую значимость, т.е. необходимо убедиться, что полученное уравнение и его параметры сформированы под влиянием неслучайных факторов.

Прежде всего, оценивается статистическая значимость уравнения в целом. Оценка, как правило, проводится с использованием F-критерия Фишера. Расчет F-критерия базируется на правиле сложения дисперсий. А именно, общего дисперсионного признака-результата = дисперсия факторная + дисперсия остаточная.

Фактическая цена

Теоретическая цена
Построив уравнение регрессии можно рассчитать теоретическое значение признака-результата, т.е. рассчитанные по уравнению регрессии с учетом его параметров.

Эти значения будут характеризовать признак-результат, сформировавшийся под влиянием факторов включенных в анализ.

Между фактическими значениями признака-результата и рассчитанными на основе уравнения регрессии всегда существуют расхождения (остатки), обусловленные влиянием прочих факторов, не включенных в анализ.

Разность между теоретическими и фактическими значениями признака-результата называется остатками. Общая вариация признака-результата:

Вариация по признаку-результату, обусловленная вариацией признаков факторов, включенных в анализ оценивается через сопоставления теоретических значений резул. признака и его средних значений. Остаточная вариация через сопоставление теоретических и фактических значений результатирующего признака. Общая дисперсия , остаточная и фактическая имеют разное число степеней свободы.

Общая , п - число единиц в изучаемой совокупности

Фактическая , п - число факторов, включенных в анализ

Остаточная

F-критерий Фишера рассчитывается как отношение к , причем рассчитаны на одну степень свободы.

Использование F-критерия Фишера в качестве оценки статистической значимости уравнения регрессии очень логично. - это результат. признака, обусловленная факторами включенными в анализ, т.е. это доля объясненной результат. признака. - это (вариация) признака результата обусловленная факторами влияние которых не учитывается, т.е. не включенными в анализ.

Т.о. F-критерий призван оценить значимое превышение над . Если несущественно ниже , а тем более, если оно превышает , следовательно, в анализ включены не те факторы, которые действительно влияют на признак-результат.

F-критерий Фишера табулирован, фактическое значение сравнивается с табличным. Если , то уравнение регрессии признается статистически значимым. Если наоборот – уравнение статистически не значимо и не может использоваться на практике, значимость уравнения в целом говорит о статистической значимости показателей корелляции.

После оценки уравнения в целом необходимо оценить статистическую значимость параметров уравнения. Эта оценка осуществляется с использованием t-статистики Стьюдента. t-статистика рассчитывается как отношение параметров уравнения (по модулю) к их стандартной средней квадратической ошибке. Если оценивается однофакторная модель, то рассчитывается 2 статистики.

Во всех компьютерных программах расчет стандартной ошибки и t-статистики для параметров проводится с расчетом самих параметров. T-статистика табулирована. Если значение , то параметр признается статистически значимым, т.е. сформированным под влиянием неслучайных факторов.

Расчет t-статистики по существу означает проверку нулевой гипотезы о незначимости параметра, т.е. равенстве его нулю. При однофакторной модели оценивается 2 гипотезы: и

Уровень значимости принятия нулевой гипотезы зависит от уровня принятой доверительной вероятности. Так если исследователь задает уровень вероятности 95%, уровень значимости принятия будет рассчитываться , следовательно, если уровень значимости ≥ 0,05, то принимается и параметры считаются статистически незначимыми. Если , то отвергается и принимается альтернатива: и .

В пакетах прикладных программ по статистике также приводится уровень значимости принятия нулевых гипотез. Оценка значимости уравнения регрессии и его параметров может дать следующие результаты:

Во-первых, уравнение в целом значимо(по F-критерию) и также статистически значимы все параметры уравнения. Это означает, что полученное уравнение может быть использовано как для принятия управленческих решений, так и для прогнозирования.

Во-вторых, по F-критерию уравнение статистически значимо, но не значим хотя бы один из параметров уравнения. Уравнение может быть использовано для принятия управленческих решений относительно анализируемых факторов, но не может быть использовано для прогнозирования.

В-третьих, уравнение статистически не значимо, либо по F- критерию уравнение значимо, но не значимы все параметры полученного уравнения. Уравнение не может быть использовано не для каких целей.

Чтобы уравнение регрессии можно было признать моделью связи между признаком-результатом и признаками-факторами необходимо чтобы в него были включены все важнейшие факторы, определяющие результат, чтобы содержательная интерпретация параметров уравнения соответствовала теоретически обоснованным связям в изучаемом явлении. Коэффициент детерминации R 2 должен быть > 0,5.

При построении множественного уравнения регрессии целесообразно осуществить оценку по так называемому скорректированному коэффициенту детерминации (R 2). Величина R 2 (как и корелляции) возрастает при увеличение числа факторов включенных в анализ. Особенно завышается значение коэф-в в условиях небольших совокупностей. С целью погасить отрицательное влияние R 2 и корелляции корректируют с учетом числа степеней свободы, т.е. числа свободно варьирующих элементов при включении определенных факторов.

Скорректированный коэф-т детерминации

п –объем совокупности/число наблюдений

k – число факторов включенных в анализ

п-1 – число степеней свободы

(1-R 2) - величина остатка/ необъясненной дисперсии результативного признака

Всегда меньше R 2 . на основе можно сравнивать оценки уравнений с разным числом анализируемых факторов.

34. Задачи изучения динамических рядов.

Ряды динамики называют временными рядами или динамическими рядами. Динамический ряд – это упорядоченная во времени последовательность показателей, характеризующих то или иное явление (объем ВВП с 90 по 98 гг). Целью изучения рядов динамики является выявление закономерности развития изучаемого явления (основной тенденции) и прогнозирование на этой основе. Из определения РД следует, что любой ряд состоит из двух элементов: время t и уровень ряда (те конкретные значения показателя, на основе которого построен ДРяд). ДРяды могут быть 1)моментными – ряды, показатели которых фиксируются на момент времени, на определенную дату, 2)интервальными – ряды, показатели которого получают за какой-то период времени (1.численность населения СПб, 2.объем ВВП за период). Разделение рядов на моментные и интервальные необходимо, поскольку это определяет специфику расчета некоторых показателей ДРядов. Суммирование уровней интервальных рядов дает содержательно интерпретируемый результат, что нельзя сказать о суммировании уровней моментных рядов, поскольку последние содержат повторный счет. Важнейшей проблемой в анализе рядов динамики является проблема сопоставимости уровней ряда. Это понятие очень разноплановое. Уровни должны быть сопоставимы по методам расчета и по территории и охвату единиц совокупности. Если ДРяд строится в стоимостных показателях, то все уровни должны быть представлены или рассчитаны в сопоставимых ценах. При построении интервальных рядов уровни должны характеризовать одинаковые отрезки времени. При построении моментных РядовД уровни должны фиксироваться на одну и ту же дату. ДРяды могут быть полными и неполными. Неполные ряды используются в официальных изданиях (1980,1985,1990,1995,1996,1997,1998,1999…). Комплексный анализ РД включает изучение следующих моментов:

1. расчет показателей изменения уровней РД

2. расчет средних показателей РД

3. выявление основной тенденции ряда, построение трендовых моделей

4. оценка автокорреляции в РД, построение авторегрессионных моделей

5. корреляция РД (изучение связей м/у ДРядами)

6. прогнозирование РД.

35. Показателей изменения уровней временных рядов .

В общем виде РядД может быть представлен:

у – уровень ДР, t – момент или период времени к которому относится уровень (показатель), n – длина ДРяда (число периодов). при изучении ряда динамики рассчитывают следующие показатели: 1. абсолютный прирост, 2. коэффициент роста (темп роста), 3. ускорение, 4. коэффициент прироста (темп прироста), 5. абсолютное значение 1 % прироста. Рассчитываемые показатели могут быть: 1. цепные – получают путем сопоставления каждого уровня ряда с непосредственно предшествующим, 2. базисные – получают путем сопоставления с уровнем, выбранным за базу сравнения (если специально не оговаривается, за базу берется 1ый уровень ряда). 1. Цепные абсолютные приросты: . Показывает на сколько больше или меньше . Цепные абсолютные приросты называют показателями скорости изменения уровней динамического ряда. Базисный абсолютный прирост : . Если уровни ряда представляют собой относительные показатели, выраженные в %-ах, то абсолютный прирост выражается в пунктах изменения. 2. коэффициент роста (темпы роста): Рассчитывается как отношение уровней ряда к непосредственно предшествующим (цепные коэффициенты роста), либо к уровню, принятому за базу сравнения (базисные коэффициенты роста): . Характеризует во сколько раз каждый уровень ряда > или < предшествующего или базисного. На основе коэффициентов роста рассчитываются темпы роста. Это коэффициенты роста, выраженные в %ах: 3. на основе абсолютных приростов рассчитывают показатель – ускорение абсолютных приростов : . Ускорение – абсолютный прирост абсолютных приростов. Оценивает как изменяются сами приросты, они стабильны или принимают ускорение (возрастают). 4. темп прироста – это отношение прироста к базе сравнения. Выражается в %-ах: ; . Темп прироста – это темп роста минус 100%. Показывает на сколько % данный уровень ряда > или < предшествующего либо базисного. 5. абсолютное значение 1% прироста. Рассчитывается как отношение абсолютного прироста к темпу прироста, т.е.: - сотая доля предыдущего уровня. Все эти показатели рассчитываются для оценки степени изменения уровней ряда. Цепные коэффициенты и темпы роста называются показателями интенсивности изменения уровней ДРядов.

2. Расчет средних показателей РД Рассчитывают средние уровни рядов, средние абсолютные приросты, средние темпы роста и средние темпы прироста. Средние показатели рассчитываются с целью обобщения информации и возможности сравнивать уровни и показатели их изменения по различным рядам. 1. средний уровень ряда а) для интервальных временных рядов рассчитывается по средней арифметической простой: , где n – число уровней во временном ряду; б) для моментных рядов средний уровень рассчитывается по специфической формуле, которая называется средней хронологической: . 2. средний абсолютный прирост рассчитывается на основе цепных абсолютных приростов по средней арифметической простой:

. 3. Средний коэффициент роста рассчитывается на основе цепных коэффициентов роста по формуле средней геометрической: . При комментарии средних показателей ДРядов необходимо указывать 2 момента: период, который характеризует анализируемый показатель и временной интервал, за который построен ДРяд. 4. Средний темп роста : . 5. средний темп прироста : .

Проверку значимости уравнения регрессии произведем на основе

F-критерия Фишера:

Значение F-критерия Фишера можно найти в таблице Дисперсионный анализ протокола Еxcel. Табличное значение F-критерия при доверительной вероятности α = 0,95 и числе степеней свободы, равном v1 = k = 2 и v2 = n – k – 1= 50 – 2 – 1 = 47, составляет 0,051.

Поскольку Fрасч > Fтабл, уравнение регрессии следует признать значимым, то есть его можно использовать для анализа и прогнозирования.

Оценку значимости коэффициентов полученной модели, используя результаты отчета Excel, можно осуществить тремя способами.

Коэффициент уравнения регрессии признается значимым в том случае, если:

1) наблюдаемое значение t-статистики Стьюдента для этого коэффициента больше, чем критическое (табличное) значение статистики Стьюдента (для заданного уровня значимости, например α = 0,05, и числа степеней свободы df = n – k – 1, где n – число наблюдений, а k – число факторов в модели);

2) Р-значение t-статистики Стьюдента для этого коэффициента меньше, чем уровень значимости, например, α = 0,05;

3) доверительный интервал для этого коэффициента, вычисленный с некоторой доверительной вероятностью (например, 95%), не содержит ноль внутри себя, то есть нижняя 95% и верхняя 95% границы доверительного интервала имеют одинаковые знаки.

Значимость коэффициентов a 1 и a 2 проверим по второму и третьему способам:

P-значение (a 1 ) = 0,00 < 0,01 < 0,05.

Р-значение (a 2 ) = 0,00 < 0,01 < 0,05.

Следовательно, коэффициенты a 1 и a 2 значимы при 1%-ном уровне, а тем более при 5%-ном уровне значимости. Нижние и верхние 95% границы доверительного интервала имеют одинаковые знаки, следовательно, коэффициенты a 1 и a 2 значимы.

Определение объясняющей переменной, от которой

Может зависеть дисперсия случайных возмущений.

Проверка выполнения условия гомоскедастичности

Остатков по тесту Гольдфельда–Квандта

При проверке предпосылки МНК о гомоскедастичности остатков в модели множественной регрессии следует вначале определить, по отношению к какому из факторов дисперсия остатков более всего нарушена. Это можно сделать в результате визуального исследования графиков остатков, построенных по каждому из факторов, включенных в модель. Та из объясняющих переменных, от которой больше зависит дисперсия случайных возмущений, и будет упорядочена по возрастанию фактических значений при проверке теста Гольдфельда–Квандта. Графики легко получить в отчете, который формируется в результате использования инструмента Регрессия в пакете Анализ данных).

Графики остатков по каждому из факторов двухфакторной модели

Из представленных графиков видно, что дисперсия остатков более всего нарушена по отношению к фактору Краткосрочная дебиторская задолженность.

Проверим наличие гомоскедастичности в остатках двухфакторной модели на основе теста Гольдфельда–Квандта.

    Упорядочим переменные Y и X2 по возрастанию фактора Х4 (в Excel для этого можно использовать команду Данные – Сортировка по возрастанию Х4):

    Данные, отсортированные по возрастанию X4:

  1. Уберем из середины упорядоченной совокупности С = 1/4 · n = 1/4 · 50 = 12,5 (12) значения. В результате получим две совокупности соответственно с малыми и большими значениями Х4.

    Для каждой совокупности выполним расчеты:

Сумма

111234876536,511

966570797682,068

455748832843,413

232578961097,877

834043911651,192

193722998259,505

1246409153509,290

31419681912489,100

2172804245053,280

768665257272,099

2732445494273,330

163253156450,331

18379855056009,900

10336693841766,000

Сумма

69977593738424,600

Уравнения для совокупностей

Y = -27275,746 + 0,126X2 + 1,817 X4

Y = 61439,511 + 0,228X2 + 0,140X4

Результаты данной таблицы получены с помощью инструмента Регрессия поочередно к каждой из полученных совокупностей.

4. Найдем отношение полученных остаточных сумм квадратов

(в числителе должна быть большая сумма):

5. Вывод о наличии гомоскедастичности остатков делаем с помощью F-критерия Фишера с уровнем значимости α = 0,05 и двумя одинаковыми степенями свободы k1 = k2 = == 17

где р – число параметров уравнения регрессии:

Fтабл (0,05; 17; 17) = 9,28.

Так как Fтабл > R ,то подтверждается гомоскедастичность в остатках двухфакторной регрессии.

Оценка значимости параметров уравнения регрессии

Оценка значимости параметров уравнения линейной регрессии производится с помощью критерия Стьюдента:

если t расч. > t кр, то принимается основная гипотеза (H o ), свидетельствующая о статистической значимости параметров регрессии;

если t расч. < t кр, то принимается альтернативная гипотеза (H 1 ), свидетельствующая о статистической незначимости параметров регрессии.

где m a , m b – стандартные ошибки параметров a и b:

(2.19)

(2.20)

Критическое (табличное) значение критерия находится с помощью статистических таблиц распределения Стьюдента (приложение Б) или по таблицам Excel (раздел мастера функций «Статистические»):

t кр = СТЬЮДРАСПОБР(α=1-P; k=n-2 ), (2.21)

где k=n-2 также представляет собой число степенейсвободы.

Оценка статистической значимости может быть применена и к линейному коэффициенту корреляции

где m r – стандартная ошибка определения значений коэффициента корреляции r yx

(2.23)

Ниже представлены варианты заданий для практических и лабораторных работ по тематике второго раздела.

Вопросы для самопроверки по 2 разделу

1. Укажите основные составляющие эконометрической модели и их сущность.

2. Основное содержание этапов эконометрического исследования.

3. Сущность подходов по определению параметров линейной регрессии.

4. Сущность и особенность применения метода наименьших квадратов при определении параметров уравнения регрессии.

5. Какие показатели используются для оценки тесноты взаимосвязи исследуемых факторов?

6. Сущность линейного коэффициента корреляции.

7. Сущность коэффициента детерминации.

8. Сущность и основные особенности процедур оценки адекватности (статистической значимости) регрессионных моделей.

9. Оценка адекватности линейных регрессионных моделей по коэффициенту аппроксимации.

10. Сущность подхода оценки адекватности регрессионных моделей по критерию Фишера. Определение эмпирических и критических значений критерия.

11. Сущность понятия «дисперсионный анализ» применительно к эконометрическим исследованиям.

12. Сущность и основные особенности процедуры оценки значимости параметров линейного уравнения регрессии.

13. Особенности применения распределения Стьюдента при оценке значимости параметров линейного уравнения регрессии.

14. В чем состоит задача прогноза единичных значений исследуемого социально-экономического явления?

1. Построить поле корреляции и сформулировать предположение о форме уравнения взаимосвязи исследуемых факторов;

2. Записать основные уравнения метода наименьших квадратов, произвести необходимые преобразования, составить таблицу для промежуточных расчетов и определить параметры линейного уравнения регрессии;

3. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.

4. Провести анализ результатов, сформулировать выводы и рекомендации.

1. Расчет значения линейного коэффициента корреляции;

2. Построение таблицы дисперсионного анализа;

3. Оценка коэффициента детерминации;

4. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.

5. Провести анализ результатов, сформулировать выводы и рекомендации.

4. Провести общую оценку адекватности выбранного уравнения регрессии;

1. Оценка адекватности уравнения по значениям коэффициента аппроксимации;

2. Оценка адекватности уравнения по значениям коэффициента детерминации;

3. Оценка адекватности уравнения по критерию Фишера;

4. Провести общую оценку адекватности параметров уравнения регрессии;

5. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.

6. Провести анализ результатов, сформулировать выводы и рекомендации.

1. Использование стандартных процедур мастера функций электронных таблиц Excel (из разделов «Математические» и «Статистические»);

2. Подготовка данных и особенности применения функции «ЛИНЕЙН»;

3. Подготовка данных и особенности применения функции «ПРЕДСКАЗ».

1. Использование стандартных процедур пакета анализа данных электронных таблиц Excel;

2. Подготовка данных и особенности применения процедуры «РЕГРЕССИЯ»;

3. Интерпретация и обобщение данных таблицы регрессионного анализа;

4. Интерпретация и обобщение данных таблицы дисперсионного анализа;

5. Интерпретация и обобщение данных таблицы оценки значимости параметров уравнения регрессии;

При выполнении лабораторной работы по данным одного из вариантов необходимо выполнить следующие частные задания:

1. Осуществить выбор формы уравнения взаимосвязи исследуемых факторов;

2. Определить параметры уравнения регрессии;

3. Провести оценку тесноты взаимосвязи исследуемых факторов;

4. Провести оценку адекватности выбранного уравнения регрессии;

5. Провести оценку статистической значимости параметров уравнения регрессии.

6. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.

7. Провести анализ результатов, сформулировать выводы и рекомендации.

Задания для практических и лабораторных работ по теме «Парная линейная регрессия и корреляция в эконометрических исследованиях».

Вариант 1 Вариант 2 Вариант 3 Вариант 4 Вариант 5
x y x y x y x y x y
Вариант 6 Вариант 7 Вариант 8 Вариант 9 Вариант 10
x y x y x y x y x y

После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Оценка значимости уравнения регрессии в целом дается с помощью F-критерия Фишера. При этом выдвигается нулевая гипотеза, коэффициент регрессии равен нулю, то есть b=0, и, следовательно, фактор х не оказывает влияния на результат у. Непосредственному расчету F-критерия предшествует анализ дисперсии. Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной у от среднего значения у на две части - «объясненную» и «необъясненную» (приложение 2).

Общая сумма квадратов отклонений индивидуальных значений результативного признака у от среднего значения у вызвана влиянием множества причин. Условно всю совокупность причин можно разделить на две группы:

  • · изучаемый фактор х
  • · прочие факторы

Если фактор не оказывает влияния на результат, то линия регрессии на графике параллельна оси охи у = y. Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадает с остаточной. Если же прочие факторы не влияют на результат, то у связан с х функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов.

Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс как обусловленный влиянием фактора х, то есть регрессией у по х, так и вызванный действием прочих величин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное влияние на результат у. Это равносильно тому, что коэффициент детерминации r 2 xy будет приближаться к единице.

Любая сумма квадратов отклонений связана с числом степеней свободы (df - degrees of freedom), то есть с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из n возможных [(y 1 -y), (y 2 -y),…,(y n -y)] требуется для образования данной суммы квадратов. Так, для общей суммы квадратов?(y-y) 2 требуется (n-1) независимых отклонений.

При расчете объясненной или факторной суммы квадратов?(y x -y) 2 используются теоретические (расчетные) значения результативного признака y x , найденные по линии регрессии: y x =а+b*x.

В линейной регрессии сумма квадратов отклонений, обусловленных линейной регрессией, составит: ?(y x -y) 2 =b 2 *?(x -x) 2 .

Поскольку при заданном объеме наблюдений по х и у факторная сумма квадратов при линейной регрессии зависит только от одной константы коэффициента регрессии b, то данная сумма квадратов имеет одну степень свободы. К тому же выводу придем, если рассмотрим содержательную сторону расчетного значения признака у, то есть y x . Величина y x определяется по уравнению линейной регрессии: y x =а+b*x. Параметр а можно определить как: a=y-b*x. Подставив выражение параметра а в линейную модель получим:

y x = y-b*x+b*x= y-b*(х-х).

Отсюда видно, что при заданном наборе переменных у и х расчетное значение y x является в линейной регрессии функцией только одного параметра - коэффициента регрессии. Соответственно и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.

Существует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет n-2. Число степеней свободы для общей суммы квадратов определяется числом единиц, и поскольку используется средняя вычисленная по данным выборки, то теряем одну степень свободы, то есть df общ = n-1.

Итак, имеется два равенства:

?(у-у) 2 =?(y x -у) 2 +?(у- y x) 2 ,

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или, что то же самое, дисперсию на одну степень свободы D.

D общ =?(у-у) 2 /(n-1);

D факт =?(y x -у) 2 /1;

D ост =?(у- y x) 2 /(n-1).

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-отношения (F-критерия):

F= D факт / D ост, где

F - критерий для проверки нулевой гипотезы Н 0: D факт =D ост.

Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Для Н 0 необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз.

Английским статистиком Снедекором разработаны таблицы критических значений F-отношений при разных уровнях существенности нулевой гипотезы и различимом числе степеней свободы.

Табличное значение F-критерия - это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы.

Вычисленное значение F-отношения признается достоверным (отличным от единицы), если оно больше табличного.

В этом случае нулевая гипотеза об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи: F факт >F табл. Н 0 отклоняется.

Если же величина окажется меньше табличной F факт

Оценку качества модели дает коэффициент детерминации. Коэффициент детерминации (R 2) -- это квадрат множественного коэффициента корреляции.

Он показывает, какая доля дисперсии результативного признака объясняется влиянием независимых переменных.

Формула для вычисления коэффициента детерминации:

y i -- выборочные данные, а f i -- соответствующие им значения модели.

Также это квадрат корреляции Пирсона между двумя переменными. Он выражает количество дисперсии, общей между двумя переменными.

Коэффициент принимает значения из интервала . Чем ближе значение к 1 тем ближе модель к эмпирическим наблюдениям.

В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату коэффициента корреляции, то есть R 2 = r 2 .

Иногда показателям тесноты связи можно дать качественную оценку (шкала Чеддока) (приложение 3).

Функциональная связь возникает при значении равном 1, а отсутствие связи -- 0. При значениях показателей тесноты связи меньше 0,7 величина коэффициента детерминации всегда будет ниже 50 %. Это означает, что на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. Построенные при таких условиях регрессионные модели имеют низкое практическое значение.

Похожие публикации