Регрессионный анализ - статистический метод исследования зависимости случайной величины от переменных. Регрессионный анализ в Microsoft Excel

Характеристика причинных зависимостей

Причинно-следственные отношения – это связь явлений и процессов, когда изменение одного из них – причины – ведет к изменению другого – следствия.

Признаки по их значению для изучения взаимосвязи делятся на два класса.

Признаки, обуславливающие изменения других, связанных с ними признаков, называются факторными (или факторами).

Признаки, изменяющиеся под действием факторных признаков, являются результативными.

Различают следующие формы связи: функциональную и стохастическую. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Функциональная связь проявляется во всех случаях наблюдения и для каждой конкретной единицы исследуемой совокупности.

Функциональную связь можно представить следующим уравнением:
y i =f(x i), где: y i - результативный признак; f(x i) - известная функция связи результативного и факторного признаков; x i - факторный признак.
В реальной природе функциональных связей нет. Они являются лишь абстракциями, полезными при анализе явлений, но упрощающими реальность.

Стохастическая (статистическая или случайная) связь представляет собой связь между величинами, при которой одна из них реагирует на изменение другой величины или других величин изменением закона распределения. Иными словами, при данной связи разным значениям одной переменной соответствуют разные распределения другой переменной. Это обуславливается тем, что зависимая переменная, кроме рассматриваемых независимых, подвержена влиянию ряда неучтенных или неконтролируемых случайных факторов, а также некоторых неизбежных ошибок измерения переменных. В связи с тем, что значения зависимой переменной подвержены случайному разбросу, они не могут быть предсказаны с достаточной точностью, а могут быть только указаны с определенной вероятностью.

В силу неоднозначности стохастической зависимости между Y и X, в частности представляет интерес усредненная по х схема зависимости, т.е. закономерность в изменении среднего значения – условного математического ожидания Мх(У) (математического ожидания случайной переменной У, найденного при условии, что переменная Х приняла значение х) в зависимости от х.

Частным случаем стохастической связи является корреляционная связь. Корреля́ция (от лат. correlatio - соотношение, взаимосвязь). Прямое токование термина корреляция - стохастическая, вероятная, возможная связь между двумя (парная) или несколькими (множественная) случайными величинами.

Корреляционной зависимостью между двумя переменными также называют статистическую взаимосвязь между этими переменными, при которой каждому значению одной переменной соответствует определенное среднее значение, т.е. условное математическое ожидание другой. Корреляционная зависимость является частным случаем стохастиче­ской зависимости, при которой изменение значений факторных признаков (х 1 х 2 ..., х n) влечет за собой изменение среднего значения результативно­го признака.



Принято различать следующие виды корреляции:

1. Парная корреляция – связь между двумя признаками (результативным и факторным или двумя факторными).

2. Частная корреляция – зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков, включенных в исследование.

3. Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование.

Назначение регрессионного анализа

Аналитической формой представления причинно-следственных отношений являются регрессионные модели. Научная обоснованность и популярность регрессионного анализа делает его одним из основных математических средств моделирования исследуемого явления. Этот метод применяется для сглаживания экспериментальных данных и получения количественных оценок сравнительного влияния различных факторов на результативную переменную.

Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (зависимой переменной или результативного признака) обусловлено влиянием одной или нескольких независимых величин (факторов или предикторов), а множество всех прочих факторов, также оказывающих влияние на зависимую величину, принимается за постоянные и средние значения.

Цели регрессионного анализа:

Оценка функциональной зависимости условного среднего значения результативного признака у от факторных (х 1 ,х 2 , …, х n);

Предсказание значения зависимой переменной с помощью независимой(-ых).

Определение вклада отдельных независимых переменных в вариацию зависимой переменной.

Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.

В регрессионном анализе зара­нее подразумевается наличие причинно-следственных связей между ре­зультативным (У) и факторными х 1 , х 2 ..., х n признаками.

Функция , оп исывающая зависимость показателя от параметров, называется уравнением (функцией) регрессии 1 . Уравнение регрессии показывает ожидаемое значение зависимой переменной при определенных значениях независимых переменных .
В зависимости от количества включенных в модель факторов Х модели делятся на однофакторные (парная модель регрессии) и многофакторные (модель множественной регрессии). В зависимости от вида функции модели делятся на линейные и нелинейные.

Парная регрессионная модель

В силу воздействия неучтенных случайных факторов и причин отдельные наблюдения у будут в большей или меньшей мере отклоняться от функции регрессии f(х). В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлено в виде:

Y=f(X) + ɛ,

где ɛ - случайная переменная, характеризующая отклонение от функции регрессии. Эту переменную называют возмущающей или возмущением (остатком или ошибкой). Таким образом, в регрессионной модели зависимая переменная Y есть некоторая функция f(X) с точностью до случайного возмущения ɛ.

Рассмотрим классическую линейную модель парной регрессии (КЛМПР). Она имеет вид

у i =β 0 +β 1 х i +ɛ i (i=1,2, …, n), (1)

где у i –объясняемая (результирующая, зависимая, эндогенная переменная);х i – объясняющая (предикторная, факторная, экзогенная) переменная; β 0 , β 1 – числовые коэффициенты; ɛ i – случайная (стохастическая) составляющая или ошибка.

Основные условия (предпосылки, гипотезы) КЛМПР:

1) х i – детерминированная (неслучайная) величина, при этом предполагается, что среди значений х i – не все одинаковые.

2) Математическое ожидание (среднее значение) возмущения ɛ i равно нулю:

М[ɛ i ]=0 (i=1,2, …, n).

3) Дисперсия возмущения постоянна для любых значений i (условие гомоскедастичности):

D[ɛ i ]=σ 2 (i=1,2, …, n).

4) Возмущения для разных наблюдений являются некоррелированными:

cov[ɛ i , ɛ j ]=M[ɛ i , ɛ j ]=0 при i≠j,

где cov[ɛ i , ɛ j ] – коэффициент ковариации (корреляционный момент).

5) Возмущения являются нормально распределенными случайными величинами с нулевым средним значением и дисперсией σ 2:

ɛ i ≈ N(0, σ 2).

Для получения уравнения регрессии достаточно первых четырех предпосылок. Требование выполнения пятой предпосылки необходимо для оценки точности уравнения регрессии и его параметров.

Замечание: Внимание к линейным связям объясняется ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчётов преобразуют (путём логарифмирования или замены переменных) в линейную форму.

Традиционный метод наименьших квадратов (МНК)

Оценкой модели по выборке является уравнение

ŷ i = a 0 + a 1 x i (i=1,2, …, n), (2)

где ŷ i – теоретические (аппроксимирующие) значения зависимой переменной, полученные по уравнению регрессии; a 0 , a 1 - коэффициенты (параметры) уравнения регрессии (выборочные оценки коэффициентов β 0 , β 1 соответственно).

Согласно МНК неизвестные параметры a 0 , a 1 выбирают так, чтобы сумма квадратов отклонений значений ŷ i от эмпирических значений y i (остаточная сумма квадратов) была минимальной:

Q e =∑e i 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → min, (3)

где e i = y i - ŷ i – выборочная оценка возмущения ɛ i , или остаток регрессии.

Задача сводится к отысканию таких значений параметров a 0 и a 1 , при которых функция Q e принимает наименьшее значение. Заметим, что функция Q e = Q e (a 0 , a 1) есть функция двух переменных a 0 и a 1 до тех пор, пока мы не нашли, а затем зафиксировали их «наилучшие» (в смысле метода наименьших квадратов) значения, а х i , y i – постоянные числа, найденные экспериментально.

Необходимые условия экстремума (3) находятся путем приравнивания к нулю частных производных этой функции двух переменных. В результате получим систему двух линейных уравнений, которая называется системой нормальных уравнений:

(4)

Коэффициент a 1 – выборочный коэффициент регрессии у на х, который показывает на сколько единиц в среднем изменяется переменная у при изменении переменной х на одну единицу своего измерения, то есть вариацию у, приходящуюся на единицу вариации х. Знак a 1 указывает направление этого изменения. Коэффициент a 0 – смещение, согласно (2) равен значению ŷ i при х=0 и может не иметь содержательной интерпретации. За это иногда зависимую переменную называют откликом.

Статистические свойства оценок коэффициентов регрессии:

Оценки коэффициентов a 0 , a 1 являются несмещенными;

Дисперсии оценок a 0 , a 1 уменьшаются (точность оценок увеличивается) при увеличении объема выборки n;

Дисперсия оценки углового коэффициента a 1 уменьшается при увеличении и поэтому желательно выбирать х i так, чтобы их разброс вокруг среднего значения был большим;

При х¯ > 0 (что представляет наибольший интерес) между a 0 и a 1 имеется отрицательная статистическая связь (увеличение a 1 приводит к уменьшению a 0).

При наличии корреляционной связи между факторными и результативными признаками врачам нередко приходится устанавливать, на какую величину может измениться значение одного признака при изменении другого на общепринятую или установленную самим исследователем единицу измерения.

Например, как изменится масса тела школьников 1-го класса (девочек или мальчиков), если рост их увеличится на 1 см. В этих целях применяется метод регрессионного анализа.

Наиболее часто метод регрессионного анализа применяется для разработки нормативных шкал и стандартов физического развития.

  1. Определение регрессии . Регрессия - функция, позволяющая по средней величине одного признака определить среднюю величину другого признака, корреляционно связанного с первым.

    С этой целью применяется коэффициент регрессии и целый ряд других параметров. Например, можно рассчитать число простудных заболеваний в среднем при определенных значениях среднемесячной температуры воздуха в осенне-зимний период.

  2. Определение коэффициента регрессии . Коэффициент регрессии - абсолютная величина, на которую в среднем изменяется величина одного признака при изменении другого связанного с ним признака на установленную единицу измерения.
  3. Формула коэффициента регрессии . R у/х = r ху x (σ у / σ x)
    где R у/х - коэффициент регрессии;
    r ху - коэффициент корреляции между признаками х и у;
    (σ у и σ x) - среднеквадратические отклонения признаков x и у.

    В нашем примере ;
    σ х = 4,6 (среднеквадратическое отклонение температуры воздуха в осенне-зимний период;
    σ у = 8,65 (среднеквадратическое отклонение числа инфекционно-простудных заболеваний).
    Таким образом, R у/х - коэффициент регрессии.
    R у/х = -0,96 х (4,6 / 8,65) = 1,8, т.е. при снижении среднемесячной температуры воздуха (x) на 1 градус среднее число инфекционно-простудных заболеваний (у) в осенне-зимний период будет изменяться на 1,8 случаев.

  4. Уравнение регрессии . у = М у + R y/x (х - М x)
    где у - средняя величина признака, которую следует определять при изменении средней величины другого признака (х);
    х - известная средняя величина другого признака;
    R y/x - коэффициент регрессии;
    М х, М у - известные средние величины признаков x и у.

    Например, среднее число инфекционно-простудных заболеваний (у) можно определить без специальных измерений при любом среднем значении среднемесячной температуры воздуха (х). Так, если х = - 9°, R у/х = 1,8 заболеваний, М х = -7°, М у = 20 заболеваний, то у = 20 + 1,8 х (9-7) = 20 + 3,6 = 23,6 заболеваний.
    Данное уравнение применяется в случае прямолинейной связи между двумя признаками (х и у).

  5. Назначение уравнения регрессии . Уравнение регрессии используется для построения линии регрессии. Последняя позволяет без специальных измерений определить любую среднюю величину (у) одного признака, если меняется величина (х) другого признака. По этим данным строится график - линия регрессии , по которой можно определить среднее число простудных заболеваний при любом значении среднемесячной температуры в пределах между расчетными значениями числа простудных заболеваний.
  6. Сигма регрессии (формула) .
    где σ Rу/х - сигма (среднеквадратическое отклонение) регрессии;
    σ у - среднеквадратическое отклонение признака у;
    r ху - коэффициент корреляции между признаками х и у.

    Так, если σ у - среднеквадратическое отклонение числа простудных заболеваний = 8,65; r ху - коэффициент корреляции между числом простудных заболеваний (у) и среднемесячной температурой воздуха в осенне-зимний период (х) равен - 0,96, то

  7. Назначение сигмы регрессии . Дает характеристику меры разнообразия результативного признака (у).

    Например, характеризует разнообразие числа простудных заболеваний при определенном значении среднемесячной температуры воздуха в осеннне-зимний период. Так, среднее число простудных заболеваний при температуре воздуха х 1 = -6° может колебаться в пределах от 15,78 заболеваний до 20,62 заболеваний.
    При х 2 = -9° среднее число простудных заболеваний может колебаться в пределах от 21,18 заболеваний до 26,02 заболеваний и т.д.

    Сигма регрессии используется при построении шкалы регрессии, которая отражает отклонение величин результативного признака от среднего его значения, отложенного на линии регрессии.

  8. Данные, необходимые для расчета и графического изображения шкалы регрессии
    • коэффициент регрессии - R у/х;
    • уравнение регрессии - у = М у + R у/х (х-М x);
    • сигма регрессии - σ Rx/y
  9. Последовательность расчетов и графического изображения шкалы регрессии .
    • определить коэффициент регрессии по формуле (см. п. 3). Например, следует определить, насколько в среднем будет меняться масса тела (в определенном возрасте в зависимости от пола), если средний рост изменится на 1 см.
    • по формуле уравнения регрессии (см п. 4) определить, какой будет в среднем, например, масса тела (у, у 2 , у 3 ...)* для определеного значения роста (х, х 2 , х 3 ...).
      ________________
      * Величину "у" следует рассчитывать не менее чем для трех известных значений "х".

      При этом средние значения массы тела и роста (М х, и М у) для определенного возраста и пола известны

    • вычислить сигму регрессии, зная соответствующие величины σ у и r ху и подставляя их значения в формулу (см. п. 6).
    • на основании известных значений х 1 , х 2 , х 3 и соответствующих им средних значений у 1 , у 2 у 3 , а также наименьших (у - σ rу/х)и наибольших (у + σ rу/х) значений (у) построить шкалу регрессии.

      Для графического изображения шкалы регрессии на графике сначала отмечаются значения х, х 2 , х 3 (ось ординат), т.е. строится линия регрессии, например зависимости массы тела (у) от роста (х).

      Затем в соответствующих точках у 1 , y 2 , y 3 отмечаются числовые значения сигмы регрессии, т.е. на графике находят наименьшее и наибольшее значения у 1 , y 2 , y 3 .

  10. Практическое использование шкалы регрессии . Разрабатываются нормативные шкалы и стандарты, в частности по физическому развитию. По стандартной шкале можно дать индивидуальную оценку развития детей. При этом физическое развитие оценивается как гармоничное, если, например, при определенном росте масса тела ребенка находится в пределах одной сигмы регрессии к средней расчетной единице массы тела - (у) для данного роста (x) (у ± 1 σ Ry/x).

    Физическое развитие считается дисгармоничным по массе тела, если масса тела ребенка для определенного роста находится в пределах второй сигмы регрессии: (у ± 2 σ Ry/x)

    Физическое развитие будет резко дисгармоничным как за счет избыточной, так и за счет недостаточной массы тела, если масса тела для определенного роста находится в пределах третьей сигмы регрессии (у ± 3 σ Ry/x).

По результатам статистического исследования физического развития мальчиков 5 лет известно, что их средний рост (х) равен 109 см, а средняя масса тела (у) равна 19 кг. Коэффициент корреляции между ростом и массой тела составляет +0,9, средние квадратические отклонения представлены в таблице.

Требуется:

  • рассчитать коэффициент регрессии;
  • по уравнению регрессии определить, какой будет ожидаемая масса тела мальчиков 5 лет при росте, равном х1 = 100 см, х2 = 110 см, х3= 120 см;
  • рассчитать сигму регрессии, построить шкалу регрессии, результаты ее решения представить графически;
  • сделать соответствующие выводы.

Условие задачи и результаты ее решения представлены в сводной таблице.

Таблица 1

Условия задачи Pезультаты решения задачи
уравнение регрессии сигма регрессии шкала регрессии (ожидаемая масса тела (в кг))
М σ r ху R у/x х У σ R x/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Рост (х) 109 см ± 4,4см +0,9 0,16 100см 17,56 кг ± 0,35 кг 17,21 кг 17,91 кг
Масса тела (y) 19 кг ± 0,8 кг 110 см 19,16 кг 18,81 кг 19,51 кг
120 см 20,76 кг 20,41 кг 21,11 кг

Решение .

Вывод. Таким образом, шкала регрессии в пределах расчетных величин массы тела позволяет определить ее при любом другом значении роста или оценить индивидуальное развитие ребенка. Для этого следует восстановить перпендикуляр к линии регрессии.

  1. Власов В.В. Эпидемиология. - М.: ГЭОТАР-МЕД, 2004. - 464 с.
  2. Лисицын Ю.П. Общественное здоровье и здравоохранение. Учебник для вузов. - М.: ГЭОТАР-МЕД, 2007. - 512 с.
  3. Медик В.А., Юрьев В.К. Курс лекций по общественному здоровью и здравоохранению: Часть 1. Общественное здоровье. - М.: Медицина, 2003. - 368 с.
  4. Миняев В.А., Вишняков Н.И. и др. Социальная медицина и организация здравоохранения (Руководство в 2 томах). - СПб, 1998. -528 с.
  5. Кучеренко В.З., Агарков Н.М. и др.Социальная гигиена и организация здравоохранения (Учебное пособие) - Москва, 2000. - 432 с.
  6. С. Гланц. Медико-биологическая статистика. Пер с англ. - М., Практика, 1998. - 459 с.

В своих работах, датированных ещё 1908 годом. Он описал его на примере работы агента, осуществляющего продажу недвижимости. В своих записях специалист по торговле домами вёл учёт широкого спектра исходных данных каждого конкретного строения. По результатам торгов определялось, какой фактор имел наибольшее влияние на цену сделки.

Анализ большого количества сделок дал интересные результаты. На конечную стоимость оказывали влияние множество факторов, иногда приводя к парадоксальным выводам и даже к явным «выбросам», когда дом с высоким изначальным потенциалом продавался по заниженному ценовому показателю.

Вторым примером применения подобного анализа приведена работа которому было доверено определение вознаграждения сотрудникам. Сложность задачи заключалась в том, что требовалась не раздача фиксированной суммы каждому, а строгое соответствие её величины конкретно выполненной работе. Появление множества задач, имеющих практически сходный вариант решения, потребовало более детального их изучения на математическом уровне.

В существенное место было отведено под раздел «регрессионный анализ», в нём объединились практические методы, используемые для исследования зависимостей, подпадающих под понятие регрессионных. Эти взаимосвязи наблюдаются между данными, полученными в ходе статистических исследований.

Среди множества решаемых задач основными ставит перед собой три цели: определение для уравнения регрессии общего вида; построение оценок параметров, являющихся неизвестными, которые входят в состав уравнения регрессии; проверка статистических регрессионных гипотез. В ходе изучения связи, возникающей между парой величин, полученных в результате экспериментальных наблюдений и составляющих ряд (множество) типа (x1, y1), ..., (xn, yn), опираются на положения теории регрессии и предполагают, что для одной величины Y наблюдается определённое вероятностное распределение, при том, что другое X остаётся фиксированным.

Результат Y зависит от значения переменной X, зависимость эта может определяться различными закономерностями, при этом на точность полученных результатов оказывает влияние характер наблюдений и цель анализа. Экспериментальная модель основывается на определённых допущениях, которые являются упрощёнными, но правдоподобными. Основным условием является то, что параметр X является величиной контролируемой. Его значения задаются до начала эксперимента.

Если в ходе эксперимента используется пара неконтролируемых величин XY, то регрессионный анализ осуществляется одним и тем же способом, но для интерпретации результатов, в ходе которой изучается связь исследуемых случайных величин, применяются методы Методы математической статистики не являются отвлеченной темой. Они находят себе применение в жизни в самых различных сферах деятельности человека.

В научной литературе для определения выше указанного метода нашёл широкое использование термин линейный регрессионный анализ. Для переменной X применяют термин регрессор или предиктор, а зависимые Y-переменные ещё называют критериальными. В данной терминологии отражается лишь математическая зависимость переменных, но никак не следственно-причинные отношения.

Регрессионный анализ служит наиболее распространённым методом, который используется в ходе обработки результатов самых различных наблюдений. Физические и биологические зависимости изучаются по средствам данного метода, он реализован и в экономике, и в технике. Масса других областей используют модели регрессионного анализа. Дисперсионный анализ, статистический анализ многомерный тесно сотрудничают с данным способом изучения.

Метод регрессивного анализа применяется для определения технико-экономических параметров продукции, относящейся к конкретному параметрическому ряду, с целью построения и выравнивания ценностных соотношений. Этот метод используется для анализа и обоснования уровня и соотношений цен продукции, характеризующейся наличием одного или нескольких технико-экономических параметров, отражающих основные потребительские свойства. Регрессивный анализ позволяет найти эмпирическую формулу, описывающую зависимость цены от технико-экономических параметров изделий:

P=f(X1X2,...,Xn),

где Р - значение цены единицы изделия, руб.; (Х1, Х2, ... Хп) - технико-экономические параметры изделий.

Метод регрессивного анализа - наиболее совершенный из используемых нормативно-параметрических методов - эффективен при проведении расчетов на основе применения современных информационных технологий и систем. Применение его включает следующие основные этапы:

  • определение классификационных параметрических групп изделий;
  • отбор параметров, в наибольшей степени влияющих на цену изделия;
  • выбор и обоснование формы связи изменения цены при изменении параметров;
  • построение системы нормальных уравнений и расчет коэффициентов регрессии.

Основной квалификационной группой изделий, цена которых подлежит выравниванию, является параметрический ряд, внутри которого изделия могут группироваться по различному исполнению в зависимости от их применения, условий и требований эксплуатации и т. д. При формировании параметрических рядов могут быть применены методы автоматической классификации, которые позволяют из общей массы продукции выделять ее однородные группы. Отбор технико-экономических параметров производится исходя из следующих основных требований:

  • в состав отобранных параметров включаются параметры, зафиксированные в стандартах и технических условиях; помимо технических параметров (мощности, грузоподъемности, скорости и т.д.) используются показатели серийности продукции, коэффициенты сложности, унификации и др.;
  • совокупность отобранных параметров должна достаточно полно характеризовать конструктивные, технологические и эксплуатационные свойства изделий, входящих в ряд, и иметь достаточно тесную корреляционную связь с ценой;
  • параметры не должны быть взаимозависимы.

Для отбора технико-экономических параметров, существенно влияющих на цену, вычисляется матрица коэффициентов парной корреляции. По величине коэффициентов корреляции между параметрами можно судить о тесноте их связи. При этом близкая к нулю корреляция показывает незначительное влияние параметра на цену. Окончательный отбор технико-экономических параметров производится в процессе пошагового регрессивного анализа с использованием компьютерной техники и соответствующих стандартных программ.

В практике ценообразования применяется следующий набор функций:

линейная

P = ao + alXl + ... + antXn,

линейно-степенная

Р = ао + а1Х1 + ... + аnХп + (ап+1Хп) (ап+1Хп) +... + (ап+nХп2) (ап+nХп2)

обратного логарифма

Р = а0 + а1: In Х1 + ... + ап: In Xn,

степенная

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

показательная

P = e^(а1+а1X1+...+аnХn)

гиперболическая

Р = ао + а1:Х1 + а2:Х2 + ... + ап:Хп,

где Р - выравнивание цены; X1 X2,..., Хп - значение технико-экономических параметров изделий ряда; a0, a1 ..., аn - вычисляемые коэффициенты уравнения регресии.

В практической работе по ценообразованию в зависимости от формы связи цен и технико-экономических параметров могут использоваться другие уравнения регрессии. Вид функции связи между ценой и совокупностью технико-экономических параметров может быть задан предварительно или выбран автоматически в процессе обработки на ЭВМ. Теснота корреляционной связи между ценой и совокупностью параметров оценивается по величине множественного коэффициента корреляции. Близость его к единице говорит о тесной связи. По уравнению регрессии получают выравненные (расчетные) значения цен изделий данного параметрического ряда. Для оценки результатов выравнивания вычисляют относительные величины отклонения расчетных значений цен от фактических:

Цр = Рф - Рр: Р х 100

где Рф, Рр - фактическая и расчетная цены.

Величина Цр не должна превышать 8-10%. В случае существенных отклонений расчетных значений от фактических необходимо исследовать:

  • правильность формирования параметрического ряда, так как в его составе могут оказаться изделия, по своим параметрам резко отличающиеся от других изделий ряда. Их надо исключить;
  • правильность отбора технико-экономических параметров. Возможна совокупность параметров, слабо коррелируемая с ценой. В этом случае необходимо продолжить поиск и отбор параметров.

Порядок и методика проведения регрессивного анализа, нахождения неизвестных параметров уравнения и экономическая оценка полученных результатов осуществляются в соответствии с требованиями математической статистики.

А) Графический анализ простой линейной регрессии.

Простое линейное уравнение регрессии y=a+bx. Если между случайными величинами У и X существует корреляционная связь, то значение у = ý + ,

где ý – теоретическое значение у, полученное из уравнения ý = f(x),

 – погрешность отклонения теоретического уравнения ý от фактических (экспериментальных) данных.

Уравнение зависимости средней величины ý от х, то есть ý = f(x) называют уравнением регрессии. Регрессионный анализ состоит из четырёх зтапов:

1) постановка задачи и установление причин связи.

2) ограничение объекта исследований, сбор статастической информации.

3) выбор уравнения связи на основе анализа и характера собранных данных.

4) расчёт числовых значений, характеристик корреляционной связи.

Если две переменные связаны таким образом, что изменение одной переменной соответствует систематическому изменению другой переменной, то для оценки и выбора уравнения связи между ними применяют регрессионный анализ в том случае, если эти переменные известны. В отличие от регрессионного анализа, корреляционный анализ применяют для анализа тесноты связи между X и У.

Рассмотрим нахождение прямой при регрессионном анализе:

Теоретическое уравнение регрессии.

Термин «простая регрессия» указывает на то, что величина одной переменной оценивается на основе знаний о другой переменной. В отличие от простой многофакторная регрессия применяется для оценки переменной на основе знания двух, трёх и более переменных. Рассмотрим графический анализ простой линейной регрессии.

Предположим, имеются результаты отборочных испытании по предварительному найму на работу и производительности труда.

Результаты отбора (100 баллов), x

Производительность (20 баллов), y

Нанеся точки на график, получим диаграмму (поле) рассеяния. Используем её для анализа результатов отборочных испытаний и производительности труда.

По диаграмме рассеяния проанализируем линию регрессии. В регрессионном анализе всегда указываются хотя бы две переменные. Систематическое изменение одной переменной связано с изменением другой. Основная цель регрессионного анализа заключается в оценке величины одной переменной, если величина другой переменной известна. Для полной задачи важна оценка производительности труда.

Независимой переменной в регрессионном анализе называется величина, которая используется в качестве основы для анализа другой переменной. В данном случае – это результаты отборочных испытаний (по оси X).

Зависимой переменной называется оцениваемая величина (по оси У). В регрессионном анализе может быть только одна зависимая переменная и несколько независимых переменных.

Для простого регрессионного анализа зависимость можно представить в двухкоординатной системе (х и у), по оси X – независимая переменная, по оси У – зависимая. Наносим точки пересечения таким образом, чтобы на графике была представлена пара величин. График называют диаграммой рассеяния . Ее построение – это второй этап регрессионного анализа, поскольку первый – это выбор анализируемых величин и сбор данных выборки. Таким образом, регрессионный анализ применяется для статистического анализа. Связь между выборочными данными диаграммы линейная.

Для оценки величины переменной у на основе переменной х необходимо определить положение линии, которая наилучшим образом представляет связь между х и у на основе расположения точек диаграммы рассеяния. В нашем примере это анализ производительности. Линия, проведенная через точки рассеяния – линия регрессии . Одним из способов построения линии регрессии, основанном на визуальном опыте, является способ построения от руки. По нашей линии регрессии можно определить производительность труда. При нахождении уравнения линии регрессии

часто применяют критерий наименьших квадратов. Наиболее подходящей является та линия, где сумма квадратов отклонений минимальна

Математическое уравнение линии роста представляет закон роста в арифметической прогрессии:

у = а b х .

Y = а + b х – приведённое уравнение с одним параметром является простейшим видом уравнения связи. Оно приемлемо для средних величин. Чтобы точнее выразить связь между х и у , вводится дополнительный коэффициент пропорциональности b , который указывает наклон линии регрессии.

Б) Построение теоретической линии регрессии.

Процесс её нахождения заключается в выборе и обосновании типа кривой и расчётов параметров а , b , с и т.д. Процесс построения называют выравниванием, и запас кривых, предлагаемых мат. анализом, разнообразен. Чаще всего в экономических задачах используют семейство кривых, уравнения которые выражаются многочленами целых положительных степеней.

1)
– уравнение прямой,

2)
– уравнение гиперболы,

3)
– уравнение параболы,

где ý – ординаты теоретической линии регрессии.

Выбрав тип уравнения, необходимо найти параметры, от которых зависит это уравнение. Например, характер расположения точек в поле рассеяния показал, что теоретическая линия регрессии является прямой.

Диаграмма рассеяния позволяет представить производительность труда с помощью регрессионного анализа. В экономике с помощью регрессионного анализа предсказываются многие характеристики, влияющие на конечный продукт (с учётом ценообразования).

В) Критерий наименьших кадратов для нахождения прямой линии.

Один из критериев, которые мы могли бы применить для подходящей линии регрессии на диаграмме рассеяния, основан на выборе линии, для которой сумма квадратов погрешностей будет минимальна.

Близость точек рассеяния к прямой измеряется ординатами отрезков. Отклонения этих точек могут быть положительными и отрицательными, но сумма квадратов отклонений теоретической прямой от экспериментальной всегда положительна и должна быть минимальна. Факт несовпадения всех точек рассеяния с положением линии регрессии указывает на существование расхождения между экспериментальными и теоретическими данными. Таким образом, можно сказать, что никакая другая линия регрессии, кроме той, которую нашли, не может дать меньшую сумму отклонений между экспериментальными и опытными данными. Следовательно, найдя теоретическое уравнение ý и линию регрессии, мы удовлетворяем требованию наименьших квадратов.

Это делается с помощью уравнения связи
, используя формулы для нахождения параметров а и b . Взяв теоретическое значение
и обозначив левую часть уравнения черезf , получим функцию
от неизвестных параметрова и b . Значения а и b будут удовлетворять минимуму функции f и находятся из уравнений частных производных
и
. Этонеобходимое условие , однако для положительной квадратической функции это является и достаточным условием для нахождения а и b .

Выведем из уравнений частных производных формулы параметров а и b :



получим систему уравнений:

где
– среднеарифметические погрешности.

Подставив числовые значения, найдем параметры а и b .

Существует понятие
. Это коэффициент аппроксимации.

Если е < 33%, то модель приемлема для дальнейшего анализа;

Если е > 33%, то берём гиперболу, параболу и т.д. Это даёт право для анализа в различных ситуациях.

Вывод: по критерию коэффициента аппроксимации наиболее подходящей является та линия, для которых

, и никакая другая линия регрессии для нашей задачи не даёт минимум отклонений.

Г) Квадратическая ошибка оценки, проверка их типичности.

Применительно к совокупности, у которой число параметров исследования меньше 30 (n < 30), для проверки типичности параметров уравнения регрессии используется t -критерий Стьюдента. При этом вычисляется фактическое значение t -критерия:

Отсюда

где – остаточная среднеквадратическая погрешность. Полученныеt a и t b сравнивают с критическим t k из таблицы Стьюдента с учётом принятого уровня значимости ( = 0,01 = 99% или  = 0,05 = 95%). P = f = k 1 = m – число параметров исследуемого уравнения (степень свободы). Например, если y = a + bx ; m = 2, k 2 = f 2 = p 2 = n – (m + 1), где n – количество исследуемых признаков.

t a < t k < t b .

Вывод : по проверенным на типичность параметрам уравнения регрессии производится построение математической модели связи
. При этом параметры примененной в анализе математической функции (линейная, гипербола, парабола) получают соответствующие количественные значения. Смысловое содержание полученных таким образом моделей состоит в том, что они характеризуют среднюю величину результативного признака
от факторного признака X .

Д) Криволинейная регрессия.

Довольно часто встречается криволинейная зависимость, когда между переменными устанавливается меняющееся соотношение. Интенсивность возрастания (убывания) зависит от уровня нахождения X. Криволинейная зависимость бывает разных видов. Например, рассмотрим зависимость между урожаем и осадками. С увеличением осадков при равных природных условиях интенсивное увеличение урожая, но до определенного предела. После критической точки осадки оказываются излишними, и урожайность катастрофически падает. Из примера видно, что вначале связь была положительной, а потом отрицательной. Критическая точка - оптимальный уровень признака X, которому соответствует максимальное или минимальное значение признака У.

В экономике такая связь наблюдается между ценой и потреблением, производительностью и стажем.

Параболическая зависимость.

Если данные показывают, что увеличение факторного признака приводит к росту результативного признака, то в качестве уравнения регрессии берется уравнение второго порядка (парабола).

. Коэффициенты a,b,c находятся из уравнений частных производных:

Получаем систему уравнений:

Виды криволинейных уравнений:

,

,

Вправе предполагать, что между производительностью труда и баллами отборочных испытаний существует криволинейная зависимость. Это означает, что с ростом бальной системы производительность начнёт на каком-то уровне уменьшаться, поэтому прямая модель может оказаться криволинейной.

Третьей моделью будет гипербола, и во всех уравнениях вместо переменной х будет стоять выражение .



В продолжение темы:
Штукатурка

Что такое злаки, знает каждый. Ведь человек начал выращивать эти растения более 10 тысяч лет назад. Поэтому и сейчас такие названия злаков, как пшеница, рожь, ячмень, рис,...

Новые статьи
/
Популярные