Не пропусти
Главная » Бизнес и финансы » Регрессионный анализ — статистический метод исследования зависимости случайной величины от переменных

Регрессионный анализ — статистический метод исследования зависимости случайной величины от переменных

Регрессионный анализ — статистический метод исследования зависимости случайной величины от переменных

В статистическом моделировании регрессионный анализ представляет собой исследования, применяемые с целью оценки взаимосвязи между переменными. Этот математический метод включает в себя множество других методов для моделирования и анализа нескольких переменных, когда основное внимание уделяется взаимосвязи между зависимой переменной и одной или несколькими независимыми. Говоря более конкретно, регрессионный анализ помогает понять, как меняется типичное значение зависимой переменной, если одна из независимых переменных изменяется, в то время как другие независимые переменные остаются фиксированными.

Регрессионный анализ - статистический метод исследования зависимости случайной величины от переменных

Во всех случаях целевая оценка является функцией независимых переменных и называется функцией регрессии. В регрессионном анализе также представляет интерес характеристика изменения зависимой переменной как функции регрессии, которая может быть описана с помощью распределения вероятностей.

Данный статистический метод исследования широко используется для прогнозирования, где его использование имеет существенное преимущество, но иногда это может приводить к иллюзии или ложным отношениям, поэтому рекомендуется аккуратно его использовать в указанном вопросе, поскольку, например, корреляция не означает причинно-следственной связи.

Разработано большое число методов для проведения регрессионного анализа, такие как линейная и обычная регрессии по методу наименьших квадратов, которые являются параметрическими. Их суть в том, что функция регрессии определяется в терминах конечного числа неизвестных параметров, которые оцениваются из данных. Непараметрическая регрессия позволяет ее функции лежать в определенном наборе функций, которые могут быть бесконечномерными.

Как статистический метод исследования, регрессионный анализ на практике зависит от формы процесса генерации данных и от того, как он относится к регрессионному подходу. Так как истинная форма процесса данных, генерирующих, как правило, неизвестное число, регрессионный анализ данных часто зависит в некоторой степени от предположений об этом процессе. Эти предположения иногда проверяемы, если имеется достаточное количество доступных данных. Регрессионные модели часто бывают полезны даже тогда, когда предположения умеренно нарушены, хотя они не могут работать с максимальной эффективностью.

В более узком смысле регрессия может относиться конкретно к оценке непрерывных переменных отклика, в отличие от дискретных переменных отклика, используемых в классификации. Случай непрерывной выходной переменной также называют метрической регрессией, чтобы отличить его от связанных с этим проблем.

Самая ранняя форма регрессии — это всем известный метод наименьших квадратов. Он был опубликован Лежандром в 1805 году и Гауссом в 1809. Лежандр и Гаусс применили метод к задаче определения из астрономических наблюдений орбиты тел вокруг Солнца (в основном кометы, но позже и вновь открытые малые планеты). Гаусс опубликовал дальнейшее развитие теории наименьших квадратов в 1821 году, включая вариант теоремы Гаусса-Маркова.

Регрессионный анализ - статистический метод исследования зависимости случайной величины от переменных

Термин «регресс» придумал Фрэнсис Гальтон в XIX веке, чтобы описать биологическое явление. Суть была в том, что рост потомков от роста предков, как правило, регрессирует вниз к нормальному среднему. Для Гальтона регрессия имела только этот биологический смысл, но позже его работа была продолжена Удни Йолей и Карлом Пирсоном и выведена к более общему статистическому контексту. В работе Йоля и Пирсона совместное распределение переменных отклика и пояснительных считается гауссовым. Это предположение было отвергнуто Фишером в работах 1922 и 1925 годов. Фишер предположил, что условное распределение переменной отклика является гауссовым, но совместное распределение не должны быть таковым. В связи с этим предположение Фишера ближе к формулировке Гаусса 1821 года. До 1970 года иногда уходило до 24 часов, чтобы получить результат регрессионного анализа.

Регрессионный анализ - статистический метод исследования зависимости случайной величины от переменных

Методы регрессионного анализа продолжают оставаться областью активных исследований. В последние десятилетия новые методы были разработаны для надежной регрессии; регрессии с участием коррелирующих откликов; методы регрессии, вмещающие различные типы недостающих данных; непараметрической регрессии; байесовские методов регрессии; регрессии, в которых переменные прогнозирующих измеряются с ошибкой; регрессии с большей частью предикторов, чем наблюдений, а также причинно-следственных умозаключений с регрессией.

Модели регрессионного анализа включают следующие переменные:

  • Неизвестные параметры, обозначенные как бета, которые могут представлять собой скаляр или вектор.
  • Независимые переменные, X.
  • Зависимые переменные, Y.

В различных областях науки, где осуществляется применение регрессионного анализа, используются различные термины вместо зависимых и независимых переменных, но во всех случаях регрессионная модель относит Y к функции X и β.

Приближение обычно оформляется в виде E (Y | X) = F (X, β). Для проведения регрессионного анализа должен быть определен вид функции f. Реже она основана на знаниях о взаимосвязи между Y и X, которые не полагаются на данные. Если такое знание недоступно, то выбрана гибкая или удобная форма F.

Предположим теперь, что вектор неизвестных параметров β имеет длину k. Для выполнения регрессионного анализа пользователь должен предоставить информацию о зависимой переменной Y:

  • Если наблюдаются точки N данных вида (Y, X), где N точки к данным. В этом случае имеется достаточно информации в данных, чтобы оценить уникальное значение для β, которое наилучшим образом соответствует данным, и модель регрессии, когда применение к данным можно рассматривать как переопределенную систему в β.

В последнем случае регрессионный анализ предоставляет инструменты для:

  • Поиска решения для неизвестных параметров β, которые будут, например, минимизировать расстояние между измеренным и предсказанным значением Y.
  • При определенных статистических предположениях, регрессионный анализ использует избыток информации для предоставления статистической информации о неизвестных параметрах β и предсказанные значения зависимой переменной Y.

Рассмотрим модель регрессии, которая имеет три неизвестных параметра: β0, β1 и β2. Предположим, что экспериментатор выполняет 10 измерений в одном и том же значении независимой переменной вектора X. В этом случае регрессионный анализ не дает уникальный набор значений. Лучшее, что можно сделать, оценить среднее значение и стандартное отклонение зависимой переменной Y. Аналогичным образом измеряя два различных значениях X, можно получить достаточно данных для регрессии с двумя неизвестными, но не для трех и более неизвестных.

Регрессионный анализ - статистический метод исследования зависимости случайной величины от переменных

Если измерения экспериментатора проводились при трех различных значениях независимой переменной вектора X, то регрессионный анализ обеспечит уникальный набор оценок для трех неизвестных параметров в β.

В случае общей линейной регрессии приведенное выше утверждение эквивалентно требованию, что матрица X Т X обратима.

Когда число измерений N больше, чем число неизвестных параметров k и погрешности измерений εi, то, как правило, распространяется затем избыток информации, содержащейся в измерениях, и используется для статистических прогнозов относительно неизвестных параметров. Этот избыток информации называется степенью свободы регрессии.

Классические предположения для регрессионного анализа включают в себя:

  • Выборка является представителем прогнозирования логического вывода.
  • Ошибка является случайной величиной со средним значением нуля, который является условным на объясняющих переменных.
  • Независимые переменные измеряются без ошибок.
  • В качестве независимых переменных (предикторов) они линейно независимы, то есть не представляется возможным выразить любой предсказатель в виде линейной комбинации остальных.
  • Ошибки являются некоррелированными, то есть ковариационная матрица ошибок диагоналей и каждый ненулевой элемент являются дисперсией ошибки.
  • Дисперсия ошибки постоянна по наблюдениям (гомоскедастичности). Если нет, то можно использовать метод взвешенных наименьших квадратов или другие методы.

Эти достаточные условия для оценки наименьших квадратов обладают требуемыми свойствами, в частности эти предположения означают, что оценки параметров будут объективными, последовательными и эффективными, в особенности при их учете в классе линейных оценок. Важно отметить, что фактические данные редко удовлетворяют условиям. То есть метод используется, даже если предположения не верны. Вариация из предположений иногда может быть использована в качестве меры, показывающей, насколько эта модель является полезной. Многие из этих допущений могут быть смягчены в более продвинутых методах. Отчеты статистического анализа, как правило, включают в себя анализ тестов по данным выборки и методологии для полезности модели.

Кроме того, переменные в некоторых случаях ссылаются на значения, измеренные в точечных местах. Там могут быть пространственные тенденции и пространственные автокорреляции в переменных, нарушающие статистические предположения. Географическая взвешенная регрессия — единственный метод, который имеет дело с такими данными.

В линейной регрессии особенностью является то, что зависимая переменная, которой является Yi, представляет собой линейную комбинацию параметров. Например, в простой линейной регрессии для моделирования n-точек используется одна независимая переменная, xi, и два параметра, β0 и β1.

Регрессионный анализ - статистический метод исследования зависимости случайной величины от переменных

При множественной линейной регрессии существует несколько независимых переменных или их функций.

При случайной выборке из популяции ее параметры позволяют получить образец модели линейной регрессии.

В данном аспекте популярнейшим является метод наименьших квадратов. С помощью него получают оценки параметров, которые минимизируют сумму квадратов остатков. Такого рода минимизация (что характерно именно линейной регрессии) этой функции приводит к набору нормальных уравнений и набору линейных уравнений с параметрами, которые решаются с получением оценок параметров.

При дальнейшем предположении, что ошибка популяции обычно распространяется, исследователь может использовать эти оценки стандартных ошибок для создания доверительных интервалов и проведения проверки гипотез о ее параметрах.

Пример, когда функция не является линейной относительно параметров, указывает на то, что сумма квадратов должна быть сведена к минимуму с помощью итерационной процедуры. Это вносит много осложнений, которые определяют различия между линейными и нелинейными методами наименьших квадратов. Следовательно, и результаты регрессионного анализа при использовании нелинейного метода порой непредсказуемы.

Регрессионный анализ - статистический метод исследования зависимости случайной величины от переменных

Здесь, как правило, нет согласованных методов, касающихся числа наблюдений по сравнению с числом независимых переменных в модели. Первое правило было предложено Доброй и Хардином и выглядит как N = t^n, где N является размер выборки, n — число независимых переменных, а t есть числом наблюдений, необходимых для достижения желаемой точности, если модель имела только одну независимую переменную. Например, исследователь строит модель линейной регрессии с использованием набора данных, который содержит 1000 пациентов (N). Если исследователь решает, что необходимо пять наблюдений, чтобы точно определить прямую (м), то максимальное число независимых переменных, которые модель может поддерживать, равно 4.

Несмотря на то что параметры регрессионной модели, как правило, оцениваются с использованием метода наименьших квадратов, существуют и другие методы, которые используются гораздо реже. К примеру, это следующие методы:

  • Байесовские методы (например, байесовский метод линейной регрессии).
  • Процентная регрессия, использующаяся для ситуаций, когда снижение процентных ошибок считается более целесообразным.
  • Наименьшие абсолютные отклонения, что является более устойчивым в присутствии выбросов, приводящих к квантильной регрессии.
  • Непараметрическая регрессия, требующая большого количества наблюдений и вычислений.
  • Расстояние метрики обучения, которая изучается в поисках значимого расстояния метрики в заданном входном пространстве.

Регрессионный анализ - статистический метод исследования зависимости случайной величины от переменных

Все основные статистические пакеты программного обеспечения выполняются с помощью наименьших квадратов регрессионного анализа. Простая линейная регрессия и множественный регрессионный анализ могут быть использованы в некоторых приложениях электронных таблиц, а также на некоторых калькуляторах. Хотя многие статистические пакеты программного обеспечения могут выполнять различные типы непараметрической и надежной регрессии, эти методы менее стандартизированы; различные программные пакеты реализуют различные методы. Специализированное регрессионное программное обеспечение было разработано для использования в таких областях как анализ обследования и нейровизуализации.

О admin

x

Check Also

Сертификат происхождения товара общей формы (образец)

Сертификат происхождения товара общей формы (образец) Сертификат страны происхождения товара представляет собой документ, однозначно указывающий на государство, из которого поступает данная продукция. Рассмотрим его подробнее. ...

Как поступить в МЧС: образование, специальность, работа

Как поступить в МЧС: образование, специальность, работа Работа в МЧС привлекает многих. Во-первых, быть спасателем очень престижно, а во-вторых, полное государственное обеспечение гарантирует стабильное будущее. ...

Как распознать контрафактный алкоголь? Борьба с контрафактным алкоголем, ответственность

Как распознать контрафактный алкоголь? Борьба с контрафактным алкоголем, ответственность В нашей статье мы хотим поговорить о контрафактном алкоголе. К сожалению, на современном рынке его очень ...

Причины необычайного небесного долголетия «Сессны»

Владение собственным самолётом — мечта многих. Она кажется осуществимой только для тех, кто добился в жизни большого успеха. Однако американская фирма Cessna смогла доказать, что ...

Что такое домна и каковы процессы, происходящие в ней?

Что такое домна и каковы процессы, происходящие в ней? Что такое домна? Это сердце металлургического производства. Доменная печь играет важную роль в производственном процессе получения ...

Фондовые рынки США: причины обвала и его последствия

Фондовые рынки США: причины обвала и его последствия. Обвал фондового рынка США В современном мире экономическая ситуация в компании или даже в целой стране может ...

Коллектор — это

«Коллектор» — это слово, которое появилось в российской действительности недавно. Пришло оно к нам с Запада. «Коллекция», «коллектор» — это производные от латинского collectio — ...

Профессии, интересные для девушек

Профессии, интересные для девушек. Список самых интересных профессий мира Работа – это неотъемлемая часть нашей жизни. Именно поэтому многие хотят, чтобы она была интересной и ...

Образовательные системы: понятие, общая характеристика

Образовательные системы: понятие, общая характеристика. Министерство образования РФ Образовательные системы представляют собой основной объект обновления и реформирования в условиях переходного периода при развитии общества. Содержание ...

Hublot: самые необыкновенные швейцарские часы

Рынок престижных дорогостоящих часов поделен между знаменитыми брендами, история которых давно уже исчисляется веками. Может ли вклиниться в этот очень своеобразный бизнес, основанный в первую ...

Государственный экологический контроль: понятие, виды, цели и задачи

Государственный экологический контроль: понятие, виды, цели и задачи Любое государство, устанавливая правила поведения в каждой из существующих сфер, старается всеми возможными методами обеспечить их соблюдение, ...

Надежные страховые компании: рейтинг, сравнения, отзывы

Надежные страховые компании: рейтинг, сравнения, отзывы Выбор страховой компании — это ответственное и сложное решение. Главная проблема заключается в том, что к данной услуге относятся ...

Золотой стандарт: суть, условия, развитие

Золотой стандарт: суть, условия, развитие. Система золотого стандарта Всем, кто интересуется развитием мировой экономики, необходимо разбираться в исторических предпосылках, которые привели к нынешнему положению. Чтобы ...

Как закончить начатое

Есть какие-то давнишние проекты, которые вы никак не можете закончить? Позвольте поделиться с вами 6 советами, которые покажут разницу между «заканчивать» и «барахтаться в сфере ...

Пути повышения производительности труда: производственные и кадровые резервы

Пути повышения производительности труда: производственные и кадровые резервы Современная экономика диктует свои правила, в число которых входит обязательное требование постоянного повышения результативности труда работников. Без ...

Что нужно знать предпринимателю о промышленном шпионаже

Что нужно знать предпринимателю о промышленном шпионаже Смысл термина «промышленный шпионаж» (а также экономический, корпоративный) чаще всего раскрывается определением его как формы недобросовестной конкуренции, сопряжённой ...

Яндекс.Метрика Рейтинг@Mail.ru