Зависимость, стохастическая. Функциональные и стохастические связи Стохастическая зависимость формула

Зачастую теорию вероятностей воспринимают как раздел математики, который занимается «исчислением вероятностей».

И всё это исчисление фактически сводится к простой формуле:

«Вероятность любого события равна сумме вероятностей входящих в него элементарных событий ». Практически эта формула повторяет, привычное нам с детства, «заклинание»:

«Масса предмета равна сумме масс составляющих его частей ».

Здесь мы будем обсуждать не столь тривиальные факты из теории вероятностей. Речь пойдёт, в первую очередь, о зависимых и независимых событиях.

Важно понять, что одинаковые термины в различных разделах математики могут иметь совершенно различный смысл.

Например, когда говорят, что площадь круга S зависит от его радиуса R , то, конечно, имеется в виду функциональная зависимость

Совсем другой смысл у понятий зависимость и независимость в теории вероятностей.

Знакомство с этими понятиями начнём с простого примера.

Представьте, что вы проводите эксперимент с бросанием игральной кости в этой комнате, а ваш коллега в соседней комнате тоже подбрасывает монету. Пусть вас интересует событие А – выпадение «двойки» у вас и событие В – выпадение «решки» у вашего коллеги. Здравый смысл подсказывает: эти события независимы!

Хотя мы ещё не ввели понятия зависимости/независимости, но интуитивно ясно, что любое разумное определение независимости должно быть устроено так, чтобы эти события определялись как независимые.

Теперь обратимся к другому эксперименту. Бросается игральная кость, событие А – выпадение «двойки», событие В – выпадение нечётного числа очков. Считая, что кость симметрична, можно сразу сказать, что Р(А) = 1/6. А теперь представьте, что вам сообщают: «В результате проведенного эксперимента произошло событие В, выпало нечётное число очков». Что теперь можно сказать о вероятности события А? Понятно, что теперь эта вероятность стала равна нулю.

Для нас самое важное, что она изменилась .

Возвращаясь к первому примеру, можно сказать, информация о том, что в соседней комнате произошло событие В никак не скажется на ваших представлениях о вероятности события А. Эта вероятность не изменится от того, что вы что-то узнали о событии В.

Мы приходим к естественному и чрезвычайно важному выводу –

если информация о том, что событие В произошло меняет вероятность события А, то события А и В следует считать зависимыми, а если не меняет – то независимыми.

Этим соображениям следует придать математическую форму, определить зависимость и независимость событий с помощью формул.

Будем исходить из следующего тезиса: «Если А и В – зависимые события, то в событии А содержится информация о событии В, а в событии В содержится информация о событии А». А как узнать – содержится или нет? Ответ на этот вопрос даёт теория информации .

Из теории информации нам нужна только одна формула, которая позволяет вычислить количество взаимной информации I(A, B) для событий А и В

Не будем вычислять количество информации для различных событий или подробно обсуждать эту формулу.

Для нас важно, что если

то количество взаимной информации между событиями А и В равно нулю − события А и В независимы . Если же

то количество взаимной информации − события А и В зависимы .

Обращение к понятию информации носит здесь вспомогательный характер и, как нам кажется, позволяет сделать более осязаемыми понятии зависимости и независимости событий.

В теории вероятностей зависимость и независимость событий описывается более формально.

В первую очередь нам понадобится понятие условной вероятности .

Условная вероятность события А при условии, что событие В произошло (Р(В) ≠0), называется величина Р(А|В), вычисляемая по формуле

.

Следуя духу нашего похода к пониманию зависимости и независимости событий можно ожидать, что условная вероятность будет обладать следующим свойством: если события А и В независимы , то

Это означает, что информация о том, что событие В произошло никак не влияет на вероятность события А.

Так оно и есть!

Если события А и В независимы, то

Имеем для независимых событий А и В

и

Пусть требуется исследовать зависимость причем обе величины их измеряются в одних и тех же экспериментах. Для этого проводят серию экспериментов при разных значениях стараясь сохранить прочие условия эксперимента неизменными.

Измерение каждой величины содержит случайные ошибки (систематические ошибки здесь рассматривать не будем); следовательно, эти величины являются случайными.

Закономерная связь случайных величин называется стохастической. Будем рассматривать две задачи:

а) установить, существует ли (с определенной вероятностью) зависимость от или величина от не зависит;

б) если зависимость существует, описать ее количественно.

Первую задачу называют дисперсионным анализом, а если рассматривается функция многих переменных - то многофакторным дисперсионным анализом. Вторую задачу называют анализом регрессии. Если случайные ошибки велики, то они могут маскировать искомую зависимость и выявить ее бывает нелегко.

Таким образом, достаточно рассмотреть случайную величину зависящую от как от параметра. Математическое ожидание этой величины зависит от эта зависимость является искомой и называется законом регрессии.

Дисперсионный анализ. Проведем при каждом значении небольшую серию измерений и определим Рассмотрим два способа обработки этих данных, позволяющих исследовать, имеется ли значимая (т. е. с принятой доверительной вероятностью) зависимость z от

При первом способе вычисляют стандарты выборки единичного измерения по каждой серии отдельно и по всей совокупности измерений:

где полное число измерений, а

являются средними значениями соответственно по каждой серии и по всей совокупности измерений.

Сравним дисперсию совокупности измерений с дисперсиями отдельных серий . Если окажется, что при выбранном уровне достоверности можно считать для всех i, то зависимость z от имеется.

Если достоверного превышения нет, то зависимость не поддается обнаружению (при данной точности эксперимента и принятом способе обработки).

Дисперсии сравнивают по критерию Фишера (30). Поскольку стандарт s определен по полному числу измерений N, которое обычно достаточно велико, то почти всегда можно пользоваться коэффициентами Фишера приведенными в таблице 25.

Второй способ анализа заключается в сравнении средних при разных значениях между собой. Величины являются случайными и независимыми, причем их собственные стандарты выборки равны

Поэтому их сравнивают по схеме независимых измерений, описанной в п. 3. Если различия значимы, т. е. превышают доверительный интервал, то факт зависимости от установлен; если различия всех 2 незначимы, то зависимость не поддается обнаружению.

Многофакторный анализ имеет некоторые особенности. Величину целесообразно измерять в узлах прямоугольной сетки чтобы удобнее было исследовать зависимость от одного аргумента, фиксируя другой аргумент. Проводить серию измерений в каждом узле многомерной сетки слишком трудоемко. Достаточно провести серии измерений в нескольких узлах сетки, чтобы оценить дисперсию единичного измерения; в остальных узлах можно ограничиться однократными измерениями. Дисперсионный анализ при этом проводят по первому способу.

Замечание 1. Если измерений много, то в обоих способах отдельные измерения или серии могут с заметной вероятностью довольно сильно отклониться от своего математического ожидания. Это надо учитывать, выбирая доверительную вероятность достаточно близкой к 1 (как это делалось в при установлении пределов, отделяющих допустимые случайные ошибки от грубых).

Анализ регрессии. Пусть дисперсионный анализ указал, что зависимость z от есть. Как ее количественно описать?

Для этого аппроксимируем искомую зависимость некоторой функцией Оптимальные значения параметров найдем методом наименьших квадратов, решая задачу

где - веса измерений, выбираемые обратно пропорционально квадрату погрешности измерения в данной точке (т. е. ). Эта задача была разобрана в главе II, § 2. Остановимся здесь лишь на тех особенностях, которые вызваны присутствием больших случайных ошибок.

Вид подбирают либо из теоретических соображений о природе зависимости либо формально, сравнивая график с графиками известных функций. Если формула подобрана из теоретических соображений и правильно (с точки зрения теории) передает асимптотику то обычно она позволяет не только неплохо аппроксимировать совокупность экспериментальных данных, но и экстраполировать найденную зависимость на другие диапазоны значений Формально подобранная функция может удовлетворительно описывать эксперимент, но редко пригодна для экстраполяции.

Проще всего решить задачу (34), если является алгебраическим многочленом Однако такой формальный выбор функции редко оказывается удовлетворительным. Обычно хорошие формулы зависят от параметров нелинейно (трансцедентная регрессия). Трансцедентную регрессию наиболее удобно строить, подбирая такую выравнивающую замену переменных чтобы зависимость была почти линейной (см. гл. II, § 1, п. 8). Тогда ее нетрудно аппроксимировать алгебраическим многочленом: .

Выравнивающую замену переменных ищут, используя теоретические соображения и учитывая асимптотику Дальше будем считать, что такая замена уже сделана.

Замечание 2. При переходе к новым переменным задача метода наименьших квадратов (34) принимает вид

где новые веса связаны с исходными соотношениями

Поэтому, даже если в исходной постановке (34) все измерения имели одинаковую точность, так что то для выравнивающих переменных веса не будут одинаковыми.

Корреляционный анализ. Надо проверить, действительно ли замена переменных была выравнивающей, т. е. близка ли зависимость к линейной. Это можно сделать, вычислив коэффициент парной корреляции

Нетрудно показать, что всегда выполняется соотношение

Если зависимость строго линейная (и не содержит случайных ошибок), то или в зависимости от знака наклона прямой. Чем меньше , тем менее зависимость похожа на линейную. Поэтому, если , а число измерений N достаточно велико, то выравнивающие переменные выбраны удовлетворительно.

Подобные заключения о характере зависимости по коэффициентам корреляции называют корреляционным анализом.

При корреляционном анализе не требуется, чтобы в каждой точке проводилась серия измерений. Достаточно в каждой точке сделать одно измерение, но зато взять побольше точек на исследуемой кривой, что часто делают в физических экспериментах.

Замечание 3. Существуют критерии близости , позволяющие указать, является ли зависимость практически линейной. Мы на них не останавливаемся, поскольку далее будет рассмотрен выбор степени аппроксимирующего многочлена.

Замечание 4. Соотношение указывает на отсутствие линейной зависимости но не означает отсутствия какой-либо зависимости. Так, если на отрезке - то

Оптимальная степень многочлен а. Подставим в задачу (35) аппроксимирующий многочлен, степени :

Тогда оптимальные значения параметров удовлетворяют системе линейных уравнений (2.43):

и найти их нетрудно. Но как выбрать степень многочлена?

Для ответа на этот вопрос вернемся к исходным переменным и вычислим дисперсию аппроксимационной формулы с найденными коэффициентами. Несмещенная оценка этой дисперсии такова

Очевидно, при увеличении степени многочлена дисперсия (40) будет убывать: чем больше взято коэффициентов, тем точней можно аппроксимирозать экспериментальные точки.

Рассматривая зависимость между признаками, выделим прежде всего зависимость между изменением факторного и результативного признаков, когда вполне определенному значению факторного признака соответствует множество возможных значений результативного признака. Иначе говоря, каждому значению одной переменной соответствует определенное (условное) распределение другой переменной. Такая зависимость называется стохастической. Возникновение понятия стохастической зависимости обусловливается тем, что зависимая переменная подвержена влиянию ряда неконтролируемых или неучтенных факторов, а также тем, что изменение значений переменных неизбежно сопровождается некоторыми случайными ошибками. Примером стохастической связи является зависимость урожайности сельскохозяйственных культур Y от массы внесенных удобрений X. Точно предсказать урожайность мы не можем, так как на нее влияет множество факторов (осадки, состав почвы и т.д.). Однако очевидно, что с изменением массы удобрений будет меняться и урожайность.

В статистике изучаются наблюдаемые значения признаков, поэтому стохастическую зависимость называют обычно статистической зависимостью.

В силу неоднозначности статистической зависимости между значениями результативного признака У и значениями факторного признака X представляет интерес усредненная по X схема зависимости, т.е. закономерность, выражаемая условным математическим ожиданием M(Y/X = х) (вычисленного при фиксированном значении факторного признака X = х ). Зависимости такого рода называются регрессионными , а функция ср(х) = M(Y/X = х) - функцией регрессии Y на X или прогнозом Y по X (обозначение у х = ф(л)). При этом результативный признак Y называют также функцией отклика или объясняемой, выходной, результирующей, эндогенной переменной, а факторный признак X - регрессором или объясняющей, входной, предсказывающей, предикторной, экзогенной переменной.

В параграфе 4.7 доказывалось, что условное математическое ожидание M(Y/X) = ср(х) дает наилучший прогноз У по X в среднеквадратическом смысле, т.е. M(Y- ф(х)) 2 M(Y-g(x)) 2 , где g(x) - любой другой прогноз УпоХ.

Итак, регрессия - это односторонняя статистическая зависимость, устанавливающая соответствия между признаками. В зависимости от числа факторных признаков, описывающих явление, различают парную и множественную регрессии. Например, парная регрессия - это регрессия между затратами на производство (факторный признак X) и объемом продукции, производимой предприятием (результативный признак У). Множественная регрессия - это регрессия между производительностью труда (результативный признак У) и уровнем механизации производственных процессов, фондом рабочего времени, материалоемкостью, квалификацией рабочих (факторные признаки X t , Х 2 , Х 3 , Х 4).

По форме различают линейную и нелинейную регрессии, т.е. регрессии, выражаемые линейной и нелинейной функциями.

Например, ф(Х) = аХ + Ъ - парная линейная регрессия; ф(Х) = аХ 2 + + ЬХ + с - квадратическая регрессия; ф(Х 1? Х 2 ,..., Х п ) = р 0 4- fi { X { + р 2 Х 2 + ... + p„X w - множественная линейная регрессия.

Проблема выявления статистической зависимости имеет две стороны: установление тесноты (силы) связи и определение формы связи.

Установлению тесноты (силы) связи посвящен корреляционный анализ , назначение которого - получить на основе имеющихся статистических данных ответы на следующие основные вопросы:

  • как выбрать подходящий измеритель статистической связи (коэффициент корреляции, корреляционное отношение, ранговый коэффициент корреляции и т.п.);
  • как проверить гипотезу о том, что полученное числовое значение измерителя связи действительно свидетельствует о наличии статистической связи.

Определением формы связи занимается регрессионный анализ. При этом назначение регрессионного анализа - решение на основе имеющихся статистических данных следующих задач:

  • выбор вида функции регрессии (выбор модели);
  • нахождение неизвестных параметров выбранной функции регрессии;
  • анализ качества функции регрессии и проверка адекватности уравнения эмпирическим данным;
  • прогноз неизвестных значений результативного признака по заданным значениям факторных признаков.

На первый взгляд может показаться, что понятие регрессии сходно с понятием корреляции, так как в обоих случаях речь идет о статистической зависимости между исследуемыми признаками. Однако на самом деле между ними есть существенные различия. Регрессия подразумевает причинную взаимосвязь, когда изменение условного среднего значения результативного признака происходит вследствие изменения факторных признаков. Корреляция же ничего не говорит о причинной зависимости между признаками, т.е. если установлено наличие корреляции между X и У, то этот факт не подразумевает того, что изменения значений X обусловливают изменение условного среднего значения У. Корреляция всего лишь констатирует факт того, что изменения одной величины в среднем соотносятся с изменениями другой.

Понравилась статья? Поделитесь ей
Наверх