С.П.Иглин

Образовательный математический сайт Exponenta.ru - 2kb

Сравнение двух выборок

Кафедра прикладной математики НТУ ХПИ - 6kb

Введение

Это пособие предназначено для студентов, изучающих курс теории вероятностей и математической статистики. С его помощью Вы освоите тему "Сравнение двух выборок". Прямо из этого пособия Вы можете обработать реальный массив данных, например, своё ИДЗ, даже если у Вас нет на компьютере MATLAB. Если же у Вас есть MATLAB, перейдите на эту страницу: там у Вас есть возможность вмешаться в сценарий (программу) вычислений. Здесь же обработка массива данных проводится по стандартному сценарию, который обычно используется в вузах при изучении курса теории вероятностей и математической статистики.

Для правильной работы с этой страницей Ваш браузер должен поддерживать сценарии Java Script. Включите их.

Постановка задачи

Общая постановка задачи следующая. Есть две независимые генеральные совокупности X и Y, которые предполагаются нормальными. Из них взяты выборки объёмами nx и ny соответственно. Все опыты считаются независимыми. Требуется сравнить эти выборки и сделать вывод о равенстве или неравенстве генеральных математических ожиданий (МО) и дисперсий.

Ввод исходных данных

Пусть проведено несколько (много) измерений случайных величин X и Y. Обозначим их xi и yi. Будем предполагать, что все числа записаны в обычном текстовом формате. Для разделения целой и дробной частей используем десятичную точку. Между числами оставляем хотя бы по одному пробелу. При необходимости можно перед числом поставить знак плюс или минус. Допускается также экспоненциальная форма записи чисел, т.е. числа вида −1.52345E−0002 или −1.52345e−0002, что нужно понимать как −1.52345×10−2. Несколько образцов правильного оформления файлов ИД можно переписать здесь (zip-архив, 3kb, обычные текстовые файлы). В этом архиве − 3 массива данных, можно сравнивать любые 2 из них. Для начала их можно использовать как тестовые примеры, а потом взять свои ИД.

Введём сравниваемые массивы. Занесите Ваши числа в области ввода, которые Вы видите ниже. Числа можно записывать в любом порядке. На любой строке может быть любое количество чисел, разделённых хотя бы одним пробелом. Не ставьте между числами никаких разделителей, кроме пробелов: ни запятых, ни точек с запятой и т.д. Ещё в одну область ввода введите доверительную вероятность p. Это должно быть одно число в пределах от 0 до 1. После записи всех чисел в области ввода нажмите кнопочку Посчитать. Ваши числа будут введены и переформатированы в одномерные массивы. Найдём объёмы выборок nx и ny, выборочные МО ~mx и ~my, выборочные дисперсии ~Dx и ~Dy. Они считаются по формулам:

аналогично для величины Y. Эти результаты выводятся на страницу. Чтобы результаты счёта были корректными, минимальное количество чисел в каждой выборке на этой странице ограничено 10. Ввод меньшего количества чисел приведёт к ошибке.

Сюда введите выборку из величины X:


Сюда введите выборку из величины Y:


Сюда введите доверительную вероятность p:


Проверьте, все ли числа введены. Процедура ввода не отслеживает ошибки, она просто игнорирует нечисловые данные и пропускает их. Поэтому сравните количество введённых чисел с тем, что должно быть. Если всё правильно, переходим к следующему пункту.

Сравнение двух дисперсий

Начнём со сравнения дисперсий, т.к. задача сравнения МО решается по-разному в зависимости от того, разные дисперсии или одинаковые.

Для проверки 0-гипотезы о равенстве генеральных дисперсий используется F-критерий Фишера. На уровне значимости q 0-гипотеза имеет место, если отношение выборочных дисперсий лежит в квантильных границах:

Выполнение соотношения (3) говорит о том, что можно принять 0-гипотезу. Если полученное на практике отношение выборочных дисперсий выходит за левую границу этого интервала, то нужно принять альтернативную гипотезу Dx<Dy. А выход отношения выборочных дисперсий за правую границу (3) − это область альтернативной гипотезы Dx>Dy.

Сравнение двух математических ожиданий

Если генеральные дисперсии сравнимые (справедлива 0-гипотеза для дисперсий Dx=Dy), то для проверки 0-гипотезы для математических жиданий mx=my можно использовать t-критерий Стьюдента. Для этого проверяем выполнение условия:

где f = fx+fy − общее число степеней свободы; формула - 1kb ~D − средневзвешенная выборочная дисперсия:

Если (4) выполняется, то на уровне значимости q можно принять 0-гипотезу о равенстве генеральных МО. Нарушение (4) в левую сторону свидетельствует о справедливости альтернативной гипотезы mx<my, а нарушение правого неравенства − о справедливости альтернативной гипотезы mx>my.

Рассмотрим теперь случай, когда выборочные дисперсии ~Dx и ~Dy различаются значительно: их отношение не попадает в доверительный интервал (3) на уровне значимости q. Здесь точных критериев нет, и различные авторы предлагают свои подходы. Один из возможных критериев предложен в [1]. Вот его алгоритм.

  1. Вычисляем вспомогательные величины:
  1. Находим величину τ:
  1. Проверяем выполнение неравенства:

Если оно выполняется, 0-гипотезу можно принять на уровне значимости q. Нарушение левой части (8) требует принять альтернативную гипотезу mx<my; а нарушение правого неравенства − альтернативную гипотезу mx>my.

Список литературы

  1. Пустыльник Е. И. Статистические методы анализа и обработки наблюдений. − М.: Наука, 1968.