С.П.Иглин

Образовательный математический сайт Exponenta.ru - 2kb

Обработка массива данных

Кафедра прикладной математики НТУ ХПИ - 6kb

Введение

Это пособие предназначено для студентов, изучающих курс теории вероятностей и математической статистики. С его помощью Вы освоите тему "Обработка массива данных". Прямо из этого пособия Вы можете обработать реальный массив данных, например, своё ИДЗ, даже если у Вас нет на компьютере MATLAB. Если же у Вас есть MATLAB, перейдите на эту страницу: там у Вас есть возможность вмешаться в сценарий (программу) вычислений. Здесь же обработка массива данных проводится по стандартному сценарию, который обычно используется в вузах при изучении курса теории вероятностей и математической статистики.

Для правильной работы с этой страницей Ваш браузер должен поддерживать сценарии Java Script. Включите их.

Ввод исходных данных

Пусть проведено несколько (много) измерений одной и той же случайной величины X. Обозначим их xi. Будем предполагать, что все xi записаны в обычном текстовом формате. Для разделения целой и дробной частей используем десятичную точку. Между числами оставляем хотя бы по одному пробелу. При необходимости можно перед числом поставить знак плюс или минус. Допускается также экспоненциальная форма записи чисел, т.е. числа вида −1.52345E−0002 или −1.52345e−0002, что нужно понимать как −1.52345×10−2. Несколько образцов правильного оформления файлов ИД можно переписать здесь (zip-архив, 5kb, обычные текстовые файлы). Для начала их можно использовать как тестовые примеры, а потом взять свои ИД.

Обработку массива данных начнём с их ввода. Занесите Ваши числа в область ввода, которую Вы видите ниже. Числа можно записывать в любом порядке. На любой строке может быть любое количество чисел, разделённых хотя бы одним пробелом. Не ставьте между числами никаких разделителей, кроме пробелов: ни запятых, ни точек с запятой и т.д. После записи всех чисел в область ввода нажмите кнопочку. Ваши числа будут введены на страницу и переформатированы в одномерный массив. Найдём минимальное xmin и максимальное xmax значения. Найдём также количество данных n. Эти результаты выводятся на страницу. Чтобы результаты счёта были корректными, минимальное количество чисел на этой странице ограничено 25. Ввод меньшего количества чисел приведёт к ошибке.


Проверьте, все ли числа введены. Процедура ввода не отслеживает ошибки, она просто игнорирует нечисловые данные и пропускает их. Поэтому сравните количество введённых чисел с тем, что должно быть. Если всё правильно, переходим к следующему пункту.

Выборочные параметры распределения (точечные оценки)

Будем обозначать выборочные параметры (точечные оценки) теми же буквами, что и соответствующие генеральные параметры, но с волной вверху. Для нашей выборки определим выборочные математическое ожидание ~mx, дисперсию ~Dx, среднеквадратичное отклонение ~σx, асимметрию ~ax и эксцесс ~ex по формулам:

Ниже приведены вычисленные по Вашим данным выборочные параметры распределения (точечные оценки). Эти данные автоматически обновляются при вводе новых исходных данных.

Доверительные оценки генеральных параметров распределения (интервальные оценки)

По выборочным параметрам распределения можно найти доверительные интервалы для генеральных параметров. Доверительный интервал для генерального математического ожидания mx имеет вид

где tp(f) − квантиль t-распределения Стьюдента, соответствующий вероятности p (берётся из таблиц). В эту формулу входят также: ~mx − выборочное математическое ожидание (1), ~σx − выборочное среднеквадратичное отклонение (3), n − объём выборки и f = n−1 − число степеней свободы выборки.

Доверительный интервал для генеральной дисперсии Dx находится по формуле

где χp2(f) − квантиль χ2-распределения Пирсона, соответствующий вероятности p (берётся из таблиц), ~Dx − выборочная дисперсия (2) и f − число степеней свободы выборки.

Вообще говоря, формулы (6-7) имеют место, только если исходная величина X распределена по нормальному закону. Но часто этими формулами пользуются для любого закона распределения X. В этом случае оговаривают, что результаты, полученные по этим формулам, являются приближёнными. Мы пока ещё не знаем, по какому закону распределена наша величина X. Этот вопрос мы будем решать далее.

Для нахождения доверительного интервала для генеральных асимметрии ax и эксцесса ex используем неравенсто Чебышёва. Для генеральной асимметрии имеем:

а для генерального эксцесса:

где q=1−p − уровень значимости, Da, De − дисперсии выборочных асимметрии и эксцесса, которые находятся по формулам:

В формулы (8-11) входят также: выборочная асимметрия ~ax (4), выборочный эксцесс ~ex (5) и объём выборки n. В отличие от (6-7), формулы (8-11) имеют место для любых законов распределения исходной величины X.

Зададим одно или несколько значений доверительной вероятности p в области ввода. Там уже есть несколько значений. Измените или дополните их, если они вам не подходят. Все доверительные вероятности должны быть больше 0 и меньше 1. Принцип задания чисел тот же, что и ранее при задании исходных данных: через десятичную точку или в показательной форме, разделение пробелами. Все нечисловые и неправильные значения игнорируются. Нажав на кнопочку, пересчитаем для этих доверительных вероятностей доверительные интервалы для генеральных параметров: математического ожидания mx, дисперсии Dx, асимметрии ax и эксцесса ex.


Подбор теоретического распределения и его параметров

Подбор теоретического распределения состоит из следующих этапов:

  1. подбор вида распределения (т.е. закона);
  2. подбор параметров распределения (т.е. чисел, входящих в выражение для функции и плотности распределения);
  3. проверка правильности подбора.

В этой главе мы подберём вид теоретического распределения и его параметры (пп. 1 и 2). В следующих главах мы проверим правильность подбора с помощью критериев согласия Колмогорова и Пирсона.

Вид (т.е. закон) теоретического распределения подбирается исходя из вида гистограммы. Поэтому займёмся её построением. Вначале весь интервал изменения данных [xmin, xmax] нужно разбить на участки одинаковой длины. Сколько участков взять? Есть несколько подходов к определению числа участков разбиения k. Один из них − это использование формулы Стэрджесса:

где ⌊...⌋ − операция округления до ближайшего целого. Другой подход состоит в следующем. С одной стороны, число участков разбиения должно быть как можно больше, а с другой стороны, в каждый из этих участков должно попадать как можно больше значений xi. Компромисс между этими требованиями приводит к тому, что обычно выбирают число участков k для построения гистограммы как ближайшее целое к корню квадратному из n:

В сценарии страницы по умолчанию используется второй вариант: квадратный корень из числа опытов, округлённый до ближайшего целого. При необходимости измените этот выбор. В нижеприведенном переключателе выберите нужное число интервалов разбиения и нажмите на кнопочку. Будет определена ширина каждого интервала h и построена гистограмма распределения. Для этого после разбиения интервала [xmin, xmax] на k участков подсчитывается число попаданий нашей величины в каждый участок nj. Столбиковая диаграмма этих nj и называется гистограммой.



По виду гистограммы подбирается теоретический закон распределения. Для этого смотрим, на какую плотность распределения похожа гистограмма, и выбираем соответствующий закон. В этом пособии выбор небольшой. Мы рассматриваем только некоторые наиболее часто встречающиеся в приложениях законы распределения:

  1. нормальное;
  2. показательное (экспоненциальное);
  3. Лапласовское (двустороннее экспоненциальное);
  4. равномерное;
  5. треугольное (Симпсона);
  6. Рэлеевское.

Если у Вас встретилось другое распределение, то напишите мне, и я дополню это пособие. А сейчас посмотрите на рисунки 1-5: нет ли тут чего-нибудь похожего на Вашу гистограмму?

Плотность нормального распределения − колоколообразная кривая, симметричная относительно своей вертикальной оси, но может быть смещена по горизонтали относительно оси Oy. Значения x могут быть разного знака. Выражение для плотности нормального распределения имеет вид:

а функция распределения:

где Φ(u) − интеграл Лапласа, для которого есть таблицы. В выражение для плотности и функции нормального распределения входят 2 параметра: m и σ, поэтому нормальное распределение является двухпараметрическим. По нормальному закону обычно распределена ошибка наблюдений, если на результат эксперимента влияет много мелких независимых факторов.

Плотность показательного распределения отлична от нуля только для неотрицательных значений x. В нуле она принимает максимальное значение, равное α. С ростом x она убывает, оставаясь вогнутой, и асимптотически приближаясь к 0. Выражение для плотности показательного распределения для неотрицательных значений x:

а для функции распределения:

Показательное распределение является однопараметрическим: функция и плотность его зависят от одного параметра α. По показательному закону распределён интервал между однотипными случайными событиями: вызовами на АТС, заказами в фирму, страховыми случаями.

Плотность распределения Лапласа имеет излом в точке β. В этой точке она принимает максимальное значение, равное α/2. В обе стороны от β кривая симметрично убывает, оставаясь вогнутой, и асимптотически приближаясь к 0. Выражение для плотности распределения Лапласа:

а для функции распределения:

Распределение Лапласа используется, например, для описания распределения ошибок в моделях регрессии. Оно является двухпараметрическим. Параметры распределения: α и β.

Плотность равномерного распределения отлична от нуля только в заданном заданном отрезке [a, b], и принимает в нём постоянное значение:

Функция равномерного распределения левее точки a равна нулю, правеее b равна единице, а в отрезке [a, b] изменяется по линейному закону:

Равномерное распределение − двухпараметрическое, т.к. в выражения для Fx(x) и fx(x) входят 2 параметра: a и b. По равномерному закона распределены ошибка округления и фаза случайных колебаний.

Плотность распределения Симпсона также отлична от нуля только в заданном заданном отрезке [a, b], но, в отличие от равномерного распределения, не является на нём постоянной, а имеет треугольный вид:

Функция распределения Симпсона левее точки a равна нулю, правеее b равна единице, а в отрезке [a, b] имеет выражение:

Как и равномерное распределение, распределение Симпсона − двухпараметрическое, т.к. в выражения для Fx(x) и fx(x) входят 2 параметра: a и b. По закону Симпсона распределена сумма двух независимых равномерно распределённых величин.

Плотность Рэлеевского распределения отлична от нуля только для неотрицательных значений x. От нуля она выпуклая и возрастает до некоторого максимального значения. Далее с ростом x она убывает, становясь вогнутой, и асимптотически приближается к 0. Выражение для плотности Рэлеевского распределения имеет вид:

Выражение для функции Рэлеевского распределения:

Это распределение однопараметрическое: оно зависит от одного параметра σ. По Рэлеевскому закону распределено расстояние от точки попадания в мишень до её центра.

Посмотрите на свою гистограмму и выберите подходящее распределение.

В выражение для теоретической функции распределения Fx(x) и теоретической плотности распределения fx(x) входят различные числовые параметры. Для их определения можно применить или принцип максимального правдоподобия, или метод моментов. Принцип максимального правдоподобия заключается в следующем: вычисляется плотность распределения во всех экспериментальных точках xi: fx(xi), а затем их произведение. Это произведение является функцией тех числовых параметров, которые входят в аналитическое выражение для fx(x). Числовые параметры подбираются так, чтобы это произведение было максимальным (исследуется на экстремум функция нескольких переменных).

Более простым является метод моментов. В нём параметры, входящие в выражения для Fx(x) и fx(x), подбираются так, чтобы вычисленные по этим параметрам математическое ожидание (для 1-параметричеких законов) или математическое ожидание и дисперсия (для 2-параметрических законов) совпали с выборочными. Так, для нормального распределения параметры m и σ берём равными соответственно выборочным математическому ожиданию и среднеквадратичному отклонению:

Для показательного распределения параметр α находим:

Для распределения Лапласа параметры α и β находим так:

Параметры равномерного распределения a и b будут равны:

Параметры треугольного распределения Симпсона a и b будут равны:

Параметр σ для Рэлеевского распределения равен:

Выберите в переключателе вид подходящего распределения и нажмите кнопочку (по умолчанию стоит автоматический подбор наилучшего распределения из имеющихся в списке). По методу моментов и формулам (26-31) будут найдены параметры выбранного распределения. Построим на одном графике теоретическую и эмпирическую плотности распределения. Эмпирическая плотность распределения − это та же гистограмма, у которой масштаб по оси ординат изменён таким образом, чтобы площадь под кривой стала равна 1. Для этого все метки по оси ординат в гистограмме нужно разделить на nh, где n − число экспериментальных данных, а h − ширина интервала при построении гистограммы. Теоретическую плотность распределения строим по одной из формул (14), (16), (18), (20), (22) или (24). Эмпирическую плотность распределения нарисуем чёрной линией, а предполагаемую теоретическую − линией такого цвета, как на рис.1-6.








На этом графике в одном масштабе рисуются эмпирическая плотность распределения fx(x)~ и теоретическая fx(x). Какое теоретическое распределение лучше всего согласуется с эмпирическим: нормальное, показательное, Лапласовское, равномерное, треугольное или Рэлеевское?

Критерий согласия Колмогорова

Критерий согласия Колмогорова применяется для проверки правильности подбора теоретического распределения. Для его применения нужно найти максимальную по модулю разность между выборочной (опытной, эмпирической, экспериментальной) функцией распределения Fx(x)~ и теоретической (генеральной, предполагаемой, подобранной) Fx(x):

а по ней вычислить λ=Dn, которую сравнить с квантилем λ-распределения Колмогорова (эти квантили есть в таблицах). Если величина λ не очень большая (не превосходит квантиля λp), то с доверительной вероятностью p статистическую гипотезу можно принять. Если же λ>λp, то теоретическое распределение подобрано неверно.

Для применения критерия согласия Колмогорова нужно построить на одном графике теоретическую функцию распределения Fx(x) и выборочную Fx(x),~ а затем применить сам критерий. График эмпирической функции распределения Fx(x)~ представляет ступенчатую линию: это ломаная со ступеньками высотой 1/n в точках с абсциссами xi. Максимум разности между теоретической и эмпирической функциями распределения достигается как раз на одной из этих ступенек. Вычислим в этих точках выборочную Fx(x)~ и подобранную теоретическую Fx(x) функции распределения. Построим на одном графике Fx(x)~ чёрной линией и подобранную Fx(x) линией выбранного ранее цвета. Вертикальной линией покажем максимальную по модулю разность между Fx(x) и Fx(x).~ Найдём её и вычислим статистику Колмогорова λ=Dn. Сравним найденную статистику с квантилем λ-распределения Колмогорова. Для этого зададим доверительную вероятность. Обычно её выбирают не очень большой, например, 0.7. Задайте доверительную вероятность в окошке и нажмите кнопочку − проверка статистической гипотезы по λ-критерию Колмогорова будет пересчитана с новой доверительной вероятностью.


Критерий согласия Пирсона

В критерии согласия Пирсона сравниваются между собой теоретические и эмпирические числа попаданий в интервалы. Возьмём те интервалы, по которым была построена гистограмма. Эмпирические числа попаданий в эти интервалы nj мы сравниваем с теоретическим числом попаданий npj, где pj − вероятность попадания нашей величины в j интервал. Теоретическое распределение можно считать подобранным верно с доверительной вероятностью p, если суммарная квадратичная относительная разность между теоретическим и практическим числом попаданий в каждый интервал будет не очень большой: должно выполняться условие

причём нужно, чтобы все npj≥5. Здесь m − число ограничений, равное числу параметров выбранного закона распределения плюс 1. Так, для нормального и равномерного законов, а также законов Лапласа и Симпсона m=3, а для экспоненциального и Рэлеевского m=2.

Построим таблицу результатов, в которую занесём: номера интервалов (1-й столбец), границы интервалов aj и bj (2-й и 3-й столбцы), вероятность попадания в интервал pj (4-й столбец), теоретическое число попаданий npj (5-й столбец) и практическое число попаданий nj (6-й столбец).

Границы интервалов и практическое число попаданий возьмём из гистограммы. Теоретическая вероятность попадания в j интервал подсчитывается по формуле

где Fx(x) − подобранная теоретическая функция распределения. Проверим выполнение условия все npj≥5, и объединим те интервалы, в которых npj<5. Перестроим таблицу и добавим в неё ещё один, 7-й столбец − слагаемые левой части формулы (33): (njnpj)2/npj. Подсчитаем сумму элементов последнего столбца, т.е. левую часть формулы (33). Она называется статистика Пирсона. Сравним её с квантилем χ2-распределения Пирсона при заданной доверительной вероятности. Задайте в окошке доверительную вероятность нажмите кнопочку − χ2-критерий Пирсона будет пересчитан с новым значением доверительной вероятности.