Математическая статистика: задачи с решением

Прежде чем изучать готовые решения задач по математической статистике, нужно знать теорию, поэтому для вас я подготовила краткую теорию по предмету «математическая статистика», после которой подробно решены задачи.

Эта страница подготовлена для школьников и студентов.

Если что-то непонятно вы всегда можете написать мне в воцап и я вам помогу!

Статистический материал и его обработка

К оглавлению…

Результаты наблюдений массовых явлений, случайных величин составляют статистические данные или статистический материал. Выборкой объёма называется совокупность случайно отобранных объектов. Множество всех объектов, из которых производится выборка, называется генеральной совокупностью (ГС).

Выборочный метод состоит в том, что на основании изучения некоторого количественного признака у некоторой части статистической совокупности (выборки), полученной в результате статистического отбора, можно сделать вывод о характере распределения этого признака по всей статистической совокупности (генеральной совокупности).

Результаты наблюдений выборки объёма записываются, в частности, в виде статистической совокупности;

При больших значениях и различных значениях xt статистическую совокупность подвергают специальным видам статистической обработки.

Расположим значения которые назовём вариантами, в порядке возрастания и обозначим . Величина называется размахом статистической совокупности. Среди значений могут быть одинаковые. Пусть значение наблюдалось раз, раз, наблюдалось раз. Тогда общий объём выборки равен . Число показывающее, сколько раз встречается варианта (значение) называется частотой а число — относительной частотой варианты .

Последовательность записанная в порядке возрастания с указанием частот и (или) относительных частот, называется вариационным рядом. Статистическим рядом называется последовательность пар . Обычно статистический ряд записывается в виде следующей таблицы:

Геометрическим изображением вариационного ряда является эмпирический полигон распределения, являющийся аналогом плотности распределения случайной величины — ломаная с вершинами — см. рисунок 1.

Вариационный ряд обозрим при небольших значениях . В противном случае его (или первоначальную статистическую совокупность) подвергают интервальной обработке.

Все варианты принадлежат отрезку . Пусть к некоторое (не больше 20) натуральное число. Отрезок разобьём на равных частей длины .

Обозначим эти промежутки следующим образом: . Через обозначим число вариант, попавших в интервал , при этом будем считать, что каждый промежуток содержит свой левый конец, но лишь последний промежуток содержит и свой правый конец. Пусть (числа и можно также отнести к середине . интервала ). Полученные данные занесём в таблицу, называемую интервальной обработкой ряда, или статистической совокупности.

Количество интервалов можно рассчитать по формуле Стерджеса либо с помощью таблицы:

Геометрическим изображением интервальной обработки служит гистограмма (см. рисунок 1). Гистограммой частот называется множество прямоугольников с основаниями и высотами . Площадь гистограммы равна объёму выборки .

Нормированная гистограмма (гистограмма относительных частот) представляет собой ступенчатую фигуру из прямоугольников с основаниями равными интервалам значений признака и высотами, равными плотности частоты . Если соединить прямолинейными отрезками середины верхних оснований прямоугольников, получим полигон распределения. Суммарная площадь всех прямоугольников гистограммы равна 1:

Эмпирической функцией распределении (функцией распределения выборки) называется функция , определяющая для каждого значения относительную частоту события (см. рисунок 2):

где — число вариант , меньших чем — объем выборки.

Функция обладает следующими свойствами (здесь ):

-монотонно неубывающая, непрерывная слева функция.

Функция является статистическим аналогом функции распределения генеральной совокупности. Функцию распределения в математической статистике называют теоретической функцией распределения. Различие между теоретической и эмпирической функциями распределения состоит в том, что определяет вероятность события , a — относительную частоту этого события.

Эмпирическая функция распределения служит для оценки вида теоретической функции распределения случайного признака, полигон и гистограмма — для оценки вида теоретической кривой распределения.

Числовые характеристики законов распределения эмпирических величии

К оглавлению…

Одна из задач математической статистики состоит в установлении закона распределения случайной величины (генеральной совокупности) и оценке параметров этого закона.

Вид закона выбирается из каких-либо теоретических или практических соображений, а параметры следует вычислять, исходя из параметров этого закона.

Важнейшим этапом обработки статистических данных является вычисление оценок числовых характеристик исследуемой случайной величины.

Полученные оценки позволяют в числовой форме описать характерные черты статистического распределения и являются базой для построения математической модели изучаемого случайного явления.

Любая величина , определяемая как функция выборочных значений = , называется выборочной статистикой или просто статистикой. Статистика в, используемая в качестве приближённого значения неизвестного параметра , называется статистической оценкой параметра .

Существует два вида оценок параметров: точечные и интервальные.

Точечной называется статистическая оценка, которая определяется одним числом.

К точечным статистическим оценкам предъявляется ряд требований.

Если — статистическая оценка параметра , то она должна удовлетворять следующим условиям:

1) быть несмещенной, что означает, что .

2) быть состоятельной, т.е. предел по вероятности при последовательности таких оценок должен быть равен искомому параметру, т.е. вероятность того, что , стремится к нулю при .

3) быть эффективной, т.е. дисперсия — наименьшая или быть асимптотически эффективной, что означает, что .

Число называется точностью оценки, если имеет место равенство . Если это неравенство имеет место с некоторой вероятностью , то число называется надёжностью оценки или уровнем надёжности. Наиболее употребительными уровнями надёжности являются 0,999.

Выборочной средней называют среднее арифметическое значение случайной величины по выборочной совокупности объёма :

Выборочная средняя служит несмещенной оценкой математического ожидания признака или генеральной совокупности.

Кроме выборочной средней в статистическом анализе применяются структурные средние: медиана и мода.

Модой Мо называют варианту, которая имеет наибольшую частоту. Если распределение интервальное, то определяется модальный интервал , которому соответствует наибольшая частота , мода вычисляется по формуле:

где — величина модального интервала; — частоты предмодального и послемодального интервала.

Медианой Me называют варианту, которая делит вариационный ряд на две части, равные по числу вариант. Если , а если , то при вычислении медианы интервального ряда распределения используется формула:

где — накопленная частота интервала, предшествующего медианному, включая интервал, предшествующий медианному; — — начальное значение интервала, который содержит медиану. Номер медианного интервала определяется из неравенства случае выполнения равенства номер медианного интервала равен , в противном случае — .

Средние величины не отражают изменчивости (вариации) значений признака. Чтобы охарактеризовать рассеяние наблюдаемых значений количественного признака выборки вокруг своего среднего значения вводят свободную характеристику — выборочную дисперсию.

Выборочной дисперсией называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения :

Выборочным средним квадратическим отклонением (стандартом) называют квадратный корень из выборочной дисперсии:

Выборочная дисперсия является смещённой оценкой генеральной дисперсии, так как

В качестве несмещенной оценки генеральной дисперсии служит «исправленная» выборочная дисперсия:

При достаточно больших выборочная и исправленная дисперсии мало отличаются, поэтому на практике исправленной дисперсией пользуются, если < 50.

Выборочная средняя и дисперсия вариационного ряда являются частными случаями более общего понятия — выборочных (эмпирических) моментов.

Начальный момент — го порядка вариационного ряда определяется по формуле

Центральный момент — го порядка вариационного ряда определяется по формуле

В частности

Центральные моменты первых четырёх порядков выборки выражаются через начальные моменты по формулам:

Коэффициентом асимметрии вариационного ряда называется число

Эксцессом вариационного ряда называется число:

Асимметрия называется также нормированным третьим центральным моментом, а эксцесс — нормированным четвертым центральным моментом признака . Знаки асимметрии и эксцесса указывают на отклонения графика закона распределения от нормального распределения, для которого . При большая часть вариант будет расположена слева от — имеет место левосторонняя асимметрия распределения, при — правосторонняя. Если , в этом случае распределение имеет симметричную форму (рисунок 3).

Положительное значение эксцесса указывает на то, что полигон распределения около моды имеет более высокую острую вершину, чем нормальная кривая, с тем же центром и той же дисперсией.

Отрицательное значение эксцесса имеет место для кривых с более низким и более плоским характером вершины по сравнению с нормальной кривой (см. рисунок 4).

Точечные оценки не указывают величину ошибки, которая совершается при замене и их приближёнными значениями (оценками). Поэтому иногда выгодно пользоваться интервальной оценкой, которая определяется двумя числами и — концами интервала, накрывающего оцениваемый параметр в с заданной вероятностью (надёжностью).

Пусть — точечная оценка параметра . Она тем лучше, чем меньше разность . Тогда в качестве характеристики точности оценки можно взять некоторое , такое, что . Но в статистике можно говорить лишь о вероятности (надёжности) , с которой выполняется это неравенство. Число называется уровнем значимости.

Доверительной вероятностью оценки называется вероятность выполнения неравенства . Обычно у задаётся заранее и наиболее часто полагают и пр. Таким образом:

Доверительный интервал — это интервал , который накрывает неизвестный параметр с заданной надёжностью .

Границы интервала и его величина находятся по выборочным данным и поэтому являются случайными величинами в отличие от оцениваемого параметра , поэтому говорят, что накрывает, а не содержит истинное значение .

Величина доверительного интервала существенно зависит от объёма выборки (уменьшается с ростом ) и значения доверительной вероятности (увеличивается с приближением к единице).

Интервальной оценкой с надёжностью у математического ожидания а нормально распределённой случайной величины (признака) по выборочной средней при известном СКО генеральной совокупности служит доверительный интервал

где — точность оценки, — объём выборки, — значение аргумента функции Лапласа при котором .

При неизвестном (в условиях эксперимента обычно неизвестно) доверительный интервал для математического ожидания нормально распределённой случайной величины имеет вид:

где — квантиль распределения Стьюдента, определяемый по таблицам, а параметры находятся по данным выборки.

При больших выборках распределение Стьюдента приближается к нормальному, и тогда можно пользоваться теоремами о нормальном распределении.

Доверительный интервал для задаётся неравенствами:

где — квантили распределения, определяемые по соответствующим таблицам по заданному уровню значимости а и числу степеней свободы , либо

Величина находится по таблице и зависит от надежности и объема выборки.

Статистическая проверка гипотез

К оглавлению…

Статистической гипотезой называется предположение относительно параметров или вида распределения изучаемой случайной величины.

Статистические гипотезы можно разделить на следующие основные группы:

1 (гипотезы о параметрах распределения;

2)гипотезы о виде распределения.

Выдвинутую гипотезу называют нулевой и обозначают ее через . Наряду с рассматривают конкурирующую (или альтернативную) гипотезу .

Таким образом, ставится задача проверки гипотезы относительно конкурирующей гипотезы на основе выборки объема . Правило, по которому принимается или отвергается гипотеза, называется статистическим критерием. Принципы проверки статистических гипотез впервые были сформулированы в работах известных математиков Е. Неймана и Э. Пирсона. Они исходили из того, что принимая или отвергая гипотезу , можно допустить ошибки двух видов.

Ошибка первого рода: отвергается (принимается ) в то время как в действительности верна гипотеза . Вероятность ошибки первого рода называют уровнем значимости и обозначают :

Величину , то есть вероятность принять верную гипотезу, называют уровнем доверия (доверительным уровнем).

Ошибка второго рода: принимается, в то время как верна гипотеза . Вероятность ошибки второго рода обозначается .

Вероятность принять гипотезу если она верна, называют мощностью критерия.

Суть проверки статистической гипотезы заключается в том, что используется специально составленная выборочная характеристика (статистика) , полученная по выборке , так, чтобы в случае, если гипотеза верна, точное или приближенное распределение было бы известным. Построение критерия, в зависимости от вида гипотезы , заключается в выборе таких значений и , что если то гипотеза принимается. Значения и называются критическими, а область называется областью допустимых значений.

Множество возможных значений статистики разбивается на 2 непересекающихся подмножества: критическую область — множество значений , при которых отвергается — , и область допустимых значений — множество значений , при которых принимается — . Если фактически наблюдаемое (полученное по выборке) значение статистики критерия попадает в критическую область, то гипотезу отвергают, в противном случае принимают.

Проверка гипотезы о нормальном распределении генеральной совокупности. Критерий согласия Пирсона

К оглавлению…

Одной из задач математической статистики является установление истинного закона распределения случайной величины на основании экспериментальных данных. Критерии, устанавливающие закон распределения, называются критериями согласия.

Алгоритм применения критерия Пирсона.

1)Из генеральной совокупности образовывается случайная выборка, и на ее основе делается предположение о нормальном законе распределения. Выдвигается гипотеза : «генеральная совокупность распределена нормально».

2)Вычисляются выборочные числовые характеристики .

3)Вычисляются теоретические частоты:

а) Для дискретного ряда

где — объем выборки, — шаг (разность между двумя соседними вариантами),

Значения определяются из таблицы приложения 1.

б) Для интервального ряда , где — объем выборки,

теоретические вероятности попадания в интервалы

функция Лапласа, значения которой определяются по таблице

4)Находится наблюдаемое значение критерия Пирсона по формуле

5)По таблице критических точек распределения по заданному уровню значимости а и числу степеней свободы ( — число групп для дискретного ряда или число интервалов для интервального ряда) находят критическую точку правосторонней критической области.

6)Если — нет оснований отвергнуть гипотезу о нормальном распределении генеральной совокупности. Другими словами, эмпирические и теоретические частоты различаются незначимо. Если — гипотезу отвергают.

Замечание. Малочисленные варианты и интервалы (содержащие малочисленные частоты ) следует объединить, а соответствующие им частоты сложить. Если производилось объединение частот, то в формуле следует в качестве принять число групп или интервалов выборки, оставшихся после объединения частот.

Элементы теории регрессионного и корреляционного анализа

К оглавлению…

Методы теории корреляции позволяют определять зависимость между различными факторами или случайными величинами. Термин «корреляция» происходит от латинского «correlatio» — соотношение, взаимосвязь.

В естественных науках часто речь идёт о функциональной зависимости, когда каждому значению одной величины соответствует вполне определённое значение другой. Случайные величины обычно не связаны функциональной зависимостью. В большинстве случаев между переменными существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определённое, а множество возможных значений другой переменной. Такая зависимость получила название статистической (или стохастической, вероятностной).

В силу неоднозначной статистической зависимости между случайными величинами и для исследователя представляет интерес усреднённая схема зависимости — зависимость условного математического ожидания или его статистического аналога от значений случайной величины , то есть или . Здесь — условная средняя, которая определяется как среднее арифметическое значений , то есть , соответствующих значению . Такая зависимость получила название корреляционной. Корреляционной зависимостью от называют функциональную зависимость условной средней ух от :

Уравнение (14) называют уравнением регрессии на ; функцию называют регрессией на , а её график -линиейрегрессии на .

Статистические связи между переменными можно изучать методами корреляционного и регрессионного анализа. Основной задачей корреляционного анализа является выявление связи между случайными величинами и оценка ее тесноты. Основной задачей регрессионного анализа — установление и изучение формы зависимости между переменными.

Данные о статистической зависимости удобно представлять в виде корреляционной таблицы:

Здесь

значения случайных величин и соответственно, а

соответствующие частоты, — частота, с которой встречается пара .

По направлению корреляционная связь может быть положительной («прямой») и отрицательной («обратной»). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака — низкие значения другого. При отрицательной корреляции соотношения обратные.

Наличие корреляции приближенно может быть определено с помощью корреляционного поля. Его получим, если нанесем на график в определенном масштабе точки, соответствующие наблюдаемым одновременным значениям двух величин — если точки рассеяны хаотично, то связь между и отсутствует; если точки группируются около какой-то линии, то связь есть, и она тем теснее, чем ближе они группируются (рисунок 5).

Рассмотрим наиболее важный для практики случай линейной зависимости между величинами. В теории вероятностей показателем тесноты линейной зависимости являлся коэффициент корреляции, в математической статистике таким показателем является выборочный коэффициент корреляции.

Выборочным коэффициентом корреляции называется величина, рассчитываемая по формуле:

где

оценка корреляционного момента; и — исправленные средние квадратические отклонения.

Выборочный коэффициент корреляции обладает некоторыми свойствами:

  1. ;
  2. Чем ближе значение к единице, тем более тесная линейная зависимость между изучаемыми величинами. В зависимости оттого, насколько приближается к единице, различают слабую, умеренную, заметную, достаточно тесную и весьма тесную линейную связь.
  3. Если , то говорят о прямой связи между изучаемыми величинами (т.е. с увеличением одной случайной величины увеличивается и другая), если же , говорят об обратной связи (с увеличением одной случайной величины вторая уменьшается).
  4. Если все значения переменных увеличить (уменьшить) на одно и тоже число или в одно и то же число раз, то величина коэффициента корреляции не изменится. Коэффициент корреляции есть безразмерная характеристика тесноты линейной связи.
  5. При корреляционная связь представляет линейную функциональную зависимость, при этом все точки поля корреляции лежат на одной прямой.
  6. При или близком к нулю линейная корреляционная связь отсутствует, но это не означает отсутствие другой зависимости, например, нелинейная связь может быть очень тесной.

Для ответа на вопрос о значимости коэффициента корреляции проверяют нулевую гипотезу о равенстве нулю генерального коэффициента корреляции. Если гипотеза принимается, то говорят, что между и нет линейной корреляционной зависимости, иначе линейная зависимость признается значимой.

Для того чтобы при уровне значимости проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции при конкурирующей , надо вычислить наблюдаемое значение критерия:

затем, пользуясь таблицей критических точек распределения Стьюдента, по заданному уровню значимости и числу степеней свободы найти критическую точку для двухсторонней критической области. Если сравнить данные величины, то можно сделать вывод о степени коррелированности исходных признаков:

•если , то верна нулевая гипотеза и, следовательно, величины не коррелированны;

•если же , то нулевая гипотеза отвергается.

Рассмотрим уравнение парной линейной регрессии . Найдём формулы расчёта неизвестных параметров и по имеющимся статистическим данным .

Согласно методу наименьших квадратов неизвестные параметры выбираются таким образом, чтобы сумма квадратов отклонений выборочных значений от значений , полученных по уравнению регрессии, была минимальна:

На основании необходимого условия экстремума, приравнивая нулю частные производные, получим:

После преобразования получаем систему нормальных уравнений для определения параметров линейной регрессии:

Из последней системы следуют формулы для определения параметров уравнения парной линейной регрессии на :

Уравнение регрессии можно с учётом формулы вычисления параметра записать в виде

Коэффициент показывает, на сколько единиц в среднем изменится переменная при увеличении переменной на одну единицу.

Уравнение регрессии может быть использовано для прогнозирования значений при значениях , не указанных в корреляционной таблице.

Величину называют остаточной дисперсией случайной величины относительно случайной величины ; она характеризует величину ошибки, которая возникает при замене линейной функцией. При остаточная дисперсия равна нулю, т.е. при представлении в виде линейной функции от не возникает ошибки, a и связаны линейной функциональной зависимостью.

Кстати готовые на продажу задачи тут, и там же теория из учебников может быть вам поможет она.

Задачи с решением

К оглавлению…

Задача № 1

  • Из генеральной совокупности извлечена выборка объёма :

Требуется:

1)Найти и построить эмпирическую функцию распределения;

2)Найти выборочное среднее, «исправленное» СКО, выборочную моду и медиану.

Решение:

1) Согласно определению эмпирической функции распределения её значение при любом равно , где — количество элементов ; выборки, меньших, чем — объём выборки.

Например, при

Тогда

График эмпирической функции распределения изображён на рисунке 6.

2) Определим выборочное среднее выборки по формуле (2):

«Исправленную» дисперсию найдём, используя следующую формулу:

Так как мода — это варианта, которой соответствует наибольшая частота, то .

Не сгруппированные данные образуют дискретный вариационный ряд, содержащий нечётное число вариант :

Значит, медиана равна

Задача № 2

  • Записать в виде вариационного ряда выборку 20, 19, 12, 13, 16, 17, 17, 14, 16, 14, 13, 19, 18, 16, 14. Представить статистическое распределение выборки. Построить полигон относительных частот для статистического ряда. Вычислить числовые характеристики выборки: выборочное среднее, «исправленную» и выборочную дисперсии, «исправленное» среднеквадратическое отклонение (СКО).

Решение:

Объём выборки . Упорядочив элементы выборки по возрастанию, получим вариационный ряд:

12, 13, 13, 14, 14, 14, 16, 16, 16, 17, 17, 18, 19, 19, 20.

Статистическое распределение исходной выборки можно записать в виде следующей таблицы:

Полигон относительных частот изображён на рисунке 7.

Находим выборочное среднее по формуле (2):

Для вычисления выборочной дисперсии используем формулу (5):

«Исправленная» дисперсия и СКО:

Задача № 3

  • Найти выборочное среднее, моду, медиану и выборочное СКО выборки объёмом , распределение которой задано следующей таблицей:

Построить гистограмму и полигон частот.

Решение:

Для построения гистограммы все частоты необходимо разделить на длину интервала, равную 1,02, и откладывать по оси ординат. По оси абсцисс отмечаются границы интервалов (рисунок 8).

Для построения полигона частот найдем середины интервалов и дополним исходную таблицу:

Ломаная линия (рисунок 8) будет соединять точки с координатами .

Для расчёта выборочного среднего и выборочного СКО составляем вариационный ряд, принимая в качестве вариант середины соответствующих интервалов:

Таким образом:

Так как наибольшая частота

отвечает интервалу 1,02 — 2,04, то

Мода (согласно формуле (3)) равна:

Определим номер медианного интервала. Так как , то номер медианного интервала равен 3, а сам интервал — 2,04 — 3,06. Тогда, по формуле (4), получаем:

Задача № 4

Дан статистический ряд признака :

Найти начальные и центральные моменты первых четырёх порядков признака , а также определить асимметрию и эксцесс.

Решение:

Вычисления проводим по формулам (8) для и по формулам (10) для .

Начальные моменты:

Центральные моменты

Тогда, так как

то

Задача № 5

Предельная нагрузка для выборки из 50 стальных стержней характеризуется следующим рядом:

Считая распределение предельной нагрузки нормальным, построить доверительные интервалы для оценки с надёжностью средней предельной нагрузки и СКО предельной нагрузки стальных стержней партии, из которой произведена выборка.

Решение:

Вычислим выборочное среднее и исправленное СКО соответственно по формулам

По таблице (см. приложение 3) найдём

Точность оценки:

Доверительный интервал для средней предельной нагрузки найдём по формуле (13):

Доверительный интервал для СКО предельной нагрузки будем искать по формуле

так как

Задача № 6

В результате эксперимента получены данные, представленные в виде статистического ряда:

Требуется:

1 )3аписать значения результатов эксперимента в виде вариационного ряда.

2)Представить данную выборку в виде интервального статистического ряда.

3)Найти числовые характеристики выборки:

4) Определить доверительные интервалы неизвестного математического ожидания и неизвестного среднего квадратического отклонения. Предполагается, что генеральная совокупность имеет нормальное распределение. Доверительную вероятность принять равной 0,95.

Решение:

1) Расположим значения результатов эксперимента в порядке возрастания, т.е. записываем вариационный ряд:

14 21 28 30 30 32 33 35 38 39 40 41 41 42 42 42 43 44 45 45 46 4747 47 48 48 49 49 50 51 52 53 54 54 56 57 58 58 59 59 60 60 60 60 61 61 65 67 72 77.

2) Объём выборки . Наибольшая варианта — 77, наименьшая — 14. Найдём длину интервала:

Выбираем длину интервала 9. Интервальный статистический ряд примет вид:

3) Для вычисления числовых характеристик составляем вариационный ряд, принимая в качестве вариант середины соответствующих интервалов:

Таким образом:

4) Доверительный интервал для оценки математического ожидания нормально распределённой случайной величины найдём по формуле:

Из приложения 3 для находим . Далее

Доверительный интервал для оценки а нормального распределения по несмещённой оценке определяется из неравенства

где величина

определяется из таблицы (приложение 4).

Имеем

При

в таблице приложения находим

Следовательно,

Значит,

Задача № 7

  • Требуется при уровне значимости проверить по критерию согласия Пирсона гипотезу о нормальном распределении генеральной совокупности, если известны эмпирические частоты и теоретические частоты :

Решение:

Определим наблюдаемое значение критерия Пирсона по формуле

В таблице критических точек (приложение 5) находим при уровне значимости значение (имеем степени свободы). Значение Следовательно, выдвинутая гипотеза о нормальном распределении генеральной совокупности не отвергается.

Задача № 8

  • Из генеральной совокупности извлечена выборка, представленная в виде ряда.

Требуется проверить, согласуются ли выборочные данные с гипотезой о нормальном распределении случайной величины с помощью критерия согласия Пирсона при уровне значимости , разбив отрезок на интервалов одинаковой длины. Величину рассчитать по формуле Стерджеса .

Решение:

Подсчитаем количество интервалов разбиения:

Из ряда видно, что

поэтому

Границы интервалов будут:

Частота — интервала подсчитывается с помощью ряда как число наблюдений, попавших в интервал. Так в первый интервал ) 0,6; 1,11 попало 7 значений, во второй [1,1; 1,6[ — 14 значений. Сведём полученные данные в таблицу:

Объем выборки равен

Выборочное среднее и дисперсия определяются по формулам:

Найдём теоретические вероятности по формуле

где — функция Лапласа, значения которой даются в приложении 3. Результаты вычислений сведём в таблицу:

Вычислим наблюдаемое значение критерия Пирсона. Для этого составим следующую расчетную таблицу:

По таблице критических точек распределения , уровню значимости и числу степеней свободы

находим

Так как

то нет оснований отвергнуть гипотезу о нормальном распределении генеральной совокупности.

Задача № 9

  • По заданной таблице зависимости признаков и

вычислить выборочный коэффициент корреляции и остаточную дисперсию. Записать уравнения прямой регрессии на . Построить корреляционное поле и линию регрессии на корреляционном поле.

Решение:

Вычислим основные выборочные характеристики: Выборочные средние:

Найдем оценки для средних квадратичных отклонений и корреляционного момента, для чего составим следующую вспомогательную таблицу:

Согласно формуле (15):

Найдем методом наименьших квадратов эмпирическую формулу вида . Составим систему нормальных уравнений (17) для определения параметров линейной регрессии. Так как

Уравнение регрессии на имеет вид:

Остаточная дисперсия:

Корреляционное поле и линия регрессии на корреляционном поле изображены на рисунке 9.

Задача № 10

  • Таблица значений признака при данных значениях признака имеет вид:

Построить корреляционное поле. Найти выборочный коэффициент корреляции, оценить его значимость. Записать уравнения прямой линии регрессии на .

Решение:

Корреляционное поле данной двумерной выборки приведено на рисунке 10.

По виду поля корреляции можно судить о том, что между величинами существует зависимость.

Для вычисления выборочных числовых характеристик составляем следующую расчётную таблицу:

Замечание. Строка

получается следующим образом:

Столбец

Вычислим выборочные средние

«Исправленные» дисперсии находим по формулам:

Оценку корреляционного момента вычисляем по формуле:

Рассчитав все нужные величины, можно вычислить выборочный коэффициент корреляции:

Для оценки значимости выборочного коэффициента корреляции вычислим наблюдаемое значение критерия, воспользовавшись формулой (16):

Затем по таблице критических точек распределения Стьюдента, по заданному уровню значимости и числу степеней свободы найдем критическую точку для двухсторонней критической области:

Сравнивая , получим, что , следовательно, величины коррелированы.

Оценкой теоретической линии регрессии является эмпирическая линия регрессии, уравнение которой имеет вид

Тогда

Задача № 11

Из генеральной совокупности извлечена выборка, представленная в виде статистического ряда:

Требуется:

1)вычислить выборочное среднее , выборочную дисперсию , исправленную выборочную дисперсию и среднее квадратичное отклонение ;

2)найти размах варьирования; моду и медиану;

3)построить полигон частот и эмпирическую функцию распределения;

4)провсрить, согласуются ли выборочные данные с гипотезой о нормальном распределении случайной величины графически и с помощью критерия согласия Пирсона при уровне значимости , представив данную выборку в виде интервального ряда. Количество интервалов рассчитать по формуле Стерджеса ;

5)найти с доверительной вероятностью доверительный интервал для математического ожидания, а также доверительный интервал для .

Решение:

1) Объем выборки равен

Выборочное среднее определим по формуле:

Для нахождения выборочной дисперсии составим следующую вспомогательную таблицу:

Тогда

Исправленное среднее квадратичное отклонение будет

2) Размах варьирования находится по формуле

Так как мода — это варианта, которой соответствует наибольшая частота, то

Не сгруппированные данные образуют дискретный вариационный ряд, содержащий чётное число вариант , поэтому

3) Согласно определению эмпирической функции распределения ее значение при любом равно где — количество элементов выборки, меньших, чем .

Тогда

График эмпирической функции распределения:

Полигон частот изображен на рисунке:

4) Так как полигон частот по форме напоминает кривую Гаусса, то можно сделать предположение о том, что случайная величина распределена по нормальному закону. Проверим данное утверждение по критерию Пирсона. Вычислим количество интервалов:

Длина интервала

Границы интервалов будут:

Посчитаем число выборочных значений, попавших в каждый интервал. Частота интервала подсчитывается с помощью ряда, как число наблюдений, попавших в интервал. Так, в первый интервал [4; 5,2] попало 3 значения; во второй — [5,2; 6,4] попало 7 значений. Аналогично получаем частоты 3-7 интервалов.

Полученные данные сведём в следующую таблицу:

Найдем теоретические вероятности по формуле:

Результаты вычислений сведем в таблицу:

Так как ожидаемые (эмпирические) частоты первого и седьмого интервалов группировки не удовлетворяют условию 5, объединим эти интервалы (первый со вторым; а седьмой — с шестым).

Вычислим наблюдаемое значение критерия Пирсона. Для этого составим

По таблице критических точек распределения , уровню значимости и числу степеней свободы находим . Так как

то гипотеза о нормальном распределении принимается.

5) Доверительный интервал для математического ожидания найдём по формуле

Значение определим по таблице для доверительной вероятности

и объёму выборки

Тогда доверительный интервал имеет вид:

Задача № 12

По заданной таблице зависимости признаков и :

1}Вычислить выборочный коэффициент корреляции; проверить его на значимость, приняв .

2)Методом наименьших квадратов выровнять зависимость от по прямой .

3)Вычислить остаточную дисперсию, сделать вывод.

4)Построить корреляционное поле и линию регрессии на корреляционном поле.

Решение:

Найдём выборочные средние х, у, а также оценки для средних квадратичсских отклонений и корреляционного момента, для чего составим следующую вспомогательную таблицу:

Здесь

Тогда

Выборочное значение коэффициента корреляции:

Проверим значимость полученного выборочного коэффициента корреляции. Найдём наблюдаемое значение критерия:

По таблице критических точек распределения Стьюдента, по уровню значимости и числу степеней свободы находим критическую точку двусторонней критической области .

Так как , то отвергаем гипотезу о равенстве нулю генерального коэффициента корреляции, значит и -коррелированы.

Запишем нормальную систему уравнений. Так как

то

Решая систему по формулам Крамера, получим:

Следовательно, зависимость между величинами и выражается приближённой формулой

3) Остаточная дисперсия:

То сеть величина ошибки, которая возникает при замене линейной функцией, невелика можно сделать вывод, что между величинами и существует приближённая линейная зависимость.

4) Корреляционное поле и линия регрессии на корреляционном поле представлены на следующем рисунке:

Возможно эти страницы вам будут полезны: