Точечная оценка и ее свойства. Точечная оценка параметров распределения Статистическая оценка

План лекции:

    Понятие оценки

    Свойства статистических оценок

    Методы нахождения точечных оценок

    Интервальное оценивание параметров

    Доверительный интервал для математического ожидании при известной дисперсии нормально распределённой генеральной совокупности.

    Распределение хи-квадрат и распределение Стьюдента.

    Доверительный интервал для математического ожидании случайные величины, имеющей нормальное распределение при неизвестной дисперсии.

    Доверительный интервал для среднего квадратического отклонения нормального распределения.

Список литературы:

    Вентцель, Е.С. Теория вероятностей [Текст] / Е.С. Вентцель. – М.: Высшая школа, 2006. – 575 с.

    Гмурман, В.Е. Теория вероятностей и математическая статистика [Текст] / В.Е. Гмурман. - М.: Высшая школа, 2007. - 480 с.

    Кремер, Н.Ш. Теория вероятностей и математическая статистика [Текст] / Н.Ш. Кремер - М: ЮНИТИ, 2002. – 543 с.

П.1. Понятие оценки

Такие распределения, как биномиальное, показательное, нормальное, являются семействами распределений, зависящими от одного или нескольких параметров. Например, показательное распределение с плотностью вероятностей , зависит от одного параметра λ, нормальное распределение
- от двух параметровm и σ. Из условий исследуемой задачи, как правило, ясно, о каком семействе распределений идёт речь. Однако остаются неизвестными конкретные значения параметров этого распределения, входящие в выражения интересующих нас характеристик распределения. Поэтому необходимо знать хотя бы приближённое значение этих величин.

Пусть закон распределения генеральной совокупности определён с точностью до значений входящих в его распределение параметров
, часть из которых может быть известна. Одной из задач математической статистики является нахождение оценок неизвестных параметров по выборке наблюдений
из генеральной совокупности. Оценка неизвестных параметров заключается в построении функции
от случайной выборки, такой, что значение этой функции приближённо равно оцениваемому неизвестному параметруθ . Функция называетсястатистикой параметра θ .

Статистической оценкой (в дальнейшем просто оценкой ) параметраθ теоретического распределения называется его приближённое значение, зависящего от данных выбора.

Оценка является случайной величиной, т.к. является функцией независимых случайных величин
; если произвести другую выборку, то функция примет, вообще говоря, другое значение.

Существует два вида оценок – точечные и интервальные.

Точечной называется оценка, определяемая одним числом. При малом числе наблюдений эти оценки могут приводить к грубым ошибкам. Чтобы избежать их, используют интервальные оценки.

Интервальной называется оценка, которая определяется двумя числами – концами интервала, в котором с заданной вероятностью заключена оцениваемая величина θ .

П. 2 Свойства статистических оценок

Величину
называютточностью оценки . Чем меньше
, тем лучше, точнее определён неизвестный параметр.

К оценке любого параметра предъявляется ряд требований, которым она должна удовлетворять, чтобы быть «близкой» к истинному значению параметра, т.е. быть в каком-то смысле «доброкачественной» оценкой. Качество оценки определяют, проверяя, обладает ли она свойствами несмещённости, эффективности и состоятельности.

Оценка параметраθ называется несмещённой (без систематических ошибок), если математическое ожидание оценки совпадает с истинным значением θ :

. (1)

Если равенство (1) не имеет места, то оценка называетсясмещённой (с систематическими ошибками). Это смещение может быть связано с ошибками измерения, счёта или неслучайным характером выборки. Систематические ошибки приводят к завышению или занижению оценки.

Для некоторых задач математической статистики может существовать несколько несмещённых оценок. Обычно предпочтение отдают той, которая обладает наименьшим рассеянием (дисперсией).

Оценка называетсяэффективной , если она имеет наименьшую дисперсию среди всех возможных несмещённых оценок параметра θ .

Пусть D () – минимальная дисперсия, а
– дисперсия любой другой несмещённой оценкипараметраθ . Тогда эффективность оценки равна

. (2)

Ясно, что
. Чем ближе
к 1, тем эффективнее оценка. Если
при
, то оценка называетсяасимптотически эффективной .

Замечание : Если оценка смещённая, то малости её дисперсии ещё не говорит о малости её погрешности. Взяв, например, в качестве оценки параметраθ некоторое число , получим оценку даже с нулевой дисперсией. Однако в этом случае ошибка (погрешность)
может быть сколь угодно большой.

Оценка называетсясостоятельной , если с увеличением объема выборки (
) оценка сходится по вероятности к точному значению параметраθ , т.е. если для любого

. (3)

Состоятельность оценки параметраθ означает, что с ростом n объема выборки качество оценки улучшается.

Теорема 1. Выборочная средняя является несмещённой и состоятельной оценкой математического ожидания.

Теорема 2. Исправленная выборочная дисперсия является несмещённой и состоятельной оценкой дисперсии.

Теорема 3. Эмпирическая функция распределения выборки является несмещённой и состоятельной оценкой функции распределения случайной величины.

по самоподготовке к практическому занятию по математике

Тема : Статистическое распределение выборки, дискретные и интервальные вариационные ряды. Точечные и интервальные оценки параметров распределения. Погрешности измерений и их оценки.

Актуальность темы : ознакомление с основными понятиями и методами математической статистики как средством решения задач физического, химического, биологического и иного характера, встречающихся как в процессе изучения профильных дисциплин, так и в дальнейшей профессиональной деятельности

Цель занятия : научиться строить статистические ряды для дискретных и непрерывных случайных величин и вычислять точечные оценки генеральных параметров, вычислять погрешности при прямых и косвенных измерениях.

План изучения темы

1. Основные задачи математической статистики.

2. Генеральная и выборочная совокупности.

3. Дискретный вариационный ряд и его графическое изображение.

4. Интервальный вариационный ряд и его графическое изображение. Виды статистических оценок.

5. Требования к статистическим оценкам.

6. Понятия генеральной и выборочной средних.

7. Понятия генеральной, выборочной и исправленной дисперсий.

8. Понятия генерального, выборочного и исправленного среднего квадратического отклонения.

Основная литература:

1. Морозов, Ю.В. Основы высшей математики и статистики: учеб. для студентов мед. и фаpмацевт. вузов и фак./Ю.В. Морозов.-

М.:Медицина, 2004.-232 с.

2. Основы высшей математики и математической статистики: учеб. для студентов мед. и фармацевт. вузов/И.В. Павлушков, Л.В.Розовский, А.Е.Капульцевич и др.-2-е изд., испр.-М.:ГОЭТАР-

Медиа, 2006.-423 с.

Дополнительная литература:

Методические рекомендации к практическим занятиям по высшей математике [Электронный ресурс]: учеб.-метод. пособие для вузов/ авт.-сост. : Т.А.Новичкова; ГОУ ВПО "Курск. гос. мед. ун-т", каф. физики, информатики и математики.-Курск:КГМУ, 2009.

Гмурман В.Е. Теория и математическая статистика. М. «Высшая школа», изд. 5, 2004.

Вопросы для самоконтроля:

1) Определение статистического ряда.

2) Определение генеральной совокупности.

3) Определение выборочной совокупности.

4) Репрезентативность выборки.

5) Виды выборок.

6) Что называется вариантой?

7) Определение ранжирования.

8) Определение частоты, относительной частоты, накопленной частоты.

9) Алгоритм построения интервального вариационного ряда.

10) Определение полигона, кумуляты (дискретного вариационного ряда).

11) Определение гистограммы, кумуляты (интервального вариационного ряда) определение статистической оценки.

12) какие требования предъявляются к статистическим оценкам.

13) Какая статистическая оценка называется смещенной, несмещенной?

14) формулы для расчета генеральной и выборочной средней для сгруппированных и несгруппированных данных.

15) формулы для расчета генеральной и выборочной дисперсии для сгруппированных и несгруппированных данных.

16) Какой оценкой считается выборочная средняя для генеральной средней?

17) Какой оценкой считается выборочная дисперсия для генеральной?

18) Формула для расчета исправленного среднего квадратического отклонения.

19) Какие измерения называются прямыми?

20) Что понимают под истинной абсолютной погрешностью величины X?

21) Что принимают за истинное значение величины X?

22) Что служит точечной оценкой истинного значения величины X?

23) Что служит оценкой дисперсии X?

25) Как найти границы доверительного интервала для истинного значения величины X ?

26) Какие измерения называются косвенными?

27) Если y = f(x1, x2, ..., xn), то по какой формуле вычисляется средняя квадратическая погрешность среднего значения y?

28) По какой формуле находится абсолютная погрешность y: у ?

29) Как найти относительную погрешность y: ε у ?

Задания на самоподготовку:

1. В результате отдельных испытаний активности тетрациклина были получены следующие значения (в единицах действия на 1 мг): 925, 940, 760, 905, 995, 965, 940, 925, 940, 905. составить ряда распределения. Построить полигон, кумуляту.

2. Построить гистограмму относительных частот по распределению выборки: 11, 15, 16, 18, 15.5, 19, 20.1, 20.9, 23, 24.5, 23, 21, 23.9, 24.6, 25.5, 26, 29, 28.6, 30.1, 32.

3. Найти исправленное среднее квадратическое отклонение по данному распределению выборки

Ориентировочные основы действий:

1. Изучить основные понятия по теме

2. Ответить на вопросы для самоконтроля

3. Проработать примеры решения задач по теме

4. Выполнить задания для самостоятельного контроля

5. Решить контрольные задания по теме

После изучения данной темы студент должен знать: понятие вариационного ряда, его виды и их графическое изображение,

понятия статистической оценки, их виды, требования к оценкам, понятия генеральной и выборочной средней, генеральной и выборочной дисперсий. уметь: строить статистические ряды для дискретных и непрерывных случайных величин и вычислять точечные оценки генеральных параметров, вычислять погрешности при прямых и косвенных измерениях.

Краткая теория

Математическая статистика – это раздел прикладной математики, посвящённый методам сбора, группировки и анализа статистических сведений, полученных в результате наблюдений или экспериментов.

Отсюда следуют задачи математической статистики:

способы отбора статистических данных.

способы группировки статистических данных.

методы анализа данных:

оценка параметров известного распределения;

оценка неизвестной функции распределения;

оценка зависимости одной случайной величины от других;

проверка статистических гипотез.

способы определения числа наблюдений (планирование эксперимента).

принятие решений.

В математической статистике изучение случайной величины связано

с выполнением ряда независимых опытов, в которых она принимает определенные значения.

Статистическая совокупность – множество объектов, однородных относительно некоторого качественного или количественного признака.

Н-р, если имеется серия таблеток лекарственного вещества, то качественным признаком может служить стандартность таблетки, а количественным – контролируемая масса таблетки.

Генеральная совокупность – совокупность, состоящая из всех объектов, которые могут быть к ней отнесены.

Теоретически это м.б. бесконечно большая или приближающаяся к бесконечности совокупность.

Н-р, все больные ревматизмом на земном шаре – генеральная совокупность. Реально это в конкретных пределах (город, область).

Число объектов генеральной совокупности называют её объемом и обозначают N.

Выборочная совокупность – множество объектов, случайно отобранных из генеральной совокупности.

Число объектов в выборке называют её объемом и обозначают n.

Для того, чтобы свойства выборки достаточно хорошо отражали свойства генеральной совокупности выборка должна быть репрезентативной (представительной) .

Это требование обеспечивает случайность отбора элементов в выборку, т.е. равновероятность попасть в выборку любому объекту.

В зависимости от техники отбора объектов из генеральной совокупности выборки делятся на:

Повторная

Бесповторная

(отобранный объект возвращается

(отобранный объект не возвращается

в генеральную совокупность)

в генеральную совокупность)

На практике пользуются бесповторной выборкой.

При больших объемах N генеральной совокупности и малом относительном объеме n/N выборки различия в формулах, описывающих обе выборки по технике их отбора невелики.

Дискретный ряд распределения

Наблюдаемые значения признака называются вариантами. Ранжирование – расположение вариант по возрастанию, либо

убыванию.

Вариационным рядом называется ранжированный ряд вариантов и соответствующих им частот.

Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот.

Пусть из генеральной совокупности извлечена выборка объемом n. Количественное значение изучаемого признака x1 появилось m1 раз, x2 – m 2

раз, …, x k – m k раз.

Причем ∑ m i = n

i =1

Числа mi называют частотами, а их отношения к объему выборки n – относительными частотами pi =mi /n. Причем Σpi =1.

Для случая когда количественный признак является дискретным, его значения и соответствующие им частоты или относительные частоты представляют виде таблицы.

pi =mi /n

pi * =

m1 /n

(m1 +m2 )/n

mi * /n

При изучении вариационных рядов наряду с понятием частоты используется накопленная частота (mi * ). Накопленная частота показывает, сколько наблюдалось вариантов со значением признака меньше х.

Отношение наколенной частоты mi * к общему числу наблюдений n называется относительной частотой pi * = mi * /n.

Графическое изображение дискретного статистического ряда – полигон частот (относительных).

Полигон служит для изображения дискретного вариационного ряда и представляет собой ломаную, в которой концы отрезков прямой имеют координаты (xi , mi ) или (xi , pi ) в случае полигона относительных частот.

Интервальный статистический ряд.

В случае большого количества вариант (n>50) и непрерывного распределения признака статистическое распределение признака можно задать виде последовательности интервалов и соответствующих им частот.

Чаще используют равноинтервальный ряд.

Нужно правильно выбрать ширину классового интервала. Число интервалов должно зависеть от размаха выборки и её объёма.

Алгоритм построения гистограммы.

1. Дана выборка Х = {x 1 , x 2 , …, x n } ; n – её объём

Размах выборки D = x max – x min

2. Число классов

К = 1 + 3,32 × lg n (формула Стерджесса для n < 100 )

К = 5 × lg n (формула Брукса для n > 100 )

3. Величина классового интервала D x = D / К

4. Границы и середины частичных интервалов

x1л = xmin – D x / 2

x1пр = x2л = xmin + D x / 2

х 1 = x min

х 2 = х 1 + D x

5. Частоты попадания в интервал:

вариационных рядов и представляет собой ступенчатую фигуру из прямоугольников с основаниями, равными интервалам значений признака xi =xi+1 -xi , i=1,2,…,k и высотами, равными частотам (относительным частотам) mi (pi ) интервалов.

Если соединить середины верхних оснований прямоугольников отрезками прямой, то можно получить полигон того же распределения.

Эмпирическая функции распределения Чтобы получить представление о распределении случайной

величины Х, для которой неизвестен закон распределения, строят эмпирическую функцию распределения.

Эмпирической функцией распределения (функцией распределения выборки) называют функцию F* (x), определяющую для каждого значения х относительную частоту события X

, где m* - число наблюдений, при которых наблюдалось значение признака Х меньше х.

Функцию распределения генеральной совокупности называют теоретической функцией.

Различие между эмпирической и теоретической функциями в том, что теоретическая функция определяет вероятность события Х<х, а эмпирическая – относительную частоту данного события.

Понятие статистической оценки.

Требуется изучить количественный признак генеральной совокупности. Допустим, нам известен закон распределения генеральной совокупности. Этот закон определяется несколькими параметрами. Для оценки неизвестных параметров генеральной совокупности используются данные выборки.

Статистической оценкой неизвестного параметра распределения генеральной совокупности называют функцию от наблюдаемых случайных величин.

Обозначим:

θ – неизвестный параметр; θ * – статистическая оценка неизвестного параметра; θ * = f (x 1, x 2, …, x n)

Статистическая оценка θ* является случайной величиной , поэтому имеет дисперсию и среднеквадратическое отклонение, а также ошибку репрезентативности (отклонение выборочного показателя от генерального).

Статистические оценки бывают двух видов: точечные и интервальные .

Оценка одним числом, зависящим от выборочных данных, называется точечной .

Оценка двумя числами, являющимися концами интервала, называется интервальной .

Требования, предъявляемые к точечным статистическим оценкам.

Качество оценки определяется не по одной конкретной выборке, а по

всему мыслимому набору конкретных выборок, т.е. по всему множеству

точечных оценок θ i * неизвестного параметра θ .

Для того, чтобы статистические оценки давали хорошее

приближение оцениваемых параметров, они должны удовлетворять

следующим требованиям:

несмещённость (отсутствие систематических ошибок при

любом объёме выборки М(θ *) = θ );

эффективность (среди всех возможных оценок эффективная

оценка обладает наименьшей дисперсией min D(θ *) ).

состоятельность

(стремление

вероятности

оцениваемому параметру при n → ∞ , т.е. θ * ¾¾ ¾ ® θ );

n →∞

Генеральный

Точечная оценка

Свойства

параметр

точечной оценки

М(Х) = хг =

Не смещаемая

х в = ∑ x i

= ∑ m i x i выборочная

Эффективная

∑x i

i = 1

i = 1

Состоятельная

N i = 1

Асимптотически

− x

− x

несмещённая, т.е.

М(Dв ) ¹ σ г 2 , но

n i = 1

n i = 1

D(X) = σ г =

выборочная дисперсия

) = σ

− x i )

n →∞

N i = 1

S 2 =

D исправленная

n - 1

Не смещаемая

дисперсия

δ в =

Смещаемая

(стандарт)

σ г =

σ г 2

исправленное

среднеквадратическое

Несмещённая

отклонение

является случайной величиной, то у неё есть дисперсия –

хв

дисперсия выборочной средней:

× n × S 2 =

) = D(

∑ xi ) =

D(∑ xi ) =

∑ D(xi ) =

∑ (xi −

n(n − 1) i =1

Точность, надежность оценки

Интервальной оценкой называют оценку, которая определяется двумя числами – концами интервала.

Интервальные оценки позволяют установить точность и надёжность точечной оценки.

Пусть q * – точечная оценка неизвестного параметра q , являющаяся случайной величиной.

Чем меньше ½q - q * ½ , тем точнее q * определяет параметр q .

Если δ > 0 и ½q - q * ½ < δ , то чем меньше δ , тем точнее оценка. Число

δ называется точностью оценки .

В силу случайности q * можно лишь говорить о вероятности осуществления неравенства ½q - q * ½ < e .

Надёжностью (доверительной вероятностью) оценки q * называют вероятность g , с которой осуществляется неравенство ½q - q * ½ < δ .

Обычно g = 0,95; 0,99; 0,999… P(|Θ-Θ*|< δ)=γ

Иногда говорят, что доверительная вероятность g характеризует степень нашей уверенности в том, что доверительный интервал покроет параметр q .

Р {q * - e < q < q * + e} = g означает, что вероятность того, что интервал (q * - e ; q * + e ) заключает в себе неизвестный параметр q , равна g :

Вероятность того, что неизвестный параметр не попадёт в интервал ½q - q * ½ < e , равна 1 - g = a (уровень значимости).

Уровнем значимости (риском) называют вероятность того, что модуль отклонения эмпирической характеристики от теоретической превысит предельную ошибку P(|Θ-Θ*|< ∆)=γ , предельная ошибка – максимально допустимая |Θ-Θ*|< ∆

Распределение Стьюдента

Пусть X ~ N(µ,σ), причем параметры распределения неизвестны.

Рассмотрим распределение величины T = x в − μ .

Распределение величины Т с f=n-1 степенями свободы называется t- распределением или распределением Стьюдента.

Функция плотности вероятности φ(t) зависит от числа степеней свободы и не зависит от дисперсии случайных величин.

С ростом числа степеней свободы распределение данной величины приближается к нормальному

Интервальной оценкой математического ожидания при неизвестной дисперсии является интервал

(x - tγ (f ) × Sx ; x + tγ (f ) × Sx )

Интервальной оценкой математического ожидания при известной

дисперсии является интервал

(x - uα × Sx ; x + uα × Sx )

Ф (u α ) = 1− α - функция Лапласа.

Примеры решения задач

1) Представить в виде статистического дискретного ряда, построить полигон частот, относительных частот, кумулятивную кривую (кривую накопленных частот): 6,7; 6,8; 7; 6,5; 7,3; 7; 7,2; 6,9; 7,1; 6,8; 7,1; 6,8; 7,1; 7,2; 6,8; 6,9;

7; 6,7; 6,6; 6,3; 7,5; 6,9.

Решение. mi – частота, p – относительная частота, pi * - накопленная относительная частота

pi *

Полигон частот

Распределения в математической статистике характеризуется многими статистическими параметрами. Оценка неизвестных параметров распределения на основе различных данных выборки позволяет построить распределения случайной величины.

Найти статистическую оценку неизвестного параметра распределения -- найти функцию от наблюдаемых случайных величин, которая даст приближенное значение оцениваемого параметра.

Статистические оценки можно разделить на несмещенные, смещенные, эффективные и состоятельные.

Определение 1

Несмещенная оценка -- статистическая оценка $Q^*$, которая при любом значении объема выборки, имеет математическое ожидание, равное оцениваемому параметру, то есть

Определение 2

Смещенная оценка -- статистическая оценка $Q^*$, которая при любом значении объема выборки, имеет математическое ожидание, не равное оцениваемому параметру, то есть

Определение 4

Состоятельная оценка -- статистическая оценка, при которой при объеме выборки, стремящейся к бесконечности, стремится по вероятности к оцениваемому параметру $Q.$

Определение 5

Состоятельная оценка -- статистическая оценка, при которой при объеме выборки, стремящейся к бесконечности, дисперсия несмещенной оценки стремится к нулю.

Генеральная и выборочная средние

Определение 6

Генеральная средняя -- среднее арифметическое значений вариант генеральной совокупности.

Определение 7

Выборочная средняя -- среднее арифметическое значений вариант выборочной совокупности.

Величины генерального и выборочного среднего можно найти по следующим формулам:

  1. Если значения вариант $x_1,\ x_2,\dots ,x_k$ имеют, соответственно, частоты $n_1,\ n_2,\dots ,n_k$, то
  1. Если значения вариант $x_1,\ x_2,\dots ,x_k$ различны, то

С этим понятием связано такое понятие как отклонение от средней. Данная величина находится по следующей формуле:

Среднее отклонение обладает следующими свойствами:

    $\sum{n_i\left(x_i-\overline{x}\right)=0}$

    Среднее значение отклонения равно нулю.

Генеральная, выборочная и исправленная дисперсии

Еще одними из основных параметров является понятие генеральной и выборочной дисперсии:

Генеральная дисперсия:

Выборочная дисперсия:

С этими понятия связаны также генеральная и выборочная средние квадратические отклонения:

В качестве оценки генеральной дисперсии вводится понятие исправленной дисперсии:

Также вводится понятие исправленного стандартного отклонения:

Пример решения задачи

Пример 1

Генеральная совокупность задана следующей таблицей распределения:

Рисунок 1.

Найдем для нее генеральное среднее, генеральную дисперсию, генеральное среднее квадратическое отклонение, исправленную дисперсию и исправленное среднее квадратическое отклонение.

Для решения этой задачи для начала сделаем расчетную таблицу:

Рисунок 2.

Величина $\overline{x_в}$ (среднее выборочное) находится по формуле:

\[\overline{x_в}=\frac{\sum\limits^k_{i=1}{x_in_i}}{n}\]

\[\overline{x_в}=\frac{\sum\limits^k_{i=1}{x_in_i}}{n}=\frac{87}{30}=2,9\]

Найдем генеральную дисперсию по формуле:

Генеральное среднее квадратическое отклонение:

\[{\sigma }_в=\sqrt{D_в}\approx 1,42\]

Исправленная дисперсия:

\[{S^2=\frac{n}{n-1}D}_в=\frac{30}{29}\cdot 2,023\approx 2,09\]

Исправленное среднее квадратическое отклонение.

Изучив эту главу, студент будет знать, что выборка может рассматриваться как эмпирический аналог генеральной совокупности, что с помощью выборочных данных можно судить о свойствах генеральной совокупности и оценивать ее характеристики, основные законы распределения статистических оценок, уметь производить точечные и интервальные оценки параметров генеральной совокупности методом моментов и максимального правдоподобия, владеть способами определения точности и надежности полученных оценок.

Виды статистических оценок

О параметрах генеральной совокупности мы знаем то, что они объективно существуют, но определить их непосредственно невозможно в силу того, что генеральная совокупность или бесконечна или чрезмерно велика. Поэтому может стоять вопрос только об оценке этих характеристик.

Ранее было установлено, что для выборки, извлеченной из генеральной совокупности, при соблюдении условий репрезентативности, можно определить характеристики, которые являются аналогами характеристик генеральной совокупности.

cjp Определение 8.1. Приближенные значения параметров распределения, найденные по выборке, называются оценкой параметра.

Обозначим оцениваемый параметр случайной величины (генеральной совокупности) как 0, а его оценку, полученную с помощью выборки, 0.

Оценка 0 является случайной величиной, поскольку любая выборка является случайной. Оценки, полученные для разных выборок, будут отличаться друг от друга. Поэтому будем считать 0 функцией, зависящей от выборки: 0 = 0(Х в).

ЩР Определение 8.2. Статистическая оценка называется состоятельной, если она стремиться по вероятности к оцениваемому параметру:

Это равенство означает, что событие 0=0 становится достоверным при неограниченном возрастании объема выборки.

В качестве примера можно привести относительную частоту некоторого события А, которая является состоятельной оценкой вероятности этого события в соответствии с теоремой Пуассона (см. формулу (6.1), часть 1).

Определение 8.3. Статистическая оценка называется эффективной, если она имеет наименьшую дисперсию при одних и тех же объемах выборки.

Рассмотрим оценку М х математического ожидания М х случайной величины X. В качестве такой оценки выберем X . Найдем математическое ожидание случайной величины X .

Сначала сделаем важное утверждение: учитывая то, что все случайные величины X, извлекаются из одной и той же генеральной совокупности X, а значит, имеют одно и то же распределение что и X, можно записать:

Теперь найдем М(Х в):


Таким образом, выборочная средняя является статистической оценкой математического ожидания случайной величины. Эта оценка является состоятельной поскольку в соответствии со следствием из теоремы Чебышева она сходится по вероятности к математическому ожиданию (6.3).

Мы установили, что в рассматриваемом случае математическое ожидание выбранной нами оценки (случайной величины) равно самому оцениваемому параметру. Оценки, обладающие таким свойством, занимают особое место в математической статистике, они называются несмещенными.

Определение 8.4. Статистическая оценка © называется несмещенной, если ее математическое ожидание равно оцениваемому параметру

Если это требование не выполнено, то оценка называется смещенной.

Таким образом, выборочная средняя является несмещенной оценкой математического ожидания.

Проведем анализ смещенности выборочной дисперсии D , если ее выбрать в качестве оценки генеральной дисперсии D x . Для этого проверим выполнимость условия (8.2) для?) :


Преобразуем каждое из двух полученных слагаемых:

Здесь было использовано равенство М(Х.) = М(Х 2), справедливое по той же причине, что и (8.1).

Рассмотрим второе слагаемое. С помощью формулы квадрата суммы п слагаемых получаем


учитывая снова равенство (8.1), а также то, что X. и X независимые случайные величины запишем

и окончательно получим:

Подставим полученные результаты в (8.3)

После преобразования получим

Таким образом, можно сделать вывод, что выборочная дисперсия является смещенной оценкой генеральной дисперсии.

Учитывая полученный результат, поставим задачу построить такую оценку генеральной дисперсии, которая удовлетворяла бы условию несмещенности (8.2). Для этого рассмотрим случайную величину

Легко видеть, что для этой величины условие (8.2) выполняется:

Заметим, что различие между выборочной дисперсией и исправленной выборочной дисперсией становятся незначительными при больших объемах выборки.

При выборе оценок характеристик случайных величин важно знать их точность. В некоторых случаях требуется высокая точность, а иногда достаточно иметь грубую оценку. Например, планируя перелет с пересадкой нам важно знать как можно точнее планируемое время прилета к месту стыковки авиарейсов. В другой ситуации, например, находясь дома и ожидая курьера с заказанным нами товаром, высокая точность времени его прибытия для нас не важна. В обоих случаях случайной величиной является время прибытия, а интересующей нас характеристикой случайной величины - среднее время в пути.

Оценки бывают двух видов. В первом случае ставится задача получить конкретное числовое значение параметра. В другом случае определяется интервал, в который с заданной вероятностью попадает интересующий нас параметр.

Пусть требуется изучить, к примеру, количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак. Естественно, возникает задача оценки параметров, которыми определяется это распределение. Например, если наперед известно, что изучаемый признак распределен в генеральной совокупности нормально, то необходимо оценить (приближенно найти) математическое ожидание а и среднее квадратическое отклонение s, так как эти два параметра полностью определяют нормальное распределение.

Обычно в распоряжении исследователя имеются лишь данные выборки, например, значения количественного признака х 1 , х 2 , …, х n , полученные в результате n наблюдений. Через эти данные и выражают оцениваемый параметр .

Пусть q * - статистическая оценка неизвестного параметра q теоретического распределения. Различают несмещённую и смещённую оценки.

Несмещённой называют статистическую оценку q * , математическое ожидание которой равно оцениваемому параметру q при любом объеме выборки, то есть

В противном случае, то есть если М(q *) ¹ q, оценка называется смещённой .

Требование несмещённости означает, что не должно быть систематического отклонения в одну и ту же сторону наблюдаемых значений от q.

К статистической оценке предъявляется также требование эффективности , что подразумевает (при заданном объеме выборки) наименьшую возможную дисперсию, а в случае большого объема выборки и требование состоятельности , то есть практическое совпадение наблюдаемых значений случайной величины с оцениваемым параметром.

Если статистический материал представлен в виде вариационного ряда, то последующий его анализ осуществляется, как правило, с помощью некоторых постоянных величин, достаточно полно отражающих присущие изучаемой генеральной совокупности закономерности.

К таким постоянным относятся средние величины, среди которых наиболее значимой является средняя арифметическая - она проще других и по смыслу, и по свойствам, и по способу получения.

Так как при исследовании генеральной совокупности осуществляется выборка, то постоянная величина, характеризующая выборку, называется выборочной средней и обозначается .

Можно показать, что есть несмещённая оценка среднего арифметического значения признака генеральной совокупности , то есть

Пусть некоторая совокупность разбита на части - группы , не обязательно одинаковые по объему. Тогда средние арифметические распределения членов групп называют групповыми средними , а среднюю арифметическую распределения по тому же признаку всей совокупности - общей средней . Группы называются непересекающимися , если каждый член совокупности принадлежит только одной группе.

Общая средняя равна средней арифметической групповых средних всех непересекающихся групп.

Пример. Вычислить среднюю заработную плату рабочих предприятия по данным таблицы

Решение. По определению общая средняя равна

. (*)

n 1 = 40, n 2 = 50, n 3 = 60

Средняя заработная плата рабочих цеха № 1. Для её нахождения мы составили среднюю арифметическую зарплату по всему цеху: 75, 85, 95 и 105 (у.е.) Для удобства эти значения можно уменьшить в пять раз (это их наибольший общий делитель): 15, 17, 19, 21. Остальное понятно из формулы.

Проделав аналогичные операции, найдем , .

Подставив полученные значения в (*), получим

Средние - это постоянные величины, которые определенным образом характеризуют распределения. О некоторых распределениях судят только по средним. Например, для сравнения уровней заработной платы в различных отраслях промышленности достаточно сравнить средние заработные платы в них. Однако по средним нельзя судить ни о различиях между уровнями заработной платы наиболее высоко- и низкооплачиваемых работников, ни о том, какие отклонения от средней заработной платы имеют место.

В статистике наибольший интерес представляет разброс значений признака около их средней арифметической. На практике и в теоретических исследованиях рассеяние признака чаще характеризуется дисперсией и средним квадратическим отклонением.

Выборочной дисперсией D В называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения .

Если все значения х 1 , х 2 , … х n признака выборки объема n различны, то

. (3)

Если же значения признака х 1 , х 2 , … х k имеют соответственно частоты n 1 , n 2 , … n k , причём n 1 + n 2 + … + n k = n, то

. (4)

Если есть необходимость, чтобы показатель рассеяния выражался в тех же единицах, что и значения признака, то можно пользоваться сводной характеристикой - средним квадратическим отклонением

Для вычисления дисперсии обычно используется формула

Если совокупность разбита на непересекающиеся группы, то для их характеристики можно ввести понятия групповой, внутригрупповой, межгрупповой и общей дисперсии.

Групповой дисперсией называется дисперсия распределения членов j-ой группы относительно их средней - групповой средней , то есть

где n i - частота значения x i , - объем группы j.

Внутригрупповой дисперсией называется средняя арифметическая групповых дисперсий

где N j (j = 1, 2, …, m) - объемы непересекающихся групп.

Межгрупповой дисперсией называется средняя арифметическая квадратов отклонений групповых средних всех непересекающихся групп от общей средней , то есть

.

Общей дисперсией называют дисперсию значений признака всей совокупности относительно общей средней

,

где n i - частота значения x i ; - общая средняя; n - объем всей совокупности.

Можно показать, что общая дисперсия D равна сумме , то есть

Пример. Найти общую дисперсию совокупности, состоящей из следующих двух групп

Первая группа Вторая группа
x i n i x i n i

Решение. Найдем групповые средние

Найдем групповые дисперсии

Найдем общую среднюю

Искомая общая дисперсия

Рассмотренные выше оценки принято называть точечными , так как эти оценки определяются одним числом . В случае небольшого объема выборки используется интервальная оценка, определяемая двумя числами , называемыми концами интервала.

Интервальные оценки позволяют установить точность и надежность оценок. Поясним смысл этих понятий. Пусть найденная по данным выборки статистическая характеристика q * служит оценкой неизвестного параметра q. Ясно, что q * тем точнее будет определять параметр q, чем меньше абсолютная величина . Иными словами, если d > 0 и , то чем меньше d, тем оценка точнее.

Таким образом, число d > 0 характеризует точность оценки. Но с другой стороны статистические методы не позволяют категорически утверждать, что оценка q * удовлетворяет неравенству . Здесь можно говорить только о вероятности g , с которой это неравенство осуществляется. Эту вероятность g и называют надежностью (доверительной вероятностью) оценки q по q * .

Таким образом, из сказанного следует, что

Соотношение (*) следует понимать так: вероятность того, что интервал (q * - d, q * + d) заключает в себе (покрывает) неизвестный параметр q, равна g. Интервал (q * - d, q * + d), покрывающий неизвестный параметр с заданной надежностью g, называют доверительным.

Пример. Случайная величина Х имеет нормальное распределение с известным средним квадратическим отклонением s = 3. Найти доверительные интервалы для оценки неизвестного математического ожидания а по выборочным средним , если объем выборки n = 36 и задана надежность оценки g = 0,95.

Решение. Заметим, что если случайная величина Х распределена нормально, то выборочная средняя , найденная по независимым наблюдениям, также распределена нормально, а параметры распределения таковы: , (см. стр. 54).

Потребуем выполнения соотношения

.

Пользуясь формулой (**) (см. стр. 43), заменив в ней Х на и s на , получим



Поделиться: