Компьютерные книги
Главное меню
Главная Поиск по сайту Добавить материал О нас Карта книг Карта сайта
Реклама
computersbooks.net -> Добавить материал -> Теория программирования -> Боровиков В. -> "STATISTICA. Искусство анализа данных на компьютере" -> 146

STATISTICA. Искусство анализа данных на компьютере - Боровиков В.

Боровиков В. STATISTICA. Искусство анализа данных на компьютере — Спб.: Питер, 2003. — 688 c.
Скачать (прямая ссылка): statistikaiskusstvoanalizadannih2003.djvu
Предыдущая << 1 .. 140 141 142 143 144 145 < 146 > 147 148 149 150 151 152 .. 204 >> Следующая

508

Глава 13. Непараметрическая crai^

Таблицы частот 2x2: статистики Хи/У/Фи-квадрат, Макнсмара, точный критерий Фишера

Опция открывает диалоговое окно, в котором можно ввести частоты ь С «fir 2x2 (состоящую из двух строк и двух столбцов) и вычисчить различные!? тики, позволяющие оценить зависимость между двумя переменными, пря^ щими только два значения.

Типичный пример таких таблиц — определение, например, числа мужчин imjfl щин, предпочитающих рекламу ПЕПСИ или КОКИ, или числа заболевши».»» заболевших людей из числа сделавших и не сделавших прививки, и т. д. * |

Итак, одна переменная — ПОЛ, другая переменная — НАПИТОК. Первой П* р< мгнная имеет 2 уровня (принимает 2 значения) - мужчина, женщина. Втгрф переменная, НАЛИТОК, также имеет 2 уровня, например, ПЕПСИ или КОКА

Задача состоит в том, чтобы оценить зависимость между двумя табули^ввйя нымн переменными.

Укажем на важное методолопгческое отличие использования слова саяз' '-ав- |_ висимость) в повседневной жизни и в анализе данных (см главу 33 фушЯМИ* талыюго текста Кендалла и Стьюарта «Статистические выводы и связи*). 04ьчЩ 3 мы говорим, что два признака А и В связаны между собой, если они часто встри*" ются вместе. В анализе данных дается строгое определение: если А встрм* тс» относительно чаще с В, чем с не-В, то А и В связаны Или, переходя на язык тео'*п* вероятностей, Р(АХВ) должна быть больше Р(АХие-В). Оценкой вероятностда^Щ ляется частота.

В приведенной выше таблице пусть признак А — пол, признак В — напито» fl* нимающий, например, два значения: пепси — не-пепси. Пусть а, b - частота • Р**” * вой строке, с. d — частоты во второй строке. Если а/(а*с) - b/(b+d). то независимы. Формально имеем: 17/(17+27) - 0,39, 19/(19+29) “ 0396. нам нужно понять, существенно или нет различие в частотах СтатнстичесюИТ терии, реализованные в этом диалоге, как раз и позволяют э го сделать. В .ИЙ случае различие, конечно, несущественно (или. как говорят в анализе ДО' незначимо). Следовательно, признаки независимы — пол не связан с и напитка.

Опция 2x2 может быть использована как альтернатива корреляциям, е "<i рассматриваемые переменные являются категориальными.

Дополнительно к стандартному критерию xu-квадрат Пирсона и скорр ванному лл/-квалр<гг ( V-квадрат) вычисляются следующие статистики.
Таблицы частот 2x2: статистики Хи/У/Фи-хвадрат, Макнемара

509

Классическая статистика хи-квадрат Г ирсона замечательна тем, что ее распредели те прибл ижается распределением хи-квадрат, для которого имеются подробные таблицы. Процентные точки распределения хи-квадрат могут быть также эффективно вычислены в системе STATISTICA с помощью вероятностного калькулятора.

Свойство критерия аи-квадрат (точность аппроксимации распределения статистики распределением хи-квадрат) для таблиц 2 х 2 с малыми ожидаемыми частотами может быть улучшено за счет уменьшения абсолютного значения разностей между ожидаемыми и наблюдаемыми частотами на величину 0,5 перед возведением в квадрат.

Это так называемая поправка Йетса на непрерывность для таблиц частот 2x2, которая обычно применяется, когда ячейки содержат только малые частоты и некоторые ожидаемые частоты становятся меньше 5 (или даже меньше 10).

Фи-коэффициент. Статистика фи-квадрат представляет собой меру связи между номинальными или категориальными переменными, значения которых нельзя упорядочить.

Пусть даны маргинальные или суммарные частоты в таблице 2x2. Предположим, что оба фактора в таблице неэависи.чы Зададимся вопросом: какова вероятность получить наблюдаемые частоты, исходя из маргинальных? Замечательно, что эта вероятность вычисляется точно, подсчетом всех возможных таблиц, которые можно построить, основываясь на данных маргинальных частотах. Это и делается в критерии Фишера. STATISTICA вычисляет р-ууоъкп одностороннего и двустороннего критерия Фишера.

Если сумма частот небольшая, то лучше использовать точный критерий Фишера вместо критерия хи-квадрат

Известны рекомендации Кокрена для таблиц 2x2: если сумма всех частот в таблице меньше 20, то следует использовать точный критерий Фишера.

Если сумма частот больше 40. то можно применять критерий хи-квадрат с поправкой на непрерывность.

Однако эти рекомендации не универсальны (см., например. Справочник по при кладной статистике/Под. ред. Э. Ллойда и У Ледермана С. 375-376).

Рассмотрим следующий пример.

Пример. Исследуются 30 человек, совершивших преступлен™. У каждою из преступников есть брат-близнец. Спрашивается, имеется ли связь между рол
Глава 13- Непараметрическая стати

ствеышми отношениями и преступлением (см. Справочник по прикладнсИ тистике /Под. ред. Э. Ллойда и У. Ледермана С. 376).

Данные приведены в таблице-

Оба брата Только один брат Сумма

преступники преступник

Однояйцевые близнецы 10 3 13

Разнояйцевые близнецы 2 15 17
Предыдущая << 1 .. 140 141 142 143 144 145 < 146 > 147 148 149 150 151 152 .. 204 >> Следующая
Книги
Web-программирован-
ие
Аппаратное обеспечение Графика Руководство по П.О. Самоучитель Теория программирования Фотошоп Языки программирования
Новые книги
Вирт Н. "Систематическое программирование " (Теория программирования)

Эком "Microsoft Excel 2000 шаг за шагом Русская версия самоучитель " (Самоучитель)

Поляков А.Ю. "Методы и алгоритмы компьютерной графики в примерах Vizual C++" (Графика)

Баяковский Ю.М. "Графическая библиотека Open GL " (Графика)

Валиков А. "Технология " (Языки программирования)
Авторские права © 2013 ComputersBooks. Все права защищены.