| | 08.09.2021

Пропорции дают долю членов популяции, обладающих определенной чертой. Мы выражаем их так же, как вероятности, от 0,0 до 1,0.

Биномиальный тест позволяет нам определить вероятность события, имеющего биномиальное распределение, что означает, что у каждого человека может быть один из двух возможных исходов(например, успех / неудача, жив / мертв, позвоночное / беспозвоночное и т. Д.). Мы указываем, что мы считаем «хитом» или испытанием с определенным исходом. Например, «Какова вероятность, что у меня будет 12 женщин в классе из 20 человек?» «Хит» здесь - это наблюдение за женщиной, а не за парнем.

Биномиальное уравнение

Чтобы вычислить биномиальные вероятности, мы используем это уравнение:

Забегая вперед, мы увидим, что каждый тест - это предположение, которое должно быть верным в отношении ваших данных, чтобы вы не «обманули» тест. Биномиальный тест требует, чтобы:

количество испытаний ( n ) фиксировано

каждое испытание не зависит от любого другого испытания

вероятность успеха (или «попадания») одинакова во всех испытаниях.

Подсчет вручную - это немного утомительно, но хорошая новость заключается в том, что у R есть простой способ вычислить вероятность одного события с помощью функции dbinom (). Имеет общий вид

где n - количество совпадений, size - количество попыток, а prob - вероятность попадания. Обратите внимание, что в уравнении руки X - это количество попаданий, но R использует n. Сожалею.

Пример

У меня есть класс, в котором 80% моих студентов специализируются на биологии, а 20% - на химии. Я хотел знать, если я выберу студентов из этого класса, какова будет вероятность выбора 2 специальностей по химии и 3 специальностей по биологии, если я выберу их в группы по 5 человек.

Для целей этого примера я назову получение биографической специальности хитом. Итак, в этом случае p= 0,8, n= 5 и X= 3, что дает мне следующее:

Таким образом, у меня будет около 20,5% шансов выбрать 3 био-специалиста из этой группы, если я выберу их в группах по 5 человек.

Что, если бы я хотел узнать вероятность получения 3 или более биологических специальностей в группах по 5 человек? Это было бы

Pr [3 или более] = Pr [3] + Pr [4] + Pr [5]

Итак, вы можете выполнить функцию dbinom () ещедва раза и просуммировать их:

Pr [3 или более] = 0,21 + 0,41 + 0,33 = 0,95. Это означает, что я ожидаю получить 3 или более основных биологических специалиста в 95% случаев при повторном отборе проб.

Или вы можете использовать это:

Следуя этим функциям, вы также можете отображать результаты в виде гистограммы:

barplot (height = probx, names.arg = xsuccesses, space = 0, las = 1, ylab = "Probability", xlab = "Number of biology majors")

(Я знаю, что мы используем функцию гистограммы для построения гистограммы, но это лучше работает для биномиальных данных в зависимости от того, как мы вычисляли объекты.)

Проверка гипотез с помощью биномиального теста

Мы используем биномиальный тест, чтобы вычислить вероятности исхода, чтобы увидеть, отличаются ли они от того, что мы ожидаем увидеть случайно. Например:

За последние 10 лет я работал с 50 студентами в своей исследовательской лаборатории. В этом году у меня их 6, но только один парень. Это случайность? Должен ли я иметь более сбалансированное распределение полов в моей лаборатории? Глядя на мои старые списки классов, я обнаружил, что 72% студентов, которые посещали мои занятия, были женщинами (фактические данные здесь, к вашему сведению). Итак, Pr [парни] = 0,28. В целом, 10 из 50 студентов моей лаборатории были парнями.

Вопрос: меньше ли соотношение полов в моей лаборатории (0,20), чем среднее количество парней в Суффолке (0,28)?Давайте использовать \ (\ alpha \) = 0,05 в качестве нашего уровня отклонения.

Гипотезы:

\ (H_0 \): Соотношение полов в моей лаборатории включает такую ​​же или большую долю парней, чем CAS в целом (другими словами, Pr [11 или больше] ≥ 0,05).

\ (H_a \): Соотношение полов в моей лаборатории включает меньше парней, чем можно было бы ожидать (или Pr [10 или меньше]

Адаптируем приведенный выше код:

Итак, учитывая долю парней в Суффолке, я ожидал бы, что такая доля парней в моей лаборатории (20% или меньше) будет по крайней мере в 13% случаев. Я не могу отвергнуть нулевую гипотезу, потому что рассчитанная вероятность превышает мой уровень уверенности 0,05. Таким образом, я прихожу к выводу, что соотношение полов в моей лаборатории существенно не отличается от соотношения полов студентов в моих классах в целом.

Если вам не нужны все индивидуальные вероятности для их построения, есть еще более короткий способ выполнить этот тест:

Обратите внимание на этот подход:

Эта функция по умолчанию выполняет двусторонний тест, но я добавил аргумент alternate = «less», чтобы указать, что меня интересует только 10 или меньше, а не 10 или меньше И 40 или больше, что было бы двусторонним тестом. Обратитесь к справке RStudio для binom.test () за аргументами.

Это означает, что вероятность моей выборки равна 0,2.

Это также вычисляет для меня 95% доверительный интервал выборочной оценки без каких-либо дополнительных усилий.

Выборочное распределение доли

Как и любая оценка, выборочная доля phat является оценкой доли населения p. Одним из результатов этого является то, что мы можем вычислить доверительный интервал 95%. Вы можете вычислить стандартную ошибку p и 95% доверительный интервал вручную, но зачем вам это делать? R на помощь!

Если вы, как и раньше, использовали binom.test (), на выходе вы получили 95% доверительный интервал. Иногда нам нужно оценить параметрическую пропорцию, и для этого требуется исправление, называемое методом Агрести-Кулля, обсуждавшееся в Whitlock и Schluter.

Чтобы сделать это простым способом в R, вам нужно будет загрузить пакет для добавления в базовый R. Вам нужно будет установить этот пакет только один раз на компьютер.

После его установки загрузите пакет, чтобы вы могли использовать его функции. Вам нужно будет загружать пакет в каждом сеансе R,если вы хотите использовать его команды:

В тексте содержится ссылка на метод Agresti-Coull для расчета 95% доверительного интервала. Вышеупомянутая функция делает это (используя method = «ac»). 95% ДИ отличается от того, что мы получили для моего лабораторного примера выше, потому что он оценивает значение параметрического p, используя наблюдаемые данные, а не то, как мы это делали выше, используя 0,28 в качестве параметра, основанного на предыдущих наблюдениях учащихся в классах. .

Если вы используете его без аргумента метода, R вернет CI на основе 11 различных методов.

Зачем вам такая куча КИ? Каждый из этих методов использует немного другой алгоритм, и вы можете выбрать один из других на основе ваших данных; или вы можете захотеть найти консенсус между различными методами, если ваши данные беспорядочные.

Вывод

Вычисление прямых вероятностей с использованием биномиального уравнения является мощным инструментом для проверки гипотез для данных, которые являются биномиальными по своей природе «либо тот, либо другой». («Мощный» тест означает, что он обладает хорошей способностью отличать реальные различия от ожидаемых случайно.) Будущие тесты позволят нам делать больше с наблюдениями за переменными номинальной шкалы, которые дают больше, чем результаты «да / нет».