# Введение в ТВиМС

*Алла Тамбовцева*

## Практикум 3. Проверка гипотез о доле и среднем

## Часть 1: работаем с долями

### Знакомимся с информацией, известной до исследования

* Популярные имена в 2006-2008 годах (Москва): [ссылка](https://ru.wikipedia.org/wiki/%D0%A8%D0%B0%D0%B1%D0%BB%D0%BE%D0%BD:%D0%A1%D0%B0%D0%BC%D1%8B%D0%B5_%D0%BF%D0%BE%D0%BF%D1%83%D0%BB%D1%8F%D1%80%D0%BD%D1%8B%D0%B5_%D0%B8%D0%BC%D0%B5%D0%BD%D0%B0_%D0%B2_%D0%9C%D0%BE%D1%81%D0%BA%D0%B2%D0%B5_%D0%B2_2006-2008_%D0%B3%D0%BE%D0%B4%D0%B0%D1%85).

* Остальное – нужно искать по конкретным регионам.

Выберем одно популярное мужское имя и одно популярное женское имя, сохраним его в `m` и `f`:

In [None]:
# вписываем имена, не опечатываемся

m = ""
f = ""

Сформулируем гипотезы для долей: одна пара гипотез (нулевая и двусторонняя альтернативная) для доли мальчиков с популярным именем `m`, другая пара – для для доли девочек с популярным именем `f`.

In [None]:
# H0:
# H1:

# H0:
# H1:

### Загружаем данные и проверяем гипотезы

Импортируем библиотеку `pandas` для загрузки данных и работы с таблицами (с сокращённым названием `pd`) и модуль `stats` из библиотеки `scipy` для статистических вычислений:

In [None]:
import pandas as pd
from scipy import stats

Загружаем данные (скачать можно [здесь](https://github.com/allatambov/IntroProbStat2024/blob/main/names.xlsx) или с почты):

In [None]:
df = pd.read_excel("names.xlsx")
df.head() # первые несколько строк таблицы

Посмотрим на описание данных:

In [None]:
df.describe()

Сохраним в отдельные датафреймы (таблицы) строки, соответствующие студентам мужского и женского пола:

In [None]:
df_male = df[df["Пол"] == "мужской"]
df_female = df[df["Пол"] == "женский"]

In [None]:
# первые несколько строк таблиц

print(df_male.head())
print(df_female.head())

Зафиксируем число строк в каждой таблице – объёмы выборок, состоящих из студентов мужского и женского пола соответственно:

In [None]:
n_male = df_male.shape[0]
n_female = df_female.shape[0]

print(n_male, n_female)

Выведем самые распространённые имена (топ-3):

In [None]:
df_male["Имя"].value_counts().head(3)

In [None]:
df_female["Имя"].value_counts().head(3)

Вычислим число успехов:

In [None]:
sum_male = (df_male["Имя"] == f).sum()
sum_female = (df_male["Имя"] == m).sum()
print(sum_male, sum_female)

Воспользуемся критерием для проверки гипотезы о равенстве доли числу – реализуется через функцию `binom_test()` из `stats`:

In [None]:
# подставьте вместо p = 0 значение из нулевой гипотезы
# x – число успехов
# n – число наблюдений

stats.binom_test(x = sum_male, n = n_male, p = 0)
stats.binom_test(x = sum_female, n = n_female, p = 0)

## Часть 2: работаем со средними

### Выдвигаем предположения

Для оценки деятельности судей Верховного суда США (разные составы) были разработаны различные экспертные индексы оценки качества работы судьи (готовность к процессу, знакомство с законами, чёткость устных и письменных постановлений и проч). Индексы формируются на основе опроса адвокатов, их оценки по каждому из критериев усредняются, в итоге получается индекс в шкале от 1 до 10.

Сформулируйте нулевую гипотезу о среднем значении индекса готовности судьи к процессу. 

In [None]:
# H0:

### Загружаем данные и проверяем гипотезы

Оригинальное описание переменных, на английском:
    
* `CONT`	Number of contacts of lawyer with judge.
* `INTG`	Judicial integrity.
* `DMNR`	Demeanor.
* `DILG`	Diligence.
* `CFMG`	Case flow managing.
* `DECI`	Prompt decisions.
* `PREP`	Preparation for trial.
* `FAMI`	Familiarity with law.
* `ORAL`	Sound oral rulings.
* `WRIT`	Sound written rulings.
* `PHYS`	Physical ability.
* `RTEN`	Worthy of retention.    

In [None]:
jdata = pd.read_csv("https://raw.githubusercontent.com/allatambov/IntroProbStat2024/main/USJudgeRatings.csv")
jdata.describe()

Воспользуемся критерием для проверки гипотезы о равенстве доли числу – реализуется через функцию `ttest_1samp()` из `stats`:

In [None]:
# подставьте вместо popmean = 0 значение из нулевой гипотезы
# на первом месте – выборка (нужный столбец в нашем случае)

stats.ttest_1samp(jdata["PREP"], popmean = 0)