# Анализ данных на Python

*Алла Тамбовцева*

## Примеры статистических тестов

In [None]:
import numpy as np
from scipy import stats
from statsmodels.stats.proportion import proportions_ztest

### Задача 1

Даны два списка. В списке `server1` сохранены отметки о том, перешли ли покупатели к оформлению заказа в текущем дизайне сайта интернет-магазина (1 – да, 0 – нет), в списке `server2` – аналогичные отметки для сайта в обновлённом дизайне. Известно, что посетители сайта в текущем и обновлённом дизайне – разные люди, то есть выборки независимы.

In [None]:
server1 = [0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 
           0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 
           0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
           0, 1, 0, 1, 0, 0, 0, 0, 0, 0]

server2 = [0, 0, 1, 1, 1, 0, 1, 0, 0, 1, 
           0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 
           0, 0, 0, 1, 0, 0, 0, 1, 0, 0,
           0, 1]

Используя шаблон кода для функции `proportions_ztest()` ниже, проверьте гипотезу $H_0: p_1 = p_2$ против правосторонней альтернативы, приняв уровень значимости равным 5%.

In [None]:
### YOUR CODE HERE ###

In [None]:
# s1 – число успехов в первой выборке
# s2 – число успехов во второй выборке
# n1, n2 – объемы выборок
# alternative: 'two-sided', 'smaller', 'larger'

print(proportions_ztest(count = [s1, s2], 
                             nobs = [n1, n2], 
                             alternative = "smaller"))

### Задача 2

Дан массив значений, которые представляют собой закодированную степень согласия с утверждением:

* 1 – абсолютно не согласен,
* 2 – не согласен,
* 3 – согласен,
* 4 – абсолютно согласен.

Пусть нас интересует доля согласных с утверждением – доля ответов 3 и 4.

Используя шаблон кода для функции `binomtest()` ниже, проверьте гипотезу $H_0: p = 0.4$ против двусторонней альтернативы, приняв уровень значимости равным 5%.

In [None]:
poll = np.array([3, 4, 1, 2, 3, 4, 2, 1, 3, 4,
                 1, 2, 4, 3, 1, 2, 3, 4, 3, 4])

In [None]:
### YOUR CODE HERE ###

In [None]:
# yes – число ответов 3 и 4
# N – объем выборки

print(stats.binom_test(x = yes, n = N, p = 0.4))

### Задача 3

Даны массивы значений, в которых содержится количество килограммов, которые были сброшены участниками эксперимента в течение 6 недель следования диете A и диете B.

In [None]:
weight_a = np.array([3, 2.5, 4, 3.5, 4, 4,5, 3.8, 2.7, 1.9, 3.1, 3])
weight_b = np.array([-0.5, 2, 2.5, 3, 4, 4.6, 3.2, 0, 1.5, 1.4, 3.2, 2.2, 0])

Ниже приведены описательные статистики для выборок:

In [None]:
print("среднее:", round(weight_a.mean(), 2), 
      "стандартное отклонение:", round(weight_a.std(ddof = 1), 2))

print("среднее:", round(weight_b.mean(), 2), 
      "стандартное отклонение:", round(weight_b.std(ddof = 1), 2))

Используя функцию `ttest_ind()` из `stats` библиотеки `scipy`, проверьте, можно ли считать на уровне значимости 5% обе диеты одинаково эффективными в контексте снижения веса. Альтернативную гипотезу считайте односторонней, а ее направление выберите, исходя из данных.

In [None]:
### YOUR CODE HERE ###