Никакие экспериментально полученные данные никогда **не подтвердят** какую-либо гипотезу. Это является фундаментальным ограничением. Данные могут лишь не противоречить гипотезе или, наоборот, показывать очень маловероятные результаты (при условии, что гипотеза верна). Но и в том, и в другом случае никогда нет оснований утверждать, что выдвинутая гипотеза **доказана**.

In [1]:
# Изучим набор данных об удовлетворенности клиентов Apple и Samsung продуктами компаний

In [2]:
import pandas as pd

In [3]:
df = pd.read_csv('apple_samsung.csv')
df

Unnamed: 0,Sr No,S_Cust_id,Samsung_Score,Apple_Cust_id,Apple_Score
0,1,S336499,94,A336525,82
1,2,S73004,99,A73011,83
2,3,S79537,74,A79538,88
3,4,S769168,74,A769222,80
4,5,S609791,83,A609801,74
...,...,...,...,...,...
95,96,S285617,77,A285629,87
96,97,S324135,85,A324151,82
97,98,S292076,83,A292091,88
98,99,S936528,82,A936566,91


1) Нужно сформулировать нулевую и альтернативную гипотезы;   
2) Определить пороговый уровень статистической значимости;  
3) Сколько у нас выборок (какой вариант теста используем)?  
3) Нужен ли односторонний, либо двухсторонний вариант теста?  https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-what-are-the-differences-between-one-tailed-and-two-tailed-tests/  
5) Определить, равна ли дисперсия групп.

## Клиенты удовлетворены продукцией Apple?
Клиенты удовлетворены продукцией Apple **больше**, чем на 80%? (односторонний тест)

H0: средняя удовлетворенность клиентов Apple продукцией компании <= 80%  
H1: средняя удовлетворенность клиентов Apple продукцией компании составляет более 80%

За alpha здесь и далее будем принимать 0.05

Сравниваем значение по выборке с константой, поэтому нужен одновыборочный критерий.

In [8]:
from scipy import stats as st
alpha = 0.05
result = st.ttest_1samp(df['Apple_Score'], 80, alternative='greater')

print(df['Apple_Score'].mean())
print(result)

if result.pvalue < alpha: 
    print('Отвергаем нулевую гипотезу, среднее больше 80 (продукция нравится)')
else:
    print('Не отвергаем нулевую нулевую гипотезу, продукция Apple не нравится клиентам')

87.81
Ttest_1sampResult(statistic=8.111646895018431, pvalue=1.3831181714829016e-12)
Отвергаем нулевую гипотезу, среднее больше 80 (продукция нравится)


## Клиенты не удовлетворены продукцией Samsung?
Клиенты удовлетворены продукцией Apple **меньше**, чем на 50%? (односторонний тест)

H0: средняя удовлетворенность клиентов Samsung продукцией компании >= 50%  
H1: средняя удовлетворенность клиентов Samsung продукцией компании составляет менее 50%

In [6]:
alpha = 0.05
result = st.ttest_1samp(df['Samsung_Score'], 50, alternative='less')
print(df['Samsung_Score'].mean())
print(result)
if result.pvalue < alpha:
    print('Отвергаем нулевую гипотезу, среднее меньше 50')
else:
    print('Не отвергаем нулевую гипотезу')

84.9
Ttest_1sampResult(statistic=29.465073943150735, pvalue=1.0)
Не отвергаем нулевую гипотезу



## Клиентам одинаково нравится продукция Apple и Samsung?
Средняя удовлетворенность клиентов  Apple и Samsung **равна**? (двухсторонний тест)

H0: средняя удовлетворенность клиентов Samsung и Apple одинаковая  
H1: средняя удовлетворенность клиентов Samsung и Apple различается

Здесь нам уже нужен двухвыборочный двухсторонний критерий.  


Существует [мнение](http://daniellakens.blogspot.com/2015/01/always-use-welchs-t-test-instead-of.html), что использование критерия Уэлча всегда предпочтительнее, будем придерживаться этой позиции.

In [7]:
result = st.ttest_ind(df['Samsung_Score'], df['Apple_Score'], equal_var=False)
print(result)

if (result.pvalue < alpha):
    print('Отвергаем нулевую гипотезу, клиенты по разному относятся к продукции Apple и Samsung')
else:
    print('Не отвергаем нулевую гипотезу')

Ttest_indResult(statistic=-1.9064295935043474, pvalue=0.05810311766331876)
Не отвергаем нулевую гипотезу
