## Загрузка данных

In [5]:
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt

# если файл Mall_Customers.csv лежит рядом с ipynb
df = pd.read_csv('Mall_Customers.csv')

display(df)

Unnamed: 0,CustomerID,Genre,Age,Annual Income (k$),Spending Score (1-100)
0,1,Male,19,15,39
1,2,Male,21,15,81
2,3,Female,20,16,6
3,4,Female,23,16,77
4,5,Female,31,17,40
...,...,...,...,...,...
195,196,Female,35,120,79
196,197,Female,45,126,28
197,198,Male,32,126,74
198,199,Male,32,137,18


## Подготовка выборок по полу

In [8]:
male = df[df['Genre'] == 'Male']
female = df[df['Genre'] == 'Female']

male_spend = male['Spending Score (1-100)']
female_spend = female['Spending Score (1-100)']

male_inc = male['Annual Income (k$)']
female_inc = female['Annual Income (k$)']

male_age = male['Age']
female_age = female['Age']

## Гипотеза 1: «мужчины и женщины тратят 50% дохода»

### Интерпретируем как проверку, что средний Spending Score равен 50 (одновыборочный t‑критерий для каждого пола).

In [9]:
alpha = 0.05

# H0: mu = 50
t_male, p_male = stats.ttest_1samp(male_spend, 50)
t_female, p_female = stats.ttest_1samp(female_spend, 50)

print('Мужчины: t = {:.3f}, p = {:.4f}'.format(t_male, p_male))
print('Женщины: t = {:.3f}, p = {:.4f}'.format(t_female, p_female))

if p_male < alpha:
    print('Для мужчин H0 отвергается на уровне 5%')
else:
    print('Для мужчин нет оснований отвергнуть H0 на уровне 5%')

if p_female < alpha:
    print('Для женщин H0 отвергается на уровне 5%')
else:
    print('Для женщин нет оснований отвергнуть H0 на уровне 5%')


Мужчины: t = -0.501, p = 0.6179
Женщины: t = 0.670, p = 0.5042
Для мужчин нет оснований отвергнуть H0 на уровне 5%
Для женщин нет оснований отвергнуть H0 на уровне 5%


## Гипотеза 2: «доход у мужчин больше, чем у женщин» (двухвыборочный t‑тест)

In [10]:
# H0: mu_male = mu_female
# H1: mu_male > mu_female  (односторонний t‑критерий, дисперсии можно считать неравными)

t_inc, p_two_sided = stats.ttest_ind(male_inc, female_inc, equal_var=False)

# переводим в односторонний p‑уровень
if t_inc > 0:
    p_one_sided = p_two_sided / 2
else:
    p_one_sided = 1 - p_two_sided / 2

print('t = {:.3f}, p(одностороннее) = {:.4f}'.format(t_inc, p_one_sided))

if p_one_sided < alpha:
    print('H0 отвергается: доход мужчин статистически больше на уровне 5%')
else:
    print('Нет оснований утверждать, что доход мужчин больше на уровне 5%')


t = 0.793, p(одностороннее) = 0.2145
Нет оснований утверждать, что доход мужчин больше на уровне 5%


## Гипотеза 3: «неоднородность возрастов женщин такая же, как у мужчин» (равенство дисперсий)

In [11]:
# H0: sigma_male^2 = sigma_female^2

W, p_levene = stats.levene(male_age, female_age, center='mean')
print('Levene W = {:.3f}, p = {:.4f}'.format(W, p_levene))

if p_levene < alpha:
    print('H0 отвергается: дисперсии возрастов различаются на уровне 5%')
else:
    print('Нет оснований отвергать равенство дисперсий возрастов на уровне 5%')


Levene W = 5.340, p = 0.0219
H0 отвергается: дисперсии возрастов различаются на уровне 5%
