In [35]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from scipy import stats
import numpy as np
import statsmodels.api as sm

In [36]:
def check_p_value(p_value: float, alphas = (0.1, 0.05, 0.01)):
    print(f'p-value = {p_value}')

    for alpha in alphas:
        if p_value < alpha:
            print(f'p-value < {alpha = } => Гипотеза отвергнута.')
        else:
            print(f'p-value > {alpha = } => Гипотеза не отвергнута.')

# Гипотеза о нормальности распределения

In [37]:
## https://www.kaggle.com/spscientist/students-performance-in-exams
students = pd.read_csv('StudentsPerformance.csv')
students

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77


In [38]:
fig = go.Figure()
fig.add_histogram(x=students['math score'], name='Математика')
fig.add_histogram(x=students['reading score'], name='Чтение')
fig.add_histogram(x=students['writing score'], name='Письмо')
fig.update_layout(barmode='overlay', xaxis_title='Оценка', yaxis_title='Количество учеников',
                  legend_title_text='Предмет', title='Распределение оценок по предмету')
fig.update_traces(opacity=0.8)
fig

Unsupported

Рассмотрим каждое из распределений

**Математика**. Распределение оценок по математике имеет колоколообразную форму. Распределение симметрично, однако присутствуют выбросы (оценки $<20$).

**Чтение**. Распределение оценок по чтению в целом имеет колоколообразную форму, однако есть падение в районе оценко от 68 до 71. Вероятнее всего данное падения связано с недостотаточным количеством данных. Распределение симметрично, однако присутствуют выбросы (оценки $<20$, и кажется, что оценка 100 также является выбросом).

**Письмо**. Распределение оценок по письму имеет колоколообразную форму. Распределение симметрично, однако присутствуют выбросы (оценки $<25$, и кажется, что оценка 100 также является выбросом).

## Гипотеза о нормальности распределения оценок по математике

In [39]:
_, p_value = stats.shapiro(students['math score'].loc[students['math score'] > 20])
check_p_value(p_value)

p-value = 0.01054670661687851
p-value < alpha = 0.1 => Гипотеза отвергнута.
p-value < alpha = 0.05 => Гипотеза отвергнута.
p-value > alpha = 0.01 => Гипотеза не отвергнута.


**Вывод**: распределение не является нормальным

In [40]:
_, p_value = sm.stats.lilliefors(students['math score'].loc[students['math score'] > 20])
check_p_value(p_value)

p-value = 0.2355830259708922
p-value > alpha = 0.1 => Гипотеза не отвергнута.
p-value > alpha = 0.05 => Гипотеза не отвергнута.
p-value > alpha = 0.01 => Гипотеза не отвергнута.


## Гипотеза о нормальности распределения оценок по чтению

In [41]:
_, p_value = stats.shapiro(students['reading score'].loc[students['reading score'] > 20])
check_p_value(p_value)

p-value = 0.00018900509166996926
p-value < alpha = 0.1 => Гипотеза отвергнута.
p-value < alpha = 0.05 => Гипотеза отвергнута.
p-value < alpha = 0.01 => Гипотеза отвергнута.


**Вывод**: распределение не является нормальным

In [42]:
_, p_value = stats.shapiro(students['reading score'].loc[(students['reading score'] > 20) & (students['reading score'] != 100)])
check_p_value(p_value)

p-value = 2.3861343834141735e-06
p-value < alpha = 0.1 => Гипотеза отвергнута.
p-value < alpha = 0.05 => Гипотеза отвергнута.
p-value < alpha = 0.01 => Гипотеза отвергнута.


**Вывод**: распределение не является нормальным

In [43]:
_, p_value = sm.stats.lilliefors(students['reading score'].loc[students['reading score'] > 20])
check_p_value(p_value)

p-value = 0.0009999999999998899
p-value < alpha = 0.1 => Гипотеза отвергнута.
p-value < alpha = 0.05 => Гипотеза отвергнута.
p-value < alpha = 0.01 => Гипотеза отвергнута.


## Гипотеза о нормальности распределения оценок по письму

In [44]:
_, p_value = stats.shapiro(students['writing score'].loc[students['writing score'] > 25])
check_p_value(p_value)

p-value = 0.00013689314073417336
p-value < alpha = 0.1 => Гипотеза отвергнута.
p-value < alpha = 0.05 => Гипотеза отвергнута.
p-value < alpha = 0.01 => Гипотеза отвергнута.


**Вывод**: распределение не является нормальным

In [45]:
_, p_value = stats.shapiro(students['writing score'].loc[(students['writing score'] > 25) & (students['writing score'] != 100)])
check_p_value(p_value)

p-value = 6.54699033475481e-06
p-value < alpha = 0.1 => Гипотеза отвергнута.
p-value < alpha = 0.05 => Гипотеза отвергнута.
p-value < alpha = 0.01 => Гипотеза отвергнута.


**Вывод**: распределение не является нормальным

In [46]:
_, p_value = sm.stats.lilliefors(students['writing score'].loc[students['writing score'] > 25])
check_p_value(p_value)

p-value = 0.0017628264614738944
p-value < alpha = 0.1 => Гипотеза отвергнута.
p-value < alpha = 0.05 => Гипотеза отвергнута.
p-value < alpha = 0.01 => Гипотеза отвергнута.


# Сравнение центров распределения

In [47]:
# https://www.kaggle.com/ericpierce/austinhousingprices
housing = pd.read_csv('austinHousingData.csv')
housing

Unnamed: 0,zpid,city,streetAddress,zipcode,description,latitude,longitude,propertyTaxRate,garageSpaces,hasAssociation,...,numOfMiddleSchools,numOfHighSchools,avgSchoolDistance,avgSchoolRating,avgSchoolSize,MedianStudentsPerTeacher,numOfBathrooms,numOfBedrooms,numOfStories,homeImage
0,111373431,pflugerville,14424 Lake Victor Dr,78660,"14424 Lake Victor Dr, Pflugerville, TX 78660 i...",30.430632,-97.663078,1.98,2,True,...,1,1,1.266667,2.666667,1063,14,3.0,4,2,111373431_ffce26843283d3365c11d81b8e6bdc6f-p_f...
1,120900430,pflugerville,1104 Strickling Dr,78660,Absolutely GORGEOUS 4 Bedroom home with 2 full...,30.432673,-97.661697,1.98,2,True,...,1,1,1.400000,2.666667,1063,14,2.0,4,1,120900430_8255c127be8dcf0a1a18b7563d987088-p_f...
2,2084491383,pflugerville,1408 Fort Dessau Rd,78660,Under construction - estimated completion in A...,30.409748,-97.639771,1.98,0,True,...,1,1,1.200000,3.000000,1108,14,2.0,3,1,2084491383_a2ad649e1a7a098111dcea084a11c855-p_...
3,120901374,pflugerville,1025 Strickling Dr,78660,Absolutely darling one story home in charming ...,30.432112,-97.661659,1.98,2,True,...,1,1,1.400000,2.666667,1063,14,2.0,3,1,120901374_b469367a619da85b1f5ceb69b675d88e-p_f...
4,60134862,pflugerville,15005 Donna Jane Loop,78660,Brimming with appeal & warm livability! Sleek ...,30.437368,-97.656860,1.98,0,True,...,1,1,1.133333,4.000000,1223,14,3.0,3,2,60134862_b1a48a3df3f111e005bb913873e98ce2-p_f.jpg
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15166,29512934,austin,905 Silcantu Dr,78748,Not for rent!\n\nBeautiful one story home in T...,30.161997,-97.816345,1.98,6,False,...,1,1,0.900000,3.333333,1424,14,2.0,3,1,29512934_ff9b6eefa7e2eb4e9ef983da13a23098-p_f.jpg
15167,241937773,austin,1413 Waterloo Shore Ln UNIT 12,78741,This contemporary three-story detached condo h...,30.240223,-97.772835,1.98,2,True,...,1,1,1.900000,6.666667,1226,16,4.0,3,3,241937773_66d3e483bd783eac5a52ff5f938d2a2e-p_f...
15168,29473281,austin,2206 S 3rd St,78704,Original bungalow with a modern addition. Larg...,30.244835,-97.761124,1.98,2,False,...,1,1,0.800000,5.000000,889,13,3.0,3,2,29473281_9e90ec4652c4b3b6592a7fdd09f1ea6d-p_f.jpg
15169,29392029,austin,2000 Chestnut Ave,78722,So many options at this address in the eclecti...,30.281569,-97.717789,1.98,0,False,...,1,1,1.300000,6.666667,1057,15,2.0,4,1,29392029_a9a8306ea363d23f37d91d37975a1b96-p_f.jpg


## Гипотеза о равенстве средних стоимостей домов, входящих и не входящих в ТСЖ

In [48]:
housing_have_association = housing[housing['hasAssociation'] == True]['latestPrice']
housing_do_not_have_associtation = housing[housing['hasAssociation'] == False]['latestPrice']

In [49]:
fig = go.Figure()
fig.add_histogram(x=housing_have_association, name='Входит', marker_color='#636EFA')
fig.add_histogram(x=housing_do_not_have_associtation, name='Не входит', marker_color='#EF553B')
fig.add_vline(x=housing_have_association.mean(), line_dash='dash', line_color='#636EFA')
fig.add_vline(x=housing_do_not_have_associtation.mean(), line_dash='dash', line_color='#EF553B')
fig.update_layout(barmode='overlay', xaxis_title='Стоимость', yaxis_title='Количество', legend_title_text='ТСЖ',
                  title='Распределение цен квартир по членству в ТСЖ')
fig.update_traces(opacity=0.8)
fig

Unsupported

График распределения слишком сильно смещён влево, поэтому его следует прологарифмировать. Также в выборках присутствуют выбросы, от которых следует избавиться.

In [50]:
housing_have_association_filtered = np.log(housing_have_association)
housing_do_not_have_associtation_filtered = np.log(housing_do_not_have_associtation)

housing_have_association_filtered = housing_have_association_filtered[housing_have_association_filtered.between(10.5, 15.3)]
housing_do_not_have_associtation_filtered = housing_do_not_have_associtation_filtered[housing_do_not_have_associtation_filtered.between(11, 15.3)]

fig = go.Figure()
fig.add_histogram(x=housing_have_association_filtered, name='Входит в ТСЖ', marker_color='#636EFA')
fig.add_histogram(x=housing_do_not_have_associtation_filtered, name='Не входит в ТСЖ', marker_color='#EF553B')
fig.add_vline(x=housing_have_association_filtered.mean(), line_dash='dash', line_color='#636EFA')
fig.add_vline(x=housing_do_not_have_associtation_filtered.mean(), line_dash='dash', line_color='#EF553B')
fig.update_layout(barmode='overlay', xaxis_title='Стоимость', yaxis_title='Количество', legend_title_text='ТСЖ',
                  title='Распределение цен квартир по членству в ТСЖ')
fig.update_traces(opacity=0.8)
fig

Unsupported

После логарифмирования и избавления от выбросов графики распределения приняли колоколообразную, симметричную форму. Поэтому, перед тем как применить критерий Стьюдента, желательно проверить гипотезу о равенстве дисперсий (критерий Флингера-Килина).

In [51]:
_, p_value = stats.fligner(housing_have_association_filtered, housing_do_not_have_associtation_filtered)
check_p_value(p_value)

p-value = 0.2925206432503329
p-value > alpha = 0.1 => Гипотеза не отвергнута.
p-value > alpha = 0.05 => Гипотеза не отвергнута.
p-value > alpha = 0.01 => Гипотеза не отвергнута.


**Вывод**: диспресии отличаются статистически незначительно.

In [52]:
_, p_value = stats.ttest_ind(housing_have_association_filtered, housing_do_not_have_associtation_filtered)
check_p_value(p_value)

p-value = 0.4075445247669196
p-value > alpha = 0.1 => Гипотеза не отвергнута.
p-value > alpha = 0.05 => Гипотеза не отвергнута.
p-value > alpha = 0.01 => Гипотеза не отвергнута.


**Вывод**: средние значения отличаются статистически незначительно.

## Гипотеза о равенстве медианных стоимостей домов, входящих и не входящих в ТСЖ

In [53]:
fig = go.Figure()
fig.add_histogram(x=housing_have_association_filtered, name='Входит в ТСЖ', marker_color='#636EFA')
fig.add_histogram(x=housing_do_not_have_associtation_filtered, name='Не входит в ТСЖ', marker_color='#EF553B')
fig.add_vline(x=housing_have_association_filtered.median(), line_dash='dash', line_color='#636EFA')
fig.add_vline(x=housing_do_not_have_associtation_filtered.median(), line_dash='dash', line_color='#EF553B')
fig.update_layout(barmode='overlay', xaxis_title='Стоимость', yaxis_title='Количество', legend_title_text='ТСЖ',
                  title='Распределение цен квартир по членству в ТСЖ')
fig.update_traces(opacity=0.8)
fig

Unsupported

In [54]:
_, p_value = stats.mannwhitneyu(housing_have_association_filtered, housing_do_not_have_associtation_filtered)
check_p_value(p_value)

p-value = 0.19872011805179507
p-value > alpha = 0.1 => Гипотеза не отвергнута.
p-value > alpha = 0.05 => Гипотеза не отвергнута.
p-value > alpha = 0.01 => Гипотеза не отвергнута.


**Вывод**: медианные значения отличаются статистически незначительно.

## Гипотеза о равенстве средних стоимостей домов, имеющих и не имеющих гаража

In [55]:
housing_have_garage = housing[housing['hasGarage'] == True]['latestPrice']
housing_do_not_have_garage = housing[housing['hasGarage'] == False]['latestPrice']

In [56]:
fig = go.Figure()
fig.add_histogram(x=housing_have_garage, name='Есть', marker_color='#636EFA')
fig.add_histogram(x=housing_do_not_have_garage, name='Нет', marker_color='#EF553B')
fig.add_vline(x=housing_have_garage.mean(), line_dash='dash', line_color='#636EFA')
fig.add_vline(x=housing_do_not_have_garage.mean(), line_dash='dash', line_color='#EF553B')
fig.update_layout(barmode='overlay', xaxis_title='Стоимость', yaxis_title='Количество', legend_title_text='Гараж',
                  title='Распределение цен квартир по наличию гаража')
fig.update_traces(opacity=0.8)
fig

Unsupported

График распределения слишком сильно смещён влево, поэтому его следует прологарифмировать. Также в выборках присутствуют выбросы, от которых следует избавиться.

In [57]:
housing_have_garage_filtered = np.log(housing_have_garage)
housing_do_not_have_garage_filtered = np.log(housing_do_not_have_garage)

housing_have_garage_filtered = housing_have_garage_filtered[housing_have_garage_filtered.between(11, 15.3)]
housing_do_not_have_garage_filtered = housing_do_not_have_garage_filtered[housing_do_not_have_garage_filtered.between(11.1, 15.2)]

fig = go.Figure()
fig.add_histogram(x=housing_have_garage_filtered, name='Есть', marker_color='#636EFA')
fig.add_histogram(x=housing_do_not_have_garage_filtered, name='Нет', marker_color='#EF553B')
fig.add_vline(x=housing_have_garage_filtered.mean(), line_dash='dash', line_color='#636EFA')
fig.add_vline(x=housing_do_not_have_garage_filtered.mean(), line_dash='dash', line_color='#EF553B')
fig.update_layout(barmode='overlay', xaxis_title='Стоимость', yaxis_title='Количество', legend_title_text='Гараж',
                  title='Распределение цен квартир по наличию гаража')
fig.update_traces(opacity=0.8)
fig

Unsupported

После логарифмирования и избавления от выбросов графики распределения приняли колоколообразную, симметричную форму. Поэтому, перед тем как применить критерий Стьюдента, желательно проверить гипотезу о равенстве дисперсий (критерий Флингера-Килина).

In [58]:
_, p_value = stats.fligner(housing_have_garage_filtered, housing_do_not_have_garage_filtered)
check_p_value(p_value)

p-value = 0.00026891804651836657
p-value < alpha = 0.1 => Гипотеза отвергнута.
p-value < alpha = 0.05 => Гипотеза отвергнута.
p-value < alpha = 0.01 => Гипотеза отвергнута.


**Вывод**: дисперсии различаются, поэтому вместо критерия Стьюдента воспользуемся его модификацией, критерием Уэлча.

In [59]:
_, p_value = stats.ttest_ind(housing_have_garage_filtered, housing_do_not_have_garage_filtered, equal_var=False)
check_p_value(p_value)

p-value = 4.179806500837957e-42
p-value < alpha = 0.1 => Гипотеза отвергнута.
p-value < alpha = 0.05 => Гипотеза отвергнута.
p-value < alpha = 0.01 => Гипотеза отвергнута.


**Вывод**: средние значения не совпадают

## Гипотеза о равенстве медианных стоимостей домов, имеющих и не имеющих гаража

In [60]:
fig = go.Figure()
fig.add_histogram(x=housing_have_garage_filtered, name='Есть', marker_color='#636EFA')
fig.add_histogram(x=housing_do_not_have_garage_filtered, name='Нет', marker_color='#EF553B')
fig.add_vline(x=housing_have_garage_filtered.median(), line_dash='dash', line_color='#636EFA')
fig.add_vline(x=housing_do_not_have_garage_filtered.median(), line_dash='dash', line_color='#EF553B')
fig.update_layout(barmode='overlay', xaxis_title='Стоимость', yaxis_title='Количество', legend_title_text='Гараж',
                  title='Распределение цен квартир по наличию гаража')
fig.update_traces(opacity=0.8)
fig

Unsupported

In [61]:
_, p_value = stats.mannwhitneyu(housing_have_garage_filtered, housing_do_not_have_garage_filtered)
check_p_value(p_value)

p-value = 1.2150371585813934e-46
p-value < alpha = 0.1 => Гипотеза отвергнута.
p-value < alpha = 0.05 => Гипотеза отвергнута.
p-value < alpha = 0.01 => Гипотеза отвергнута.


**Вывод**: медианные значения не совпадают.

# Гипотеза независимости

In [62]:
# https://www.kaggle.com/sumitredekar/nba-stats-2018-2021
nba = pd.read_csv('NBA_stats.csv')
nba

Unnamed: 0,Player,Pos,Age,Team,Games,Minutes Played,Fields Goal,Fields Goal Attempted,3-points Field Goal,3-points Field Goal Attempted,...,Defensive Rebounds,Total Rebounds,Assists,Steals,Blocks,Turnovers,Personal Fouls,Points,Rank,Year
0,Álex Abrines,SG,24,OKC,75,15.1,1.5,3.9,1.1,2.9,...,1.2,1.5,0.4,0.5,0.1,0.3,1.7,4.7,1,2018
1,Quincy Acy,PF,27,BRK,70,19.4,1.9,5.2,1.5,4.2,...,3.1,3.7,0.8,0.5,0.4,0.9,2.1,5.9,2,2018
2,Steven Adams,C,24,OKC,76,32.7,5.9,9.4,0.0,0.0,...,4.0,9.0,1.2,1.2,1.0,1.7,2.8,13.9,3,2018
3,Bam Adebayo,C,20,MIA,69,19.8,2.5,4.9,0.0,0.1,...,3.8,5.5,1.5,0.5,0.6,1.0,2.0,6.9,4,2018
4,Arron Afflalo,SG,32,ORL,53,12.9,1.2,3.1,0.5,1.3,...,1.2,1.2,0.6,0.1,0.2,0.4,1.1,3.4,5,2018
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2723,Delon Wright,PG,28,SAC,27,25.8,3.9,8.3,1.2,3.1,...,2.9,3.9,3.6,1.6,0.4,1.3,1.1,10.0,536,2021
2724,Thaddeus Young,PF,32,CHI,68,24.3,5.4,9.7,0.2,0.7,...,3.8,6.2,4.3,1.1,0.6,2.0,2.2,12.1,537,2021
2725,Trae Young,PG,22,ATL,63,33.7,7.7,17.7,2.2,6.3,...,3.3,3.9,9.4,0.8,0.2,4.1,1.8,25.3,538,2021
2726,Cody Zeller,C,28,CHO,48,20.9,3.8,6.8,0.1,0.6,...,4.4,6.8,1.8,0.6,0.4,1.1,2.5,9.4,539,2021


## Гипотеза о независимости времени игры и количества забитых очков

In [63]:
fig = px.scatter(x=nba['Minutes Played'], y=nba['Fields Goal'], title='Зависимость времени игры от количества очков')
fig.update_xaxes(title='Время игры')
fig.update_yaxes(title='Количество очков')
fig.show()

Unsupported

In [64]:
coefficient, p_value = stats.pearsonr(nba['Minutes Played'], nba['Fields Goal'])
print(f'Pearson’s correlation coefficient: {coefficient}')
check_p_value(p_value)

Pearson’s correlation coefficient: 0.8798261854089531
p-value = 0.0
p-value < alpha = 0.1 => Гипотеза отвергнута.
p-value < alpha = 0.05 => Гипотеза отвергнута.
p-value < alpha = 0.01 => Гипотеза отвергнута.


**Вывод**: время игры коррелирует с количеством забитых очков.

## Гипотеза о независимости количества успешных 3-очковых бросков и общего количества 3-очковых бросков 

In [65]:
fig = px.scatter(x=nba['3-points Field Goal Attempted'], y=nba['3-points Field Goal'],
                 title='Зависимость общего количества 3-очковых бросков к количеству успешных 3-очковых бросков')
fig.update_xaxes(title='Общее количество 3-очковых бросков')
fig.update_yaxes(title='Количество успешных 3-очковых бросков')
fig.show()

Unsupported

In [66]:
coefficient, p_value = stats.pearsonr(nba['3-points Field Goal Attempted'], nba['3-points Field Goal'])
print(f'Pearson’s correlation coefficient: {coefficient}')
check_p_value(p_value)

Pearson’s correlation coefficient: 0.9779575556023907
p-value = 0.0
p-value < alpha = 0.1 => Гипотеза отвергнута.
p-value < alpha = 0.05 => Гипотеза отвергнута.
p-value < alpha = 0.01 => Гипотеза отвергнута.


**Вывод**: количество успешных 3-очковых бросков коррелирует с общим количеством 3-очковых бросков

## Гипотеза о независимости возраста игроков и команды 

In [67]:
fig = px.scatter(x=nba['Age'], y=nba['Team'], title='Зависимость возраста от команды')
fig.update_xaxes(title='Возраст')
fig.update_yaxes(title='Команда')
fig.show()

Unsupported

In [68]:
tau, p_value = stats.kendalltau(nba['Team'], nba['Pos'])
print(f'Kendall’s tau: {tau}')
check_p_value(p_value)

Kendall’s tau: 0.002169644130875953
p-value = 0.8786374759351929
p-value > alpha = 0.1 => Гипотеза не отвергнута.
p-value > alpha = 0.05 => Гипотеза не отвергнута.
p-value > alpha = 0.01 => Гипотеза не отвергнута.


**Вывод**: возраст игрока не коррелирует с командой.