In [28]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

1. Dataset “Babyboom” (переменные Time of birth recorded on the 24-hour clock, Sex of the child (1 = girl, 2 = boy), Birth weight in grams, Number of minutes after midnight of each birth):
* Проверьте гипотезу, что средний вес девочек такой же, как вес мальчиков. 
* Проверьте гипотезу, что дисперсия веса девочек такая же, как и веса мальчиков. 
   

In [29]:
 # Определение ширины каждого поля
colspecs = [
    (0, 8),    # Time of birth
    (8, 16),   # Sex of the child
    (16, 24),  # Birth weight in grams
    (24, 32)   # Number of minutes after midnight of each birth
]

# Определение имен колонок
column_names = [
    "Time_of_birth", "Sex", "Birth_weight", "Minutes_after_midnight"
]

# Загрузка данных
data = pd.read_fwf('data/babyboom.dat.txt', colspecs=colspecs, header=None, names=column_names)

data

Unnamed: 0,Time_of_birth,Sex,Birth_weight,Minutes_after_midnight
0,5,1,3837,5
1,104,1,3334,64
2,118,2,3554,78
3,155,2,3838,115
4,257,2,3625,177
5,405,1,2208,245
6,407,1,1745,247
7,422,2,2846,262
8,431,2,3166,271
9,708,2,3520,428


In [30]:
from scipy import stats

# Разделение данных на девочек и мальчиков
girls_weights = data[data['Sex'] == 1]['Birth_weight']
boys_weights = data[data['Sex'] == 2]['Birth_weight']

# Проведение t-теста
t_stat, p_value = stats.ttest_ind(girls_weights, boys_weights)

print(f"T-statistic: {t_stat}, P-value: {p_value}")

T-statistic: -1.5228564442562815, P-value: 0.1352891891054555


In [31]:
# Sample data
girls_weights = data[data['Sex'] == 1]['Birth_weight']
boys_weights = data[data['Sex'] == 2]['Birth_weight']

# Calculate variances
var1 = np.var(girls_weights, ddof=1)
var2 = np.var(boys_weights, ddof=1)

# Compute F-statistic
f_stat = var1 / var2

# Degrees of freedom
df1 = len(girls_weights) - 1
df2 = len(boys_weights) - 1

# Calculate p-value
p_value = 2 * min(stats.f.cdf(f_stat, df1, df2), 1 - stats.f.cdf(f_stat, df1, df2))

print(f"F-statistic: {f_stat}")
print(f"P-value: {p_value}")

F-statistic: 2.1771042882107263
P-value: 0.07526261914285004


___
2. Dataset “Euroweight” (переменные weight, batch):
* Проверить гипотезы о том, что среднее значение веса монеты одинаково в разных пакетах (попарно и все вместе). 




In [32]:
# Определение имен колонок
column_names = [
    "ID", "Weight", "Batch"
]

# Загрузка данных из переменной lines
data = pd.read_csv('data/euroweight.dat.txt', sep='\t', header=None, names=column_names)

data

Unnamed: 0,ID,Weight,Batch
0,1,7.512,1
1,2,7.502,1
2,3,7.461,1
3,4,7.562,1
4,5,7.528,1
...,...,...,...
1995,1996,7.514,8
1996,1997,7.519,8
1997,1998,7.606,8
1998,1999,7.547,8


In [33]:
from itertools import combinations
from scipy.stats import ttest_ind

# Get unique batches
batches = data['Batch'].unique()

# Perform pairwise t-tests
results = {}
for batch1, batch2 in combinations(batches, 2):
    weights1 = data[data['Batch'] == batch1]['Weight']
    weights2 = data[data['Batch'] == batch2]['Weight']
    t_stat, p_value = ttest_ind(weights1, weights2)
    results[(batch1, batch2)] = (t_stat, p_value)

# Print results
for (batch1, batch2), (t_stat, p_value) in results.items():
    print(f"Batch {batch1} vs Batch {batch2}: T-statistic = {t_stat}, P-value = {p_value}")

Batch 1 vs Batch 2: T-statistic = -1.1241810509353891, P-value = 0.26147780679017946
Batch 1 vs Batch 3: T-statistic = 3.1644998631182344, P-value = 0.001648507542831034
Batch 1 vs Batch 4: T-statistic = -4.0016907491459435, P-value = 7.245319251258257e-05
Batch 1 vs Batch 5: T-statistic = -4.0914574540531685, P-value = 4.9993849166524045e-05
Batch 1 vs Batch 6: T-statistic = 1.4565887588620556, P-value = 0.1458601194945584
Batch 1 vs Batch 7: T-statistic = -1.115153466577227, P-value = 0.26532250649811384
Batch 1 vs Batch 8: T-statistic = 0.9226820370831669, P-value = 0.3566197335516895
Batch 2 vs Batch 3: T-statistic = 4.199462222751052, P-value = 3.169999483351773e-05
Batch 2 vs Batch 4: T-statistic = -2.7223104844542156, P-value = 0.006710009918197492
Batch 2 vs Batch 5: T-statistic = -2.814325820935377, P-value = 0.00508142614345485
Batch 2 vs Batch 6: T-statistic = 2.5714317115838488, P-value = 0.010416963435836283
Batch 2 vs Batch 7: T-statistic = 0.04959673381902426, P-value = 

In [34]:
#Anova test for all batches
from scipy.stats import f_oneway

# Get weights for each batch
weights = [data[data['Batch'] == batch]['Weight'] for batch in batches]

# Perform ANOVA
f_stat, p_value = f_oneway(*weights)

print(f"F-statistic: {f_stat}")
print(f"P-value: {p_value}")

F-statistic: 12.67221788627366
P-value: 5.361761521220631e-16


___
3. Dataset “iris.txt” (прочитайте описание данных в файле «iris_description.txt», переменные sepal length, sepal width, petal length, petal width, class):
* Проверить гипотезы о равенстве распределений характеристик цветков разных типов. 
* Проверьте гипотезы о равенстве средних и дисперсий различных характеристик цветов разных типов.

In [35]:
data = pd.read_csv('data/iris.txt', sep=',', header=None, names=["SepalLength", "SepalWidth", "PetalLength", "PetalWidth", "Class"])

data

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [36]:
from scipy.stats import kstest

# Разделение данных по классам
setosa = data[data['Class'] == 'Iris-setosa']
versicolor = data[data['Class'] == 'Iris-versicolor']
virginica = data[data['Class'] == 'Iris-virginica']

# Проверка гипотез о равенстве распределений для каждой пары классов и каждой переменной
for column in data.columns[:-1]:
    k_stat, p_value = kstest(setosa[column], versicolor[column])
    print(f"Setosa vs Versicolor for {column}:    K-statistic = {k_stat}, P-value = {p_value}")
    k_stat, p_value =  kstest(setosa[column], virginica[column])
    print(f"Setosa vs Virginica for {column}:     K-statistic = {k_stat}, P-value = {p_value}")
    k_stat, p_value = kstest(versicolor[column], virginica[column])
    print(f"Versicolor vs Virginica for {column}: K-statistic = {k_stat}, P-value = {p_value}")


Setosa vs Versicolor for SepalLength:    K-statistic = 0.78, P-value = 2.807570962237254e-15
Setosa vs Virginica for SepalLength:     K-statistic = 0.92, P-value = 7.773164323782225e-23
Versicolor vs Virginica for SepalLength: K-statistic = 0.46, P-value = 3.800827929128319e-05
Setosa vs Versicolor for SepalWidth:    K-statistic = 0.68, P-value = 2.6679407140599687e-11
Setosa vs Virginica for SepalWidth:     K-statistic = 0.5, P-value = 4.8075337049514946e-06
Versicolor vs Virginica for SepalWidth: K-statistic = 0.26, P-value = 0.06779471096995852
Setosa vs Versicolor for PetalLength:    K-statistic = 1.0, P-value = 1.9823306042836678e-29
Setosa vs Virginica for PetalLength:     K-statistic = 1.0, P-value = 1.9823306042836678e-29
Versicolor vs Virginica for PetalLength: K-statistic = 0.86, P-value = 3.173227767377155e-19
Setosa vs Versicolor for PetalWidth:    K-statistic = 1.0, P-value = 1.9823306042836678e-29
Setosa vs Virginica for PetalWidth:     K-statistic = 1.0, P-value = 1.9823

In [37]:
# Проверка гипотез о равенстве средних и дисперсий различных характеристик цветов разных типов. 
# Проверка равенства средних
from scipy.stats import f_oneway

# Проверка равенства средних для каждой переменной
for column in data.columns[:-1]:
    f_stat, p_value = f_oneway(setosa[column], versicolor[column])
    print(f"Setosa vs Versicolor for {column}:    F-statistic = {f_stat}, P-value = {p_value}")
    f_stat, p_value = f_oneway(setosa[column], virginica[column])
    print(f"Setosa vs Virginica for {column}:     F-statistic = {f_stat}, P-value = {p_value}")
    f_stat, p_value = f_oneway(versicolor[column], virginica[column])
    print(f"Versicolor vs Virginica for {column}: F-statistic = {f_stat}, P-value = {p_value}")


print("_"*150)
# Проверка равенства дисперсий
from scipy.stats import levene

# Проверка равенства дисперсий для каждой переменной
for column in data.columns[:-1]:
    stat, p_value = levene(setosa[column], versicolor[column])
    print(f"Setosa vs Versicolor for {column}:    Statistic = {stat}, P-value = {p_value}")
    stat, p_value = levene(setosa[column], virginica[column])
    print(f"Setosa vs Virginica for {column}:     Statistic = {stat}, P-value = {p_value}")
    stat, p_value = levene(versicolor[column], virginica[column])
    print(f"Versicolor vs Virginica for {column}: Statistic = {stat}, P-value = {p_value}")

Setosa vs Versicolor for SepalLength:    F-statistic = 110.69115204195691, P-value = 8.985235037487275e-18
Setosa vs Virginica for SepalLength:     F-statistic = 236.7350218138295, P-value = 6.892546060673534e-28
Versicolor vs Virginica for SepalLength: F-statistic = 31.687501521236467, P-value = 1.7248563024546671e-07
Setosa vs Versicolor for SepalWidth:    F-statistic = 86.16986631822294, P-value = 4.3622390160101126e-15
Setosa vs Virginica for SepalWidth:     F-statistic = 39.556363636363635, P-value = 8.91663406700642e-09
Versicolor vs Virginica for SepalWidth: F-statistic = 10.276901987662784, P-value = 0.0018191004238894523
Setosa vs Versicolor for PetalLength:    F-statistic = 1557.7753269568584, P-value = 5.717463758171083e-62
Setosa vs Virginica for PetalLength:     F-statistic = 2496.5715121951253, P-value = 1.564122415888287e-71
Versicolor vs Virginica for PetalLength: F-statistic = 158.8552562070785, P-value = 3.178819547806349e-22
Setosa vs Versicolor for PetalWidth:    F-

___
 Dataset “sugery.xlsx” (переменные «До операции, V left», «До операции, V right», «После операции, V left», «После операции, V right»): 

* Проверить гипотезу об успешности операции с вероятностью 0.7 (0.8). Под успехом мы подразумеваем, что «V справа» до операции меньше, чем «V справа» после операции, и одновременно с этим «V слева» до операции меньше, чем «V слева» после операции. 

 

In [38]:
%pip install openpyxl





[notice] A new release of pip is available: 24.2 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [39]:
data = pd.read_excel('data/surgery.xlsx')

#drop the first row
#rename the columns to VRB, VLB, VRA, VLA
data = data.drop(0)
data.columns = ["VRB", "VLB", "VRA", "VLA"]

data

Unnamed: 0,VRB,VLB,VRA,VLA
1,7.2,6.7,12,13.1
2,1.2,1.2,4.5,4.2
3,6.7,7.3,15.3,14.9
4,9.9,10.05,9.6,9.1
5,3.1,2.13,,
...,...,...,...,...
90,3,5.4,5.09,6.7
91,0.32,0.33,0.8,0.76
92,6.5,5.3,9.7,8.03
93,11.7,8.3,11.7,9.3


In [40]:
#import the binom_test function
from scipy.stats import binomtest

# Определение успеха операции
success = (data['VRB'].astype(float) < data['VRA'].astype(float)) & \
          (data['VLB'].astype(float) < data['VLA'].astype(float))

k = success.sum()
n = len(success)

# Функция для теста пропорции
def test_proportion(k, n, p, alpha=0.05):
    p_val = binomtest(k, n, p, alternative='less').pvalue
    print(f"Гипотеза: p >= {p}, против p < {p}")
    print(f"Количество успехов: {k} из {n}")
    print(f"P-значение: {p_val}\n")
    if p_val < alpha:
        print(f"Отклоняем H0 при уровне значимости {alpha}\n")
    else:
        print(f"Не отклоняем H0 при уровне значимости {alpha}\n")

# Тест при p = 0.7
test_proportion(k, n, 0.7)

# Тест при p = 0.8
test_proportion(k, n, 0.85)

Гипотеза: p >= 0.7, против p < 0.7
Количество успехов: 69 из 94
P-значение: 0.7961639942121719

Не отклоняем H0 при уровне значимости 0.05

Гипотеза: p >= 0.85, против p < 0.85
Количество успехов: 69 из 94
P-значение: 0.002539960080399347

Отклоняем H0 при уровне значимости 0.05

