In [223]:
from pandas import DataFrame
import pandas as pd
import numpy as np
from scipy import stats
import scipy as scp
import matplotlib.pyplot as plt
import seaborn as sns
from pylab import rcParams
#sns.set()
rcParams['figure.figsize'] = 10, 6
%config InlineBackend.figure_format = 'svg'

In [224]:
jirafs = { 'Pigments':  [260, 255, 270, 260, 265, 270, 260, 255, 265, 260]
         } 

jirafs_df = DataFrame(jirafs, columns= ['Pigments'])
n = len(jirafs_df['Pigments'])

In [225]:
mean = jirafs_df['Pigments'].mean()
print(f'mean: {mean}')

mean: 262.0


In [226]:
jirafs_df['Отклонение²'] = (jirafs_df['Pigments'] - mean)**2
jirafs_df

Unnamed: 0,Pigments,Отклонение²
0,260,4.0
1,255,49.0
2,270,64.0
3,260,4.0
4,265,9.0
5,270,64.0
6,260,4.0
7,255,49.0
8,265,9.0
9,260,4.0


In [227]:
dispersion = (1 / (n - 1)) * (jirafs_df['Отклонение²'].sum())
dispersion

28.888888888888886

In [228]:
s_otkl = dispersion**0.5
s_otkl  # Можно было вычислить так: jirafs_df['Pigments'].std()

5.374838498865699

## Стандартная ошибка среднего

In [229]:
pollution = { 'Pollution':  [46, 37, 51, 47, 42, 39, 43, 46, 45]  } 
pollution_df = DataFrame(pollution, columns = ['Pollution'])
pollution_df

Unnamed: 0,Pollution
0,46
1,37
2,51
3,47
4,42
5,39
6,43
7,46
8,45


In [230]:
pollution_mean = pollution_df['Pollution'].mean()
pollution_mean

44.0

In [231]:
s_otkl_pollution = 5
n = len(pollution_df['Pollution'])
n

9

In [232]:
s_error_pollution = s_otkl_pollution / (n**0.5)
s_error_pollution

1.6666666666666667

In [233]:
pollution_df['Otkl²'] = (pollution_df['Pollution'] - pollution_mean)**2 
pollution_df

Unnamed: 0,Pollution,Otkl²
0,46,4.0
1,37,49.0
2,51,49.0
3,47,9.0
4,42,4.0
5,39,25.0
6,43,1.0
7,46,4.0
8,45,1.0


In [234]:
s_otkl_pollution = (pollution_df['Otkl²'].sum() / (n-1))**0.5
s_otkl_pollution

4.272001872658765

In [235]:
x = 77          # предполагаемое значение
m = 67          # среднее значение ген. совокупности
sigma = 24
n = 64          # количество измерений

In [236]:

z = abs((x - m) / ( sigma / n**0.5 ))
print(f'z: {z}')

z: 3.3333333333333335


# p-Value и тестирование гипотезы

In [237]:
data = np.array([260, 255, 270, 260, 265, 270, 260, 255, 265, 260])
mean = data.mean()
print(f'mean: {mean}')

dispersion = np.var(data)
print(f'dispersion: {dispersion}')

s_otkl = np.std(data, ddof=1)
print(f's_otkl: {s_otkl}')

mean: 262.0
dispersion: 26.0
s_otkl: 5.374838498865699


In [238]:
x = 53   # среднее значение
m = 48   # предполагаемое значение
sx = 17  # стандартное отклонение
n = 100   # количество измерений
a = 0.05 # уровень значимости

ese = sx / (n**0.5)
ese = round(ese, 2)
print(f'ese: {ese}')
z = (x - m) / ese
z = abs(round(z, 2))
df = n-1 # степени свободы
print(f'z: {z}')
print(f'df: {df}')

N_rv = stats.norm(x, sx)
p_value = round(stats.t.sf(abs(z), df=df)*2, 3)
print(f'p_value: {p_value}')

if (p_value < a):
    print('Отвергаем гипотезу')
else:
    print('Принимаем гипотезу')

ese: 1.7
z: 2.94
df: 99
p_value: 0.004
Отвергаем гипотезу


In [239]:
jirafs = {'Pigments': [46, 37, 51, 47, 42, 39, 43, 46, 45] }
jirafs_df = DataFrame(jirafs, columns=['Pigments'])
n = len(jirafs_df['Pigments'])
mean = jirafs_df['Pigments'].mean()

In [240]:
s_otkl = jirafs_df['Pigments'].std()
print(s_otkl)

4.272001872658765


In [241]:
x = mean
m = 3
sx = s_otkl
a = 0.05

ese = sx / (n**0.5)
print(f'ese: {ese}')
t = (x - m) / ese
print(f't: {t}')

df = n-1 # степени свободы
print(f'df: {df}')

p_value = round(stats.t.sf(abs(t), df=df)*2, 3)
print(f'p_value: {p_value}')

if (p_value < a):
    print('Отвергаем гипотезу')
else:
    print('Принимаем гипотезу')

ese: 1.4240006242195884
t: 28.79212221024812
df: 8
p_value: 0.0
Отвергаем гипотезу


## Сравнение выборок

In [242]:
x1 = 21 # среднее по одной выборке
x2 = 19 # среднее по второй выборке

sx1 = 6 # отклонение по 1й выборке
sx2 = 4 # отклонение по 2й выборке
m1_m2 = 0 # гипотеза
n = 100 # количество измерений
a = 0.05

ese = ( (sx1**2/n) + (sx2**2/n) ) ** 0.5
ese = round(ese, 2)
print(f'ese: {ese}')

t = ((x1 - x2) - (m1_m2))/ ese
t = round(t, 2)

df = ((n-1)*(sx1**2 + sx2**2)**2)/(sx1**4 + sx2**4) # степени свободы
df = round(df)

p_value = round(stats.t.sf(abs(t), df=df)*2, 3)

print(f't: {t}')
print(f'df: {df}')
print(f'p_value: {p_value}')

if (p_value < a):
    print('Отвергаем гипотезу')
else:
    print('Принимаем гипотезу')

ese: 0.72
t: 2.78
df: 172
p_value: 0.006
Отвергаем гипотезу


## Тест для пропорций

In [285]:
p1 = 0.4   # доля успеха в одной группе
p2 = 0.34  # доля успеха во второй группе
n1 = 1053  # количество в первой группе
n2 = 995   # количество во второй группе

var1 = round(p1*(1 - p1), 2) # дисперсия первой выборки
var2 = round(p2*(1 - p2), 2) # дисперсия второй выборки

ese = ( (var1/n1) + (var2/n2) )**0.5
ese = round(ese, 2)
z = (p1 - p2)/ese
z = abs(round(z, 2))
print(f'z: {z}')

z: 3.0
