In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as sts

## У нас есть датасет с качеством воздуха в Нью-Йорке с Мая по Сентябрь 1973 году
#### Ozone: Mean ozone in parts per billion from 1300 to 1500 hours at Roosevelt Island

#### Solar.R: Solar radiation in Langleys in the frequency band 4000–7700 Angstroms from 0800 to 1200 hours at Central Park

#### Wind: Average wind speed in miles per hour at 0700 and 1000 hours at LaGuardia Airport

#### Temp: Maximum daily temperature in degrees Fahrenheit at La Guardia Airport.

In [2]:
df = pd.read_csv('airquality.csv', index_col=0) # Вычитываем наши данные, 
# index_col - указывает какая колонка будет использоваться в качестве индекса
df.head() #Команда вызывает первые 5 строчек нашего датасета

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
1,41.0,190.0,7.4,67,5,1
2,36.0,118.0,8.0,72,5,2
3,12.0,149.0,12.6,74,5,3
4,18.0,313.0,11.5,62,5,4
5,,,14.3,56,5,5


In [3]:
df.rename(columns={'Solar.R':'Solar_R'}, inplace=True) #переименавываем колонку в более удобное название,
#inplace - если отмечен как True, то изменения придут в силу
df.describe() #Вызывает статистический результат о количестве данных, средних и т д

Unnamed: 0,Ozone,Solar_R,Wind,Temp,Month,Day
count,116.0,146.0,153.0,153.0,153.0,153.0
mean,42.12931,185.931507,9.957516,77.882353,6.993464,15.803922
std,32.987885,90.058422,3.523001,9.46527,1.416522,8.86452
min,1.0,7.0,1.7,56.0,5.0,1.0
25%,18.0,115.75,7.4,72.0,6.0,8.0
50%,31.5,205.0,9.7,79.0,7.0,16.0
75%,63.25,258.75,11.5,85.0,8.0,23.0
max,168.0,334.0,20.7,97.0,9.0,31.0


In [4]:
df.Month.value_counts() #Смотрим на количество уникальных месяцев, первый столбец это месяц, второй количество дней

8    31
7    31
5    31
9    30
6    30
Name: Month, dtype: int64

In [5]:
df.isna().sum() #Ищем количество null значени в каждом столбце,
#фукнция isna - отмечает каждый элемент как True(если элемент является null) или как False(если элемент не null)
#sum - суммирает все элементы по столбцам, то есть суммирует все True значения

Ozone      37
Solar_R     7
Wind        0
Temp        0
Month       0
Day         0
dtype: int64

In [6]:
#Заменяем все null элементы на их медиану
df.Solar_R = df.Solar_R.fillna(df.Solar_R.median(skipna=True))
df.describe()

Unnamed: 0,Ozone,Solar_R,Wind,Temp,Month,Day
count,116.0,153.0,153.0,153.0,153.0,153.0
mean,42.12931,186.803922,9.957516,77.882353,6.993464,15.803922
std,32.987885,88.051051,3.523001,9.46527,1.416522,8.86452
min,1.0,7.0,1.7,56.0,5.0,1.0
25%,18.0,120.0,7.4,72.0,6.0,8.0
50%,31.5,205.0,9.7,79.0,7.0,16.0
75%,63.25,256.0,11.5,85.0,8.0,23.0
max,168.0,334.0,20.7,97.0,9.0,31.0


In [7]:
X1 = df.Solar_R[df['Month'] == 5].values #Берем данные о количество солнечной радиации в Мае
X2 = df.Solar_R[df['Month']==9].values #Берем данные о количестве солнечной радиации в Сентябре
n1 = len(X1) #Количество элементов в X1
n2 = len(X2) #Количество элементов в X2
print('First Sample size %d,  Second Sample size %d' % (n1, n2))

First Sample size 31,  Second Sample size 30


### Мы хотим проверить есть ли различия solar radiation в Нью Йорке в мае 1973 году и в сентябре.
![image.png](attachment:image.png)

### Нужно посчитать значение t 
# t = $\frac{\bar{X_{1}} - \bar{X_{2}}}{\sqrt{\frac{S_{x1}^2}{n1} + \frac{S_{x2}^2}{n2}}}$
#### $\bar{X1}$ - Среднее значение первой выборки, $\bar{X2}$ - Среднее значение второй выборки
#### $S_{x1}$ - Стандартное отклонение первой выборки, $S_{x2}$ - стандартное отклонение второй выборки

In [8]:
X1_average, S1 = X1.mean(), X1.std(ddof=1) #подсчитываем среднее значение и стандартное отклонение с помощью функций
X2_average, S2 = X2.mean(), X2.std(ddof=1) # mean() и std()(ddof-количество степеней свободы, так как мы ищем стандартное
#отклонение выборки, ddof=1)
print('First sample average is %f, Sample Standart Deviation %f' % (X1_average, S1))
print('Second sample average is %f, Sample Standart Deviation %f' % (X2_average, S2))

First sample average is 184.354839, Sample Standart Deviation 107.433560
Second sample average is 167.433333, Sample Standart Deviation 79.118280


In [9]:
t = (X1_average - X2_average)/np.sqrt(S1**2/n1 + S2**2/n2) #Формула для посчитывание значения t
print(f't-value = {t}')

t-value = 0.7020354144425759


### Мы отклоним нулевую гипотезу если $t > t_{\frac{\alpha}{2}, n1+n2-2}$ или $t < -t_{\frac{\alpha}{2}, n1+n2-2}$ 
#### Мы проверим гипотезу при significance level ($\alpha$) = 0.05

In [10]:
ddof = n1+n2-2 # Количество степеней свободы (Так как мы считаем значения t при уровне alpha для 2-х выборок, ddof = 
# сумме количества элементов каждой выборке - количества выборок(в нашем случае их 2) )
alpha = 0.05 #Уровень доверия, мы будем проверять нашу гипотезу на уровне доверия 1-alpha (0.95)

In [13]:
t_test = sts.t.ppf(1-alpha/2, 59, 0, 1) #функция позволяющая найди значения t
print('t-value = %f  t-test = %f' %(t, t_test))
if t_test < t or t < -t_test:
    print('Мы отклоняем нулевую гипотезу, значит у нас есть статистически значимые изменения между solar radiation в мае и сентябре')
else:
    print('Мы не отклоняем нулевую гипотезу, а это значит, что у нас не хватает данных для отклонения нулевой гипотезы ')

t-value = 0.702035  t-test = 1.959964
Мы не отклоняем нулевую гипотезу, а это значит, что у нас не хватает данных для отклонения нулевой гипотезы 


### Оформление
#### Для этого ассаймента я взял датасет, где у нас есть количество радиации за май 1973 в Нью-Йорке и за сентябрь 1973 года. 

In [22]:
pd.DataFrame({'Solar Radiation in May': X1})

Unnamed: 0,Solar Radiation in May
0,190.0
1,118.0
2,149.0
3,313.0
4,205.0
5,205.0
6,299.0
7,99.0
8,19.0
9,194.0


In [25]:
pd.DataFrame({'Solar Radiation in September': X2})

Unnamed: 0,Solar Radiation in September
0,167.0
1,197.0
2,183.0
3,189.0
4,95.0
5,92.0
6,252.0
7,220.0
8,230.0
9,259.0


### Вопрос моего исследования заключается в том, есть ли статистические изменения в количестве солнечной радиации в воздухе между маем и сентябрем.
#### Выборка X1, X2 - Solar radiation in Langleys  в мае и сентябре
#### Statistical Item: One Day
#### Population: Solar Radiation in all time
#### Sample (How many days ?):  31 Days in May, 30 Days in September

### Для начала посчитаем empirical charasterics:
## $n = 31 #Days in May$
## $m = 30 #Days in September$
## $\bar{X1} = 184.36$
## $S_{1} = 107.43$
## $X1_{0.5} = 205$
## $\bar{X2} = 167.43$
## $S_{2} = 79.12$
## $X2_{0.5} = 192$

### Then we do the T-test, to find if the samples has mean or not by significance level and degree of freedoms:
### $\alpha=0.05$
### $ddof = n+m-2 = 59$

## 1) $H_{0}: \mu_{1}=\mu_{2}$
## $\:\:\:\;H_{0}: \mu_{1}!=\mu_{2}$
##  $t_{\frac{\alpha}{2}, n+m-2} = 2.001$
## If $t<-t_{\frac{\alpha}{2}, n+m-2}\:\:\:or\:\:t>t_{\frac{\alpha}{2}, n+m-2}$, then we reject $H_{0}$
### 2) We calculate t-value: 
## $t = \frac{\bar{X_{1}} - \bar{X_{2}}}{\sqrt{\frac{S_{x1}^2}{n1} + \frac{S_{x2}^2}{n2}}} = 0.702$
### 3) We find $t_{\frac{\alpha}{2}, ddof}$ or $t_{critical}$
## $t_{critical}=2.001$
### 4) We compare t-value by t-critical on significance level ($\alpha$) = 0.05
## $-2.001<0.702\:\:and\:\:0.702<2.001$
### 5) We compute p-value for p-test:
## $p=2*(1-Ф(t)) = $
## $If\:\: p\leq\alpha\:\:\:We\:reject\:H_{0}$
### 0.483 > 0.05, then we doesn`t reject H0 by significance level 0.05 