#### Статистический анализ

<p>В данном файле проводятся статистические тесты для одного/двух сгенерированных рядов. Количество, размер рядов и диапазоны псведослучайно сгенерированных значений задаются в аргументах функции generateRows. 
</p>
<p>
Список аргументов:
<ul>
<li>amt - количество рядов, если значение любым образом отлично от единицы, генерируется два ряда;</li>
<li>count1 - количество элементов в первом ряду, по умолчанию 1000;</li>
<li>count2 - количество элементов во втором ряду, по умолчанию 1000;</li>
<li>minmax - границы значений рядов: первые два элемента для первого ряда, вторые - для второго; значения по умолчанию для обоих рядов от 1 до 100000 невключительно.</li>
</ul>
</p>

In [8]:
import numpy as np
from scipy.stats import ttest_1samp, ttest_ind, f
from scipy.stats import norm

In [729]:
def generateRows(amt, count1=1000, count2=1000, minmax=[1, 100000, 1, 100000]):
    row1 = np.random.randint(minmax[0], minmax[1], count1)
    row2 = np.random.randint(minmax[2], minmax[3], count2)
    
    print('Сгенерирован ряд1 из', count1, 'элементов, со значениями от', minmax[0], 'до', minmax[1])
    if amt != 1:
          print('Сгенерирован ряд2 из', count2, 'элементов, со значениями от', minmax[2], 'до', minmax[3])
    return row1, row2

In [730]:
amt = 2
if amt == 1:
    row1 = generateRows(amt, count1 = 10, count2 = 10, minmax = [0, 100000, 0, 100000])[0]
else:
    row1, row2 = generateRows(amt, count1 = 10, count2 = 10, minmax = [0, 100000, 0, 100000])

Сгенерирован ряд1 из 10 элементов, со значениями от 0 до 100000
Сгенерирован ряд2 из 10 элементов, со значениями от 0 до 100000


In [731]:
def getRowInfo(row):
    print('--------------------------+----------------------------------------------------')
    print('                                    РЯД                                        ')
    print('--------------------------+----------------------------------------------------')
    print('Среднее:                  |      ', round(np.mean(row), 3))
    print('Дисперсия:                |      ', round(np.var(row), 3))
    print('Стандартное отклонение:   |      ', round(np.std(row), 3)), 
    print('--------------------------+----------------------------------------------------')
    print('Медиана:                  |      ', round(np.quantile(row, [0.5])[0], 3))
    print('Квартили 0.25 и 0.75:     |      ', 
          round(np.quantile(row, [0.25])[0], 3), ',', round(np.quantile(row1, [0.75])[0], 3))
    print('Межквартильный размах:    |      ', round(np.quantile(row, [0.75])[0], 3) - round(np.quantile(row1, [0.25])[0], 3))
    print('--------------------------+----------------------------------------------------')
    for x in np.arange(0.1, 1.0, 0.1):
        print((x*10).astype(int), ' дециль:                |      ', round(np.quantile(row, [x])[0], 3))
    print('--------------------------+----------------------------------------------------')

In [732]:
getRowInfo(row1)
if amt != 1:
    getRowInfo(row2)

--------------------------+----------------------------------------------------
                                    РЯД                                        
--------------------------+----------------------------------------------------
Среднее:                  |       55719.5
Дисперсия:                |       972293693.25
Стандартное отклонение:   |       31181.624
--------------------------+----------------------------------------------------
Медиана:                  |       50673.5
Квартили 0.25 и 0.75:     |       37621.25 , 83279.0
Межквартильный размах:    |       45657.75
--------------------------+----------------------------------------------------
1  дециль:                |       17281.0
2  дециль:                |       33774.4
3  дециль:                |       37778.3
4  дециль:                |       39863.0
5  дециль:                |       50673.5
6  дециль:                |       67270.4
7  дециль:                |       80069.6
8  дециль:                |       8

In [733]:
def makeTTest(row, m=0, alpha = 0.05):
    ttest1, pval1 = ttest_1samp(row, m) 
    print('-------------------------------------------------------------------------------')
    print('                            ОДНОВЫБОРОЧНЫЙ t-ТЕСТ                              ')
    print('-------------------------------------------------------------------------------')
    print('Выдвинем две протиповоложные гипотезы: Н0 и Н1. Н0: матожидание ряда равно', m, 
          ';\n Н1: матожидание ряда не равно', m, '. При установленном уровне значимости', alpha, 
          '\nгипотеза Н0 принимается, если значение критерия для ряда лежит в промежутке от \n', 
          round(norm.ppf(alpha/2), 2), 'до', round(norm.ppf(1-alpha/2), 2), 
          '. Полученное значение критерия равно', round(ttest1, 2), '.')
    if abs(ttest1) < abs(norm.ppf(alpha/2)) :
        print ('Так как условие выполняется, гипотеза Н0 подтверждается, гипотеза Н1 отвергается. ')
    else:
        print ('Так как условие не выполняется, гипотеза Н0 отвергается, гипотеза Н1 подтверждается.')
    if pval1 >= alpha:
        print('P_value принимает значение', round(pval1, 3), '. Так как оно больше', alpha, 
              'основная гипотеза\n считается надежной.')
    else: 
        print('P_value принимает значение', round(pval1, 3), '. Так как оно меньше', alpha, 
              'основная гипотеза\n не считается надежной.')
            
    

In [734]:
m = 50000
makeTTest(row1, m)
if amt != 1:
    makeTTest(row2, m)

-------------------------------------------------------------------------------
                            ОДНОВЫБОРОЧНЫЙ t-ТЕСТ                              
-------------------------------------------------------------------------------
Выдвинем две протиповоложные гипотезы: Н0 и Н1. Н0: матожидание ряда равно 50000 ;
 Н1: матожидание ряда не равно 50000 . При установленном уровне значимости 0.05 
гипотеза Н0 принимается, если значение критерия для ряда лежит в промежутке от 
 -1.96 до 1.96 . Полученное значение критерия равно 0.55 .
Так как условие выполняется, гипотеза Н0 подтверждается, гипотеза Н1 отвергается. 
P_value принимает значение 0.596 . Так как оно больше 0.05 основная гипотеза
 считается надежной.
-------------------------------------------------------------------------------
                            ОДНОВЫБОРОЧНЫЙ t-ТЕСТ                              
-------------------------------------------------------------------------------
Выдвинем две протиповоложные гипотез

In [735]:
def makeZTestEqualMean(row1, row2, diff_means = 0, alpha = 0.05):
    mean1 = np.mean(row1)
    mean2 = np.mean(row2)

    criterion = ((mean1 - mean2) - diff_means)/(np.sqrt(np.var(row1))/len(row1) + np.sqrt(np.var(row2))/len(row2))
    pval = 2*(1-norm.cdf(abs(criterion)))

    print('-------------------------------------------------------------------------------')
    print('                            ДВУХВЫБОРОЧНЫЙ z-ТЕСТ                              ')
    print('-------------------------------------------------------------------------------')
    print('Выдвинем две протиповоложные гипотезы: Н0 и Н1. Н0: разность средних рядов равна', diff_means, 
          ';\n Н1: разность средних рядов не равна', diff_means, '. При установленном уровне значимости', alpha, 
          '\nгипотеза Н0 принимается, если значение критерия для ряда лежит в промежутке от \n', 
          round(norm.ppf(alpha/2), 2), 'до', round(norm.ppf(1-alpha/2), 2), 
          '. Полученное значение критерия равно', round(criterion, 2), '.')
    if abs(criterion) < abs(norm.ppf(alpha/2)) :
        print ('Так как условие выполняется, гипотеза Н0 подтверждается, гипотеза Н1 отвергается. ')
    else:
        print ('Так как условие не выполняется, гипотеза Н0 отвергается, гипотеза Н1 подтверждается.')
    if pval >= alpha:
        print('P_value принимает значение', round(pval, 3), '. Так как оно больше', alpha, 
              'основная гипотеза\n считается надежной.')
    else: 
        print('P_value принимает значение', round(pval, 3), '. Так как оно меньше', alpha, 
              'основная гипотеза\n не считается надежной.')

In [736]:
makeZTestEqualMean(row1, row2)

-------------------------------------------------------------------------------
                            ДВУХВЫБОРОЧНЫЙ z-ТЕСТ                              
-------------------------------------------------------------------------------
Выдвинем две протиповоложные гипотезы: Н0 и Н1. Н0: разность средних рядов равна 0 ;
 Н1: разность средних рядов не равна 0 . При установленном уровне значимости 0.05 
гипотеза Н0 принимается, если значение критерия для ряда лежит в промежутке от 
 -1.96 до 1.96 . Полученное значение критерия равно -0.94 .
Так как условие выполняется, гипотеза Н0 подтверждается, гипотеза Н1 отвергается. 
P_value принимает значение 0.349 . Так как оно больше 0.05 основная гипотеза
 считается надежной.


In [5]:
def makeTTestEqualMean(row1, row2, alpha = 0.05):
    criterion, pval = ttest_ind(row1, row2)
    print('-------------------------------------------------------------------------------')
    print('                            ДВУХВЫБОРОЧНЫЙ t-ТЕСТ                              ')
    print('-------------------------------------------------------------------------------')
    print('Выдвинем две протиповоложные гипотезы: Н0 и Н1. Н0: средние рядов равны;\n Н1: средние рядов не равны', 
          '. При установленном уровне значимости', alpha, '\nгипотеза Н0 принимается, если значение критерия для ряда лежит в промежутке от \n', 
          round(norm.ppf(alpha/2), 2), 'до', round(norm.ppf(1-alpha/2), 2), 
          '. Полученное значение критерия равно', round(criterion, 2), '.')
    if abs(criterion) < abs(norm.ppf(alpha/2)) :
        print ('Так как условие выполняется, гипотеза Н0 подтверждается, гипотеза Н1 отвергается. ')
    else:
        print ('Так как условие не выполняется, гипотеза Н0 отвергается, гипотеза Н1 подтверждается.')
    if pval >= alpha:
        print('P_value принимает значение', round(pval, 3), '. Так как оно больше', alpha, 
              'основная гипотеза\n считается надежной.')
    else: 
        print('P_value принимает значение', round(pval, 3), '. Так как оно меньше', alpha, 
              'основная гипотеза\n не считается надежной.')

In [738]:
makeTTestEqualMean(row1, row2, alpha = 0.01)

-------------------------------------------------------------------------------
                            ДВУХВЫБОРОЧНЫЙ t-ТЕСТ                              
-------------------------------------------------------------------------------
Выдвинем две протиповоложные гипотезы: Н0 и Н1. Н0: средние рядов равны;
 Н1: средние рядов не равны . При установленном уровне значимости 0.01 
гипотеза Н0 принимается, если значение критерия для ряда лежит в промежутке от 
 -2.58 до 2.58 . Полученное значение критерия равно -0.39 .
Так как условие выполняется, гипотеза Н0 подтверждается, гипотеза Н1 отвергается. 
P_value принимает значение 0.703 . Так как оно больше 0.01 основная гипотеза
 считается надежной.


In [739]:
def fischer(var1, var2, fcrit, ff, alpha=0.05):
    pval = f.cdf(var1/var2, dfn=len(row1)-1, dfd=len(row2)-1)
    if var1 >= var2 :
        criterion = var1 / var2
    else:
        criterion = var2 / var1

    print('-------------------------------------------------------------------------------')
    print('                            ДВУХВЫБОРОЧНЫЙ F-ТЕСТ                              ')
    print('-------------------------------------------------------------------------------')
    print('Выдвинем две протиповоложные гипотезы: Н0 и Н1. Н0: дисперсии рядов равны;\n',
          'Н1: дисперсии рядов не равны. В данном случае дисперсии рядов равны', round(var1, 3), '\nи', round(var2, 3)) 
    if var1 >= var2:
        print('Первая дисперсия больше второй. Значения F и F критического равны', round(ff, 3), 'и', round(fcrit, 3), '\nсоответственно.')
        if ff >= fcrit:
            print('Так как значение F больше значения F критического одностороннего, то гипотеза Н0 \nотвергается, а Н1 принимается.')
        else: 
            print('Так как значение F меньше значения F критического одностороннего, то гипотеза Н0 \nпринимается, а Н1 отвергается.')
    else :
        print('Первая дисперсия меньше второй.')
        if ff >= fcrit:
            print('Так как значение F больше значения F критического одностороннего, то гипотеза Н0 \nпринимается, а Н1 отвергается.')
        else:
            print('Так как значение F меньше значения F критического одностороннего, то гипотеза Н0 \nотвергается, а Н1 принимается.')
    if pval >= alpha:
        print('P_value равно', pval, ', число больше уровня значимости, равного', alpha, ', \nчто говорит о надежности основной гипотезы.')
    else:
        print('P_value равно', pval, ', число меньше уровня значимости, равного', alpha, ', \nчто говорит о ненадежности основной гипотезы.')
        

In [740]:
alpha = 0.05
var1 = np.var(row1)
var2 = np.var(row2)
fcrit = f.ppf(q=1-alpha, dfn=len(row1)-1, dfd=len(row2))
ff = np.var(row1) / np.var(row2)

fischer(var1, var2, fcrit, ff)

-------------------------------------------------------------------------------
                            ДВУХВЫБОРОЧНЫЙ F-ТЕСТ                              
-------------------------------------------------------------------------------
Выдвинем две протиповоложные гипотезы: Н0 и Н1. Н0: дисперсии рядов равны;
 Н1: дисперсии рядов не равны. В данном случае дисперсии рядов равны 972293693.25 
и 381956493.81
Первая дисперсия больше второй. Значения F и F критического равны 2.546 и 3.02 
соответственно.
Так как значение F меньше значения F критического одностороннего, то гипотеза Н0 
принимается, а Н1 отвергается.
P_value равно 0.9099176842942682 , число больше уровня значимости, равного 0.05 , 
что говорит о надежности основной гипотезы.


In [None]:
import pandas as pd
df = pd.read_csv('/Users/taisiya/Downloads/msk_spb_flags.csv')
df.head()

In [3]:
msk_vect = df['msk_flag']
spb_vect = df['spb_flag']

In [9]:
makeTTestEqualMean(msk_vect, spb_vect, alpha = 0.05)

-------------------------------------------------------------------------------
                            ДВУХВЫБОРОЧНЫЙ t-ТЕСТ                              
-------------------------------------------------------------------------------
Выдвинем две протиповоложные гипотезы: Н0 и Н1. Н0: средние рядов равны;
 Н1: средние рядов не равны . При установленном уровне значимости 0.05 
гипотеза Н0 принимается, если значение критерия для ряда лежит в промежутке от 
 -1.96 до 1.96 . Полученное значение критерия равно -16.96 .
Так как условие не выполняется, гипотеза Н0 отвергается, гипотеза Н1 подтверждается.
P_value принимает значение 0.0 . Так как оно меньше 0.05 основная гипотеза
 не считается надежной.


In [10]:
ttest, pval = ttest_ind(msk_vect, spb_vect)

In [12]:
pval*100

2.1527471338989254e-62