# Анализ соцветий

In [58]:
import pandas as pd
import scipy.stats as st

## Загрузка данных

In [47]:
data1 = pd.read_csv('./one.csv', header=None)
data2 = pd.read_csv('./two.csv', header=None)

In [48]:
def to_float(x):
    try:
        if isinstance(x, str):
            res = float(x.replace(',','.'))
        else:
            res = float(x)
    except:
        res = pd.np.nan
    return res

In [76]:
def test_hypothesis(x, y, alpha=0.05):
    '''Student t-test (modified version)'''
    if st.shapiro(x)[-1] < alpha or st.shapiro(y)[-1] < alpha:
        result = st.mannwhitneyu(x, y)
    else:
        if st.bartlett(x, y)[0] < alpha:
            result = st.mannwhitneyu(x, y)
        else:
            result = st.ttest_ind(x, y)
    if result[-1] > alpha:
        print("Средние значимо не отличаются! alpha = ", alpha)
    else:
        print("Отличие средних значимо при уровне alpha = ", alpha)
    return result

In [77]:
data1

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,632.0,,442.0,,1030.0,,1239.0,,687.0,,783.0,,426.0,,787.0,,795.0,,1395.0,
1,164.0,248.0,93.0,164.0,218.0,382.0,238.0,441.0,99.0,199.0,190.0,296.0,102.0,162.0,211.0,340.0,177.0,296.0,389.0,577.0
2,135.0,124.0,69.0,82.0,211.0,191.0,232.0,220.5,92.0,99.5,190.0,148.0,86.0,81.0,154.0,170.0,171.0,148.0,338.0,288.5
3,117.0,252.0,77.0,146.0,182.0,393.0,221.0,453.0,150.0,242.0,111.0,301.0,67.0,153.0,130.0,284.0,144.0,315.0,199.0,537.0
4,84.0,126.0,71.0,73.0,164.0,196.5,203.0,226.5,100.0,121.0,106.0,150.5,60.0,76.5,129.0,142.0,119.0,157.5,188.0,268.5
5,132.0,,132.0,,255.0,,345.0,,246.0,,186.0,,111.0,,163.0,,184.0,,281.0,


### Не все значения прочитались как числа, поэтому конвертируем все в числа, прежде чем продолжить анализ.

In [78]:
data1 = data1.applymap(to_float)
data2 = data2.applymap(to_float)

In [79]:
even_i = [2*j for j in range(0, 10)]
odd_i = [2*j+1 for j in range(0, 10)]

#### Гипотеза о том, что среднее значение 124 == 132 (data1)

In [80]:
test_hypothesis(data1.iloc[-1, even_i].values, data1.iloc[2,odd_i].values)

Средние значимо не отличаются! alpha =  0.05


Ttest_indResult(statistic=1.5243462414717335, pvalue=0.14479947698619186)

#### Гипотеза о том, что среднее значение 126 == 132 (data1)

In [81]:
test_hypothesis(data1.iloc[-1, even_i].values, data1.iloc[4,odd_i].values)

Средние значимо не отличаются! alpha =  0.05


Ttest_indResult(statistic=1.6042871498373863, pvalue=0.1260524232334817)

In [82]:
for j in range(1, 5):
    print("Сравнение для j-й строки. j = ", j)
    res = test_hypothesis(data1.iloc[-1, even_i].values, data1.iloc[j,even_i].values)
    print(res)
    print("-"*20)

Сравнение для j-й строки. j =  1
Средние значимо не отличаются! alpha =  0.05
Ttest_indResult(statistic=0.4200565899475645, pvalue=0.6794156433203022)
--------------------
Сравнение для j-й строки. j =  2
Средние значимо не отличаются! alpha =  0.05
MannwhitneyuResult(statistic=37.0, pvalue=0.1722613895490645)
--------------------
Сравнение для j-й строки. j =  3
Отличие средних значимо при уровне alpha =  0.05
Ttest_indResult(statistic=2.2172402512617535, pvalue=0.0397183557716408)
--------------------
Сравнение для j-й строки. j =  4
Отличие средних значимо при уровне alpha =  0.05
Ttest_indResult(statistic=2.8483740314305934, pvalue=0.010669002128096208)
--------------------


# Второй набор данных

In [83]:
test_hypothesis(data2.iloc[-1, even_i].values, data2.iloc[2,odd_i].values)

Средние значимо не отличаются! alpha =  0.05


Ttest_indResult(statistic=0.3576875485748325, pvalue=0.7247369822310405)

In [90]:
test_hypothesis(data2.iloc[-1, even_i].values, data2.iloc[4,odd_i].values)

Средние значимо не отличаются! alpha =  0.05


Ttest_indResult(statistic=0.5433729843419707, pvalue=0.5935392635832748)

In [85]:
for j in range(1, 5):
    print("Сравнение для j-й строки. j = ", j)
    res = test_hypothesis(data2.iloc[-1, even_i].values, data2.iloc[j,even_i].values)
    print(res)
    print("-"*20)

Сравнение для j-й строки. j =  1
Средние значимо не отличаются! alpha =  0.05
Ttest_indResult(statistic=-1.9925682040933617, pvalue=0.061696180777061356)
--------------------
Сравнение для j-й строки. j =  2
Средние значимо не отличаются! alpha =  0.05
MannwhitneyuResult(statistic=50.0, pvalue=0.4849249884965778)
--------------------
Сравнение для j-й строки. j =  3
Средние значимо не отличаются! alpha =  0.05
MannwhitneyuResult(statistic=33.5, pvalue=0.11315071588499165)
--------------------
Сравнение для j-й строки. j =  4
Отличие средних значимо при уровне alpha =  0.05
MannwhitneyuResult(statistic=15.0, pvalue=0.004554248199015482)
--------------------


# объединенный массив данных (т.е. data1 + data2)

In [109]:
test_hypothesis(data1.iloc[-1, even_i].append(data2.iloc[-1, even_i]).values, data1.iloc[2, odd_i].append(data2.iloc[2, odd_i]).values)

Средние значимо не отличаются! alpha =  0.05


MannwhitneyuResult(statistic=159.0, pvalue=0.13660880755305216)

In [110]:
test_hypothesis(data1.iloc[-1, even_i].append(data2.iloc[-1, even_i]).values, data1.iloc[4, odd_i].append(data2.iloc[4, odd_i]).values)

Средние значимо не отличаются! alpha =  0.05


MannwhitneyuResult(statistic=153.0, pvalue=0.10419476232940067)

In [111]:
for j in range(1, 5):
    print("Сравнение для j-й строки. j = ", j)
    res = test_hypothesis(data1.iloc[-1, even_i].append(data2.iloc[-1, even_i]).values, data1.iloc[j, even_i].append(data2.iloc[j, even_i]).values)
    print(res)
    print("-"*20)

Сравнение для j-й строки. j =  1
Средние значимо не отличаются! alpha =  0.05
MannwhitneyuResult(statistic=172.5, pvalue=0.23255599509936775)
--------------------
Сравнение для j-й строки. j =  2
Средние значимо не отличаются! alpha =  0.05
MannwhitneyuResult(statistic=173.0, pvalue=0.23671956289590473)
--------------------
Сравнение для j-й строки. j =  3
Отличие средних значимо при уровне alpha =  0.05
MannwhitneyuResult(statistic=116.5, pvalue=0.012351993533043745)
--------------------
Сравнение для j-й строки. j =  4
Отличие средних значимо при уровне alpha =  0.05
MannwhitneyuResult(statistic=74.0, pvalue=0.0003422142538031072)
--------------------
