In [None]:
import numpy as np
import matplotlib.pylab as plt
import scipy.stats as st
import seaborn as sns
import pandas as pd

In [None]:
# критерий стюдента для независимых выборок
from  statsmodels.stats.weightstats import ttest_ind

# пакет для работы с множественным тестированием
from statsmodels.stats.multitest import multipletests

In [None]:
text_size = 28
plt.rcParams['lines.linewidth'] = 3
plt.rcParams['lines.markersize'] = 6
plt.rcParams['xtick.labelsize'] = text_size
plt.rcParams['ytick.labelsize'] = text_size
plt.rcParams['legend.fontsize'] = text_size
plt.rcParams['axes.titlesize'] = text_size
plt.rcParams['axes.labelsize'] = text_size
plt.rcParams['figure.figsize'] = (16.0, 8.0)
plt.rcParams['font.size'] = text_size

# Лейкоциты и астма

С использованием ДНК-микрочипов были получены анализ изменения генной экспрессии для двух групп детей: больных астмой и здоровых.

Источник данных: http://www.ncbi.nlm.nih.gov/sites/GDSbrowser?acc=GDS4896

## Рассмотрим сами данные

In [None]:
data = pd.read_csv('./expression.csv', delimiter=';')

In [None]:
data.head()

In [None]:
list(data.columns)

## Эксперимент

### Достигаемые уровни значимости в t-Критерии Стьюдента

In [None]:
data_np = data.values
def get_healthy(i):
    '''
    Возвращает всех здоровых пациентов для i-го микрочипа
    '''
    return data_np[i, 2:20]

def get_asthma(i):
    '''
    Возвращает всех больных астмой пациентов для i-го микрочипа
    '''
    return data_np[i, 39:56]

def get_pvalue_t_test(i):
    '''
    Возвращает p-value для критерия Стьюдента для независимых выборок
    '''
    ### Ваш код тут ###
    

p_values = list(map(get_pvalue_t_test, range(data_np.shape[0])))
p_values = np.array(p_values)

### Модифицированые уровни значимости

In [None]:
p_holm = ### Ваш код тут ###


p_bh = ### Ваш код тут ###

Распределения исходных и модифицированных достигаемых уровней значимости:

In [None]:
plt.plot(sorted(p_values), label='no correction')

plt.plot(sorted(p_holm), label='holm')

plt.plot(sorted(p_bh), label='bh')

plt.xlabel('sorted i')
plt.ylabel('$\hat{p}(i)$')
plt.legend(loc='best')
plt.show()

Посчитаем количество генов, экспрессия которых статистически значимо отличается при поправке методами Холма и Бенджамини-Хохберга:

In [None]:
print('Количество генов для которых значимо отличается: {}\t(no correction)'.format((p_values <= 0.05).sum()))
print('Количество генов для которых значимо отличается: {}\t(holm)'.format((p_holm <= 0.05).sum()))
print('Количество генов для которых значимо отличается: {}\t(bh)'.format((p_bh <= 0.05).sum()))

На микрочипах есть много проб к малоизученным участкам генома, у которых даже нет названия; их можно сразу удалить из рассмотрения:

In [None]:
reduced_data = data[data['Gene title'].isnull() == False]
reduced_data.shape, data.shape

Рассмотрим как изменились уровни значимости

In [None]:
data_np = reduced_data.values

### Ваш код тут ###


In [None]:
p_holm = ### Ваш код тут ###

p_bh = ### Ваш код тут ###


In [None]:
plt.plot(sorted(p_values), label='no correction')

plt.plot(sorted(p_holm), label='holm')

plt.plot(sorted(p_bh), label='bh')

plt.xlabel('sorted i')
plt.ylabel('$\hat{p}(i)$')
plt.legend(loc='best')
plt.show()

In [None]:
print('Количество генов для которых значимо отличается: {}\t(no correction)'.format((p_values <= 0.05).sum()))
print('Количество генов для которых значимо отличается: {}\t(holm)'.format((p_holm <= 0.05).sum()))
print('Количество генов для которых значимо отличается: {}\t(bh)'.format((p_bh <= 0.05).sum()))