## Дифференциально экспрессированные гены
Определение генов, активность которых у людей в разных стадиях заболевания отличаются статистически и практически значимо.

#### Импорты

In [99]:
import pandas as pd
import numpy as np
import scipy
import itertools
from statsmodels.stats.weightstats import *
import statsmodels.stats.multitest as smm

%matplotlib inline

#### Чтение данных

In [3]:
data = pd.read_csv('../data/gene_high_throughput_sequencing.csv',delimiter=',')
data.head()

Unnamed: 0,Patient_id,Diagnosis,LOC643837,LOC100130417,SAMD11,NOC2L,KLHL17,PLEKHN1,C1orf170,HES4,...,CLIC2,RPS4Y1,ZFY,PRKY,USP9Y,DDX3Y,CD24,CYorf15B,KDM5D,EIF1AY
0,STT5425_Breast_001_normal,normal,1.257614,2.408148,13.368622,9.494779,20.880435,12.722017,9.494779,54.349694,...,4.76125,1.257614,1.257614,1.257614,1.257614,1.257614,23.268694,1.257614,1.257614,1.257614
1,STT5427_Breast_023_normal,normal,4.567931,16.602734,42.477752,25.562376,23.221137,11.622386,14.330573,72.445474,...,6.871902,1.815112,1.815112,1.815112,1.815112,1.815112,10.427023,1.815112,1.815112,1.815112
2,STT5430_Breast_002_normal,normal,2.077597,3.978294,12.863214,13.728915,14.543176,14.141907,6.23279,57.011005,...,7.096343,2.077597,2.077597,2.077597,2.077597,2.077597,22.344226,2.077597,2.077597,2.077597
3,STT5439_Breast_003_normal,normal,2.066576,8.520713,14.466035,7.823932,8.520713,2.066576,10.870009,53.292034,...,5.20077,2.066576,2.066576,2.066576,2.066576,2.066576,49.295538,2.066576,2.066576,2.066576
4,STT5441_Breast_004_normal,normal,2.613616,3.434965,12.682222,10.543189,26.688686,12.484822,1.364917,67.140393,...,11.22777,1.364917,1.364917,1.364917,1.364917,1.364917,23.627911,1.364917,1.364917,1.364917


In [12]:
data['Diagnosis'].value_counts()

early neoplasia    25
normal             24
cancer             23
Name: Diagnosis, dtype: int64

#### Проверка гипотезы о равенстве средних для каждого гена

Практическая значимость определяется кратностью изменения. Показывает во сколько раз отличается средние 2-х выборок.

In [116]:
def practic_p (c,t):
    if t > c:
        return t/c
    else:
        return -c/t

Вычисление статистически значимых отличий между генами 2-х подгрупп с использованием критерия Стьюдента.

In [80]:
def student_sub_ind (data, diag1, diag2):
    df = pd.DataFrame(columns=['column','diag1','diag2','t_stat','p_val'])
    for col in data.drop(['Patient_id','Diagnosis'],axis=1):
        sub1 = data[data['Diagnosis'] == diag1][col]
        sub2 = data[data['Diagnosis'] == diag2][col]
        stud = scipy.stats.ttest_ind(sub1, sub2, equal_var = False)
        df = df.append({'column':col,'diag1':diag1,'diag2':diag2
                       ,'t_stat':stud[0],'p_val':stud[1]},ignore_index=True)
    return df

Количество статистически значимых отличий между средними активностями генов подгруппы здоровых и подгруппы с ранним диагностированием. 

In [81]:
res_norm_early = student_sub_ind(data,'normal','early neoplasia')

In [141]:
len(res_norm_early[res_norm_early.p_val < 0.05].column.unique())

1575

Количество статистически значимых отличий между средними активностями генов подгруппы с сильно выраженными симптомами и подгруппы с ранним диагностированием. 

In [85]:
res_cancer_early = student_sub_ind(data,'early neoplasia','cancer')

In [142]:
len(res_cancer_early[res_cancer_early.p_val < 0.05].column.unique())

3490

#### Поправка Холма-Бонферрони
Проверка гипотез о равенстве средних распределений генов подгруппы здоровых и подгруппы с ранним диагностированием. 

In [117]:
reject, p_corrected, a1, a2 = smm.multipletests(res_norm_early.p_val, 
                                            alpha = 0.025, method = 'holm') 

res_norm_early['p_corrected'] = p_corrected
res_norm_early['reject'] = reject
res_norm_early.reject.value_counts()

False    15746
True         2
Name: reject, dtype: int64

С учётом практической значимости:

In [133]:
count_1=0
for col in res_norm_early[res_norm_early.reject==True]['column']:
    c = data[data['Diagnosis'] == 'normal'][col].mean()
    t = data[data['Diagnosis'] == 'early neoplasia'][col].mean()
    if np.abs(practic_p(c,t)) > 1.5:
        count_1 +=1
count_1

2

Проверка гипотез о равенстве средних распределений генов подгруппы с сильно выраженными симптомами и подгруппы с ранним диагностированием. 

In [118]:
reject, p_corrected, a1, a2 = smm.multipletests(res_cancer_early.p_val, 
                                            alpha = 0.025, method = 'holm') 

res_cancer_early['p_corrected'] = p_corrected
res_cancer_early['reject'] = reject
res_cancer_early.reject.value_counts()

False    15669
True        79
Name: reject, dtype: int64

С учетом практической значимости

In [135]:
count_2 = 0

for col in res_cancer_early[res_cancer_early.reject==True]['column']:
    c = data[data['Diagnosis'] == 'early neoplasia'][col].mean()
    t = data[data['Diagnosis'] == 'cancer'][col].mean()
    if np.abs(practic_p(c,t)) > 1.5:
        count_2 +=1
count_2

77

#### Поправка Бенджамини-Хохберта
Проверка гипотез о равенстве средних распределений генов подгруппы здоровых и подгруппы с ранним диагностированием. 

In [137]:
reject, p_corrected, a1, a2 = smm.multipletests(res_norm_early.p_val, 
                                            alpha = 0.025, method = 'fdr_bh') 

res_norm_early['p_corrected'] = p_corrected
res_norm_early['reject'] = reject
res_norm_early.reject.value_counts()

False    15744
True         4
Name: reject, dtype: int64

С учетом практической значимости

In [138]:
count_1=0
for col in res_norm_early[res_norm_early.reject==True]['column']:
    c = data[data['Diagnosis'] == 'normal'][col].mean()
    t = data[data['Diagnosis'] == 'early neoplasia'][col].mean()
    if np.abs(practic_p(c,t)) > 1.5:
        count_1 +=1
count_1

4

Проверка гипотез о равенстве средних распределений генов подгруппы с сильно выраженными симптомами и подгруппы с ранним диагностированием. 

In [139]:
reject, p_corrected, a1, a2 = smm.multipletests(res_cancer_early.p_val, 
                                            alpha = 0.025, method = 'fdr_bh') 

res_cancer_early['p_corrected'] = p_corrected
res_cancer_early['reject'] = reject
res_cancer_early.reject.value_counts()

False    14916
True       832
Name: reject, dtype: int64

С учетом практической значимости

In [140]:
count_2 = 0

for col in res_cancer_early[res_cancer_early.reject==True]['column']:
    c = data[data['Diagnosis'] == 'early neoplasia'][col].mean()
    t = data[data['Diagnosis'] == 'cancer'][col].mean()
    if np.abs(practic_p(c,t)) > 1.5:
        count_2 +=1
count_2

524