Данные для этой задачи взяты из исследования, проведенного в Stanford School of Medicine. В исследовании была предпринята попытка выявить набор генов, которые позволили бы более точно диагностировать возникновение рака груди на самых ранних стадиях.

В эксперименте принимали участие 24 человек, у которых не было рака груди (normal), 25 человек, у которых это заболевание было диагностировано на ранней стадии (early neoplasia), и 23 человека с сильно выраженными симптомами (cancer).

Ученые провели секвенирование биологического материала испытуемых, чтобы понять, какие из этих генов наиболее активны в клетках больных людей.

Секвенирование — это определение степени активности генов в анализируемом образце с помощью подсчёта количества соответствующей каждому гену РНК.

В данных для этого задания вы найдете именно эту количественную меру активности каждого из 15748 генов у каждого из 72 человек, принимавших участие в эксперименте.

Вам нужно будет определить те гены, активность которых у людей в разных стадиях заболевания отличается статистически значимо.

Кроме того, вам нужно будет оценить не только статистическую, но и практическую значимость этих результатов, которая часто используется в подобных исследованиях.

Диагноз человека содержится в столбце под названием "Diagnosis".

In [1]:
import pandas as pd
import numpy as np
import matplotlib
from matplotlib import pyplot as plt
matplotlib.style.use('ggplot')
%matplotlib inline
from tqdm import tqdm_notebook
import scipy

In [2]:
df = pd.read_csv('gene_high_throughput_sequencing.csv')

In [3]:
df.shape

(72, 15750)

In [4]:
df.head()

Unnamed: 0,Patient_id,Diagnosis,LOC643837,LOC100130417,SAMD11,NOC2L,KLHL17,PLEKHN1,C1orf170,HES4,...,CLIC2,RPS4Y1,ZFY,PRKY,USP9Y,DDX3Y,CD24,CYorf15B,KDM5D,EIF1AY
0,STT5425_Breast_001_normal,normal,1.257614,2.408148,13.368622,9.494779,20.880435,12.722017,9.494779,54.349694,...,4.76125,1.257614,1.257614,1.257614,1.257614,1.257614,23.268694,1.257614,1.257614,1.257614
1,STT5427_Breast_023_normal,normal,4.567931,16.602734,42.477752,25.562376,23.221137,11.622386,14.330573,72.445474,...,6.871902,1.815112,1.815112,1.815112,1.815112,1.815112,10.427023,1.815112,1.815112,1.815112
2,STT5430_Breast_002_normal,normal,2.077597,3.978294,12.863214,13.728915,14.543176,14.141907,6.23279,57.011005,...,7.096343,2.077597,2.077597,2.077597,2.077597,2.077597,22.344226,2.077597,2.077597,2.077597
3,STT5439_Breast_003_normal,normal,2.066576,8.520713,14.466035,7.823932,8.520713,2.066576,10.870009,53.292034,...,5.20077,2.066576,2.066576,2.066576,2.066576,2.066576,49.295538,2.066576,2.066576,2.066576
4,STT5441_Breast_004_normal,normal,2.613616,3.434965,12.682222,10.543189,26.688686,12.484822,1.364917,67.140393,...,11.22777,1.364917,1.364917,1.364917,1.364917,1.364917,23.627911,1.364917,1.364917,1.364917


In [5]:
df['Diagnosis'].unique()

array(['normal', 'early neoplasia', 'cancer'], dtype=object)

In [6]:
df_norm = df.loc[df['Diagnosis'] == 'normal']
df_earl = df.loc[df['Diagnosis'] == 'early neoplasia']
df_can = df.loc[df['Diagnosis'] == 'cancer']

In [7]:
df_can.head()

Unnamed: 0,Patient_id,Diagnosis,LOC643837,LOC100130417,SAMD11,NOC2L,KLHL17,PLEKHN1,C1orf170,HES4,...,CLIC2,RPS4Y1,ZFY,PRKY,USP9Y,DDX3Y,CD24,CYorf15B,KDM5D,EIF1AY
49,STT5437_Breast_003_DCIS,cancer,1.618129,4.854387,7.64698,11.631036,19.839961,19.484855,15.492407,78.090449,...,7.175936,1.618129,1.618129,1.618129,1.618129,1.618129,22.008936,1.618129,1.618129,1.618129
50,STT5450_Breast_006_DCIS,cancer,1.609022,10.632542,28.344988,18.462903,23.702379,13.494061,6.09166,58.775216,...,6.09166,1.609022,1.609022,1.609022,1.609022,1.609022,24.840164,1.609022,1.609022,1.609022
51,STT5462_Breast_007_DCIS,cancer,1.549953,3.900629,12.49612,10.242207,22.972095,16.860563,7.324792,76.410218,...,6.873594,1.549953,1.549953,1.549953,1.549953,1.549953,18.834745,1.549953,1.549953,1.549953
52,STT5463_Breast_007_IDC,cancer,1.606786,4.043656,8.849487,15.158388,26.287855,27.441093,8.033929,132.144503,...,1.606786,1.606786,1.606786,1.606786,1.606786,1.606786,21.215253,1.606786,1.606786,1.606786
53,STT5474_Breast_008_IDC,cancer,2.697819,8.225604,21.299676,14.114099,22.289155,14.341455,5.567752,59.058349,...,7.099892,0.899273,0.899273,0.899273,0.899273,0.899273,20.368088,0.899273,0.899273,0.899273


In [8]:
columns = df.columns[2:]

In [9]:
from scipy.stats import ttest_ind

In [10]:
p_val_n_e = [ttest_ind(df_norm[i],df_earl[i], equal_var = False)[1] for i in columns]

In [11]:
p_val_e_can = [ttest_ind(df_earl[i],df_can[i], equal_var = False)[1] for i in columns]

In [12]:
ans_1  = len([i for i in p_val_e_can if i <0.05]) + len([i for i in p_val_n_e if i <0.05])

In [13]:
len([i for i in p_val_e_can if i <0.05])

3490

In [14]:
len([i for i in p_val_n_e if i <0.05])

1575

In [15]:
def write_answer(task,ans):
    with open("bio_" + str(task)+".txt", "w") as fout:
        fout.write(str(ans))

In [16]:
write_answer(1, ans_1)

In [17]:
def Fct(c, t) : # absolute value
    if t > c :
        r = t/float(c)
    else :
        r =  c/float(t)
    #print 'Ftc=%.2f' % r
    return r

In [18]:
mean_n_e = [Fct(np.mean(df_norm[i]),(np.mean((df_earl[i])))) for i in columns]
#mean_n_e 

In [19]:
mean_e_can =  [Fct(np.mean(df_earl[i]),(np.mean((df_can[i])))) for i in columns]
#mean_e_can

In [20]:
from statsmodels.stats.multitest import multipletests

In [21]:
reject, p_corrected_n_e, a1, a2 = multipletests(p_val_n_e, 
                                            alpha = 0.025, 
                                            method = 'fdr_bh') 

In [22]:
qw = []
mean_n_e = np.array(mean_n_e)
for i in range(len(reject)):
    if reject[i] == True:
        if abs(mean_n_e[i]) >1.5:
            qw.append(1)

In [23]:
len(qw)

4

In [24]:
reject_1, p_corrected_e_can, a3, a4 = multipletests(p_val_e_can, 
                                            alpha = 0.025, 
                                            method = 'fdr_bh') 

In [25]:
qw_1 = []
mean_e_can = np.array(mean_e_can)
for i in range(len(reject_1)):
    if reject_1[i] == True:
        if abs(mean_e_can[i]) >1.5:
            qw_1.append(1)

In [26]:
len(qw_1)

524