In [11]:
from utils.preformatting_data import *
import pandas as pd
from scipy.stats import pearsonr, spearmanr

data = preformat(pd.read_csv('../medics_1.csv', delimiter=',', encoding='utf-8'))

columns_to_research = [
    "возраст",
    "сад",
    "дад",
    "чсс",
    "рн",
    "фракция_изгнания",
    "холестерин",
    "креатинин_крови",
    "мочевина",
    "скф_расч",
    "калий",
    "имт",
    "толщина_паренхимы_почек",
    "количество_шунтов",
    "длительность_аик",
    "длительность_операции",
    "время_пережатия_аорты",
    "объем_кровопотерии",
    "объем_гемотрансфузии",
    "объем_инфузий",
    "диурез"
]

df_new = data[columns_to_research]  # отбираем столбцы для рассчётов

crosstab = df_new.corr()  # создаём таблицу корреляций

correlations = []

# отбираем ячейки с корреляцией более 0.2
for x in columns_to_research:
    for y in columns_to_research:
        cell = crosstab[x][y]

        if cell >= 0.5 and cell != 1:
            correlations.append([x, y, cell])

correlations = sorted(correlations, key=lambda x: x[2], reverse=True)

correlations = correlations[::2]


print(crosstab)

                          возраст       сад       дад       чсс        рн  \
возраст                  1.000000  0.020420 -0.091122 -0.124632  0.140034   
сад                      0.020420  1.000000  0.582127 -0.103752 -0.098058   
дад                     -0.091122  0.582127  1.000000  0.060398 -0.143108   
чсс                     -0.124632 -0.103752  0.060398  1.000000  0.000423   
рн                       0.140034 -0.098058 -0.143108  0.000423  1.000000   
фракция_изгнания         0.019036  0.087648  0.090065 -0.045378 -0.077689   
холестерин               0.014950  0.110062  0.269913  0.051210 -0.071264   
креатинин_крови          0.194855  0.175545  0.156227 -0.159604  0.047350   
мочевина                 0.187667  0.136517  0.136898 -0.079224  0.013056   
скф_расч                -0.566351 -0.179304 -0.134303  0.215381  0.014740   
калий                   -0.052293 -0.011764  0.103808  0.078366 -0.169095   
имт                     -0.108649  0.029024  0.046007  0.143646  0.055225   

In [12]:
print(["фактор1", "фактор2", "корреляция"])
print(*correlations, sep="\n")

['фактор1', 'фактор2', 'корреляция']
['длительность_аик', 'время_пережатия_аорты', 0.9003435304377455]
['количество_шунтов', 'время_пережатия_аорты', 0.6200713806266671]
['креатинин_крови', 'мочевина', 0.6123963707140346]
['количество_шунтов', 'длительность_операции', 0.5894649921982215]
['сад', 'дад', 0.5821269994760774]
['скф_расч', 'имт', 0.5142950927003834]
['количество_шунтов', 'длительность_аик', 0.5103597305171141]


In [15]:
# получаем p-value для факторов с наибольшей корреляцией
res = []

for fac1, fac2, corr in correlations:
    res.append([fac1, fac2, corr, pearsonr(data[fac1], data[fac2]).pvalue])

print(["фактор1", "фактор2", "корреляция", "p-value"])
print(*res, sep="\n")

['фактор1', 'фактор2', 'корреляция', 'p-value']
['длительность_аик', 'время_пережатия_аорты', 0.9003435304377455, 6.993373227871792e-58]
['количество_шунтов', 'время_пережатия_аорты', 0.6200713806266671, 4.7327351704677334e-18]
['креатинин_крови', 'мочевина', 0.6123963707140346, 1.5619558227364968e-17]
['количество_шунтов', 'длительность_операции', 0.5894649921982215, 4.593629804366926e-16]
['сад', 'дад', 0.5821269994760774, 1.2821930198709196e-15]
['скф_расч', 'имт', 0.5142950927003834, 5.593224509466298e-12]
['количество_шунтов', 'длительность_аик', 0.5103597305171141, 8.607445801968889e-12]
