# Mort Subite

## I. Mise en forme de la base de données et chargement des packages

In [None]:
!pip install tslearn
!pip install h5py
!pip install kneed

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from tslearn.metrics import dtw
from tslearn.clustering import TimeSeriesKMeans

Nous allons étudier la mort subite.


D'abord, importons nos packages et ouvrons les bases de données

In [None]:
Table_Pop = pd.read_csv('MSTP.csv', sep = ';') #Je réimporte à chaque fois en local la base de données. Je ne stocke pas sur Git car données sensibles 
bd0 = pd.read_csv('MS_BD0.csv', sep = ';', parse_dates=[1])
bd1 = pd.read_csv('MS_BD1.csv', sep = ';', parse_dates=[1])
bd2 = pd.read_csv('MS_BD2.csv', sep = ';', parse_dates=[1])

Je vais concaténer les traitements. 

In [None]:
bdtot = pd.concat([bd0, bd1, bd2])

On va établir une liste des enquêtés pour pouvoir compter leurs soins à l'avenir

In [None]:
list_enq = [] #On crée une liste vide
for elem in Table_Pop['NUM_ENQ']:
    list_enq.append(str(elem))#On ajoute chaque numéro d'enquêté, présent une seule fois sur la table de population

Maintenant, on va chercher à compter combien d'actes de soins ont été reçus par enquêtés. Pour ce faire, nous allons compter les occurences de chaque éléments de la liste dans la base de données totale. On va les implémenter dans la Table Pop ensuite. 

In [None]:
#Création d'un début de dataframe pour remplir boucle
ar = np.array([0, 0]) #Première ligne arbitraire
Nb_Soins = pd.DataFrame(ar) #Conversion de la matrice en DataFrame
Nb_Soins = Nb_Soins.transpose()
Nb_Soins.columns = ['NUM_ENQ', 'NB_SOIN'] #On nomme les colonnes'''
 
#On va maintenant chercher à associer à chaque enquêté le nombre de soin reçu.
#Calcul des soins par personnes et création d'une dataframe qui associe au numéro le nombre de soin
for elem in list_enq:
    c = 0 #Ce sera notre compteur d'itération
    for val in bdtot['NUM_ENQ']:
        if elem==val:
            c = c+1
    ar_temp = np.array([elem, c])
    df_temp = pd.DataFrame(ar_temp)
    df_temp = df_temp.transpose()
    df_temp.columns = ['NUM_ENQ', 'NB_SOIN']
    Nb_Soins = pd.concat([Nb_Soins, df_temp])

Nb_Soins

In [None]:
#on retire la ligne 0 
Nb_Soins_c = Nb_Soins.copy()
Nb_Soins_c = Nb_Soins_c[Nb_Soins_c['NUM_ENQ']!=0] 

In [None]:
Table_Pop

In [None]:
#L'opération ci-dessus étant très longue, on va exporter Nb_Soin pour pas avoir à refaire cette étape. On mettra sur drive la base de données
#Nb_Soins_c.to_excel('Nb_Soins.xlsx')

Nb_Soins_c.to_csv('Nb_Soins.csv')

#Ouvrir la nouvelle dataframe après ré-importation locale 
#Nb_Soins = pd.read_excel('Nb_Soins.xlsx')

In [None]:
#On va joindre la base des soins avec la Table_Pop
Table_Pop = Table_Pop.merge(Nb_Soins_c, on='NUM_ENQ')


In [None]:
Table_Pop['NB_SOIN'] =  Table_Pop['NB_SOIN'].astype(float)

## II. Statistiques descriptives

Ainsi, on peut commencer à effectuer quelques statistiques descriptives

In [None]:
Table_Pop.describe()

On peut essayer de comparer avec des variables socio-démographiques. Par exemple, on pourrait penser que les hommes se rendent moins chez le médecin, et donc subissent moins d'actes médicaux, ou sont éventuellement sur-représentés faute de traitement de signe avant coureur. (Pb : Je sais pas si 1 correspond à homme ou femme donc je ne pourrai pas livrer une interprétation de suite)

Autres idées que j'ai pas codé :
- Régression linéraire entre nbr soin et décès
- Lien entre présence de témoins/décès/fait d'être transporté vivant

In [None]:
Table_Pop_red = Table_Pop.drop(['ANTERIORITE_DISPONIBLE', 'AME', 'TYPE_LIEU', 'TEMOIN', 'RCP_TEMOIN', 'ADMIS_VIVANT_HOPITAL', 'RYTHME_CHOQUABLE', 'CORO', 'ANN_EVT', 'TYPE_ASSURANCE'], axis=1)

In [None]:
sns.pairplot(Table_Pop_red)
plt.show()

### A. Sexe

In [None]:
df_0 = Table_Pop[Table_Pop['SEXE']==0.0]
df_1 = Table_Pop[Table_Pop['SEXE']==1.0]

df_0.describe()
df_1.describe()

In [None]:
sns.violinplot(x=Table_Pop["SEXE"], y=Table_Pop["NB_SOIN"])

### B. Âge

In [None]:
Table_Pop["AGE"].max()

In [None]:
Table_Pop["AGE"].min()

In [None]:
import seaborn as sns
sns.distplot(a=Table_Pop["AGE"], hist=True, kde=True, rug=False)


In [None]:
Table_Pop['AGE_CAT'] = pd.cut(Table_Pop['AGE'], bins =  [18, 30, 40, 50, 55])


In [None]:
## Ridgeline : marche pas
# Initialize the FacetGrid object
pal = sns.cubehelix_palette(10, rot=-.25, light=.7)
Table_Pop['mean_AGE'] = Table_Pop['AGE'].map(Table_Pop.groupby('AGE')['NB_SOIN'].mean())
g = sns.FacetGrid(Table_Pop, row="AGE", hue="mean_AGE", aspect=15, height=.5, palette=pal)

# we generate a color palette with Seaborn.color_palette()
pal = sns.color_palette(palette='coolwarm', n_colors=12)

# in the sns.FacetGrid class, the 'hue' argument is the one that is the one that will be represented by colors with 'palette'
g = sns.FacetGrid(Table_Pop, row='AGE', hue='mean_AGE', aspect=15, height=0.75, palette=pal)

# then we add the densities kdeplots for each month
g.map(sns.kdeplot, 'mean_AGE',
      bw_adjust=1, clip_on=False,
      fill=True, alpha=1, linewidth=1.5)

# here we add a white line that represents the contour of each kdeplot
g.map(sns.kdeplot, 'Mean_AGE', 
      bw_adjust=1, clip_on=False, 
      color="w", lw=2)

# here we add a horizontal line for each plot
g.map(plt.axhline, y=0,
      lw=2, clip_on=False)
    
# we use matplotlib.Figure.subplots_adjust() function to get the subplots to overlap
g.fig.subplots_adjust(hspace=-0.3)

# eventually we remove axes titles, yticks and spines
g.set_titles("")
g.set(yticks=[])
g.despine(bottom=True, left=True)

plt.setp(ax.get_xticklabels(), fontsize=15, fontweight='bold')
plt.xlabel('Temperature in degree Celsius', fontweight='bold', fontsize=15)
g.fig.suptitle('Daily average temperature in Seattle per month',
               ha='right',
               fontsize=20,
               fontweight=20)

plt.show()



### C. CMU

In [None]:
sns.violinplot(x=Table_Pop["CMU"], y=Table_Pop["NB_SOIN"])

### Description temporelle


Cependant, nous perdons l'aspect temporel avec cette manière de décrire, il faudrait indexer par les jours la fréquence de soins pour avoir une idée de leur comportement dans le temps

On va donc essayer de déterminer le nombre de soins à l'approche de la date, en faisant des variables catégorielles pour ensuite représenter un histogramme. On se servira de bdtot. Idées sur : https://ichi.pro/fr/statistiques-de-base-pour-l-analyse-des-series-temporelles-en-python-84324298089781

In [None]:
bdtot['DIFF_DAY'] = bdtot['DIFF_DAY'].astype(np.float64)

In [None]:
bdtot.hist()
import plotly.express as px
fig = px.bar(bdtot, barmode = 'stack')
#Ici ce serait pas mal de faire un graphique empilé avec des couleurs selon le type de conso de soins (hospitalière avec un code commençant par PMSI, pharmaceutique avec un code commençant par PHA)

In [None]:
q1 = bdtot['DIFF_DAY'].quantile(0.1)
q2 = bdtot['DIFF_DAY'].quantile(0.2)
q3 = bdtot['DIFF_DAY'].quantile(0.3)
q4 = bdtot['DIFF_DAY'].quantile(0.4)
q5 = bdtot['DIFF_DAY'].quantile(0.5)
q6 = bdtot['DIFF_DAY'].quantile(0.6)
q7 = bdtot['DIFF_DAY'].quantile(0.7)
q8 = bdtot['DIFF_DAY'].quantile(0.8)
q9 = bdtot['DIFF_DAY'].quantile(0.9)

df1 = bdtot[bdtot['DIFF_DAY']<q1] #Premier décile
df2 = bdtot[bdtot['DIFF_DAY']>=q1] 
df2 = df2[df2['DIFF_DAY']<q2] #Deuxième décile
df3 = bdtot[bdtot['DIFF_DAY']>=q2] 
df3 = df3[df3['DIFF_DAY']<q3]
df4 = bdtot[bdtot['DIFF_DAY']>=q3] 
df4 = df4[df4['DIFF_DAY']<q4]
df5 = bdtot[bdtot['DIFF_DAY']>=q4] 
df5 = df5[df5['DIFF_DAY']<q5]
df6 = bdtot[bdtot['DIFF_DAY']>=q5] 
df6 = df6[df6['DIFF_DAY']<q6]
df7 = bdtot[bdtot['DIFF_DAY']>=q6] 
df7 = df7[df7['DIFF_DAY']<q7]
df8 = bdtot[bdtot['DIFF_DAY']>=q7] 
df8 = df8[df8['DIFF_DAY']<q8]
df9 = bdtot[bdtot['DIFF_DAY']>=q8] 
df9 = df9[df9['DIFF_DAY']<q9]
df10 = bdtot[bdtot['DIFF_DAY']>=q9]

In [None]:
listedf = [df1, df2, df3, df4, df5, df6, df7, df8, df9, df10]
diag = []
medic = []
for elem in listedf:
    cdiag = 0
    cmedic = 0
    for i in range(elem.shape[0]):
        if elem['NIVEAU_1'].values[i].startswith('PHA')==True:
            cmedic = cmedic+1
        else:
            cdiag = cdiag+1
    diag.append(cdiag)
    medic.append(cmedic)

In [None]:
dfbar = pd.DataFrame(dict(Medic=medic, Diagnostics=diag))
dfbar = dfbar.rename(index={0:'[-1826, -1642]',1:'[-1641, -1460]',2:'[-1459, -1278]',3:'[-1277, -1095]',4:'[-1094, -913)]',5:'[-912, -731]',6:'[-730, -546]',7:'[-547, -366]',8:'[-365, -184] ',9:'[-183, -1]'})
ax = dfbar.plot.bar(stacked=True, color=['blue', 'red'])
plt.title("Diagnostics et de médicaments avant le diagnostic")
h,l = ax.get_legend_handles_labels()
ax.legend(h[:3],["Médicaments", "Diagnostics"], loc=3, fontsize=14)
plt.show()

Nous allons donc créer des catégories à partir de ces valeurs.

In [None]:
bdtot_c = bdtot.copy()
bdtot_c['DIFF_DAY'] = pd.cut(bdtot_c['DIFF_DAY'], 10)
bdtot_c['DIFF_DAY'].sample(20)

In [None]:
ar = np.array([0, 0]) #Première ligne arbitraire
Nb_Soins = pd.DataFrame(ar) #Conversion de la matrice en DataFrame
Nb_Soins = Nb_Soins.transpose()
Nb_Soins.columns = ['TPS', 'NB_SOIN'] #On nomme les colonnes'''
liste = list(set(list(bdtot_c['DIFF_DAY'])))


 
#On va maintenant chercher à associer à chaque enquêté le nombre de soin reçu.
#Calcul des soins par personnes et création d'une dataframe qui associe au numéro le nombre de soin
for elem in liste:
    c = 0 #Ce sera notre compteur d'itération
    for val in bdtot_c['DIFF_DAY']:
        if elem==val:
            c = c+1
    ar_temp = np.array([elem, c])
    df_temp = pd.DataFrame(ar_temp)
    df_temp = df_temp.transpose()
    df_temp.columns = ['TPS', 'NB_SOIN']
    Nb_Soins = pd.concat([Nb_Soins, df_temp])

Nb_Soins

In [None]:
Nb_Soins_c = Nb_Soins.copy()
Nb_Soins_c = Nb_Soins_c[Nb_Soins_c['TPS']!=0] 

Stats desc : âge, CMU, sexe

## III. Modélisation : Clustering de séries temporelles**

On va appliquer l'algorithme des k-means pour établir des clusters (et donc des profils de patient). Cependant, ayant entre les mains une série temporelle, nous n'allons pas utiliser une distance euclidienne classique mais la "Dynamic Time Warping Distance" qui est plus adaptée au type de données qu'on traite. En effet, la distance euclidienne ne permet pas d'absorber l'aspect temporel de la data.

Cependant, pour dessiner les profils, on va accoler les informations de la table de population des individus sur la base de soins totale. 

*Génération de la base de données du clustering*

In [None]:
df_cl = pd.merge(bdtot, Table_Pop, on =['NUM_ENQ'])
df_cl

*Choisir le bon nombre de clusters*

Nous allons estimer cela en ayant recours à la méthode "silhouette coefficient". Ce coefficient calcule à quel point les points d'un même cluster sont proches entre eux et à quel point ces points sont bien éloignés des autres clusters. On va donc le calculer pour un certain nombre de cluster afin de déterminer le nombre idéal à générer : ce nombre sera celui qui maximise le coefficient. 

Il faudra réfléchir à comment on procède pour mettre de la distance entre des attributs qualitatifs.

In [None]:
silhouette_coefficients = []

for k in range(2, 11):
    kmeans = TimeSeriesKMeans(n_clusters=k,metric="dtw", max_iter=10)
    kmeans.fit(df_cl)
    score = silhouette_score(df_cl, kmeans.labels_)
    silhouette_coefficients.append(score)

nb_ideal = max(silhouette_coefficients)
    

*k-means*

In [None]:
model = TimeSeriesKMeans(n_clusters=nb_ideal, metric="dtw", max_iter=10)
model.fit(df_cl)