# Análisis exploratorio de los datos de IDPPCLEF


In [None]:
import pandas as pd
import numpy as np
import os
import seaborn as sns
pd.options.display.float_format = '{:.2f}'.format
import warnings
warnings.filterwarnings('ignore')
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
path = r'DatosIDPPCLEF\Tarea1y2\datasetA_train'
contenido = os.listdir(path)

In [None]:
filename = path+'/'+str(contenido[0])
edss = pd.read_csv(filename, header=0)
edss

+ patient_id:
	Código hash que identifica de forma unívoca a un paciente.

+ edss_as_evaluated_by_clinician:
	La Escala Expandida del Estado de Discapacidad (EDSS) es un método para cuantificar la discapacidad en la esclerosis múltiple y controlar los cambios en el nivel de discapacidad a lo largo del tiempo. Se utiliza ampliamente en ensayos clínicos y en la evaluación de personas con EM.

	Esta variable representa la EDSS medida e informada por el clínico. Valores en el intervalo [0, 10], con incrementos de 0,5 unidades que representan niveles más altos de discapacidad, o ausente.

+ centre
	Esta variable representa el centro médico del que procede el paciente.

+ delta_edss_time0:
	Fecha en la que el clínico ha evaluado la EDSS, expresada en días como delta relativo con respecto al Tiempo 0 (edss_date - time0).

In [None]:
filename = path+'/'+str(contenido[1])
evokedpotentials = pd.read_csv(filename, header=0)
evokedpotentials

+ patient_id: Código hash que identifica de forma unívoca a un paciente.

+ altered_potential:
	Tipo de potencial evocado analizado. Valores posibles: {Auditivo, Motor, Somatosensorial, Visual}.

+ potential_value:
	Variable booleana que indica si la prueba de potenciales evocados ha observado una alteración (Verdadero) o no (Falso).

+ location:
	Ubicación de la parte del cuerpo implicada en el examen. Valores posibles: {izquierda, inferior izquierda, superior izquierda, derecha, inferior derecha, superior derecha}.

+ centre
	Esta variable representa el centro médico del que procede el paciente.

+ delta_evoked_potential_time0:
	Fecha en la que se ha comprobado el potencial evocado, expresada en días como delta relativo con respecto al tiempo 0 (evoked_potential_date - time0).

In [None]:
filename = path+'/'+str(contenido[2])
mri = pd.read_csv(filename, header=0)
mri

+ patient_id:
	Código hash que identifica de forma unívoca a un paciente.

+ mri_area_label:
	La zona en la que se ha realizado la IRM. Valores posibles: {Tallo cerebral, Médula espinal cervical, Médula espinal, Médula espinal torácica}.

+ lesions_T1:
	Variable booleana que indica si la RM observa algunas lesiones en T1 (Verdadero) o no (Falso).

+ lesions_T1_gadolinium:
	Variable booleana que indica si hay algunas lesiones con realce de Gadolinio (Verdadero) o no (Falso).

+ number_of_lesions_T1_gadolinium:
	Número de lesiones con realce de Gadolinio.

+ new_or_enlarged_lesions_T2:
	Variable booleana que indica si hay lesiones nuevas o agrandadas en T2 desde la última IRM (Verdadero) o no (Falso).

+ number_of_new_or_enlarged_lesions_T2:
	Número de lesiones nuevas o agrandadas en T2 desde la última RM.

+ lesions_T2:
	Variable booleana que indica si la IRM observa algunas lesiones en T2 (Verdadero) o no (Falso).

+ number_of_total_lesions_T2:
	El número de lesiones totales en T2. Cuando no está ausente, los valores posibles son: {0, 1-2, >=3, >=9}.

+ centre
	Esta variable representa el centro médico del que procede el paciente.

+ delta_mri_time0:
	La fecha en la que se ha realizado la IRM, expresada en días como delta relativo con respecto al tiempo 0 (mri_date - time0).

In [None]:
filename = path+'/'+str(contenido[3])
mstype = pd.read_csv(filename, header=0)
mstype

+ patient_id:
	Código hash que identifica de forma unívoca a un paciente.

+ multiple_sclerosis_type:
	Tipo de EM observado durante una evaluación clínica. Valores posibles: {CIS, PP, PR, RR, SP}.

+ centre
	Esta variable representa el centro médico del que procede el paciente.

+ delta_observation_time0:
	Fecha en la que se ha observado el tipo de EM, expresada en días como delta relativo con respecto a la hora 0 (ms_type_date - time0).

In [None]:
filename = path+'/'+str(contenido[4])
outcomes = pd.read_csv(filename, header=0)
outcomes

Las columnas están separadas por un espacio en blanco;
+ La primera columna es patient ID, una versión codificada de la identificación del paciente original (debe considerarse solo como una cadena);
+ La segunda columna es el empeoramiento-ocurrencia. Es una variable booleana con 0 que significa "no ocurrió" y 1 que significa "ocurrió";
+ La tercera columna es el tiempo de ocurrencia. Es un número de punto flotante en el rango [0, 15].

In [None]:
filename = path+'/'+str(contenido[5])
relapses = pd.read_csv(filename, header=0)
relapses

+ patient_id:
	Código hash que identifica de forma unívoca a un paciente.

+ centre
	Esta variable representa el centro médico del que procede el paciente.

+ delta_relapse_time0:
	La fecha en la que comenzó la recaída, expresada en días como delta relativo con respecto al tiempo 0 (relapse_start_date - time0).

In [None]:
filename = path+'/'+str(contenido[6])
staticvars = pd.read_csv(filename, header=0)
staticvars

+ patient_id:
	Código hash que identifica de forma unívoca a un paciente.

+ sex:
	Conjunto de propiedades o cualidades físicas por las que el hombre se distingue de la mujer; diferencia física entre el hombre y la mujer; peculiaridad distintiva del hombre o de la mujer. [Fuente de la definición: NCI]. Valores posibles: {femenino, masculino}.

+ residence_classification:
	Clasificación de la residencia. Cuando no está ausente, los valores posibles son: {Ciudades, Zona rural, Pueblos}.

+ ethnicity:
	Origen étnico del paciente. Cuando no está ausente, los valores posibles son: {Negro Africano, Caucásico, Hispano}.

+ ms_in_pediatric_age:
	Variable booleana que indica si el paciente contrajo EM en edad pediátrica (Verdadero) o no (Falso).

+ age_at_onset:
	Edad del paciente al inicio de la enfermedad. Expresada en años.

+ diagnostic_delay:
	Diferencia (en días) entre la fecha del diagnóstico y la Hora 0. Cuando la fecha del diagnóstico > Hora 0, diagnostic_delay se establece en Nan.

+ spinal_cord_symptom:
	Variable booleana que indica si el paciente tenía síntomas medulares (Verdadero) o no (Falso) al inicio.

+ brainstem_symptom:
	Variable booleana que indica si el paciente tenía síntomas en el tronco encefálico (Verdadero) o no (Falso) al inicio.

+ eye_symptom:
	Variable booleana que indica si el paciente tenía síntomas oculares (Verdadero) o no (Falso) al inicio.

+ supratentorial_symptom:
	Variable booleana que indica si el paciente tenía síntomas supratentoriales (Verdadero) o no (Falso) al inicio.

+ other_symptoms:
	Especifica qué otros síntomas (si los hay) tenía el paciente al inicio. Cuando no es False, los valores posibles son: {epilepsia, cefalea, psíquico, RM+, sensorial}.

+ centre
	Esta variable representa el centro médico del que procede el paciente.

+ time_since_onset:
	La fecha de inicio de la EM en el paciente, expresada en días como delta relativo con respecto al Tiempo 0 (tiempo0 - fecha_inicio).


In [None]:
print(len(outcomes[outcomes['outcome_occurred']==1]), 'pacientes tienen empeoramiento de ocurrencia')

In [None]:
for i in edss.index:
    edss['delta_edss_time0'][i]=-edss['delta_edss_time0'][i]

In [None]:
paciente='1'
patient=[]
potencial_value=[]
for i in evokedpotentials.index:
    if paciente!=evokedpotentials['patient_id'][i]:
        paciente=evokedpotentials['patient_id'][i]
        grupoPatient=evokedpotentials[evokedpotentials['patient_id']==paciente]
        grupoPatient=grupoPatient.reset_index(drop=True)
        patient.append(paciente)
        potencial_value.append(len(grupoPatient[grupoPatient['potential_value']==True]))


savePotecialValue=[]
contador=0
for i in staticvars.index:

    if staticvars['patient_id'][i] not in patient:
        savePotecialValue.append(0)
    else:
        savePotecialValue.append(potencial_value[contador])
        contador+=1




In [None]:
worsening=[]
numberEdss=[]
numberEdssYear=[]
patient=-1
allPatient=[]
minDay=[]
saveDay=0

for i in edss.index:
    if patient!=edss['patient_id'][i]:
        if edss['patient_id'][i] not in allPatient:
            allPatient.append(edss['patient_id'][i])
            numberEdss.append(len(edss[edss['patient_id']==edss['patient_id'][i]]))
            saveDay=edss['delta_edss_time0'][i]
        #if edss['edss_as_evaluated_by_clinician'][i]>=2:
        patient=edss['patient_id'][i]
        if len(edss[edss['patient_id']==edss['patient_id'][i]])>2:
            groupPatient=edss[edss['patient_id']==edss['patient_id'][i]]
            if len(groupPatient[groupPatient['edss_as_evaluated_by_clinician']>=3])>1:
                groupPatient=groupPatient.sort_values('delta_edss_time0',ascending=True)
                groupPatient=groupPatient.reset_index(drop=True)
                #print(groupPatient)
                count=1
                auxDay=0
                for l in range(len(groupPatient)-1):
                    for j in range(l+1,len(groupPatient)):
                        if (groupPatient['delta_edss_time0'][j]-groupPatient['delta_edss_time0'][l])<=365 and groupPatient['edss_as_evaluated_by_clinician'][l]>=3 and groupPatient['edss_as_evaluated_by_clinician'][j]>=3:
                            auxDay=groupPatient['delta_edss_time0'][j]-groupPatient['delta_edss_time0'][l]
                            #print(auxDay)
                            if auxDay<saveDay:
                                saveDay=auxDay
                            count+=1
                            if edss['patient_id'][i] not in worsening:
                                worsening.append(edss['patient_id'][i])

                if count>1:
                    numberEdssYear.append(count)
        minDay.append(saveDay)




In [None]:
saveWorsening=[]
saveNumberEdss=[]
saveNumberEdssYear=[]
saveMinDay=[]
contador=0

for i in staticvars.index:
    if staticvars['patient_id'][i] not in worsening:
        saveWorsening.append(False)
        saveNumberEdssYear.append(0)
    else:
        saveWorsening.append(True)
        saveNumberEdssYear.append(numberEdssYear[contador])
        contador+=1
contador=0
for i in staticvars.index:
    if len(edss[edss['patient_id']==staticvars['patient_id'][i]])>0:
        saveNumberEdss.append(numberEdss[contador])
        contador+=1
    else:
        saveNumberEdss.append(0)

contador=0
for i in staticvars.index:
    if len(edss[edss['patient_id']==staticvars['patient_id'][i]])>0:
        saveMinDay.append(minDay[contador])
        contador+=1
    else:
        saveMinDay.append(580)




In [None]:
paciente=1
patientRelapses=[]
numberRelapses=[]
for i in relapses.index:
    if paciente!= relapses['patient_id'][i]:
        paciente=relapses['patient_id'][i]
        numberRelapses.append(len(relapses[relapses['patient_id']==paciente]))
        patientRelapses.append(paciente)
saveNumberRelapses=[]
contador=0
for i in staticvars.index:
    if staticvars['patient_id'][i]not in patientRelapses:
        saveNumberRelapses.append(0)
    else:
        saveNumberRelapses.append(numberRelapses[contador])
        contador+=1

In [None]:
sex=[]
for i in staticvars.index:
    if staticvars['sex'][i]=='female':
        sex.append(0)
    else:
        sex.append(1)


In [None]:
prueba=pd.DataFrame()
prueba['outcome_occurred']=outcomes['outcome_occurred']
prueba['outcome_time']=outcomes['outcome_time']
prueba['sex']=sex
prueba['age_at_onset']=staticvars['age_at_onset']
prueba['time_since_onset']=staticvars['time_since_onset']
prueba['numberEdss']=saveNumberEdss
prueba['numberEdssYear']=saveNumberEdssYear
prueba['MinDay']=saveMinDay
prueba['potencial_value']=savePotecialValue
prueba['numberRelapses']=saveNumberRelapses
prueba['Worsening']=saveWorsening

In [None]:
prueba.corr().head(13)

In [None]:
import seaborn as sns

sns.heatmap(prueba.corr(), annot=True)
plt.show()

In [None]:
from pandas.plotting import scatter_matrix

scatter_matrix(prueba.astype(float), alpha=0.2, figsize=(21, 21), diagonal='kde')
plt.show()