# CURSO DE POSGRADO
# INTELIGENCIA ARTIFICIAL APLICADA A CIENCIAS DE LA SALUD

#### **Universidad Nacional del Litoral** 
![](https://raw.githubusercontent.com/maicobernal/clases_unl/main/imagenes/9907890941.png)

# **Módulo 3**
# **Machine Learning**
![](https://raw.githubusercontent.com/maicobernal/clases_unl/main/imagenes/4593688547.png)

## `EVALUACION`

Para la evaluación del módulo 3 podrán elegir alguno de estos dos datasets!

## DATASET 1: `ENFERMEDAD CORONARIA`

Usted dispone de datos de una ultima campaña de prevención en una región con mucho presupuesto donde se le realizaron mediciones y laboratorios básicos a 60 mil pacientes a los cuales a todos se les realizó a posterior un estudio para detectar enfermedad coronaria asintomática. 

<img src="https://raw.githubusercontent.com/maicobernal/clases_unl/main/imagenes/1698673497859.png"
style = "width:400px;">

Como está de moda el machine learning, para la próxima campaña, le solicitaron poder armar un modelo que pueda, en base a mediciones más simples, predecir que pacientes tienen enfermedad coronaria. La idea es que solo a estos pacientes se les solicite un estudio confirmatorio. Lo importante, le comentaron, es que no haya falsos negativos. 

---

Objetivo: a partir del siguiente dataset, armar un modelo de clasificación para detectar enfermedad coronaria (target = `enf_coronaria`) a partir de las siguientes features:

| Feature                                  | Tipo      | Nombre en Base de Datos | Unidad          |
|------------------------------------------|----------|-------------------------|-----------------|
| Edad                                     | Feature  | edad_en_dias            | días            |
| Género                                   | Feature  | sexo                    | categórico binario |
| Altura                                   | Feature  | altura_cm               | cm              |
| Peso                                     | Feature  | peso_libras             | libras          |
| Presión arterial sistólica               | Feature  | ta_sistolica            | mmHg            |
| Presión arterial diastólica              | Feature  | ta_diastolica           | mmHg            |
| Colesterol LDL                           | Feature  | colesterol              | mg/DL           |
| Glucosa                                  | Feature  | glucosa                 | mg/DL           |
| Tabaquismo                               | Feature  | tabaquismo              | categórico (3 categorias) |
| Consumo de alcohol                       | Feature  | alcohol                 | categórico binario |
| Actividad física                         | Feature  | actividad_sifica        | categórico binario |
| Presencia o ausencia de enfermedad cardiovascular | Target | enf_coronaria        | binario         |


### REQUISITOS MINIMOS:
* Hacer una limpieza de los datos (fijarse que hay errores en la carga de datos en algunos strings - normalizarlos para que tenga sentido)
* Convertir las variables categoricas binarias que estan en string a un formato valido para modelos de machine learning
* Explorar los datos, ver su distribucion con gráficos y ver si hay correlación entre variables (Spearman).
* Ojo, hay datos perdidos! Realizar la imputacion pertinente.
* Generar al menos 2 modelos de machine learning a elección, y elegir el que tenga las mejores métricas - justificar cuál es la métrica que eligen y porqué! 

Para la variable tabaquismo, se agrega una dificultad ya que son 3 categorias (tabaquista, ex-tabaquista, no fuma)
Para poder resolverlo, consulten con `ChatGPT` haciendo la siguiente pregunta e intenten resolverlo:

```Tengo un dataframe de pandas con una columna categorica que tiene 3 valores. Necesito hacer algun tipo de transformacion en esta columna para poder codificarla para aplicarla en modelos de machine learning con sklearn. Explicame brevemente cual es el fundamento de utilizar esta tecnica```

### PLUS:
- Se valorará que utilicen herramientas adicionales que vimos en las clases o que ustedes quieran explorar, tanto de analisis supervisado como no supervisado. 

In [2]:
import pandas as pd
dataset_1 = pd.read_csv('./databases/evaluacion_dataset_1.csv')

dataset_1.head()

Unnamed: 0,edad_en_dias,sexo,altura_cm,peso_libras,ta_sistolica,ta_diastolica,tabaquismo,alcohol,actividad_fisica,enf_coronaria,colesterol,glucosa
0,18393,Masculino,168.0,137.0,110.0,80.0,No fuma,0,1,0,32.0,94.0
1,20228,Masculino,156.0,187.0,140.0,90.0,No fuma,0,1,1,194.0,94.0
2,18857,Masculino,165.0,141.0,130.0,70.0,No fuma,0,0,1,184.0,94.0
3,17623,Masculino,169.0,181.0,150.0,,No fuma,0,1,1,63.0,74.0
4,17474,Masculino,156.0,123.0,,60.0,No fuma,0,0,0,69.0,95.0


In [3]:
dataset_1.dtypes

edad_en_dias          int64
sexo                 object
altura_cm           float64
peso_libras         float64
ta_sistolica        float64
ta_diastolica       float64
tabaquismo           object
alcohol               int64
actividad_fisica      int64
enf_coronaria         int64
colesterol          float64
glucosa             float64
dtype: object

In [4]:
dataset_1.isna().sum()

edad_en_dias           0
sexo                   0
altura_cm              3
peso_libras         3479
ta_sistolica        2581
ta_diastolica       4082
tabaquismo             0
alcohol                0
actividad_fisica       0
enf_coronaria          0
colesterol           255
glucosa             1128
dtype: int64

## DATASET 2: `ESTADIA HOSPITALARIA`

Usted es un consultor en una empresa que hace analisis de datos. 

<img src="https://raw.githubusercontent.com/maicobernal/clases_unl/main/imagenes/1698673161733.png"
style = "width:400px;">

El gestor de una empresa de medicina prepaga, que es dueña de 5 hospitales de mediana complejidad, necesita poder predecir con mayor exactitud la cantidad de días que va a estar un paciente internado. Esto le sería muy útil para saber la disponibilidad futura de camas. 
Para eso, este gestor le consigue los datos de internacion historicas de 100.000 pacientes.
En particular, le interesa este dato (la predicción) para los hospitales `A` y `B` que son los más demandados, pero, como es un jefe muy generoso, le pasó los datos de los otros 3 centros. 

---

Objetivo: a partir del siguiente dataset, armar un modelo de regresion para predecir dias de internacion (target = `lengthofstay`) a partir de las siguientes features:

Índice | Nombre en base de datos | Tipo | Descripción  
--- | --- | --- | ---  
1 | eid | Integer | Id único de la admisión hospitalaria  
2 | vdate | String | Fecha de visita  
3 | rcount | Integer | Número de reingresos en los últimos 180 días  
4 | gender | String | Género del paciente - M o F  
5 | dialysisrenalendstage | String | Indicador de enfermedad renal durante el encuentro  
6 | asthma | String | Indicador de asma durante el encuentro  
7 | irondef | String | Indicador de deficiencia de hierro durante el encuentro  
8 | pneum | String | Indicador de neumonía durante el encuentro  
9 | substancedependence | String | Indicador de dependencia de sustancias durante el encuentro  
10 | psychologicaldisordermajor | String | Indicador de trastorno psicológico mayor durante el encuentro  
11 | depress | String | Indicador de depresión durante el encuentro  
12 | psychother | String | Indicador de otro trastorno psicológico durante el encuentro  
13 | fibrosisandother | String | Indicador de fibrosis durante el encuentro  
14 | malnutrition | String | Indicador de desnutrición durante el encuentro  
15 | hemo | String | Indicador de trastorno sanguíneo durante el encuentro   
16 | hematocrit | Float | Valor promedio de hematocrito durante el encuentro (g/dL)  
17 | neutrophils | Float | Valor promedio de neutrófilos durante el encuentro (células/microL)  
18 | sodium | Float | Valor promedio de sodio durante el encuentro (mmol/L)  
19 | glucose | Float | Valor promedio de sodio durante el encuentro (mmol/L)  
20 | bloodureanitro | Float | Valor promedio de nitrógeno ureico en sangre durante el encuentro (mg/dL)  
21 | creatinine | Float | Valor promedio de creatinina durante el encuentro (mg/dL)  
22 | bmi | Float | Índice de masa corporal promedio durante el encuentro (kg/m^2)  
23 | pulse | Float | Pulso promedio durante el encuentro (latidos/m)  
24 | respiration | Float | Respiración promedio durante el encuentro (respiraciones/m)  
25 | discharged | String | Fecha de alta  
26 | facid | Integer | ID del hospital en la que ocurrió el encuentro  
27 | lengthofstay | Integer | Duración de la estancia para el encuentro  


Este dataset esta más limpio, pero hay algunas consideraciones a tener en cuenta:

* ¿Necesito todas las columnas? ¿Necesito todas las filas? 
* ¿Hay alguna forma de transformarla o "medir" la cantidad de enfermedades/comorbilidades que tiene? (y así uso menos columnas!)
* ¿Las fechas sirven de algo para este tipo de modelos? 

### REQUISITOS MINIMOS:
* Hacer una limpieza de los datos (hay alguna columna donde deberia ser número pero se carga como string, corregirlo)
* Explorar los datos, ver su distribucion con gráficos y ver si hay correlación entre variables (Spearman). `En particular fijarse si hay diferencias importantes entre los distintos hospitales.`
* Convertir las variables categoricas que estan en string a un formato valido para modelos de machine learning
* Generar al menos 2 modelos de machine learning de regresión a elección, y elegir el que tenga las mejores métricas - justificar cuál es la métrica que eligen y porqué! 

Para la variable `facid`, se agrega una dificultad ya que son 5 categorias (una letra para cada hospital)
Para poder resolverlo, consulten con `ChatGPT` haciendo la siguiente pregunta e intenten resolverlo:

```Tengo un dataframe de pandas con una columna categorica que tiene X valores que refieren al nombre de un hospital. Necesito hacer algun tipo de transformacion en esta columna para poder codificarla para aplicarla en modelos de machine learning con sklearn. Explicame brevemente cual es el fundamento de utilizar esta tecnica```


### PLUS:
- Se valorará que utilicen herramientas adicionales que vimos en las clases o que ustedes quieran explorar, tanto de analisis supervisado como no supervisado. 

In [155]:
import pandas as pd
dataset_2 = pd.read_csv('./databases/evaluacion_dataset_2.csv')

dataset_2.head()

Unnamed: 0,id,vdate,rcount,gender,dialysisrenalendstage,asthma,irondef,pneum,substancedependence,psychologicaldisordermajor,depress,psychother,fibrosisandother,malnutrition,hemo,hematocrit,neutrophils,sodium,glucose,bloodureanitro,creatinine,bmi,pulse,respiration,discharged,facid,lengthofstay
0,1,8/29/2012,0,F,0,0,0,0,0,0,0,0,0,0,0,11.5,14.2,140.361132,192.476918,12.0,1.390722,30.432418,96,6.5,9/1/2012,B,3
1,2,5/26/2012,5+,F,0,0,0,0,0,0,0,0,0,0,0,9.0,4.1,136.731692,94.078507,8.0,0.943164,28.460516,61,6.5,6/2/2012,A,7
2,3,9/22/2012,1,F,0,0,0,0,0,0,0,0,0,0,0,8.4,8.9,133.058514,130.530524,12.0,1.06575,28.843812,64,6.5,9/25/2012,B,3
3,4,8/9/2012,0,F,0,0,0,0,0,0,0,0,0,0,0,11.9,9.4,138.994023,163.377028,12.0,0.906862,27.959007,76,6.5,8/10/2012,A,1
4,5,12/20/2012,0,F,0,0,0,1,0,1,0,0,0,0,0,9.1,9.05,138.634836,94.886654,11.5,1.242854,30.258927,67,5.6,12/24/2012,E,4


In [152]:
dataset_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 27 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   id                          100000 non-null  int64  
 1   vdate                       100000 non-null  object 
 2   rcount                      100000 non-null  object 
 3   gender                      100000 non-null  object 
 4   dialysisrenalendstage       100000 non-null  int64  
 5   asthma                      100000 non-null  int64  
 6   irondef                     100000 non-null  int64  
 7   pneum                       100000 non-null  int64  
 8   substancedependence         100000 non-null  int64  
 9   psychologicaldisordermajor  100000 non-null  int64  
 10  depress                     100000 non-null  int64  
 11  psychother                  100000 non-null  int64  
 12  fibrosisandother            100000 non-null  int64  
 13  malnutrition   

In [136]:
dataset_2.isna().sum()

id                            0
vdate                         0
rcount                        0
gender                        0
dialysisrenalendstage         0
asthma                        0
irondef                       0
pneum                         0
substancedependence           0
psychologicaldisordermajor    0
depress                       0
psychother                    0
fibrosisandother              0
malnutrition                  0
hemo                          0
hematocrit                    0
neutrophils                   0
sodium                        0
glucose                       0
bloodureanitro                0
creatinine                    0
bmi                           0
pulse                         0
respiration                   0
discharged                    0
facid                         0
lengthofstay                  0
dtype: int64