# Sesión 1 Masterclass

Disponemos de varios datasets con información de admisiones a hospitales de enfermos de diabetes. El objetivo es, estudiando el historial clínico, saber cuales de ellos volverán a ser readmitidos al hospital por problemas con la diabetes.

En el siguiente enlace puedes encontrar una descripción de las variables:
https://fairlearn.org/main/user_guide/datasets/diabetes_hospital_data.html

## Cargar librerías

Carga las librerías que consideres necesarias para resolver este caso práctico.

In [None]:
import pandas as pd
pd.set_option('display.max_columns', 100) #Modificamos los settings por defecto para mostrar todas las columnas

#Estas líneas eliminan los mensajes de warning en nuestro código
import warnings
warnings.filterwarnings("ignore")

## Lectura de datos

Lee todos los archivos que hay en la carpeta data.

#### Estudio de los datasets: comprobar su correcta lectura

Analiza que todos los dataset se han leído correctamente

Como hay 4 conjuntos de datos hay que echarles un vistazo, decidir cual es el principal y ver cómo juntarlos todos

## Cruce de tablas

Dado que tenemos 4 conjuntos de datos, debemos estudiar si es posible unirlos. En el caso de que consideres unirlos, deberás analizar que tipo de join es el más correcto, y quién es el dataset principal.

Una vez que tengas una única tabla borra los dataframes que ya no vas a usar para optimizar el uso de los recursos de computación.

## Análisis de duplicados

Analiza los duplicados del dataset y procesalos como creas conveniente

Además de analizar si hay registros repetidos también se puede analizar si hay variables que tengan valores repetidos. Por ejemplo, las variables relativas a un id, como`encounter_id` y `patient_nbr` deberían ser únicas. De no ser así estudia como puedes trabajar con ellas.

* `encounter_id`: es el id del ingreso
* `patient_nbr`: es el id del paciente

## Análisis de nulos

Analiza los nulos del dataset y procesalos como creas conveniente

Puede ser que los valores nulos ya hayan sido imputados previamente, por ejemplo, al caracter `?` o al string `None`. Estudia estos valores y otros posibles nulos en cada variable. (Entraremos en más detalle en el apartado Análisis del caracter `?` o `None` como nulo.)

## Análisis univariante de las variables

A continuación estudia cada variable del dataset por separado. Recuerda que las variables pueden ser de dos tipos, numéricas continuas o categóricas (es decir, de tipo string que representan una clase).


Aquí tienes algunas ideas del tipo de análisis que debes hacer:

* Estudia el tipo de dato de cada variable y comprueba que el tipo de dato es el correcto. Sino, cámbialo al más adecuado.
    * Estudia si hay variables categóricas que podamos transformar a numéricas, o viceversa.
* Obten un análisis estadístico y descriptivo de cada variable.
* Estudia los diferentes tipos de valores que tiene cada variable, por ejemplo puedes analizar lo siguiente:
    * Si la columna tiene un valor constante no aporta información y podemos eliminarla
    * Si contiene un valor que no se corresponde con la información que debería aportar la columna, por ejemplo, un símbolo, puede ser que sea un nulo imputado. Debes analizar como tratar estos casos.
    * Estudia si las variables categóricas contienen espacios antes y después del valor de la celda, esto puede dar lugar a futuros errores.
    * Estudia si hay variables de intervalos que pudiésemos convertir a valores más intuitivos, o que contienen varias categorías pero que podemos agrupar en una menor cantidad, por ejemplo, transformarlo a variables binaria que valga 0 o 1.

### Variables numéricas

Analiza las variables de tipo numérico. Si crees que alguna no debería ser considerada numérica continua, cambia su tipo de dato (por ejemplo, las variables que representan un ID, aunque contienen números, no deberían tratarse como numéricas sino como categóricas.

### Valores constantes

Analicemos la cantidad de valores diferentes que toman las variables.

Si una variable toma siempre el mismo valor, no aporta información y debemos eliminarla. Por otro lado, aunque tome diferentes valores, puede ser que la mayoría estén concentrados siempre en el mismo valor. Deberemos estudiar como se relacionan estos valores con la variable objetivo, para analizar si aporta información o no.

#### Análisis del caracter `?` o `None` como nulo.

1.   List item
2.   List item



Analizamos las variables que contengan esos caracteres como nulos y estudiamos qué hacer con ellas.

### Estudio de las  variables diagnóstico

Los valores de  variables de diagnóstico  corresponden a códigos ICD-9 que se agrupan en 18 categorías principales.
Con el objetivo de reducir las variables derivadas de estas 3 columnas, diag_1, diag_2 y diag_3, se reemplazará cada código por su categoría correspondiente.

Puede encontrar la información de estos códigos en el siguiente enlace:
https://en.wikipedia.org/wiki/List_of_ICD-9_codes

*Pista*: Puedes crear una función con bucles condicionales según el valor del diagnóstico lo cambie a una de las clasificaciones que existen. Como algunos códigos contienen letras, transforma los códigos con letras a valores muy altos, para poder cambiar toda la columna a tipo numéricos y poder hacer rangos numériucos en la función.

### Variable objetivo

Analicemos la variable objetivo del conjunto de datasets, `readmitted` que nos indice si un paciente será reingresado en el hospital por diabetes o no.

In [None]:
for index, element in enumerate(var_numericas):
    plt.figure(index)
    plt.hist(diabetes[element], bins=50, color='skyblue', edgecolor='black')
    plt.title(element)

### Análisis gráfico univariante

A continuación vamos a hacer un análisis gráfico de las variables numéricas. A esta representación de los datos se denomina histograma.
Representa aquellas variables numéricas que sean continuas y no representen ids o similar. Tampoco tendremos en cuenta las variables binarias, ya que no son numéricas continuas.

A continuación tienes un fragmento de código para poder dibujar histogramas para cada variable. Analiza si hay valores extremos (que no estén en el grosso del histograma) y si hay variables que no deberían ser numéricas ya que toman valores discretos.

## Análisis multivariante de las variables

A continuación estudia las variables en conjunto para ver como se comportan entre ellas. Algunas ideas del análisis que puedes realizar:

* Estudia la relación de las variables que quedaron en duda en los apartados anteriores, respecto a la variable objetivo, para analizar si aportan información o no. Puedes agruparlas dos a dos, por ejemplo `readmitted` y `miglitol`, utilizando el método `groupby`. También se pueden utilizar gráficos. Se da una celda de código que permite graficar diagramas de barras de dos variables categóricas.
* Analiza variables que crean que pueden aportar la misma información, dado que en el caso de que aportasen la misma, podríamos eliminar una de ellas.

Para que el análisis sea más sencillo podemos pasar las variables a binaria, donde valdrá 0 si el valor es No o None y 1 en el resto de casos. Para ello puedes definir una función que haga esta modificación, y que luego lo apliques con los métodos `apply`, `applymap`o `map`.

Puedes realizar `groupby`para agrupar variables junto con la variable objetivo y analizar las salidas.

In [None]:
#Código para realizar graficos de barras de la variable readmitted frente a otras categóricas.
for col in variables_a_graficar:
    my_table2 = pd.crosstab(index=diabetes["readmitted"], columns=diabetes[col])
    my_table2.plot(kind="bar", figsize=(7,3),stacked=False)
    plt.show()

*Extra*: Aunque no es objetivo de este curso, en el análisis multivariante deberían usarse técnicas de estudio de correlación entre variables.

## Variables derivadas

Puedes crear variables nuevas a raíz de las que ya existen que aporten información. Por ejemplo, con las variables `patient_nbr` y `encounter_id` podemos calcular el número de reingresos de cada paciente. Para ello utiliza un `groupby`.

## Analisis final

Una vez procesado el dataset, analizaremos las variables para obtener información que nos indique que condiciona que un paciente sea readmitido.
Algunas ideas:

* Qué variables son más relevantes cuando un paciente es readmitido. ¿Hay alguna variable que no sea nula siempre que el paciente es readmitido?
* En las variables numéricas, si analizas sus estadísticas, ¿estas cambian en función de si filtramos el dataset para readmitido y no readmitido?