# Diabetes Classification - Data Explore

[Jose R. Zapata](https://joserzapata.github.io)
- https://joserzapata.github.io
- https://twitter.com/joserzapata
- https://www.linkedin.com/in/jose-ricardo-zapata-gonzalez/       


## Introduction


Analyze factors related to readmission as well as other outcomes pertaining to patients in order to classify a patient-hospital outcome

3 different outputs:

1. No readmission

2. A readmission in less than `30` days (this situation is not good, because maybe your treatment was not appropriate);

3. A readmission in more than 30 days (this one is not so good as well the last one, however, the reason could be the state of the patient.


## Main Objective

**How effective was the treatment received in hospital in order to reduce hospital readmission?**

## Principal References

### Paper

Beata Strack, Jonathan P. DeShazo, Chris Gennings, Juan L. Olmo, Sebastian Ventura, Krzysztof J. Cios, and John N. Clore, “Impact of HbA1c Measurement on Hospital Readmission Rates: Analysis of 70,000 Clinical Database Patient Records,” BioMed Research International, vol. 2014, Article ID 781670, 11 pages, 2014.

https://www.hindawi.com/journals/bmri/2014/781670/

### Dataset

https://archive.ics.uci.edu/ml/datasets/Diabetes+130-US+hospitals+for+years+1999-2008#

### Data description

https://www.hindawi.com/journals/bmri/2014/781670/tab1/

# Import libraries

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Load Dataset

In [2]:
diabetic_df = pd.read_csv("../data/interim/diabetes_clean.csv")

In [3]:
diabetic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53216 entries, 0 to 53215
Data columns (total 43 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   race                      53216 non-null  object
 1   gender                    53216 non-null  object
 2   age                       53216 non-null  object
 3   admission_type_id         53216 non-null  int64 
 4   discharge_disposition_id  53216 non-null  int64 
 5   admission_source_id       53216 non-null  int64 
 6   time_in_hospital          53216 non-null  int64 
 7   medical_specialty         53216 non-null  object
 8   num_lab_procedures        53216 non-null  int64 
 9   num_procedures            53216 non-null  int64 
 10  num_medications           53216 non-null  int64 
 11  number_outpatient         53216 non-null  int64 
 12  number_emergency          53216 non-null  int64 
 13  number_inpatient          53216 non-null  int64 
 14  diag_1                

# Exploratory Data Analysis

Is important to convert to categorical data the features represented by numbers




In [4]:
diabetic_df["admission_type_id"] = diabetic_df["admission_type_id"].astype('category')
diabetic_df["discharge_disposition_id"] = diabetic_df["discharge_disposition_id"].astype('category')
diabetic_df["admission_source_id"] = diabetic_df["admission_source_id"].astype('category')

Before a specific data exploration and feature engineering

I will use the data profilling tool:

`pandas-profilling` - https://pandas-profiling.github.io/pandas-profiling/docs/master/index.html


In [5]:
# import pandas profilling lib
from pandas_profiling import ProfileReport

In [6]:
profile = ProfileReport(diabetic_df, title="Diabetes data Profiling Report", explorative=True)

In [7]:
profile.to_notebook_iframe()

Summarize dataset: 100%|██████████| 57/57 [00:18<00:00,  3.02it/s, Completed]
Generate report structure: 100%|██████████| 1/1 [00:10<00:00, 10.20s/it]
Render HTML: 100%|██████████| 1/1 [00:02<00:00,  2.37s/it]


In [9]:
# save data profilling report
profile.to_file("../reports/Diabetes_data_profiling_report.html")

Export report to file: 100%|██████████| 1/1 [00:00<00:00, 73.41it/s]


## Data profiling analysis

### Univariate analysis

- race: 77.7% of the people in the dataset is caucasian
- gender: division is balanced
- age: is categorical in ranges of 10 years, around 47.3% of the people are over 60 years and 65.4% over 50
- 

## Univariate Analysis

### Variables Numericas

Tendencia Central  | Medida de Dispersión  |  Visualizacion
 :---: | :---: | :---:
Media   | Rango      |  Histogramas
Mediana | Cuartiles  |  Boxplots
Moda    | Rango inter cuartil (IQR)|  
Minimo  | Varianza   |  
Maximo  | Desviacion Estandard | 
        | Skewness   |  
        | Kurtosis   |  

### Variables Categoricas
- Numero de elementos por categoria
- Porcentaje de elementos por categoria
- Graficos de barras

## Analisis Bivariable

### Numericas vs Numericas
- Scatter Plot
- Heatmap
- Correlacion

### Categoricas vs Categoricas

- Two-way table
- Graficas de Barras apiladas
- Chi-Square Test

### Categoricas vs Numericas
- Z-Test/ T-Test
- ANOVA

## Procesamiento de Outliers
### Deteccion de Outliers (Univariables y Bi variables)
- Boxplots
- Scatter Plots
- Histogramas

### Remover Outliers
las opciones son:
- Borrar los datos atipicos (outliers) 
- Transformar la variable (Ej: escalar, cambiar a esccala Log o a Escala lineal)
- Reemplazar los outliers conla Media/ Moda/ Mediana (Mean/ Mode/ Median Imputation)
- Reemplazar valores con modelo predictivo
- Separarlos y analizarlos aparte (si son muchos outliers)


## Preparacion de Datos Faltantes
Las opciones que se pueden usar dependiendo del analisis de los datos son:
### Borrar Filas
- Borrar las filas que les falten todos los datos
- Borrar Solo las filas que les falta las variables mas importantes o la salida

### Reemplazar datos faltantes con la Media/ Moda/ Mediana (Mean/ Mode/ Median Imputation)

## Remover Datos Duplicados

Hacer al principio luego de cargar los datos y luego de Hacer imputaciones o eliminacion de columnas.

## Feature Engineering 
### Transformacion de Variables
**Se usa cuando es necesario:**
- Cambiar la escala las variables (Normalizar, escalamiento, etc), esto no cambia la forma de la distribucion de los datos
- Cambiar relaciones No ineales en Lineales (Ej: cambiar la escala Logaritmica a lineal)
- Usar una la distribución simétrica en vez de una distribución sesgada o asimetrica, Para una la distribución sesgada a la derecha, tomamos la raíz cuadrada / cúbica o el logaritmo de la variable, y para la desviación a la izquierda, tomamos el cuadrado / cubo o exponencial de las variables.
- Cambair variables continuas a categoricas

Los tipos de transformacion son:

#### Normalizacion

#### Escalamiento

#### Logaritmica

#### raíz cuadrada / cúbica

#### Binning , Cambios de Numericas a Categoricas

## Analisis Univariable y Bivariable Final
Luego de Realizar:
- Tratamiento de datos Nulos
- Tratamiento de outliers
- Transformacion de Variables

Es necesario realizar nuevamente analisis univarible y bivariable para identificar como cambiaron nuestros datos y para verificar si estan listos para usarse para crear un modelo.

### Creacion de Variables
pueden ser:
#### Crear Variables derivadas de Otras

#### Crear Variables de Categorico a Numerico
Puede ser
- Definir un numero a cada categoria
- One hot encoder (dummy columns)

## Reduccion de Dimensionalidad y Seleccion de Variables (PCA)

De ser necesario si tiene muchas variables o sospecha que aun tiene variables que no aportan mucho

## Balance de datos

Se realiza para problemas de clasificacion, solo si es necesario.

# MODELAMIENTO DE LOS DATOS (MACHINE LEARNING)


## Dividir el dataset en Training set y Test set

Este paso debe ser al inicio de los proyectos, pero para realizarlo de esa forma se debe automatizar todas las transformaciones, preparación de datos y limpieza de los datos, para aplicarlos al test set y a ls datos nuevos que lleguen al sistema.

por este motivo se realizara en esta parte.

# Validacion y Evaluacion Cruzada (k-fold Cross Validation)

Entrenar los algoritmos Usando el Training Set

# Optimizacion de Hiper parametros (Hyper Parameter optimization)

Se seleccionan alguno modelos para realziar eset paso, ya que tiene una carga computacional alta.

# Prueba final del modelo con el Test set

# Implementacion del Modelo (Deploying)
Con el análisis básico y el ajuste hecho, comienza el trabajo real (ingeniería).

El último paso para poner en produccion el modelo de prediccion sera:
1. Entrenarlo en todo el conjunto de datos nuevamente, para hacer un uso completo de todos los datos disponibles. 
2. Usar los mejores parámetros encontrados mediante la validación cruzada, por supuesto. Esto es muy similar a lo que hicimos al principio, pero esta vez teniendo una idea de su comportamiento y estabilidad. La evaluación se realizó con honestidad, en divisiones distintas de entrenamiento / prueba.

El predictor final se puede serializar y grabar en el disco, de modo que la próxima vez que lo usemos, podemos omitir todo el entrenamiento y usar el modelo capacitado directamente:

In [None]:
#import pickle # Esta es una libreria de serializacion nativa de python, puede tener problemas de seguridad
from joblib import dump # libreria de serializacion

# garbar el modelo en un archivo
#dump(Modelo_final, 'Nombre_Archivo_Modelo.joblib')

# Comunicacion de Resultados (Data Story Telling)

# Conclusiones

# Ayudas Y Referencias

- Correction to: Hospital Readmission of Patients with Diabetes - https://link.springer.com/article/10.1007/s11892-018-0989-1

- Center for disease control and prevention, Diabetes atlas- https://gis.cdc.gov/grasp/diabetes/DiabetesAtlas.html

- https://medium.com/@joserzapata/paso-a-paso-en-un-proyecto-machine-learning-bcdd0939d387
- [a-complete-machine-learning-walk-through-in-python-part-one](https://towardsdatascience.com/a-complete-machine-learning-walk-through-in-python-part-one-c62152f39420)

- [a-starter-pack-to-exploratory-data-analysis-with-python-pandas-seaborn-and-scikit-learn](https://towardsdatascience.com/a-starter-pack-to-exploratory-data-analysis-with-python-pandas-seaborn-and-scikit-learn-a77889485baf#249d)

- [a-data-science-for-good-machine-learning-project-walk-through-in-python-part-one](https://towardsdatascience.com/a-data-science-for-good-machine-learning-project-walk-through-in-python-part-one-1977dd701dbc)

- [Ejemplos de Kaggle](https://www.kaggle.com/kernels?sortBy=hotness&group=everyone&pageSize=20&language=Python&kernelType=Notebook)

- [END to END ML from data colletion to deployment](https://medium.com/datadriveninvestor/end-to-end-machine-learning-from-data-collection-to-deployment-ce74f51ca203)

Docente: [Jose R. Zapata](https://joserzapata.github.io)
- https://joserzapata.github.io
- https://twitter.com/joserzapata
- https://www.linkedin.com/in/jose-ricardo-zapata-gonzalez/   