> # Etapa 2 - Limpieza y Transformación de Datos

---
> # Índice

1. [Introducción](#introducción)
2. [Variables del Dataset](#variables-del-dataset)
3. [Identificación de Valores Faltantes](#paso-1-identificación-de-valores-faltantes)
4. [Limpieza Preliminar](#paso-2-detección-y-tratamiento-de-outliers-y-duplicados)
5. [Análisis Descriptivo](#paso-3-normalización-y-escalado-de-datos)
6. [Visualización de Patrones y Relaciones](#paso-4-transformación-de-variables)

---
> # Introducción

- ***encounter_id*** : Identificador único de un encuentro.

- ***patient_nbr*** : Identificador único de un paciente.

- ***race*** : Valores [caucásicos, asiáticos, afroamericanos, hispanos, otros].

- ***gender*** : Valores [hombre, mujer, desconocido/inválido].

- ***age*** : Grupo en intervalos de 10 años [0, 10), [10, 20) , ... , [90, 100).

- ***weight*** : Peso en Libras.

- ***admission_type_id*** : Identificador entero correspondiente a 8 valores distintos:
        
        1 = Emergency.
        2 = Urgent.
        3 = Elective.
        4 = Newborn.
        5 = Not Available.
        6 = NULL.
        7 = Trauma Center.
        8 = Not Mapped.
- ***discharge_disposition_id*** : Icono entero correspondiente a 29 valores distintos:
        
        1 = Discharged to home.
        2 = Discharged/transferred to another short term hospital.
        3 = Discharged/transferred to SNF.
        4 = Discharged/transferred to ICF.
        5 = Discharged/transferred to another type of inpatient care institution.
        6 = Discharged/transferred to home with home health service.
        7 = Left AMA.
        8 = Discharged/transferred to home under care of Home IV provider.
        9 = Admitted as an inpatient to this hospital.
        10 = Neonate discharged to another hospital for neonatal aftercare.
        11 = Expired.
        12 = Still patient or expected to return for outpatient services.
        13 = Hospice / home.
        14 = Hospice / medical facility.
        15 = Discharged/transferred within this institution to Medicare approved swing bed.
        16 = Discharged/transferred/referred another institution for outpatient services.
        17 = Discharged/transferred/referred to this institution for outpatient services.
        18 = NULL.
        19 = "Expired at home. Medicaid only, hospice".
        20 = "Expired in a medical facility. Medicaid only, hospice".
        21 = "Expired, place unknown. Medicaid only, hospice".
        22 = Discharged/transferred to another rehab fac including rehab units of a hospital.
        23 = Discharged/transferred to a long term care hospital.
        24 = Discharged/transferred to a nursing facility certified under Medicaid but not certified under Medicare.
        25 = Not Mapped.
        26 = Unknown/Invalid.
        27 = Discharged/transferred to a federal health care facility.
        28 = Discharged/transferred/referred to a psychiatric hospital of psychiatric distinct part unit of a hospital.
        29 = Discharged/transferred to a Critical Access Hospital (CAH).
- ***admission_source_id*** : Icono del título entero correspondiente a 26 valores distintos:
    
        1 = Physician Referral.
        2 = Clinic Referral.
        3 = HMO Referral.
        4 = Transfer from a hospital.
        5 = Transfer from a Skilled Nursing Facility (SNF).
        6 = Transfer from another health care facility.
        7 = Emergency Room.
        8 = Court/Law Enforcement.
        9 = Not Available.
        10 = Transfer from critial access hospital.
        11 = Normal Delivery.
        12 = Premature Delivery.
        13 = Sick Baby.
        14 = Extramural Birth.
        15 = Not Available.
        17 = NULL.
        18 = Transfer From Another Home Health Agency.
        19 = Readmission to Same Home Health Agency.
        20 = Not Mapped.
        21 = Unknown/Invalid.
        22 = Transfer from hospital inpt/same fac reslt in a sep claim.
        23 = Born inside this hospital.
        24 = Born outside this hospital.
        25 = Transfer from Ambulatory Surgery Center.
        26 = Transfer from Hospice.

- ***time_in_hospital*** : Número entero de días entre admisión y alta.

- ***payer_code*** : Identificador entero correspondiente a 23 valores distintos, por ejemplo ['Blue Cross/Blue Shield', 'Medicare', 'self-pay', ...].

- ***medical_specialty*** : Identificador entero de una especialidad del médico admito, correspondiente a 84 valores distintos, por ejemplo ['cardiology', 'internal medicine', 'family/general practice', 'surgeon', ...].

- ***num_lab_procedures*** : Número de pruebas de laboratorio realizadas durante el encuentro.

- ***num_procedures*** : Número de procedimientos (distintos de las pruebas de laboratorio) realizados durante el encuentro.

- ***num_medications*** : Número de nombres genéricos distintos administrados durante el encuentro.

- ***number_outpatient*** : Número de visitas ambulatorias del paciente en el año anterior al encuentro.

- ***number_emergency*** : Número de visitas de emergencia del paciente en el año anterior al encuentro.

- ***number_inpatient*** : Número de visitas hospitalarias del paciente en el año anterior al encuentro.

- ***diag_1*** : El diagnóstico primario (codificado como los primeros tres dígitos de DAI9); 848 valores distintos.

- ***diag_2*** : Diagnóstico secundario (codificado como los tres primeros dígitos de DAI9); 923 valores distintos.

- ***diag_3*** : Diagnóstico secundario adicional (codificado como los tres primeros dígitos de DAI9); 954 valores distintos.

- ***number_diagnoses*** : Número de diagnósticos introducidos en el sistema.

- ***max_glu_serum*** : Indica el rango del resultado o si no se realizó el ensayo. Valores ['>200', '>300' , 'normal', 'none' if not measured].

- ***A1Cresult*** : Indica el rango del resultado o si no se realizó el ensayo. Valores ['>8' si el resultado fue superior al 8%, '>7' si el resultado fue superior al 7% pero inferior al 8%, 'normal' si el resultado fue inferior al 7%, 'none' si no se midió].

- ***metformin*** : La función indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***repaglinide*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***nateglinide*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***chlorpropamide*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***glimepiride*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***acetohexamide*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***glipizide*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***glyburide*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***tolbutamide*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***pioglitazone*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***rosiglitazone*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***acarbose*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***miglitol*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***troglitazone*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***tolazamide*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***examide*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***citoglipton*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***insulin*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***glyburide-metformin*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***glipizide-metformin*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***glimepiride-pioglitazone*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***metformin-rosiglitazone*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***metformin-pioglitazone*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***change*** : Indica si hubo un cambio en los medicamentos diabéticos (o dosis o nombre genérico). Valores ['change', 'no change'].

- ***diabetesMed*** : Indica si se le recetó algún medicamento diabético. Valores ['yes', 'no'].

- ***readmitted*** : Días para la readmisión hospitalaria. Valores ['<30' si el paciente fue readmitido en menos de 30 días, '>30 dias' si el paciente fue readmitido en más de 30 días, 'No' ningún registro de readmisión].

---
> # Paso 1: Identificación de Valores Faltantes

In [1]:
# Manipulación de DataFrames
import pandas as pd

# Funciones matemáticas
import numpy as np

In [2]:
# Se almacena la dirección donde se encuentra el dataset en una variable.
# La dirección apunta la misma carpeta, para que al cambiar la ubicación de la carpeta no hay que actualizar la dirección.

data_location = r"FuentesDeDatos_Diabetes/diabetic_data_v2.csv"

# Luego se lee y guarda el dataset en un DataFrame utilizando Pandas.

df = pd.read_csv(data_location, delimiter=',')

In [4]:
df.isnull().sum()

encounter_id                    0
patient_nbr                     0
race                            0
gender                          0
age                             0
weight                          0
admission_type_id               0
discharge_disposition_id        0
admission_source_id             0
time_in_hospital                0
payer_code                      0
medical_specialty               0
num_lab_procedures              0
num_procedures                  0
num_medications                 0
number_outpatient               0
number_emergency                0
number_inpatient                0
diag_1                          0
diag_2                          0
diag_3                          0
number_diagnoses                0
max_glu_serum               96420
A1Cresult                   84748
metformin                       0
repaglinide                     0
nateglinide                     0
chlorpropamide                  0
glimepiride                     0
acetohexamide 

In [7]:
conteo_none = (df == "none").sum()

conteo_none

encounter_id                    0
patient_nbr                     0
race                         2273
gender                          0
age                             0
weight                      98569
admission_type_id               0
discharge_disposition_id        0
admission_source_id             0
time_in_hospital                0
payer_code                  40256
medical_specialty           49949
num_lab_procedures              0
num_procedures                  0
num_medications                 0
number_outpatient               0
number_emergency                0
number_inpatient                0
diag_1                         21
diag_2                        358
diag_3                       1423
number_diagnoses                0
max_glu_serum                   0
A1Cresult                       0
metformin                       0
repaglinide                     0
nateglinide                     0
chlorpropamide                  0
glimepiride                     0
acetohexamide 

Hay que tener en cuenta que en la etapa anterior se modificaron los valores con caracter '?' de la variable 'weight'. Al ser más del 80%, se va descartar y eliminar la columna weight.
Lo mismo para gender, habia 3 registros que tenian valor invalid/unknown.

para el resto de variables que tienen valores nulos y none, se les imputara la mediana.

como se menciono en la etapa anterior, 'maxgluserum' y 'A1Cresult' tienen mas del 80% de valores nulos. A pesar de ello, son variables muy importantes para el analisis de la diabetes. Por lo tanto, se deciden conservar. En caso de analizar, se trabajará con los registros no nulos de esas columnas, de manera aislada, para analizar su influencia en la readmision.

---
> # Paso 2: Detección y Tratamiento de Outliers y Duplicados

---
> # Paso 3: Normalización y Escalado de Datos

In [3]:
# ===================================================
# Grupos de edades transformados a valroes numericos
# ===================================================

# Se transofma la varialbe 'age' a promedio de los rangos de edad (Ejemplo: [10-20) ---> 5 ).
diccionario = {'[0-10)' : 5,
'[10-20)' : 15,
'[20-30)' : 25, 
'[30-40)' : 35, 
'[40-50)' : 45, 
'[50-60)' : 55,
'[60-70)' : 65, 
'[70-80)' : 75,
'[80-90)' : 85,
'[90-100)' : 95}

df['age'] = df['age'].apply(lambda x : diccionario[x])

df.head()

Unnamed: 0,encounter_id,patient_nbr,race,gender,age,weight,admission_type_id,discharge_disposition_id,admission_source_id,time_in_hospital,...,citoglipton,insulin,glyburide-metformin,glipizide-metformin,glimepiride-pioglitazone,metformin-rosiglitazone,metformin-pioglitazone,change,diabetesMed,readmitted
0,2278392,8222157,Caucasian,Female,5,none,6,25,1,1,...,No,No,No,No,No,No,No,No,No,NO
1,149190,55629189,Caucasian,Female,15,none,1,1,7,3,...,No,Up,No,No,No,No,No,Ch,Yes,>30
2,64410,86047875,AfricanAmerican,Female,25,none,1,1,7,2,...,No,No,No,No,No,No,No,No,Yes,NO
3,500364,82442376,Caucasian,Male,35,none,1,1,7,2,...,No,Up,No,No,No,No,No,Ch,Yes,NO
4,16680,42519267,Caucasian,Male,45,none,1,1,7,1,...,No,Steady,No,No,No,No,No,Ch,Yes,NO


> #### Observaciones:

- Ahora se observa la columna de **'age'** con el promedio del rango de edad.

---
> # Paso 4: Transformación de Variables