> # Etapa 2 - Limpieza y Transformación de Datos

---
> # Índice

1. [Introducción](#introducción)
2. [Variables del Dataset](#variables-del-dataset)
3. [Identificación de Valores Faltantes](#paso-1-identificación-de-valores-faltantes)
4. [Detección y Tratamiento de Outliers y Duplicados](#paso-2-detección-y-tratamiento-de-outliers-y-duplicados)
5. [Normalización y Escalado de Datos](#paso-3-normalización-y-escalado-de-datos)
6. [Transformación de Variables](#paso-4-transformación-de-variables)
7. [Exportación del DataFrame](#paso-5-exportación-del-dataframe)

---
> # Librerias Utilizadas

In [82]:
# Manipulación de DataFrames
import pandas as pd

# Funciones matemáticas
import numpy as np

---
> # Introducción

- ***encounter_id*** : Identificador único de un encuentro.

- ***patient_nbr*** : Identificador único de un paciente.

- ***race*** : Valores [caucásicos, asiáticos, afroamericanos, hispanos, otros].

- ***gender*** : Valores [hombre, mujer, desconocido/inválido].

- ***age*** : Grupo en intervalos de 10 años [0, 10), [10, 20) , ... , [90, 100).

- ***weight*** : Peso en Libras.

- ***admission_type_id*** : Identificador entero correspondiente a 8 valores distintos:
        
        1 = Emergency.
        2 = Urgent.
        3 = Elective.
        4 = Newborn.
        5 = Not Available.
        6 = NULL.
        7 = Trauma Center.
        8 = Not Mapped.
- ***discharge_disposition_id*** : Icono entero correspondiente a 29 valores distintos:
        
        1 = Discharged to home.
        2 = Discharged/transferred to another short term hospital.
        3 = Discharged/transferred to SNF.
        4 = Discharged/transferred to ICF.
        5 = Discharged/transferred to another type of inpatient care institution.
        6 = Discharged/transferred to home with home health service.
        7 = Left AMA.
        8 = Discharged/transferred to home under care of Home IV provider.
        9 = Admitted as an inpatient to this hospital.
        10 = Neonate discharged to another hospital for neonatal aftercare.
        11 = Expired.
        12 = Still patient or expected to return for outpatient services.
        13 = Hospice / home.
        14 = Hospice / medical facility.
        15 = Discharged/transferred within this institution to Medicare approved swing bed.
        16 = Discharged/transferred/referred another institution for outpatient services.
        17 = Discharged/transferred/referred to this institution for outpatient services.
        18 = NULL.
        19 = "Expired at home. Medicaid only, hospice".
        20 = "Expired in a medical facility. Medicaid only, hospice".
        21 = "Expired, place unknown. Medicaid only, hospice".
        22 = Discharged/transferred to another rehab fac including rehab units of a hospital.
        23 = Discharged/transferred to a long term care hospital.
        24 = Discharged/transferred to a nursing facility certified under Medicaid but not certified under Medicare.
        25 = Not Mapped.
        26 = Unknown/Invalid.
        27 = Discharged/transferred to a federal health care facility.
        28 = Discharged/transferred/referred to a psychiatric hospital of psychiatric distinct part unit of a hospital.
        29 = Discharged/transferred to a Critical Access Hospital (CAH).
- ***admission_source_id*** : Icono del título entero correspondiente a 26 valores distintos:
    
        1 = Physician Referral.
        2 = Clinic Referral.
        3 = HMO Referral.
        4 = Transfer from a hospital.
        5 = Transfer from a Skilled Nursing Facility (SNF).
        6 = Transfer from another health care facility.
        7 = Emergency Room.
        8 = Court/Law Enforcement.
        9 = Not Available.
        10 = Transfer from critial access hospital.
        11 = Normal Delivery.
        12 = Premature Delivery.
        13 = Sick Baby.
        14 = Extramural Birth.
        15 = Not Available.
        17 = NULL.
        18 = Transfer From Another Home Health Agency.
        19 = Readmission to Same Home Health Agency.
        20 = Not Mapped.
        21 = Unknown/Invalid.
        22 = Transfer from hospital inpt/same fac reslt in a sep claim.
        23 = Born inside this hospital.
        24 = Born outside this hospital.
        25 = Transfer from Ambulatory Surgery Center.
        26 = Transfer from Hospice.

- ***time_in_hospital*** : Número entero de días entre admisión y alta.

- ***payer_code*** : Identificador entero correspondiente a 23 valores distintos, por ejemplo ['Blue Cross/Blue Shield', 'Medicare', 'self-pay', ...].

- ***medical_specialty*** : Identificador entero de una especialidad del médico admito, correspondiente a 84 valores distintos, por ejemplo ['cardiology', 'internal medicine', 'family/general practice', 'surgeon', ...].

- ***num_lab_procedures*** : Número de pruebas de laboratorio realizadas durante el encuentro.

- ***num_procedures*** : Número de procedimientos (distintos de las pruebas de laboratorio) realizados durante el encuentro.

- ***num_medications*** : Número de nombres genéricos distintos administrados durante el encuentro.

- ***number_outpatient*** : Número de visitas ambulatorias del paciente en el año anterior al encuentro.

- ***number_emergency*** : Número de visitas de emergencia del paciente en el año anterior al encuentro.

- ***number_inpatient*** : Número de visitas hospitalarias del paciente en el año anterior al encuentro.

- ***diag_1*** : El diagnóstico primario (codificado como los primeros tres dígitos de DAI9); 848 valores distintos.

- ***diag_2*** : Diagnóstico secundario (codificado como los tres primeros dígitos de DAI9); 923 valores distintos.

- ***diag_3*** : Diagnóstico secundario adicional (codificado como los tres primeros dígitos de DAI9); 954 valores distintos.

- ***number_diagnoses*** : Número de diagnósticos introducidos en el sistema.

- ***max_glu_serum*** : Indica el rango del resultado o si no se realizó el ensayo. Valores ['>200', '>300' , 'normal', 'none' if not measured].

- ***A1Cresult*** : Indica el rango del resultado o si no se realizó el ensayo. Valores ['>8' si el resultado fue superior al 8%, '>7' si el resultado fue superior al 7% pero inferior al 8%, 'normal' si el resultado fue inferior al 7%, 'none' si no se midió].

- ***metformin*** : La función indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***repaglinide*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***nateglinide*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***chlorpropamide*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***glimepiride*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***acetohexamide*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***glipizide*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***glyburide*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***tolbutamide*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***pioglitazone*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***rosiglitazone*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***acarbose*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***miglitol*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***troglitazone*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***tolazamide*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***examide*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***citoglipton*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***insulin*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***glyburide-metformin*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***glipizide-metformin*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***glimepiride-pioglitazone*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***metformin-rosiglitazone*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***metformin-pioglitazone*** : Indica si el fármaco fue recetado o hubo un cambio en la dosis. Valores ['up' si la dosis se incrementó durante el encuentro, 'down' si la dosis se disminuía, 'steady' si la dosis no cambiaba, 'no' si el medicamento no se le había recetado].

- ***change*** : Indica si hubo un cambio en los medicamentos diabéticos (o dosis o nombre genérico). Valores ['change', 'no change'].

- ***diabetesMed*** : Indica si se le recetó algún medicamento diabético. Valores ['yes', 'no'].

- ***readmitted*** : Días para la readmisión hospitalaria. Valores ['<30' si el paciente fue readmitido en menos de 30 días, '>30 dias' si el paciente fue readmitido en más de 30 días, 'No' ningún registro de readmisión].

---
> # Paso 1: Identificación de Valores Faltantes

In [83]:
# Se almacena la dirección donde se encuentra el dataset en una variable.
# La dirección apunta la misma carpeta, para que al cambiar la ubicación de la carpeta no hay que actualizar la dirección.

data_location = r"FuentesDeDatos_Diabetes/diabetic_data_v2.csv"

# Luego se lee y guarda el dataset en un DataFrame utilizando Pandas.

df = pd.read_csv(data_location, delimiter=',')

In [84]:
df.isnull().sum()

encounter_id                    0
patient_nbr                     0
race                            0
gender                          0
age                             0
weight                          0
admission_type_id               0
discharge_disposition_id        0
admission_source_id             0
time_in_hospital                0
payer_code                      0
medical_specialty               0
num_lab_procedures              0
num_procedures                  0
num_medications                 0
number_outpatient               0
number_emergency                0
number_inpatient                0
diag_1                          0
diag_2                          0
diag_3                          0
number_diagnoses                0
max_glu_serum               96420
A1Cresult                   84748
metformin                       0
repaglinide                     0
nateglinide                     0
chlorpropamide                  0
glimepiride                     0
acetohexamide 

In [85]:
conteo_none = (df == "none").sum()

conteo_none

encounter_id                    0
patient_nbr                     0
race                         2273
gender                          0
age                             0
weight                      98569
admission_type_id               0
discharge_disposition_id        0
admission_source_id             0
time_in_hospital                0
payer_code                  40256
medical_specialty           49949
num_lab_procedures              0
num_procedures                  0
num_medications                 0
number_outpatient               0
number_emergency                0
number_inpatient                0
diag_1                         21
diag_2                        358
diag_3                       1423
number_diagnoses                0
max_glu_serum                   0
A1Cresult                       0
metformin                       0
repaglinide                     0
nateglinide                     0
chlorpropamide                  0
glimepiride                     0
acetohexamide 

> #### Observaciones:

- Hay que tener en cuenta que en la etapa anterior se modificaron los valores con caracter **'?'** de la columna **'weight'**. Al ser más del 80%, se va descartar y eliminar la columna **'weight?**.
- Lo mismo para la columna **'gender¿**, habia 3 registros que tenian valor **invalid/unknown**.

- Se observa que muchas de las columnas tienen valores **"none"**. Se transformaran a **"NaN"** y luego se les imputara con la técnica de **Imputación Hot Deck**.

- Como se menciono en la etapa anterior, **'maxgluserum'** y **'A1Cresult'** tienen mas del 80% de valores nulos. A pesar de ello, son variables muy importantes para el analisis de la diabetes. Por lo tanto, se deciden conservar. En caso de analizar, se trabajará con los registros no nulos de esas columnas, de manera aislada, para analizar su influencia en la readmision. Tampoco se va a imputar la media para no distorsionar los resultados.

&nbsp;
___

> ### Eliminacion de columnas

In [86]:
df.drop(columns=['weight', 'gender'], inplace=True)

df.head()

Unnamed: 0,encounter_id,patient_nbr,race,age,admission_type_id,discharge_disposition_id,admission_source_id,time_in_hospital,payer_code,medical_specialty,...,citoglipton,insulin,glyburide-metformin,glipizide-metformin,glimepiride-pioglitazone,metformin-rosiglitazone,metformin-pioglitazone,change,diabetesMed,readmitted
0,2278392,8222157,Caucasian,[0-10),6,25,1,1,none,Pediatrics-Endocrinology,...,No,No,No,No,No,No,No,No,No,NO
1,149190,55629189,Caucasian,[10-20),1,1,7,3,none,none,...,No,Up,No,No,No,No,No,Ch,Yes,>30
2,64410,86047875,AfricanAmerican,[20-30),1,1,7,2,none,none,...,No,No,No,No,No,No,No,No,Yes,NO
3,500364,82442376,Caucasian,[30-40),1,1,7,2,none,none,...,No,Up,No,No,No,No,No,Ch,Yes,NO
4,16680,42519267,Caucasian,[40-50),1,1,7,1,none,none,...,No,Steady,No,No,No,No,No,Ch,Yes,NO


&nbsp;
___

> ### Reemplazo de registros **"none"** a **NaN**

In [87]:
df.replace("none", np.nan, inplace=True)

In [88]:
df.isna().sum()

encounter_id                    0
patient_nbr                     0
race                         2273
age                             0
admission_type_id               0
discharge_disposition_id        0
admission_source_id             0
time_in_hospital                0
payer_code                  40256
medical_specialty           49949
num_lab_procedures              0
num_procedures                  0
num_medications                 0
number_outpatient               0
number_emergency                0
number_inpatient                0
diag_1                         21
diag_2                        358
diag_3                       1423
number_diagnoses                0
max_glu_serum               96420
A1Cresult                   84748
metformin                       0
repaglinide                     0
nateglinide                     0
chlorpropamide                  0
glimepiride                     0
acetohexamide                   0
glipizide                       0
glyburide     

&nbsp;
___

> ### Imputación **HotDeck**

#### Columnas a imputar:

- 'race'
- 'payer_code'
- 'medical_specialty'
- 'diag_1'
- 'diag_2'
- 'diag_3'

In [89]:
columnas_imputacion = ['race', 'payer_code', 'medical_specialty', 'diag_1', 'diag_2', 'diag_3']

In [90]:
def imputacion_hotDeck(df, columnas):
    
    for col in columnas:
        # valores no nulos de la columna
        non_na_values = df[col].dropna().values
        # máscara de NaN
        mask = df[col].isna()
        # asignar aleatoriamente valores de los no nulos
        df.loc[mask, col] = np.random.choice(non_na_values, size=mask.sum(), replace=True)

In [91]:
imputacion_hotDeck(df, columnas=columnas_imputacion)

In [92]:
conteo_na = df.isna().sum()

conteo_na

encounter_id                    0
patient_nbr                     0
race                            0
age                             0
admission_type_id               0
discharge_disposition_id        0
admission_source_id             0
time_in_hospital                0
payer_code                      0
medical_specialty               0
num_lab_procedures              0
num_procedures                  0
num_medications                 0
number_outpatient               0
number_emergency                0
number_inpatient                0
diag_1                          0
diag_2                          0
diag_3                          0
number_diagnoses                0
max_glu_serum               96420
A1Cresult                   84748
metformin                       0
repaglinide                     0
nateglinide                     0
chlorpropamide                  0
glimepiride                     0
acetohexamide                   0
glipizide                       0
glyburide     

> #### Observaciones:

- Ahora el DataFrame cuenta con menos columnas, y se completaron los datos faltantes. Esto facilitará al análisis de los datos.

&nbsp;

---
> # Paso 2: Detección y Tratamiento de Outliers y Duplicados

> ### Duplicados

In [93]:
df.duplicated().sum()

np.int64(0)

In [94]:
df['encounter_id'].duplicated().sum()

np.int64(0)

In [95]:
df['patient_nbr'].duplicated().sum()

np.int64(30248)

> #### Observaciones:
- Tanto el método general **"df.duplicated().sum()"** y **"duplicated()"** sobre la columna **'encounter_id'** devuelven 0 duplicados. Esto indica que el DataSet no cuenta con registro duplicados.
- A pesar de que la columna **'patient_nbr'** cuenta con duplicados en los identificadores de los pacientes; esto se debe a que hay varios pacientes que tienen registrada mas de una consulta. No se eliminan.

&nbsp;

> ### Outliers

In [96]:
variables_numericas = ['time_in_hospital', 'num_lab_procedures', 'num_procedures','num_medications', 'number_inpatient']

In [97]:
# ===========================================
# Cantidad de Outliers por variable numerica
# ===========================================

lista_cuartilesOutliers = []

# Para cada variable:
for i in variables_numericas:
    # Se calculan los cuartiles (Q1, Q2 y Q3).
    # "np.percentile(df[i], %) devuelve los percentiles por cada porcentaje (Equivale a los cuartiles)".
    Q1 = np.percentile(df[i], 25)
    Q2 = np.percentile(df[i], 50)
    Q3 = np.percentile(df[i], 75)

    # Se calcula el IQR (Rango Intercuartilico).
    IQR = Q3 - Q1
    
    # Para obtener los outliers se calculan los valores de los bigotes (Whiskers).
    # Luego se evalua si los valores de cada variable son menores o mayores a los bigotes.
    # Almaceno los resultados en un nuevo dataframe denominado 'outliers'.
    outliers = df[(df[i] < (Q1 - 1.5 * IQR)) | (df[i] > (Q3 + 1.5 * IQR))]
    
    # Se cuenta la cantidad de outliers
    num_outliers = len(outliers)

    # Se guardan los resultados en una lista como fila para cada variable.
    lista_cuartilesOutliers.append([i, Q1, Q2, Q3, IQR, num_outliers])

# Se transforma "lista_cuartilesOutliers" a un DataFrame para visualizarlo mejor.
df_resumen = pd.DataFrame(lista_cuartilesOutliers, columns=['Variable', 'Q1', 'Mediana (Q2)', 'Q3', 'IQR', 'Cantidad de Outliers'])

# Se muestra el DataFrame.
df_resumen

Unnamed: 0,Variable,Q1,Mediana (Q2),Q3,IQR,Cantidad de Outliers
0,time_in_hospital,2.0,4.0,6.0,4.0,2252
1,num_lab_procedures,31.0,44.0,57.0,26.0,143
2,num_procedures,0.0,1.0,2.0,2.0,4954
3,num_medications,10.0,15.0,20.0,10.0,2557
4,number_inpatient,0.0,0.0,1.0,1.0,7049


> #### Observaciones:

- La mayoria de los outliers corresponden a la variable **'num_inpatient'**.
- La variable con mayor **Rango Intercuartílico** es la que tiene menos outliers.
- Como en todos los casos los outliers son valores posibles, se deciden conservarlos. Inclusive permiten identificar casos extremos en los pacientes.

&nbsp;

---
> # Paso 3: Normalización y Escalado de Datos

In [98]:
# ===================================================
# Grupos de edades transformados a valroes numericos
# ===================================================

# Se transofma la varialbe 'age' a promedio de los rangos de edad (Ejemplo: [10-20) ---> 5 ).
diccionario = {
    '[0-10)' : 5,
    '[10-20)' : 15,
    '[20-30)' : 25, 
    '[30-40)' : 35, 
    '[40-50)' : 45, 
    '[50-60)' : 55,
    '[60-70)' : 65, 
    '[70-80)' : 75,
    '[80-90)' : 85,
    '[90-100)' : 95
}

df['age'] = df['age'].map(diccionario).astype(int)

df.head()

Unnamed: 0,encounter_id,patient_nbr,race,age,admission_type_id,discharge_disposition_id,admission_source_id,time_in_hospital,payer_code,medical_specialty,...,citoglipton,insulin,glyburide-metformin,glipizide-metformin,glimepiride-pioglitazone,metformin-rosiglitazone,metformin-pioglitazone,change,diabetesMed,readmitted
0,2278392,8222157,Caucasian,5,6,25,1,1,PO,Pediatrics-Endocrinology,...,No,No,No,No,No,No,No,No,No,NO
1,149190,55629189,Caucasian,15,1,1,7,3,MC,Emergency/Trauma,...,No,Up,No,No,No,No,No,Ch,Yes,>30
2,64410,86047875,AfricanAmerican,25,1,1,7,2,MC,InternalMedicine,...,No,No,No,No,No,No,No,No,Yes,NO
3,500364,82442376,Caucasian,35,1,1,7,2,MC,InternalMedicine,...,No,Up,No,No,No,No,No,Ch,Yes,NO
4,16680,42519267,Caucasian,45,1,1,7,1,MC,InternalMedicine,...,No,Steady,No,No,No,No,No,Ch,Yes,NO


> #### Observaciones:

- Ahora se observa la columna de **'age'** con el promedio del rango de edad.

&nbsp;

In [99]:
# Códigos de diagnosticos ICD9:
# Link: http://www.icd9cm.chrisendres.com/index.php?action=child&recordid=1882

def estandarizarDiagnosticos_ICD9(code):
    if pd.isna(code):
        return np.nan
    code = str(code).strip()
    if code == "" or code[0].upper() in ["V","E"]:
        return "Other"
    # tomar lo que está antes del punto
    base = code.split('.')[0]
    return "Diabetes" if base == "250" else "Other"

columnas = ['diag_1', 'diag_2', 'diag_3']

for col in columnas:
    nueva_columna = col + '_group'
    df[nueva_columna] = df[col].apply(estandarizarDiagnosticos_ICD9)

In [100]:
df.head()

Unnamed: 0,encounter_id,patient_nbr,race,age,admission_type_id,discharge_disposition_id,admission_source_id,time_in_hospital,payer_code,medical_specialty,...,glipizide-metformin,glimepiride-pioglitazone,metformin-rosiglitazone,metformin-pioglitazone,change,diabetesMed,readmitted,diag_1_group,diag_2_group,diag_3_group
0,2278392,8222157,Caucasian,5,6,25,1,1,PO,Pediatrics-Endocrinology,...,No,No,No,No,No,No,NO,Diabetes,Other,Other
1,149190,55629189,Caucasian,15,1,1,7,3,MC,Emergency/Trauma,...,No,No,No,No,Ch,Yes,>30,Other,Diabetes,Other
2,64410,86047875,AfricanAmerican,25,1,1,7,2,MC,InternalMedicine,...,No,No,No,No,No,Yes,NO,Other,Diabetes,Other
3,500364,82442376,Caucasian,35,1,1,7,2,MC,InternalMedicine,...,No,No,No,No,Ch,Yes,NO,Other,Diabetes,Other
4,16680,42519267,Caucasian,45,1,1,7,1,MC,InternalMedicine,...,No,No,No,No,Ch,Yes,NO,Other,Other,Diabetes


> #### Observaciones:
- Todos los codigos dentro de las columnas **'diag_1'**, **'diag_2'** y **'diag_3'** se les crea una nueva columna indicando si su código pertencia a **"Diabetes"**.
- Cualquier otro código que no pertenezca a diabetes, se menciona como **"Other"**

&nbsp;

---
> # Paso 4: Transformación de Variables

> #### Indice de salud:

Si la frecuencia de visitas al hospital de unn paciente es alta, se puede llegar a pensar que la persona no es sana y puede tener una tendencia readmitir. Para medir esto se crea el **"Indice de salud"**. Un **valor alto** o cercano a 1 indica que la persona tiene **menor tendencia a readmitir**. En cambio, un **valor bajo** o cercano a cero indica una **mayor tendencia a readmitir**.

Esto se logra al dividir 1 por la suma de la cantidad de:
- **'number_emergency'** (Número de visitas hospitalarias del paciente en el año anterior al encuentro).
- **'number_inpatient'** (Número de visitas hospitalarias del paciente en el año anterior al encuentro).
- **'numer_outpatient'** (Número de visitas ambulatorias del paciente en el año anterior al encuentro).

In [101]:
df['health_index'] = 1 / (df['number_emergency'] + df['number_inpatient'] + df['number_outpatient'])

# "np.inf" y "-np.inf" permite manejar la division por cero (infinito), reemplazando tales casos por "NaN".
df['health_index'] = df['health_index'].replace([np.inf, -np.inf], np.nan)

In [102]:
df[['health_index']]

Unnamed: 0,health_index
0,
1,
2,0.333333
3,
4,
...,...
101761,
101762,1.000000
101763,1.000000
101764,1.000000


> #### Observaciones:
- Se crea una nueva columna / variable, la cual corresponde al **Indice de salud"**.

&nbsp;

> #### Severidad de la enfermedad:

Si un paciente pasa varios dias en el hospital, consume una alta cantidad de medicaciones, se realiza muchos procedimientos y diagnosticos, se puede inferir que el paciente presenta un grado de enfermedad severo. Para medir esto se crea la variable **"Severidad de la enfermedad"**. Un alto valor del mismo indica que el paciente tiene un caudro clínico muy complejo, como tambien una forma de medir un mayor costo para el hospital.

Esto se logra al sumar la cantidad de las variables:
- **'time_in_hospital'** (Número entero de días entre admisión y alta).
- **'num_procedures'** (Número de procedimientos (distintos de las pruebas de laboratorio) realizados durante el encuentro).
- **'num_lab_procedures'** (Número de pruebas de laboratorio realizadas durante el encuentro).
- **'num_medications'** (Número de nombres genéricos distintos administrados durante el encuentro).
- **'number_diagnoses'** (Número de diagnósticos introducidos en el sistema).

In [103]:
# Severity of Disease: suma de factores que indican severidad
df['severity_of_disease'] = (
    df['time_in_hospital'] +
    df['num_procedures'] +
    df['num_lab_procedures'] +
    df['num_medications'] +
    df['number_diagnoses']
)

In [104]:
df[['severity_of_disease']].head()

Unnamed: 0,severity_of_disease
0,44
1,89
2,37
3,70
4,65


> #### Observaciones:
- Se crea una nueva columna / variable, la cual corresponde a la **"Severidad de la enfermedad"**.

&nbsp;

---
> # Paso 5: Exportación del DataFrame

Se guardan los datos procesados para la siguiente etapa

In [105]:
df_clean = df.copy()
df_clean.to_csv('FuentesDeDatos_Diabetes/diabetic_clean.csv', index=False)