### Descripción

link

keyboard_arrow_up

### Contexto de negocios.

Una empresa aseguradora en salud está presentando altos costos dados por complicaciones de pacientes que anteriormente habían sido marcados con ciertas enfermedades, cuya complicación puede aumentar tanto el costo, como la preocupación del paciente. Una de las enfermedades que han decidido estudiar estratégicamente es el Cáncer de Mamá. Dado esto, la empresa requiere mantener un control de estos pacientes, haciendo demanda inducida, seguimiento periódico, adopción de estrategias médicas, entre otras, que permitan evitar que se llegue a alguna complicación. Es necesario priorizar estos pacientes tratando de predecir quiénes llegarán a presentar alguna complicación en los siguientes 6 meses.

### Problema de negocios

La empresa ha decidido contratarlos para que construyan un modelo predictivo que permita estimar la probabilidad de que un paciente diagnosticado con Cáncer de Mama presente una complicación en los próximos 6 meses.

### Contexto analítico

Se espera que entrene diferentes familias de modelos predictivos de clasificación (ver sección siguiente), precedidos por diferentes procesos de transformación (normalizaciones, imputación, ingeniería de características, dummificación, selección de características).

La evaluación de la calidad de los flujos de modelos predictivos se debe estimar utilizando la métrica de F1-Score.

Expliquen sus ideas, el por qué realiza las acciones, y comenten los resultados obtenidos; Se espera mucho más que unos bloques de código.  
La toma de decisiones sobre los datos se debe hacer considerando el contexto del problema y de los datos, no se puede ver todo solamente desde los ojos de los datos, sino también considerar el negocio.  
Un Científico de Datos debe poder comunicar los puntos importantes de su trabajo en un lenguaje universal para todos los públicos.  
Todo esto se considera en la nota.

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, f1_score, confusion_matrix
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer

import matplotlib.pyplot as plt



In [2]:
#cargamos el dataset que esta en formato .parquet

df = pd.read_parquet('Data/df_train.parquet')
#mostramos las primeras filas del dataset
print(df.head())
#mostramos las columnas del dataset
print(df.columns)
#mostramos la forma del dataset
print(df.shape)
#mostramos los tipos de datos del dataset
print(df.dtypes)

     GENERO ESTADO_CIVIL FECHA_NACIMIENTO CODIGO_SEDE MULTI_CANCER CESION  \
ID                                                                          
2987      F           SO       1977-01-17        1051         None      0   
3423      F           CA       1980-10-13        1028         None      0   
6981      F           SO       1951-10-28        1022         None      0   
6701      F           SO       1984-03-31        1026         None      0   
7361      F           UL       1974-03-28        1007         None      0   

      RIESGOS CANCER_MAMA_FAMILIAR CANCER_OTRO_SITIO  \
ID                                                     
2987      2.0                    0                 0   
3423      1.0                    0                 0   
6981      3.0                    0                 0   
6701      1.0                    0                 0   
7361      1.0                    0                 0   

     CANCER_OTRO_SITIO_FAMILIAR  ... radioterapias_cancer  \
ID    