# Modelo Final
<hr>

Importar las librerias y herramientas necesarias

In [1]:
import pandas as pd
import numpy as np 
import matplotlib
import matplotlib.pyplot as plt
from sklearn import preprocessing
from sklearn import metrics
%matplotlib inline 

Importamos los datos

In [34]:
df = pd.read_pickle("data/data.pkl")

- Obtenemos información sobre las columnas existentes en el DataFrame

In [3]:
df.dtypes

departamento                category
municipio                   category
semana                      category
año                         category
grupo_edad                  category
ciclo_de_vida               category
sexo                        category
area                        category
comuna                      category
tipo_de_seguridad_social    category
paciente_hospitalizado      category
condicion_final             category
naturaleza                  category
actividad                   category
edad_agre                      int32
sexo_agre                   category
parentezco_vict             category
sustancias_victima          category
escenario                   category
nom_eve                     category
nom_upgd                    category
mes                         category
sivigila                    category
trimestre                   category
dtype: object

- A continuación se definen la variable objetivo y las variables independientes
- Se definen las columnas numéricas y no numéricas
- Se definen las columnas ordinales y categoricas

In [4]:
variable_objetivo = 'naturaleza'
variables_independientes = df.drop(variable_objetivo,axis=1).columns

datos_numericos = df[variables_independientes].select_dtypes([int, float])
col_no_numericas = df[variables_independientes].select_dtypes(include=['category']).columns
col_numericas = datos_numericos.columns

dict_var_ordinales = {
    'grupo_edad': ['0 a 6', '12 a 17', '18 a 28', '29 a 59', '60 y mas', '7  a 11'],
    'ciclo_de_vida':['Primera infancia', 'Infancia', 'Jovenes','Adolescencia','Adultez','Persona Mayor'],
}

col_ordinales = list(dict_var_ordinales.keys())
datos_ordinales = df[col_ordinales]
col_categoricas = list(set(col_no_numericas) - set(col_ordinales))
datos_categoricos = df[col_categoricas]

Se importan las librerias necesarias para la creacion del pipeline

In [5]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OrdinalEncoder
from sklearn.pipeline import Pipeline
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.impute import SimpleImputer

Se mappean los valores de grupo_edad y ciclo_de_vida y se crea el pipeline_ordinal y posteriormente el pipeline_procesado con las variables categoricas, el pipeline_ordinal y las columnas ordinales

In [6]:
mapping = [{'col': 'grupo_edad', 'mapping': {'0 a 6': 0,'7  a 11':1 ,'12 a 17': 2, '18 a 28': 3,'29 a 59':4,'60 y mas':5}},    {'col': 'ciclo_de_vida', 'mapping': {'Primera infancia': 0,  'Infancia': 1, 'Jovenes':2 ,'Adolescencia':3,'Adultez':4, 'Persona Mayor':5 }}]
from category_encoders import OrdinalEncoder
import category_encoders
encoder = OrdinalEncoder(mapping=mapping)

pipeline_ordinal = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('transformador_ordinal', category_encoders.ordinal.OrdinalEncoder(mapping=mapping))
])

pipeline_procesado = ColumnTransformer(
                   [('onehot', OneHotEncoder(handle_unknown='ignore', sparse_output=False), col_categoricas),
                    ('ordinal', pipeline_ordinal, col_ordinales)
                   ],
                remainder = 'passthrough',
                verbose_feature_names_out = False
               ).set_output(transform="pandas")

Se establecen los datos de entrenamiento y de prueba para los modelos

In [7]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df.drop(variable_objetivo, axis=1), df[variable_objetivo], test_size=0.2, random_state=42)

In [8]:
X_train_prep = pipeline_procesado.fit_transform(X_train)
X_test_prep  = pipeline_procesado.transform(X_train)

In [9]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import StratifiedKFold
from sklearn.base import clone

### Se define la funcion `evaluar_modelo`, que se encarga de evaluar los diferentes modelos a partir de las metricas obtenidas

In [10]:
def evaluar_modelo(clases_reales, predicciones, probabilidades):
    exactitudes = []
    precisiones = []
    sensibilidades = []
    f1_scores = []
    
    # Create StratifiedKFold object with a fixed random_state
    skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
    
    # Perform cross-validation
    for train_index, test_index in skf.split(X_train, y_train):
        # Create a copy of the pipeline estimator
        pipeline_estimador_copy = clone(pipeline_estimador)
        
        # Split the data into train and test sets based on the indices
        X_train_fold, X_test_fold = X_train.iloc[train_index], X_train.iloc[test_index]
        y_train_fold, y_test_fold = y_train.iloc[train_index], y_train.iloc[test_index]
        
        # Train the model on the current fold
        pipeline_estimador_copy.fit(X_train_fold, y_train_fold)
        
        # Get predictions in the test set of the current fold
        predicciones_fold = pipeline_estimador_copy.predict(X_test_fold)
        probabilidades_fold = pipeline_estimador_copy.predict_proba(X_test_fold)
        
        # Calculate metrics on the current fold
        exactitud = metrics.accuracy_score(y_test_fold, predicciones_fold)
        precision = metrics.precision_score(y_test_fold, predicciones_fold, average='macro', zero_division=0)
        sensibilidad = metrics.recall_score(y_test_fold, predicciones_fold, average='macro', zero_division=0)
        f1 = metrics.f1_score(y_test_fold, predicciones_fold, average='macro', zero_division=0)
        
        # Store metrics of the current fold
        exactitudes.append(exactitud)
        precisiones.append(precision)
        sensibilidades.append(sensibilidad)
        f1_scores.append(f1)
    
    # Calculate averaged metrics
    exactitud_promedio = np.mean(exactitudes)
    precision_promedio = np.mean(precisiones)
    sensibilidad_promedio = np.mean(sensibilidades)
    f1_promedio = np.mean(f1_scores)
    
    # Print averaged metrics
    print("""
    Exactitud promedio: {:.3f}
    Precisión promedio: {:.3f}
    Sensibilidad promedio: {:.3f}
    Puntuación F1 promedio: {:.3f}
    """.format(
        exactitud_promedio, 
        precision_promedio,
        sensibilidad_promedio,
        f1_promedio
    ))

## Creación del Pipeline con el modelo elegido

<hr>

El modelo elegido fue XGBoost, a continuación se crea un pipeline que utiliza este modelo como estimador y además se configura el modelo con los mejores hiperparámetros encontrados previamente

In [11]:
import xgboost as xgb

In [12]:
pipeline_estimador = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("estimador", xgb.XGBClassifier(
        objective= 'multi:softmax',  
        num_class = 3,
        importance_type='gain',
        learning_rate=0.02598871856723336, 
        max_depth=5, 
        colsample_bytree=0.7995956811280615, 
        n_estimators=801, 
        reg_alpha=0.0003846344365287301, 
        reg_lambda=0.16055023352269962, 
        min_child_weight=2, 
        gamma=6.227977417426079e-08, 
        subsample=0.5855520974928337,
        colsample_bylevel=0.5088157757755716 
    ))
]) 

In [13]:
pipeline_estimador.fit(X_train, 
                       y_train)

In [14]:
predicciones =  pipeline_estimador.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =pipeline_estimador.predict_proba(X_test)

In [15]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)


    Exactitud promedio: 0.858
    Precisión promedio: 0.848
    Sensibilidad promedio: 0.847
    Puntuación F1 promedio: 0.847
    


In [16]:
from sklearn.metrics import accuracy_score
train_accuracy = accuracy_score(y_train, pipeline_estimador.predict(X_train))
test_accuracy = accuracy_score(y_test, pipeline_estimador.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy) 

Accuracy en datos de entrenamiento: 0.9067431850789096
Accuracy en datos de prueba: 0.8512797881729921


### Guardar el pipeline

<hr>

Utilizando la biblioteca `joblib` guardamos en un archivo binario el pipeline estimador que lleva el nombre de `pipeline.pkl`

In [17]:
import joblib

In [18]:
joblib.dump(pipeline_estimador, 'pipeline.pkl') 

['pipeline.pkl']

Con la función `joblib.load()` se carga el objeto que se guardó a partir del archivo binario denominado `pipeline.pkl`

In [19]:
clf = joblib.load('pipeline.pkl')

Finalmente se utiliza el modelo realizando predicciones sobre el head del DataFrame

In [20]:
clf.predict(df.head())

array([2, 0, 2, 0, 1])

Tambien se guardan los nombres de las columnas del DataFrame en un archivo JSON llamado `columnas_df.json` y se guardan los tipos de datos de las columnas en un archivo pkl llamado `dtypes_df.pkl`

In [21]:
import json
with open('columnas_df.json', 'w') as fname:
    df_columnas = df.columns.tolist()
    json.dump(df_columnas, fname)

In [22]:
df_dtypes = df.dtypes
df_dtypes = {col: df[col].dtype for col in df.columns}
joblib.dump(df_dtypes, 'dtypes_df.pkl')

['dtypes_df.pkl']

## Probamos el estimador guardado

- Obtenemos una observacion

In [23]:
nueva_observacion = df.to_dict(orient="records")[0]
nueva_observacion

{'departamento': 'SANTANDER',
 'municipio': 'BUCARAMANGA',
 'semana': '23',
 'año': '2015',
 'grupo_edad': '12 a 17',
 'ciclo_de_vida': 'Adolescencia',
 'sexo': 'Masculino',
 'area': 'CABECERA MUNICIPAL',
 'comuna': '02. NORORIENTAL',
 'tipo_de_seguridad_social': 'No asegurado',
 'paciente_hospitalizado': '2',
 'condicion_final': '1',
 'naturaleza': 2,
 'actividad': '26',
 'edad_agre': 33,
 'sexo_agre': 'M',
 'parentezco_vict': 'Padre',
 'sustancias_victima': '2',
 'escenario': '1',
 'nom_eve': 'VIGILANCIA EN SALUD PÚBLICA DE LAS VIOLENCIAS DE GÉNERO',
 'nom_upgd': 'SERVICLINICOS DROMEDICA SA',
 'mes': '06. Junio',
 'sivigila': '3',
 'trimestre': '2'}

In [24]:
obs ={'departamento': 'SANTANDER',
 'municipio': 'BUCARAMANGA',
 'semana': '23',
 'año': '2015',
 'grupo_edad': '12 a 17',
 'ciclo_de_vida': 'Adolescencia',
 'sexo': 'Masculino',
 'area': 'CABECERA MUNICIPAL',
 'comuna': '02. NORORIENTAL',
 'tipo_de_seguridad_social': 'No asegurado',
 'paciente_hospitalizado': '2',
 'condicion_final': '1',
 'naturaleza': '2',
 'actividad': '26',
 'edad_agre': 33,
 'sexo_agre': 'M',
 'parentezco_vict': 'Padre',
 'sustancias_victima': '2',
 'escenario': '1',
 'nom_eve': 'VIGILANCIA EN SALUD PÚBLICA DE LAS VIOLENCIAS DE GÉNERO',
 'nom_upgd': 'SERVICLINICOS DROMEDICA SA',
 'mes': '06. Junio',
 'sivigila': '3',
 'trimestre': '2'}

A través de está función se recibe el diccionario `obs`, se transforma en un DataFrame y se realiza la imputación de valores con la estrategía del valor más frecuente

In [25]:
def dict_a_df(obs, columnas, dtypes):
    obs_df = pd.DataFrame([obs])
    
    # Imputar los valores faltantes con la estrategia 'most_frequent'
    imputer = SimpleImputer(strategy='most_frequent')
    obs_df = pd.DataFrame(imputer.fit_transform(obs_df), columns=obs_df.columns)
    
    for col, dtype in dtypes.items():
        if col in obs_df.columns:
            obs_df[col] = obs_df[col].astype(dtype)
    
    return obs_df

obs_df = dict_a_df(obs, df_columnas, df_dtypes)
obs_df

Unnamed: 0,departamento,municipio,semana,año,grupo_edad,ciclo_de_vida,sexo,area,comuna,tipo_de_seguridad_social,...,edad_agre,sexo_agre,parentezco_vict,sustancias_victima,escenario,nom_eve,nom_upgd,mes,sivigila,trimestre
0,SANTANDER,BUCARAMANGA,23,2015,12 a 17,Adolescencia,Masculino,CABECERA MUNICIPAL,02. NORORIENTAL,No asegurado,...,33,M,Padre,2,1,VIGILANCIA EN SALUD PÚBLICA DE LAS VIOLENCIAS ...,SERVICLINICOS DROMEDICA SA,06. Junio,3,2


In [26]:
pd.options.display.max_columns=0
obs_df

Unnamed: 0,departamento,municipio,semana,año,grupo_edad,ciclo_de_vida,sexo,area,comuna,tipo_de_seguridad_social,paciente_hospitalizado,condicion_final,naturaleza,actividad,edad_agre,sexo_agre,parentezco_vict,sustancias_victima,escenario,nom_eve,nom_upgd,mes,sivigila,trimestre
0,SANTANDER,BUCARAMANGA,23,2015,12 a 17,Adolescencia,Masculino,CABECERA MUNICIPAL,02. NORORIENTAL,No asegurado,2,1,,26,33,M,Padre,2,1,VIGILANCIA EN SALUD PÚBLICA DE LAS VIOLENCIAS ...,SERVICLINICOS DROMEDICA SA,06. Junio,3,2


In [27]:
pipeline_estimador.predict(obs_df)

array([2])

In [28]:
valores_faltantes = obs_df.isna().sum()
print(valores_faltantes)

departamento                0
municipio                   0
semana                      0
año                         0
grupo_edad                  0
ciclo_de_vida               0
sexo                        0
area                        0
comuna                      0
tipo_de_seguridad_social    0
paciente_hospitalizado      0
condicion_final             0
naturaleza                  1
actividad                   0
edad_agre                   0
sexo_agre                   0
parentezco_vict             0
sustancias_victima          0
escenario                   0
nom_eve                     0
nom_upgd                    0
mes                         0
sivigila                    0
trimestre                   0
dtype: int64


In [29]:
fila_nan_naturaleza = obs_df.loc[obs_df['naturaleza'].isna()]
print(fila_nan_naturaleza)

  departamento    municipio semana  ...        mes sivigila trimestre
0    SANTANDER  BUCARAMANGA     23  ...  06. Junio        3         2

[1 rows x 24 columns]
