<img style="float: left; padding-right: 20px; width: 700px" src="https://www.businesscol.com/wp-content/uploads/2023/02/seguros-bolivar-logo.png">

**Seguros Bolivar**<br>
**Proyecto: Digital Factory - IA para potenciar el Ciclo de Desarrollo de Software**<br>
**Sección: 6. Soporte y monitoreo**<br>
**Notebook: Modelos de Detección de Anomalías para Validación de Datos de Pólizas**<br>
**Responsables:**<br>
                VLADIMIR EFREN RECALDE ACHINTE<br>
                MIGUEL ANGEL MORA MIRANDA<br>
                REINEL GAMBOA LOPEZ<br>
                EDILBERTO ELIAS CONTRERAS SIERRA<br>
                
# NOTEBOOK 2: MODELOS DE DETECCIÓN DE ANOMALÍAS PARA VALIDACIÓN DE DATOS DE PÓLIZAS

### **Introducción**

En este notebook se desarrolla un modelo para la **validación de pólizas** en el sistema de Seguros Bolívar. Este proyecto tiene como objetivo principal detectar de manera automática y eficiente posibles inconsistencias, errores o valores faltantes en los datos asociados a las pólizas.

El enfoque utilizado está basado en la biblioteca **PyCaret**, que permite experimentar con múltiples modelos de aprendizaje supervisado y no supervisado. La idea es evaluar los modelos más adecuados y seleccionar los mejores basados en su desempeño, con la posibilidad de ajustar hiperparámetros para obtener resultados óptimos.

### **Objetivos del Proyecto**
- **Validación de calidad de datos**: Identificar datos faltantes, inconsistencias o errores.
- **Optimización del proceso**: Reducir el tiempo manual de revisión de pólizas.
- **Automatización**: Diseñar un modelo que pueda ser implementado fácilmente en producción.

### **Plan de Trabajo**
1. **Exploración y Preprocesamiento**: Cargar, inspeccionar y limpiar los datos.
2. **Configuración de PyCaret**: Preparar el entorno para la experimentación.
3. **Comparación de Modelos**: Evaluar múltiples algoritmos utilizando métricas estandarizadas.
4. **Selección y Ajuste de Modelos**: Seleccionar los mejores modelos y ajustar sus parámetros.
5. **Evaluación Final**: Comparar los resultados y guardar el modelo final para producción.

## 1: Carga y Exploración Detallada de Datos

En este capítulo, realizaremos una **carga, exploración y análisis inicial** de los datos con el fin de identificar problemas en la estructura, valores faltantes y características relevantes para el análisis.

### 1.1 Carga de los datos

La primera etapa consiste en cargar los datos de entrenamiento y prueba desde archivos CSV. Estos datos contienen las características de las pólizas, como la prima pagada, la edad del cliente, el tipo de cobertura, entre otros.

**Acciones en esta sección:**
- Importar los datos.
- Visualizar las primeras filas para comprobar la estructura y el formato de los datos.

In [None]:
# Librerías necesarias
import pandas as pd
from intake.source.cache import display

In [None]:
# Cargar datasets
data_train = pd.read_csv('../../Data/Raw/polizas_train_data_AD.csv', sep=';', encoding='utf-8-sig')
data_test = pd.read_csv('../../Data/Raw/polizas_test_data_AD.csv', sep=';', encoding='utf-8-sig')

In [None]:
# Mostrar las primeras filas con DataFrame completo
print("\nPrimeras filas del dataset de entrenamiento:")
data_train.head(10)


Primeras filas del dataset de entrenamiento:


Unnamed: 0,Numero_Poliza,Prima,Cobertura,Edad_Cliente,Termino_Poliza,Historial_Reclamos,Fecha_Creacion,Estado_Poliza,Region,Genero_Cliente,Tipo_Vehiculo,Valor_Vehiculo,Kilometraje_Anual,Ingresos_Cliente,Dependientes,Riesgo,Fecha_Ultimo_Reclamo,Cobertura_Salud,Monto_Reclamos,Descuento
0,1.0,38079.47177,Estándar,30.0,10.0,1.0,10/12/2015,Cancelada,Sur,Otro,Moto,158164.7,11151.0,8284.394342,0.0,Bajo,5/08/2019,No,84822.29929,0.135293
1,2.0,95120.71633,Estándar,75.0,5.0,0.0,12/05/2021,Cancelada,Este,Masculino,Carro,11426.59,27822.0,7504.682004,2.0,Bajo,1/04/2010,Sí,23595.60925,0.153613
2,3.0,73467.40024,Premium,26.0,5.0,1.0,20/08/2023,Vencida,Norte,Femenino,Camión,145891.8,24549.0,3166.36778,1.0,Alto,29/08/2022,Sí,23433.58738,0.271692
3,4.0,60267.18994,Básica,64.0,5.0,4.0,4/02/2021,Cancelada,Este,Masculino,Camión,242551.5,46562.0,4701.210134,4.0,Bajo,26/03/2011,Sí,80488.35723,0.164234
4,5.0,16445.8454,Básica,41.0,1.0,3.0,16/01/2017,Vencida,Norte,Masculino,Carro,314660.7,44015.0,4536.725675,3.0,Medio,9/12/2014,Sí,8533.98802,0.107274
5,6.0,16443.45751,Estándar,79.0,10.0,3.0,22/08/2015,Vencida,Norte,Masculino,Carro,415881.2,34921.0,6200.867068,3.0,Medio,26/04/2023,No,14236.35809,0.205532
6,7.0,6750.277605,Estándar,20.0,5.0,0.0,3/08/2019,Vencida,Oeste,Masculino,Carro,4.999999999999999e+208,21223.0,6722.239123,2.0,Medio,30/04/2013,No,39482.64453,0.114554
7,8.0,86751.43843,Premium,46.0,5.0,2.0,6/09/2023,Cancelada,Sur,Femenino,Carro,450851.8,19796.0,8680.354675,0.0,Bajo,30/10/2023,No,97979.80099,0.217992
8,9.0,60510.38616,Estándar,22.0,1.0,2.0,29/08/2016,Vencida,Oeste,Masculino,Carro,443496.8,43838.0,8118.991034,0.0,Medio,13/07/2013,Sí,44717.58979,0.181459
9,10.0,71099.1852,Estándar,62.0,10.0,0.0,26/02/2017,Activa,Este,Femenino,Moto,149773.1,7502.0,4738.869032,4.0,Bajo,12/04/2016,Sí,90212.17846,0.252497


In [None]:
print("\nPrimeras filas del dataset de prueba:")
data_test.head(10)


Primeras filas del dataset de prueba:


Unnamed: 0,Numero_Poliza,Prima,Cobertura,Edad_Cliente,Termino_Poliza,Historial_Reclamos,Fecha_Creacion,Estado_Poliza,Region,Genero_Cliente,Tipo_Vehiculo,Valor_Vehiculo,Kilometraje_Anual,Ingresos_Cliente,Dependientes,Riesgo,Fecha_Ultimo_Reclamo,Cobertura_Salud,Monto_Reclamos,Descuento
0,1.0,38079.47177,Básica,33.0,1.0,4.0,4/08/2019,Activa,Oeste,Otro,Carro,347586.3967,17651.0,8936.184861,2.0,Alto,9/12/2013,Sí,64845.49719,0.224799
1,2.0,95120.71633,Básica,39.0,5.0,0.0,12/04/2016,Activa,Este,Femenino,Camión,108287.0104,30625.0,5780.675117,2.0,Alto,23/10/2012,Sí,58594.55119,0.172343
2,3.0,73467.40024,Premium,61.0,1.0,1.0,5/11/2022,Cancelada,Sur,Masculino,Camión,486089.8569,48747.0,8064.241028,2.0,Medio,11/05/2018,No,77779.24244,0.255449
3,4.0,60267.18994,Básica,29.0,1.0,3.0,6/04/2018,Cancelada,Este,Femenino,Moto,267278.8867,9459.0,8946.566003,4.0,Alto,11/03/2018,Sí,78231.80341,0.000681
4,5.0,16445.8454,Premium,60.0,10.0,1.0,6/10/2020,Activa,Oeste,Femenino,Moto,212530.8316,23376.0,7707.269763,3.0,Bajo,25/03/2020,Sí,9433.790466,0.134306
5,6.0,16443.45751,Estándar,43.0,1.0,0.0,3/11/2016,Cancelada,Oeste,Femenino,Moto,351573.2574,10414.0,2986.412166,2.0,Bajo,8/03/2014,No,71055.42169,0.260365
6,7.0,6750.277605,Premium,45.0,5.0,3.0,15/10/2015,Vencida,Este,Femenino,Carro,324119.8793,16554.0,5500.882541,0.0,Medio,2/03/2022,No,97092.52418,0.20083
7,8.0,86751.43843,Estándar,72.0,1.0,1.0,4/09/2017,Vencida,Sur,Femenino,Moto,161657.9604,33509.0,2694.449568,3.0,Medio,11/01/2012,No,87075.15324,0.262706
8,9.0,60510.38616,Estándar,45.0,1.0,2.0,11/01/2020,Activa,Sur,Otro,Moto,481974.1227,14303.0,4168.682735,4.0,Medio,12/03/2018,No,69528.46069,0.290632
9,10.0,71099.1852,Estándar,40.0,10.0,1.0,1/02/2019,Vencida,Oeste,Masculino,Carro,11831.09879,41915.0,8246.141309,2.0,Bajo,30/07/2021,Sí,11215.62902,0.162493


### 1.2 Exploración inicial de los datos

En esta sección exploraremos el conjunto de datos para identificar:
- Valores faltantes.
- Tipos de datos incorrectos.
- Distribuciones y rangos de variables.

In [None]:
# Resumen de valores faltantes
print("\nResumen de valores faltantes en el dataset de entrenamiento:")
data_train.isnull().sum().to_frame(name='Valores_Faltantes')


Resumen de valores faltantes en el dataset de entrenamiento:


Unnamed: 0,Valores_Faltantes
Numero_Poliza,129
Prima,133
Cobertura,122
Edad_Cliente,101
Termino_Poliza,126
Historial_Reclamos,112
Fecha_Creacion,122
Estado_Poliza,151
Region,135
Genero_Cliente,106


In [None]:
# Información general
print("\nInformación de las columnas del dataset de entrenamiento:")
data_train.info()


Información de las columnas del dataset de entrenamiento:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 20 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Numero_Poliza         99871 non-null  float64
 1   Prima                 99867 non-null  float64
 2   Cobertura             99878 non-null  object 
 3   Edad_Cliente          99899 non-null  float64
 4   Termino_Poliza        99874 non-null  float64
 5   Historial_Reclamos    99888 non-null  float64
 6   Fecha_Creacion        99878 non-null  object 
 7   Estado_Poliza         99849 non-null  object 
 8   Region                99865 non-null  object 
 9   Genero_Cliente        99894 non-null  object 
 10  Tipo_Vehiculo         99865 non-null  object 
 11  Valor_Vehiculo        99878 non-null  float64
 12  Kilometraje_Anual     99864 non-null  float64
 13  Ingresos_Cliente      99840 non-null  float64
 14  Dependient

In [None]:
# Estadísticas descriptivas
data_train.describe()

  sqr = _ensure_numeric((avg - values) ** 2)
  sqr = _ensure_numeric((avg - values) ** 2)
  sqr = _ensure_numeric((avg - values) ** 2)
  sqr = _ensure_numeric((avg - values) ** 2)
  sqr = _ensure_numeric((avg - values) ** 2)
  sqr = _ensure_numeric((avg - values) ** 2)
  sqr = _ensure_numeric((avg - values) ** 2)
  sqr = _ensure_numeric((avg - values) ** 2)
  sqr = _ensure_numeric((avg - values) ** 2)
  sqr = _ensure_numeric((avg - values) ** 2)
  sqr = _ensure_numeric((avg - values) ** 2)


Unnamed: 0,Numero_Poliza,Prima,Edad_Cliente,Termino_Poliza,Historial_Reclamos,Valor_Vehiculo,Kilometraje_Anual,Ingresos_Cliente,Dependientes,Monto_Reclamos,Descuento
count,99871.0,99867.0,99899.0,99874.0,99888.0,99878.0,99864.0,99840.0,99876.0,99876.0,99865.0
mean,1.112546e+209,1.1125910000000001e+204,8.786652e+179,1.112513e+208,4.449428e+200,5.562341999999999e+214,5.563121e+198,1.112892e+211,4.4499620000000003e+176,1.1124909999999999e+225,3.3378389999999997e+202
std,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf
min,1.0,1000.548,18.0,1.0,0.0,5011.622,5000.0,1000.007,0.0,0.3239175,9.69e-07
25%,25051.5,25761.09,33.0,1.0,1.0,128790.6,16293.75,3245.306,1.0,25072.88,0.07567984
50%,50094.0,50662.44,49.0,5.0,2.0,253545.7,27543.0,5516.573,2.0,50032.6,0.1501236
75%,75155.5,75341.65,64.0,10.0,3.0,377431.8,38870.25,7763.395,3.0,75036.77,0.2252461
max,1e+214,1e+209,7.9e+184,1e+213,4.0000000000000005e+205,5e+219,5e+203,9.999999999999999e+215,4e+181,9.999999999999999e+229,3e+207


### 1.3 Análisis Exploratorio de Datos (EDA)

El Análisis Exploratorio de Datos (EDA) tiene como objetivo comprender la distribución de las variables clave y encontrar patrones en los datos:
- **Frecuencia de variables categóricas**: Analizar columnas como `Cobertura` y `Estado_Poliza`.

In [None]:
# Valores únicos de la columna 'Cobertura'
data_train['Cobertura'].value_counts().to_frame(name='Frecuencia')

Unnamed: 0_level_0,Frecuencia
Cobertura,Unnamed: 1_level_1
Estándar,33617
Básica,33198
Premium,33063


In [None]:
# Valores únicos de la columna 'Estado_Poliza'
data_train['Estado_Poliza'].value_counts().to_frame(name='Frecuencia')

Unnamed: 0_level_0,Frecuencia
Estado_Poliza,Unnamed: 1_level_1
Vencida,33390
Cancelada,33312
Activa,33147


## 2. Configuración de PyCaret

Inicializamos el entorno de PyCaret para realizar la detección de anomalías. PyCaret es una biblioteca de aprendizaje automático de código abierto que automatiza el flujo de trabajo de aprendizaje supervisado y no supervisado.

### 2.1 Selección de los Datos y Configuración del entorno de PyCaret

Se selecciona una porción de los datos para realizar las pruebas y posteriormente se realiza la configuración de PyCaret para Detección de Anomalías (AD) con el 10% de los datos de entrenamiento para acelerar el proceso de experimentación.


In [None]:
# Selección de los datos de entrenamiento
data_train_10000 = data_train.sample(frac=0.1, random_state=123)

# Selección de los datos de prueba
data_test_4000 = data_test.sample(frac=0.1, random_state=123)

In [None]:
# Configuración de PyCaret para detección de anomalías
from pycaret.anomaly import *
s = setup(data_train_10000, session_id=123)

Unnamed: 0,Description,Value
0,Session id,123
1,Original data shape,"(10000, 20)"
2,Transformed data shape,"(10000, 7573)"
3,Numeric features,11
4,Categorical features,9
5,Rows with missing values,2.6%
6,Preprocess,True
7,Imputation type,simple
8,Numeric imputation,mean
9,Categorical imputation,mode


In [None]:
# Mostrar todos los modelos disponibles
print("\nModelos disponibles para detección de anomalías:")
models()


Modelos disponibles para detección de anomalías:


Unnamed: 0_level_0,Name,Reference
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
abod,Angle-base Outlier Detection,pyod.models.abod.ABOD
cluster,Clustering-Based Local Outlier,pycaret.internal.patches.pyod.CBLOFForceToDouble
cof,Connectivity-Based Local Outlier,pyod.models.cof.COF
iforest,Isolation Forest,pyod.models.iforest.IForest
histogram,Histogram-based Outlier Detection,pyod.models.hbos.HBOS
knn,K-Nearest Neighbors Detector,pyod.models.knn.KNN
lof,Local Outlier Factor,pyod.models.lof.LOF
svm,One-class SVM detector,pyod.models.ocsvm.OCSVM
pca,Principal Component Analysis,pyod.models.pca.PCA
mcd,Minimum Covariance Determinant,pyod.models.mcd.MCD


## 3. Creación y Entrenamiento de Modelos

Se entrenarán varios modelos de detección de anomalías para identificar posibles errores en los datos de las pólizas. Los modelos se evaluarán y compararán utilizando métricas de rendimiento estándar.



In [None]:
# Modelo abod
abod = create_model('abod')
print(abod)

ABOD(contamination=0.05, method='fast', n_neighbors=5)


In [None]:
# Modelo cof
cof = create_model('cof') # 1h 47m
print(cof)

COF(contamination=0.05, method='fast', n_neighbors=20)


In [None]:
# Modelo histogram
histogram = create_model('histogram')
print(histogram)

HBOS(alpha=0.1, contamination=0.05, n_bins=10, tol=0.5)


In [None]:
# Modelo knn
knn = create_model('knn')
print(knn)

KNN(algorithm='auto', contamination=0.05, leaf_size=30, method='largest',
  metric='minkowski', metric_params=None, n_jobs=-1, n_neighbors=5, p=2,
  radius=1.0)


In [None]:
# Modelo lof
lof = create_model('lof')
print(lof)

LOF(algorithm='auto', contamination=0.05, leaf_size=30, metric='minkowski',
  metric_params=None, n_jobs=-1, n_neighbors=20, novelty=True, p=2)


In [None]:
# Modelo svm
svm = create_model('svm') # 25m 44s
print(svm)

OCSVM(cache_size=200, coef0=0.0, contamination=0.05, degree=3, gamma='auto',
   kernel='rbf', max_iter=-1, nu=0.5, shrinking=True, tol=0.001,
   verbose=False)


In [None]:
# Modelo sod
sod = create_model('sod')
print(sod)

SOD(alpha=0.8, contamination=0.05, n_neighbors=20, ref_set=10)


In [None]:
# Modelo sos
sos = create_model('sos') # 1h 7min
print(sos)

SOS(contamination=0.05, eps=1e-05, metric='euclidean', perplexity=4.5)


## 4. Analizar el Rendimiento de los Modelos

Se evaluará el rendimiento de los modelos de detección de anomalías utilizando métricas como la precisión, la recuperación y el área bajo la curva (AUC).

In [None]:
# Analizar el rendimiento de modelos gráfico tsne - modelo abod
# plot_model(abod, plot = 'tsne')

In [None]:
# Analizar el rendimiento de modelos gráfico umap - modelo abod
# plot_model(abod, plot = 'umap')

In [None]:
# Analizar el rendimiento de modelos gráfico tsne - modelo cof
# plot_model(cof, plot = 'tsne')

In [None]:
# Analizar el rendimiento de modelos gráfico umap - modelo cof
# plot_model(cof, plot = 'umap')

In [None]:
# Analizar el rendimiento de modelos gráfico tsne - modelo histogram
# plot_model(histogram, plot = 'tsne')

In [None]:
# Analizar el rendimiento de modelos gráfico umap - modelo histogram
# plot_model(histogram, plot = 'umap')

In [None]:
# Analizar el rendimiento de modelos gráfico tsne - modelo knn
# plot_model(knn, plot = 'tsne')

In [None]:
# Analizar el rendimiento de modelos gráfico umap - modelo knn
# plot_model(knn, plot = 'umap')

In [None]:
# Analizar el rendimiento de modelos gráfico tsne - modelo lof
# plot_model(lof, plot = 'tsne')

In [None]:
# Analizar el rendimiento de modelos gráfico umap - modelo lof
# plot_model(lof, plot = 'umap')

In [None]:
# Analizar el rendimiento de modelos gráfico tsne - modelo svm
# plot_model(svm, plot = 'tsne')

In [None]:
# Analizar el rendimiento de modelos gráfico umap - modelo svm
# plot_model(svm, plot = 'umap')

In [None]:
# Analizar el rendimiento de modelos gráfico tsne - modelo sod
# plot_model(sod, plot = 'tsne')

In [None]:
# Analizar el rendimiento de modelos gráfico umap - modelo sod
# plot_model(sod, plot = 'umap')

In [None]:
# Analizar el rendimiento de modelos gráfico tsne - modelo sos
# plot_model(sos, plot = 'tsne')

In [None]:
# Analizar el rendimiento de modelos gráfico umap - modelo sos
# plot_model(sos, plot = 'umap')

## 5. Asignar Modelo

Validaremos todos los modelos entrenados en el conjunto de datos de prueba.


In [None]:
# Asignar modelo abod
result_abod = assign_model(abod)

# Imprimir la cantidad de registros anomalos
print(f"Registros anomalos: {result_abod[result_abod['Anomaly'] == 1].shape[0]}")

# Mostrar los de Anomaly es 1
result_abod[result_abod['Anomaly'] == 1]

Registros anomalos: 0


Unnamed: 0,Numero_Poliza,Prima,Cobertura,Edad_Cliente,Termino_Poliza,Historial_Reclamos,Fecha_Creacion,Estado_Poliza,Region,Genero_Cliente,...,Kilometraje_Anual,Ingresos_Cliente,Dependientes,Riesgo,Fecha_Ultimo_Reclamo,Cobertura_Salud,Monto_Reclamos,Descuento,Anomaly,Anomaly_Score


In [None]:
# Asignar el modelo cof
result_cof = assign_model(cof)

# Imprimir la cantidad de registros anomalos
print(f"Registros anomalos: {result_cof[result_cof['Anomaly'] == 1].shape[0]}")

# Mostrar los de Anomaly es 1
result_cof[result_cof['Anomaly'] == 1]

Registros anomalos: 500


Unnamed: 0,Numero_Poliza,Prima,Cobertura,Edad_Cliente,Termino_Poliza,Historial_Reclamos,Fecha_Creacion,Estado_Poliza,Region,Genero_Cliente,...,Kilometraje_Anual,Ingresos_Cliente,Dependientes,Riesgo,Fecha_Ultimo_Reclamo,Cobertura_Salud,Monto_Reclamos,Descuento,Anomaly,Anomaly_Score
65327,65328.0,5.073372e+04,Básica,56.0,1.000000e+01,1.000000e+00,20/11/2021,Vencida,Norte,Masculino,...,13225.0,8.966239e+03,4.000000e+180,Alto,10/02/2012,No,8.166045e+04,0.012620,1,1.797693e+308
32380,32381.0,1.000000e+135,Estándar,59.0,1.000000e+01,3.000000e+00,13/08/2015,Cancelada,Oeste,Otro,...,28696.0,4.413733e+03,3.000000e+00,Medio,18/10/2023,No,6.137095e+04,0.272326,1,1.981179e+07
24367,24368.0,7.163918e+04,Básica,57.0,1.000000e+82,0.000000e+00,19/02/2018,Activa,Sur,Femenino,...,6514.0,4.638100e+03,2.000000e+00,Medio,23/06/2012,Sí,7.613758e+04,0.049331,1,1.981179e+08
39694,39695.0,2.706203e+04,Premium,55.0,5.000000e+00,1.000000e+00,14/03/2018,Activa,Sur,Otro,...,47528.0,1.000000e+52,0.000000e+00,Alto,8/09/2022,No,4.334693e+04,0.224950,1,2.000000e+11
30673,30674.0,3.884499e+04,Estándar,79.0,5.000000e+00,2.000000e+00,20/04/2019,Cancelada,Oeste,Masculino,...,13599.0,9.479176e+03,3.000000e+00,Alto,6/02/2019,Sí,1.000000e+174,0.086852,1,1.797693e+308
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16399,16400.0,9.514585e+04,Premium,65.0,5.000000e+00,4.000000e+00,26/01/2015,Cancelada,Oeste,Otro,...,20059.0,9.031270e+03,4.000000e+00,Alto,5/08/2014,No,4.665788e+04,0.176281,1,1.159683e+00
99976,99977.0,8.702814e+04,Premium,60.0,5.000000e+00,3.000000e+00,28/08/2019,Activa,Sur,Masculino,...,30751.0,4.440031e+03,0.000000e+00,Medio,25/08/2012,Sí,2.160275e+04,0.289559,1,1.211396e+00
98843,98844.0,1.927743e+04,Básica,54.0,1.000000e+01,4.000000e+179,16/06/2021,Vencida,Este,Masculino,...,31947.0,9.023531e+03,2.000000e+00,Medio,22/12/2020,No,2.326936e+04,0.006444,1,1.797693e+308
40567,40568.0,9.043709e+03,Estándar,55.0,1.000000e+01,0.000000e+00,13/09/2018,Cancelada,Norte,Otro,...,49193.0,5.244123e+03,2.000000e+00,Alto,7/10/2023,No,3.729601e+03,0.169871,1,1.175471e+00


In [None]:
# Asignar el modelo histogram
result_histogram = assign_model(histogram)

# Imprimir la cantidad de registros anomalos
print(f"Registros anomalos: {result_histogram[result_histogram['Anomaly'] == 1].shape[0]}")

# Mostrar los de Anomaly es 1
result_histogram[result_histogram['Anomaly'] == 1]

Registros anomalos: 500


Unnamed: 0,Numero_Poliza,Prima,Cobertura,Edad_Cliente,Termino_Poliza,Historial_Reclamos,Fecha_Creacion,Estado_Poliza,Region,Genero_Cliente,...,Kilometraje_Anual,Ingresos_Cliente,Dependientes,Riesgo,Fecha_Ultimo_Reclamo,Cobertura_Salud,Monto_Reclamos,Descuento,Anomaly,Anomaly_Score
51584,51585.0,93697.13347,Básica,41.0,5.0,3.0,1/12/2018,Activa,Este,Femenino,...,41218.0,3065.178941,1.000000e+00,Bajo,27/08/2019,No,83999.492590,0.224841,1,-25158.482189
187,188.0,55964.88035,Básica,18.0,1.0,1.0,22/08/2015,Activa,Oeste,Masculino,...,30357.0,4987.538467,1.000000e+00,Medio,21/10/2010,No,83356.679260,0.068949,1,-25158.493019
65327,65328.0,50733.71704,Básica,56.0,10.0,1.0,20/11/2021,Vencida,Norte,Masculino,...,13225.0,8966.238796,4.000000e+180,Alto,10/02/2012,No,81660.451940,0.012620,1,-25158.489020
26942,26943.0,14315.71261,Básica,63.0,5.0,3.0,12/03/2017,Activa,Norte,Masculino,...,33036.0,3529.022032,4.000000e+00,Alto,15/10/2016,No,24373.660000,0.044264,1,-25158.492073
43655,43656.0,19412.71296,Básica,33.0,1.0,4.0,29/12/2018,Vencida,Norte,Femenino,...,11046.0,9496.062739,4.000000e+00,Alto,24/06/2019,No,67070.293600,0.185477,1,-25158.499790
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20464,20465.0,97987.14491,Premium,60.0,10.0,2.0,25/10/2023,Activa,Este,Masculino,...,47985.0,3638.396990,4.000000e+00,Bajo,22/06/2019,No,81496.365490,0.091599,1,-25158.473172
46297,46298.0,80407.76681,Premium,66.0,10.0,4.0,7/10/2019,Vencida,Este,Femenino,...,26497.0,6454.970133,0.000000e+00,Medio,12/10/2015,No,6066.176256,0.061009,1,-25158.503871
26396,26397.0,34567.93853,Básica,33.0,5.0,4.0,25/05/2023,Vencida,Norte,Femenino,...,31906.0,8421.447647,3.000000e+00,Alto,15/05/2016,Sí,81195.413260,0.011059,1,-25158.504281
94786,94787.0,45102.23584,Básica,21.0,10.0,2.0,4/11/2020,Activa,Este,Femenino,...,29198.0,7918.586327,1.000000e+00,Bajo,24/02/2017,No,76175.008100,0.005831,1,-25158.439258


In [None]:
# Asignar el modelo knn
result_knn = assign_model(knn)

# Imprimir la cantidad de registros anomalos
print(f"Registros anomalos: {result_knn[result_knn['Anomaly'] == 1].shape[0]}")

# Mostrar los de Anomaly es 1
result_knn[result_knn['Anomaly'] == 1]

Registros anomalos: 500


Unnamed: 0,Numero_Poliza,Prima,Cobertura,Edad_Cliente,Termino_Poliza,Historial_Reclamos,Fecha_Creacion,Estado_Poliza,Region,Genero_Cliente,...,Kilometraje_Anual,Ingresos_Cliente,Dependientes,Riesgo,Fecha_Ultimo_Reclamo,Cobertura_Salud,Monto_Reclamos,Descuento,Anomaly,Anomaly_Score
24367,24368.0,71639.176240,Básica,57.0,1.000000e+82,0.0,19/02/2018,Activa,Sur,Femenino,...,6514.0,4.638100e+03,2.0,Medio,23/06/2012,Sí,76137.583910,0.049331,1,1.000000e+82
39694,39695.0,27062.031340,Premium,55.0,5.000000e+00,1.0,14/03/2018,Activa,Sur,Otro,...,47528.0,1.000000e+52,0.0,Alto,8/09/2022,No,43346.927810,0.224950,1,1.000000e+52
78899,78900.0,9844.509956,Premium,28.0,1.000000e+01,2.0,28/05/2016,Activa,Oeste,Otro,...,6058.0,3.993353e+03,0.0,Medio,14/05/2021,No,90192.487700,0.244198,1,2.971544e+04
4241,4242.0,40197.785390,Premium,38.0,1.000000e+01,3.0,6/09/2016,Vencida,Este,Otro,...,48663.0,1.037746e+03,3.0,Bajo,13/10/2011,Sí,15233.892830,0.090547,1,2.552789e+04
96150,96151.0,65144.549430,Estándar,21.0,1.000000e+01,0.0,9/09/2016,Activa,Oeste,Otro,...,47671.0,9.656775e+03,1.0,Medio,26/01/2018,No,36450.216840,0.030905,1,2.607885e+04
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
94852,94853.0,8239.298872,Estándar,72.0,1.000000e+01,3.0,16/05/2023,Cancelada,Este,Femenino,...,14036.0,7.328633e+03,4.0,Alto,4/09/2019,No,22963.148620,0.174425,1,2.652801e+04
99976,99977.0,87028.135110,Premium,60.0,5.000000e+00,3.0,28/08/2019,Activa,Sur,Masculino,...,30751.0,4.440031e+03,0.0,Medio,25/08/2012,Sí,21602.746080,0.289559,1,2.520644e+04
94661,94662.0,39674.275320,Premium,46.0,1.000000e+00,1.0,25/05/2020,Activa,Este,Femenino,...,49666.0,1.131260e+03,2.0,Bajo,20/06/2018,No,13060.869150,0.212007,1,2.730079e+04
40567,40568.0,9043.708585,Estándar,55.0,1.000000e+01,0.0,13/09/2018,Cancelada,Norte,Otro,...,49193.0,5.244123e+03,2.0,Alto,7/10/2023,No,3729.601159,0.169871,1,2.627897e+04


In [None]:
# Asignar el modelo lof
result_lof = assign_model(lof)

# Imprimir la cantidad de registros anomalos
print(f"Registros anomalos: {result_lof[result_lof['Anomaly'] == 1].shape[0]}")

# Mostrar los de Anomaly es 1
result_lof[result_lof['Anomaly'] == 1]

Registros anomalos: 500


Unnamed: 0,Numero_Poliza,Prima,Cobertura,Edad_Cliente,Termino_Poliza,Historial_Reclamos,Fecha_Creacion,Estado_Poliza,Region,Genero_Cliente,...,Kilometraje_Anual,Ingresos_Cliente,Dependientes,Riesgo,Fecha_Ultimo_Reclamo,Cobertura_Salud,Monto_Reclamos,Descuento,Anomaly,Anomaly_Score
65327,65328.0,50733.717040,Básica,56.0,1.000000e+01,1.0,20/11/2021,Vencida,Norte,Masculino,...,13225.0,8.966239e+03,4.000000e+180,Alto,10/02/2012,No,8.166045e+04,0.012620,1,9.676951e+148
39555,,53279.578110,Estándar,27.0,1.000000e+00,4.0,23/01/2020,Cancelada,Oeste,Masculino,...,47972.0,3.019445e+03,4.000000e+00,Alto,16/07/2018,No,7.479179e+04,0.055513,1,1.675976e+29
24367,24368.0,71639.176240,Básica,57.0,1.000000e+82,0.0,19/02/2018,Activa,Sur,Femenino,...,6514.0,4.638100e+03,2.000000e+00,Medio,23/06/2012,Sí,7.613758e+04,0.049331,1,3.271684e+77
39694,39695.0,27062.031340,Premium,55.0,5.000000e+00,1.0,14/03/2018,Activa,Sur,Otro,...,47528.0,1.000000e+52,0.000000e+00,Alto,8/09/2022,No,4.334693e+04,0.224950,1,3.454185e+47
30673,30674.0,38844.986910,Estándar,79.0,5.000000e+00,2.0,20/04/2019,Cancelada,Oeste,Masculino,...,13599.0,9.479176e+03,3.000000e+00,Alto,6/02/2019,Sí,1.000000e+174,0.086852,1,9.000000e+08
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99526,99527.0,60750.552780,Básica,77.0,5.000000e+00,3.0,12/12/2019,Activa,Sur,Otro,...,41032.0,8.275324e+03,3.000000e+00,Bajo,30/10/2020,No,2.641447e+03,0.073567,1,1.114598e+00
85164,85165.0,91831.335360,Estándar,69.0,1.000000e+00,2.0,9/12/2019,Vencida,Oeste,Masculino,...,8305.0,2.528033e+03,0.000000e+00,Bajo,20/01/2017,No,9.472567e+04,0.143451,1,1.117527e+00
99921,99922.0,27101.820310,Estándar,49.0,5.000000e+00,0.0,13/08/2023,Activa,Este,Femenino,...,12930.0,2.275293e+03,3.000000e+00,Medio,31/05/2016,No,1.196029e+03,0.265018,1,1.129809e+00
94852,94853.0,8239.298872,Estándar,72.0,1.000000e+01,3.0,16/05/2023,Cancelada,Este,Femenino,...,14036.0,7.328633e+03,4.000000e+00,Alto,4/09/2019,No,2.296315e+04,0.174425,1,1.114649e+00


In [None]:
# Asignar el modelo svm
result_svm = assign_model(svm)

# Imprimir la cantidad de registros anomalos
print(f"Registros anomalos: {result_svm[result_svm['Anomaly'] == 1].shape[0]}")

# Mostrar los de Anomaly es 1
result_svm[result_svm['Anomaly'] == 1]

Registros anomalos: 119


Unnamed: 0,Numero_Poliza,Prima,Cobertura,Edad_Cliente,Termino_Poliza,Historial_Reclamos,Fecha_Creacion,Estado_Poliza,Region,Genero_Cliente,...,Kilometraje_Anual,Ingresos_Cliente,Dependientes,Riesgo,Fecha_Ultimo_Reclamo,Cobertura_Salud,Monto_Reclamos,Descuento,Anomaly,Anomaly_Score
11455,1.145600e+04,1.000000e+181,Básica,78.0,5.0,2.000000e+00,16/08/2017,Vencida,Sur,Otro,...,32794.0,6021.068065,0.0,Alto,26/08/2021,No,7570.881306,0.028143,1,0.499025
6239,1.000000e+136,8.950333e+04,Premium,41.0,5.0,1.000000e+00,12/01/2017,Cancelada,Oeste,Otro,...,38278.0,4658.370640,3.0,Medio,25/08/2015,Sí,42500.423470,0.045598,1,0.499025
56598,1.000000e+144,9.284248e+03,Básica,41.0,10.0,4.000000e+00,8/12/2015,Cancelada,Este,Otro,...,30039.0,2249.966735,1.0,Alto,14/07/2018,Sí,84824.909770,0.248030,1,0.499025
93558,9.355900e+04,3.276967e+04,Premium,30.0,5.0,,2/02/2023,Vencida,Este,Femenino,...,20796.0,3355.713648,1.0,Alto,14/10/2012,Sí,68422.089050,0.165482,1,0.499025
16572,1.657300e+04,8.969083e+04,Básica,70.0,5.0,1.000000e+00,17/11/2023,Vencida,Norte,Otro,...,31255.0,3270.938359,2.0,Bajo,5/06/2013,No,15908.891700,0.152433,1,0.499025
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
96401,9.640200e+04,,Estándar,64.0,1.0,3.000000e+00,12/04/2021,Vencida,Oeste,Masculino,...,44099.0,1674.411241,1.0,Medio,9/07/2019,Sí,25825.783740,0.079530,1,0.499025
69148,1.000000e+117,6.967806e+04,Estándar,72.0,1.0,0.000000e+00,24/10/2018,Vencida,Oeste,Masculino,...,33236.0,7920.173725,2.0,Bajo,22/02/2011,Sí,50784.027980,0.184872,1,0.499025
18586,1.858700e+04,7.219727e+04,Estándar,70.0,5.0,,20/07/2017,Activa,Norte,Masculino,...,25185.0,6759.961025,3.0,Medio,22/03/2010,Sí,65977.756190,0.196930,1,0.499025
98843,9.884400e+04,1.927743e+04,Básica,54.0,10.0,4.000000e+179,16/06/2021,Vencida,Este,Masculino,...,31947.0,9023.531081,2.0,Medio,22/12/2020,No,23269.356030,0.006444,1,0.499025


In [None]:
# Asignar el modelo sod
result_sod = assign_model(sod)

# Imprimir la cantidad de registros anomalos
print(f"Registros anomalos: {result_sod[result_sod['Anomaly'] == 1].shape[0]}")

# Mostrar los de Anomaly es 1
result_sod[result_sod['Anomaly'] == 1]

Registros anomalos: 0


Unnamed: 0,Numero_Poliza,Prima,Cobertura,Edad_Cliente,Termino_Poliza,Historial_Reclamos,Fecha_Creacion,Estado_Poliza,Region,Genero_Cliente,...,Kilometraje_Anual,Ingresos_Cliente,Dependientes,Riesgo,Fecha_Ultimo_Reclamo,Cobertura_Salud,Monto_Reclamos,Descuento,Anomaly,Anomaly_Score


In [None]:
# Asignar el modelo sos
result_sos = assign_model(sos)

# Imprimir la cantidad de registros anomalos
print(f"Registros anomalos: {result_sos[result_sos['Anomaly'] == 1].shape[0]}")

# Mostrar los de Anomaly es 1
result_sos[result_sos['Anomaly'] == 1]

Registros anomalos: 0


Unnamed: 0,Numero_Poliza,Prima,Cobertura,Edad_Cliente,Termino_Poliza,Historial_Reclamos,Fecha_Creacion,Estado_Poliza,Region,Genero_Cliente,...,Kilometraje_Anual,Ingresos_Cliente,Dependientes,Riesgo,Fecha_Ultimo_Reclamo,Cobertura_Salud,Monto_Reclamos,Descuento,Anomaly,Anomaly_Score


## 6. Predicciones de los Modelos

Se realizarán predicciones en el conjunto de datos de prueba utilizando los modelos entrenados.

In [None]:
# Predicciones del modelo ABOD
predictions_abod = predict_model(abod, data=data_test_4000) # 6m 21s

In [None]:
# Predicciones del modelo COF
predictions_cof = predict_model(cof, data=data_test_4000) # 36m 46s

In [None]:
# Predicciones del modelo Histogram
predictions_histogram = predict_model(histogram, data=data_test_4000)

In [None]:
# Predicciones del modelo KNN
predictions_knn = predict_model(knn, data=data_test_4000) # 12m 8s

In [None]:
# Predicciones del modelo LOF
predictions_lof = predict_model(lof, data=data_test_4000)

In [None]:
# Predicciones del modelo SVM
predictions_svm = predict_model(svm, data=data_test_4000) # 8m 56s

In [None]:
# Predicciones del modelo SOD
# predictions_sod = predict_model(sod, data=data_test_4000)

In [None]:
# Predicciones del modelo SOS
predictions_sos = predict_model(sos, data=data_test_4000) # 23m 31s

## 7. Guardado de TODOS los Modelos

Guardaremos todos los modelos entrenados para su uso en producción.

In [None]:
# Guardar todos los modelos
# for model_name, model in trained_models.items():
#     print(f"\nGuardando modelo: {model_name}")
#     save_model(model, f'modelo_{model_name}')
# print("\nTodos los modelos han sido guardados exitosamente.")