# CREDITO EN EL SECTOR ASEGURADOR

**DESCRIPCIÓN DE LOS DATOS**


**Tabla c_emision:**


**anio:** Indica el año en el que se registró la emisión del crédito o póliza. Los datos abarcan del año 2015 al 2024.

**plazo:** Representa la duración del crédito asociado a la emisión (expresado en días).

**pais:** Señala el país asociado al crédito emitido. Incluye tanto operaciones internas como créditos vinculados a países extranjeros.

**tipo_credito:** Clasifica el crédito según su naturaleza. Incluye créditos internos, de exportación y mixtos, así como registros sin información disponible.

**giro:** Describe la actividad económica del acreditado. Destacando principalmente actividades industriales, manufactureras y comerciales.

**tipo_poliza:** Identifica el tipo de póliza bajo la cual se emitió el crédito. Incluye pólizas globales, específicas y registros sin información disponible.

**moneda:** Especifica la moneda en la que está denominado el crédito. Distingue entre moneda nacional y extranjera.

**forma_venta:** Indica el canal a través del cual se colocó el crédito, como agentes (persona física o moral), fuerza de venta interna, red de sucursales bancarias o venta directa.

**numero_polizas:** Señala la cantidad de pólizas asociadas a cada registro de emisión.

**prima_emitida:** Representa el monto total de la prima emitida por la aseguradora al momento de la emisión del crédito. Incluye posibles ajustes o cancelaciones, reflejados en valores negativos.

**prima_retenida:** Indica la parte de la prima emitida que es retenida por la aseguradora después de considerar cesiones u otros esquemas. Su comportamiento es consistente con la prima emitida.

**prima_devengada:** Corresponde a la porción de la prima que ha sido devengada en el tiempo, es decir, reconocida conforme transcurre la vigencia del crédito.

**suma_asegurada:** Representa el monto total del riesgo cubierto por la póliza. 

**comision_directa:** Indica el monto de la comisión pagada directamente por la emisión del crédito, generalmente asociada a intermediarios o canales de venta. 

---

**Tabla c_siniestros:**


**anio:** Indica el año en el que se registró el siniestro. Los datos abarcan el periodo de 2015 a 2024.

**plazo:** Representa la duración del crédito asociado al siniestro (expresada en días).

**tipo_insolvencia:** Clasifica el tipo de incumplimiento que originó el siniestro, como mora prolongada, insolvencia de hecho o insolvencia legal.

**entidad:** Indica la entidad federativa asociada al crédito. Incluye estados específicos de México y la categoría “No aplica (Exportación)”.

**pais:** Representa el país relacionado con el crédito. Incluye registros internos y países extranjeros.

**tipo_credito:** Clasifica el crédito según su naturaleza, como interno, exportación o mixto.

**giro:** Describe la actividad económica del acreditado. Incluye distintos sectores industriales y comerciales.

**tipo_poliza:** Identifica el tipo de póliza asociada al crédito.

**moneda:** Especifica la moneda en la que está denominado el crédito, ya sea nacional o extranjera.

**forma_venta:** Indica el canal a través del cual se colocó el crédito, como agentes (persona física o moral), fuerza de venta interna, red de sucursales bancarias o venta directa. 

**numero_siniestros:** Señala la cantidad de siniestros asociados a cada registro.

**monto_siniestro:** Representa el monto total del siniestro registrado.

**monto_pagado:** Indica el monto efectivamente pagado por el siniestro.

**monto_deducible:** Corresponde al deducible aplicado al siniestro.

**monto_coaseguros:** Representa el monto correspondiente al coaseguro.

**gastos_ajuste:** Indica los gastos asociados al proceso de ajuste del siniestro. 

**salvamentos:** Representa los montos recuperados por salvamento.

**monto_recuperacion:** Muestra el monto recuperado posterior al siniestro.

**recuperacion_reaseguro:** Indica los montos recuperados mediante reaseguro.

# Inicializacion y exploración de los datos

In [10]:
# Importación de todas las librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
from pathlib import Path

In [11]:
# DataSets
c_emision = pd.read_csv('49_Informacion_estadistica_Credito_Emision_ok.csv')
c_siniestros = pd.read_csv('50_Informacion_estadistica_Credito_Siniestros_ok.csv')

## Explorar datos '' Tabla c_emision''

### Características principales

La tabla contiene 24,280 registros distribuidos en 14 columnas. En general, las columnas presentan tipos de datos adecuados para el análisis.

Los siguientes pasos serán identificar la existencia de valores nulos o duplicados y, posteriormente, realizar una exploración individual de ciertas columnas para extraer información relevante. En particular, se busca identificar los años incluidos en la base de datos, los países participantes, los tipos de crédito existentes, las monedas utilizadas y los plazos registrados, con el objetivo de confirmar su unidad de medida.

Asimismo, se analizará la información relacionada con las pólizas para conocer el número de contratos, detectar posibles registros repetidos y comprender su comportamiento general. En conjunto, estos pasos permitirán entender a fondo los datos disponibles, redactar correctamente el resumen inicial y establecer una base sólida para análisis posteriores.

In [12]:
# Primer paso para conocer en general los datos con .info()
c_emision.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24280 entries, 0 to 24279
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   anio              24280 non-null  int64  
 1   plazo             24280 non-null  int64  
 2   pais              24280 non-null  object 
 3   tipo_credito      24280 non-null  object 
 4   giro              24280 non-null  object 
 5   tipo_poliza       24280 non-null  object 
 6   moneda            24280 non-null  object 
 7   forma_venta       24280 non-null  object 
 8   numero_polizas    24280 non-null  int64  
 9   prima_emitida     24280 non-null  int64  
 10  prima_retenida    24280 non-null  int64  
 11  prima_devengada   24280 non-null  int64  
 12  suma_asegurada    24280 non-null  float64
 13  comision_directa  24280 non-null  int64  
dtypes: float64(1), int64(7), object(6)
memory usage: 2.6+ MB


In [13]:
# Nos muestra las primeras filas y columnas del DataSet
c_emision.head()

Unnamed: 0,anio,plazo,pais,tipo_credito,giro,tipo_poliza,moneda,forma_venta,numero_polizas,prima_emitida,prima_retenida,prima_devengada,suma_asegurada,comision_directa
0,2015,7,E.U.A.,Exportacion,Comercio al por mayor de alimentos y abarrotes,Global,Extranjera,Agentes Persona Moral,2,1521463,420914,262586,577263923.0,228219
1,2015,14,No aplica (interno),Interno,Otras industrias manufactureras,Global,Nacional,Fuerza de Venta Interna o Casa Matriz,2,234971,63780,52641,1305505.0,0
2,2015,15,No aplica (interno),Interno,Comercio al por mayor de electrodomesticos men...,Global,Nacional,Fuerza de Venta Interna o Casa Matriz,1,28800,7920,3558,1.0,0
3,2015,15,No aplica (interno),Interno,Fabricacion de accesorios de iluminacion,Global,Nacional,Fuerza de Venta Interna o Casa Matriz,1,181500,49912,22426,1.0,0
4,2015,15,Pais no Especificado,Exportacion,Fabricacion de accesorios de iluminacion,Global,Extranjera,Fuerza de Venta Interna o Casa Matriz,1,18992,5222,3461,33.0,0


In [14]:
# Nos muestra las últimas filas del DataSet 
c_emision.tail()

Unnamed: 0,anio,plazo,pais,tipo_credito,giro,tipo_poliza,moneda,forma_venta,numero_polizas,prima_emitida,prima_retenida,prima_devengada,suma_asegurada,comision_directa
24275,2024,365,No aplica (interno),Interno,"Edicion de periodicos, revistas, libros y simi...",Global,Nacional,Agentes Persona Fisica,3,907787,290492,0,405000001.0,136168
24276,2024,365,No aplica (interno),Mixto,Otra actividad o servicio relacionada con la a...,Global,Nacional,Agentes Persona Moral,1,982603,196521,0,849450030.0,147391
24277,2024,366,No aplica (interno),Mixto,Fabricacion de maquinaria y equipo para las ac...,Global,Nacional,Agentes Persona Moral,2,219294,43859,160064,440000000.0,32894
24278,2024,455,No aplica (interno),Interno,Comercio al por mayor de maquinaria y equipo a...,Global,Nacional,Agentes Persona Moral,1,559106,139776,0,575429427.0,100639
24279,2024,730,No aplica (interno),Interno,Fabricacion de productos metalicos forjados y ...,Global,Extranjera,Agentes Persona Fisica,1,-150066,-150066,0,732710.0,-24011


### Duplicados y Ausentes

No existen filas que puedan estar duplicadas.

In [15]:
# Visualización de valores duplicados
c_emision.duplicated().sum()

np.int64(0)

Se confirma que no se visualizan datos nulos como ya habiamos visto.

In [16]:
# Visualización de valores ausentes
c_emision.isnull().sum()

anio                0
plazo               0
pais                0
tipo_credito        0
giro                0
tipo_poliza         0
moneda              0
forma_venta         0
numero_polizas      0
prima_emitida       0
prima_retenida      0
prima_devengada     0
suma_asegurada      0
comision_directa    0
dtype: int64

### Perfil de Datos: Análisis de Columnas Tabla c_emision

En esta etapa se realizó un análisis exploratorio inicial del conjunto de datos con el objetivo de comprender su estructura y las principales características de las variables. Se revisaron columnas clave como año, país, tipo de crédito, forma de venta, plazo y número de pólizas, identificando rangos, categorías existentes y patrones generales.

Asimismo, se detectaron inconsistencias en la escritura de algunas categorías, las cuales fueron reconocidas como oportunidades de estandarización para asegurar la consistencia del análisis. Este proceso permitió obtener una visión general clara de la información disponible y sentó las bases para análisis posteriores más detallados y confiables.

__Resumen de hallazgos__

__*Columna anio:*__ En la columna año se verificó el rango temporal de la información. Los resultados indican que los créditos del conjunto de datos van de 2015 a 2024, sumando un total de 10 años de registros.

__*Columna plazo:*__ En esta columna no se especificaba los plazos, si eran dias, meses o años. En conjunto, estos valores sugieren que los plazos están expresados en días, siendo común la concentración alrededor de 120 días, lo que corresponde a créditos de corto y mediano plazo. En promedio, los créditos tienen un plazo de aproximadamente 129 días, con una variabilidad moderada, reflejada en una desviación estándar de 55.8 días. El plazo mínimo registrado es de 7 días, mientras que el máximo alcanza 731 días, lo que equivale a cerca de dos años. La mediana es de 120 días, lo que indica que al menos la mitad de los créditos tienen un plazo igual o menor a este valor. Asimismo, el 75 % de los plazos no supera los 150 días.

__*Columna pais:*__ En la columna pais se identifican los países asociados a los créditos registrados en el dataset. Los resultados muestran una amplia diversidad geográfica, que incluye tanto países específicos como categorías generales como “No aplica (interno)” y “País no especificado”.

__*Columna tipo_credito:*__ Se identificaron 5 categorías en total ('Exportacion', 'Interno', 'Mixto', 'No Disponible','No disponible'); dos de estas equivalentes para valores no disponibles en la variable tipo_credito, diferenciadas únicamente por el uso de mayúsculas. Ambas fueron unificadas para garantizar consistencia en el análisis.

__*Columna giro:*__ La columna giro muestra que los créditos se concentran principalmente en el sector manufacturero, destacando la fabricación de productos de plástico, las industrias alimentarias y la industria química. En menor proporción, se incluyen actividades automotrices, siderúrgicas, de papel y cartón, así como comercio al por mayor, lo que indica un portafolio orientado mayormente a actividades industriales.

__*Columna tipo_poliza:*__ Se identificaron 4 categorías ('Global', 'No Disponible', 'Especifica', 'No disponible'), de nuevo se identificaron diferencias en la escritura de categorías equivalentes, igualmente para el error fueron unificacas.

__*Columna moneda:*__ Se puede ver que solo hay 3 categorias finales ('Extranjera', 'Nacional', 'No disponible').Al parecer existe la misma diferencia de ecritura que en los anteriores casos y la misma solución.

__*Columna forma_venta:*__ Los valores identificados incluyen agentes (persona física y moral), fuerza de venta interna, red de sucursales bancarias y venta directa, lo que refleja la existencia de múltiples canales de comercialización. Asimismo, se observan registros clasificados como no disponibles, los cuales ya fueron identificados como una categoría a estandarizar.

__*Columna numero_polizas:*__ La columna numero_polizas indica la cantidad de pólizas asociadas a cada registro. Los valores observados van de 1 a 22, lo que sugiere que algunos créditos están vinculados a una sola póliza, mientras que otros agrupan múltiples pólizas dentro de una misma operación. Esta variabilidad será relevante para analizar la concentración de pólizas, identificar créditos con estructuras más complejas y evaluar posibles diferencias en su comportamiento frente a aquellos con una sola póliza asociada.

__*Columna prima_emitida:*__ Presenta alta dispersión, con valores promedio moderados y casos extremos elevados. Se observan valores negativos, probablemente asociados a cancelaciones o ajustes.

__*Columna prima_retenida:*__ Los montos retenidos son menores que la prima emitida, con comportamiento similar y presencia de valores negativos, lo que sugiere correcciones contables.

__*Columna prima_devengada:*__ Muestra una distribución dispersa, con valores generalmente menores a la prima emitida. Los valores negativos indican posibles devoluciones o ajustes.

__*Columna suma_asegurada:*__ Es la variable con mayor magnitud, con un rango muy amplio que evidencia alta heterogeneidad en el tamaño de los riesgos asegurados.

__*Columna comision_directa:*__ Las comisiones presentan alta variabilidad, con valores generalmente bajos, pero con outliers significativos y valores negativos, asociados a ajustes o reversos.

In [48]:
# Variable columnas_emision permite seleccionar solo las columnas que tengan el tipo 'object'
columnas_emision = c_emision.select_dtypes(include='object').columns
print(columnas_emision)

Index(['pais', 'tipo_credito', 'giro', 'tipo_poliza', 'moneda', 'forma_venta'], dtype='object')


In [49]:
# Variable para remplazar los dobles 'No disponibles' (para ambas tablas)
cambio_valores = {
    'No Disponible': 'No disponible'
}

In [50]:
# Bucle para remplazar los dobles 'No disponibles' en las columnas
for cambio_col in columnas_emision:
    c_emision[cambio_col] = c_emision[cambio_col].replace(cambio_valores)

In [51]:
# Bucle para recorrer cada columna e imprimir su nombre y muestrar los 10 valores más frecuentes de esa columna en el DataFrame c_emision.
for col in columnas_emision:
    print(f"\n*** {col.upper()} ***")
    print(c_emision[col].value_counts().head(50))


*** PAIS ***
pais
No aplica (interno)     10064
E.U.A.                   2170
Guatemala                 795
Costa Rica                680
Colombia                  675
Pais no Especificado      563
Panama                    533
Canada                    527
El Salvador               504
Republica Dominicana      447
Chile                     441
Honduras                  406
Peru                      391
Nicaragua                 286
Ecuador                   281
Brasil                    274
España                    258
Suiza                     239
Holanda                   238
Inglaterra                238
Alemania                  237
Puerto Rico               224
Uruguay                   213
Pais No Especificado      193
Francia                   192
EUA                       187
Italia                    166
Belgica                   150
China                     133
Japon                     112
Paraguay                  109
Singapur                  108
Belice               

---

In [52]:
# Variable creada para seleccionar solo las columas con tipo 'int' y 'float' para su análisis
columnas_numericas_emision = c_emision.select_dtypes(include=['int64', 'float64']).columns
print(columnas_numericas_emision)

Index(['anio', 'plazo', 'numero_polizas', 'prima_emitida', 'prima_retenida',
       'prima_devengada', 'suma_asegurada', 'comision_directa'],
      dtype='object')


In [53]:
# Mirada general de las columnas numéricas 
c_emision[columnas_numericas_emision].describe()

Unnamed: 0,anio,plazo,numero_polizas,prima_emitida,prima_retenida,prima_devengada,suma_asegurada,comision_directa
count,24280.0,24280.0,24280.0,24280.0,24280.0,24280.0,24280.0,24280.0
mean,2020.015157,129.287026,1.813097,613738.7,117717.5,301771.2,640300700.0,68027.43
std,2.773611,55.824472,1.44047,1832466.0,422986.5,1160302.0,2907163000.0,255968.5
min,2015.0,7.0,1.0,-7345525.0,-1768996.0,-844038.0,1.0,-1777855.0
25%,2018.0,120.0,1.0,8556.5,1310.0,455.0,5812156.0,0.0
50%,2020.0,120.0,1.0,112395.0,17493.5,14558.5,36168360.0,805.5
75%,2022.0,150.0,2.0,501112.2,82903.5,162716.0,241841100.0,38794.0
max,2024.0,731.0,22.0,61960900.0,19827490.0,38351080.0,113381000000.0,9294135.0


## Explorar datos ''Tabla c_siniestros''

### Características principales

La tabla de siniestros contiene 19,808 registros distribuidos en 19 columnas. En general, las columnas presentan tipos de datos adecuados para el análisis, combinando variables categóricas y numéricas.

En esta etapa inicial, el análisis se enfocará en identificar la estructura general del DataFrame, así como la posible existencia de valores nulos, ausentes o duplicados. Destaca que algunas columnas, como 'monto_recuperación' con 11,753 filas faltantes y 'recuperacion_reaseguro' con 13,893 filas ausentes, lo cual será considerado en etapas posteriores del análisis.

Posteriormente, se realizará una exploración individual de las principales columnas para comprender mejor su contenido. Por ejemplo, se analizarán los años incluidos en la base de datos, los plazos registrados, los países y entidades involucradas, los tipos de crédito e insolvencia, las monedas utilizadas y las formas de venta.
En conjunto, estos pasos permitirán obtener una visión clara y estructurada de los datos de siniestros, facilitando la correcta interpretación de la información y estableciendo una base sólida para análisis posteriores más detallados. 

In [21]:
# Primer paso para conocer en general el DataFrame 
c_siniestros.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19808 entries, 0 to 19807
Data columns (total 19 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   anio                    19808 non-null  int64  
 1   plazo                   19808 non-null  int64  
 2   tipo_insolvencia        19808 non-null  object 
 3   entidad                 19808 non-null  object 
 4   pais                    19808 non-null  object 
 5   tipo_credito            19808 non-null  object 
 6   giro                    19808 non-null  object 
 7   tipo_poliza             19808 non-null  object 
 8   moneda                  19808 non-null  object 
 9   forma_venta             19808 non-null  object 
 10  numero_siniestros       19808 non-null  int64  
 11  monto_siniestro         19808 non-null  int64  
 12  monto_pagado            19808 non-null  int64  
 13  monto_deducible         19808 non-null  int64  
 14  monto_coaseguros        19808 non-null

In [22]:
# Muestra las primeras filas del DataFrame
c_siniestros.head()

Unnamed: 0,anio,plazo,tipo_insolvencia,entidad,pais,tipo_credito,giro,tipo_poliza,moneda,forma_venta,numero_siniestros,monto_siniestro,monto_pagado,monto_deducible,monto_coaseguros,gastos_ajuste,salvamentos,monto_recuperacion,recuperacion_reaseguro
0,2015,1,Mora prolongada,Puebla,No aplica (interno),Interno,Fabricacion de productos de plastico,Global,Extranjera,Agentes Persona Fisica,1,0,0,0,0,7460,0,,
1,2015,5,Mora prolongada,Distrito Federal,No aplica (interno),Interno,Otras industrias alimentarias,Global,Nacional,Fuerza de Venta Interna o Casa Matriz,1,-24242,0,0,0,3124,0,,
2,2015,7,Insolvencia de hecho,Estado de Mexico,No aplica (interno),Interno,"Comercio al por menor de combustibles, aceites...",Global,Nacional,Agentes Persona Fisica,2,0,0,0,0,157241,425880,,
3,2015,7,Mora prolongada,Distrito Federal,No aplica (interno),Interno,Otras industrias alimentarias,Global,Nacional,Fuerza de Venta Interna o Casa Matriz,1,-32612,0,0,0,0,0,,
4,2015,7,Mora prolongada,Sonora,No aplica (interno),Interno,Otro producto al Comercio al por mayor,Global,Nacional,Directo,1,0,0,0,0,522,0,,


In [23]:
# Muestra las últimas filas del DataFrame
c_siniestros.tail()

Unnamed: 0,anio,plazo,tipo_insolvencia,entidad,pais,tipo_credito,giro,tipo_poliza,moneda,forma_venta,numero_siniestros,monto_siniestro,monto_pagado,monto_deducible,monto_coaseguros,gastos_ajuste,salvamentos,monto_recuperacion,recuperacion_reaseguro
19803,2024,360,Mora prolongada,Tamaulipas,No aplica (interno),Mixto,"Fabricacion de pinturas, recubrimientos, adhes...",Global,Nacional,Agentes Persona Fisica,1,99749,99749,0,9974,0,0,0.0,67829.0
19804,2024,365,Insolvencia de hecho,Nayarit,No aplica (interno),Interno,"Comercio al por mayor de maquinaria, mobiliari...",Global,Extranjera,Agentes Persona Fisica,1,-188129,0,59300,0,45639,0,0.0,-188129.0
19805,2024,365,Mora prolongada,Ciudad de Mexico,No aplica (interno),Interno,"Comercio al por mayor de maquinaria, mobiliari...",Global,Extranjera,Agentes Persona Fisica,2,-182977,580520,225211,58052,45271,0,0.0,-182977.0
19806,2024,365,Mora prolongada,Jalisco,No aplica (interno),Interno,"Comercio al por mayor de maquinaria, mobiliari...",Global,Extranjera,Agentes Persona Fisica,2,0,0,0,0,59152,0,0.0,0.0
19807,2024,366,Mora prolongada,Yucatan,No aplica (interno),Mixto,Fabricacion de maquinaria y equipo para las ac...,Global,Nacional,Agentes Persona Moral,1,0,0,0,0,3173,0,0.0,0.0


### Duplicados y Ausentes

No se observan datos duplicados.

In [24]:
# Muestra las filas duplicadas
c_siniestros.duplicated().sum()

np.int64(0)

La revisión de valores nulos muestra que la mayoría de las columnas no presentan información faltante. Sin embargo, las variables monto_recuperacion y recuperacion_reaseguro contienen valores ausentes, lo que indica que en esos siniestros no hubo procesos de recuperación o reaseguro. Por esta razón, estos valores se interpretaron como ausencia de recuperación y se trataron como cero, con el fin de evitar distorsiones en el análisis de los montos financieros.

In [25]:
# Muestra los datos nulos
c_siniestros.isnull().sum()

anio                          0
plazo                         0
tipo_insolvencia              0
entidad                       0
pais                          0
tipo_credito                  0
giro                          0
tipo_poliza                   0
moneda                        0
forma_venta                   0
numero_siniestros             0
monto_siniestro               0
monto_pagado                  0
monto_deducible               0
monto_coaseguros              0
gastos_ajuste                 0
salvamentos                   0
monto_recuperacion        11753
recuperacion_reaseguro    13893
dtype: int64

In [26]:
# Reemplaza NaN por 0 en columnas de recuperación
c_siniestros[['monto_recuperacion','recuperacion_reaseguro']] = c_siniestros[['monto_recuperacion','recuperacion_reaseguro']].fillna(0)

In [27]:
# Verificación del cambio 
c_siniestros.isnull().sum()

anio                      0
plazo                     0
tipo_insolvencia          0
entidad                   0
pais                      0
tipo_credito              0
giro                      0
tipo_poliza               0
moneda                    0
forma_venta               0
numero_siniestros         0
monto_siniestro           0
monto_pagado              0
monto_deducible           0
monto_coaseguros          0
gastos_ajuste             0
salvamentos               0
monto_recuperacion        0
recuperacion_reaseguro    0
dtype: int64

#### 

### Perfil de datos: Análisis de columnas de la Tabla c_siniestros

Al igual que en la tabla previa, se efectuó un análisis exploratorio inicial del conjunto de datos con la finalidad de comprender su organización y las características más relevantes de las variables.

De igual manera, se identificaron discrepancias en la forma de escritura de ciertas categorías, las cuales se consideraron como oportunidades de unificación para garantizar la coherencia del análisis. Este procedimiento brindó una visión general precisa de la información disponible y estableció los fundamentos para estudios posteriores más profundos y confiables.

__*Resumen de hallazgos*__

__*Columna anio:*__ Representa el año en el que se registra el siniestro. Los datos abarcan el periodo de 2015 a 2024, con una concentración alrededor del año 2020, lo que permite analizar la evolución temporal de los siniestros a lo largo de varios años.

__*Columna plazo:*__ Indica la duración del crédito asociada al siniestro. Los valores sugieren que el plazo está expresado en días, con una mediana de 120 días y una mayor concentración entre 90 y 180 días, lo que corresponde a créditos de corto y mediano plazo.

__*Columna tipo_insolvencia:*__ Se identifican tres tipos de insolvencia, predominando ampliamente la mora prolongada, mientras que la insolvencia de hecho es mucho menos frecuente y la insolvencia legal representa una proporción marginal.

__*Columna entidad:*__ Los registros se concentran principalmente en Estado de México, Ciudad de México y Jalisco, seguidos por Nuevo León y otras entidades industriales del país. También existen categorías de “No aplica” asociadas a exportación y un número reducido de registros extranjero, lo que indica una cobertura mayoritariamente nacional.

__*Columna pais:*__ La gran mayoría de los créditos corresponde a operaciones internas (“No aplica (interno)”). En exportación, destacan Estados Unidos y países de Latinoamérica, con una alta dispersión y múltiples países con baja frecuencia. Se observan duplicidades en la categoría País no especificado, que deberán estandarizarse.

__*Columna tipo_credito:*__ Predominan los créditos internos, seguidos por los mixtos. Los créditos de exportación representan una menor proporción y existe una categoría residual de valores no disponibles.

__*Columna giro:*__ Se observa una alta diversidad de giros, con predominio de actividades manufactureras, metalúrgicas, químicas y comerciales. Destacan el comercio al por mayor, la fabricación de productos de plástico y la industria del hierro y acero. Existe una categoría no disponible que deberá considerarse en la limpieza de datos.

__*Columna tipo_poliza:*__ La mayoría de los registros corresponde a pólizas globales, con una pequeña proporción clasificada como no disponible, lo que indica baja variabilidad en esta variable.

__*Columna moneda:*__ Predomina la moneda nacional, seguida por operaciones en moneda extranjera. Los valores no disponibles coinciden con otras variables, sugiriendo registros incompletos o pendientes de estandarización.

__*Columna forma_venta:*__ Los principales canales de venta son agentes (persona física y moral) y la fuerza de venta interna, seguidos por la red de sucursales bancarias. La venta directa es marginal y existe una pequeña proporción de registros no disponibles.

__*Columna numero_siniestros:*__
Muestra la cantidad de siniestros asociados a cada registro. La mayoría de los casos presenta uno o dos siniestros, aunque existen registros con un número mayor, lo que indica eventos menos frecuentes pero de mayor complejidad.

__*Columna monto_siniestro:*__
Representa el monto total del siniestro. Se observa una alta variabilidad en los valores, incluyendo montos elevados y algunos valores negativos, lo que sugiere ajustes contables o correcciones. La mayoría de los registros se concentra en montos bajos o en cero.

__*Columna monto_pagado:*__
Indica el monto efectivamente pagado por el siniestro. Al igual que el monto del siniestro, presenta una distribución amplia y valores en cero, lo que sugiere que no todos los siniestros generan un pago inmediato o total.

__*Columna monto_deducible:*__
Corresponde al monto del deducible aplicado. La mayoría de los registros tiene valor cero, lo que indica que en muchos casos no se aplicó deducible o este no fue registrado.

__*Columna monto_coaseguros:*__
Representa el monto correspondiente a coaseguros. Predominan los valores en cero, aunque existen algunos montos elevados, lo que sugiere que el coaseguro solo aplica en ciertos casos específicos.

__*Columna gastos_ajuste:*__
Indica los gastos asociados al proceso de ajuste del siniestro. Aunque muchos registros presentan valor cero, se observan casos con gastos significativos, reflejando la variabilidad en la complejidad del manejo del siniestro.

__*Columna salvamentos:*__
Representa los montos recuperados por salvamento. La mayoría de los valores son cero, con algunos casos de montos altos, lo que indica que el salvamento no es común pero puede ser relevante en ciertos siniestros.

__*Columna monto_recuperacion:*__
Muestra el monto recuperado posterior al siniestro. Predominan los valores en cero, lo que sugiere que no todos los siniestros generan recuperación; cuando existe, los montos pueden ser relevantes.

__*Columna recuperacion_reaseguro:*__
Indica los montos recuperados a través de reaseguro. Esta variable presenta alta dispersión y muchos valores en cero, lo que sugiere que el reaseguro solo aplica a una proporción limitada de los siniestros.

In [None]:
columnas_siniestros = c_siniestros.select_dtypes(include='object').columns
print(columnas_siniestros)

Index(['tipo_insolvencia', 'entidad', 'pais', 'tipo_credito', 'giro',
       'tipo_poliza', 'moneda', 'forma_venta'],
      dtype='object')


In [40]:
# Bucle para remplazar los dobles 'No disponibles' en las columnas
for cambio_col in columnas_siniestros:
    c_siniestros[cambio_col] = c_siniestros[cambio_col].replace(cambio_valores)

In [41]:
for col in columnas_siniestros:
    print(f"\n*** {col.upper()} ***")
    print(c_siniestros[col].value_counts().head(40))


*** TIPO_INSOLVENCIA ***
tipo_insolvencia
Mora prolongada         19011
Insolvencia de hecho      757
Insolvencia legal          40
Name: count, dtype: int64

*** ENTIDAD ***
entidad
Estado de Mexico           2084
Ciudad de Mexico           1651
Distrito Federal           1469
Jalisco                    1424
Nuevo Leon                 1422
No aplica (Exportacion)    1125
Puebla                      887
Guanajuato                  796
Veracruz                    723
Sinaloa                     643
Queretaro                   629
Coahuila                    542
Chihuahua                   489
Baja California             466
Sonora                      450
Tamaulipas                  437
Michoacan                   420
Hidalgo                     417
Yucatan                     388
San Luis Potosi             344
Chiapas                     324
Quintana Roo                312
Tabasco                     282
Aguascalientes              245
Morelos                     241
Durango         

---

In [30]:
columnas_numericas = c_siniestros.select_dtypes(include=['int64', 'float64']).columns
print(columnas_numericas)

Index(['anio', 'plazo', 'numero_siniestros', 'monto_siniestro', 'monto_pagado',
       'monto_deducible', 'monto_coaseguros', 'gastos_ajuste', 'salvamentos',
       'monto_recuperacion', 'recuperacion_reaseguro'],
      dtype='object')


In [31]:
c_siniestros[columnas_numericas].describe()

Unnamed: 0,anio,plazo,numero_siniestros,monto_siniestro,monto_pagado,monto_deducible,monto_coaseguros,gastos_ajuste,salvamentos,monto_recuperacion,recuperacion_reaseguro
count,19808.0,19808.0,19808.0,19808.0,19808.0,19808.0,19808.0,19808.0,19808.0,19808.0,19808.0
mean,2019.690075,121.966933,1.698556,346838.0,317119.7,3160.61,23027.2,45915.15,55973.75,7333.323,75691.0
std,2.757187,57.209377,1.985598,3119901.0,2108211.0,121460.1,220213.1,261014.6,636491.7,152051.2,1715770.0
min,2015.0,1.0,1.0,-84067820.0,-440386.0,0.0,-103810.0,-2414471.0,-442218.0,-5484259.0,-75661040.0
25%,2017.0,90.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,2020.0,120.0,1.0,0.0,0.0,0.0,0.0,2884.0,0.0,0.0,0.0
75%,2022.0,180.0,2.0,222643.0,124547.8,0.0,0.0,25890.25,0.0,0.0,0.0
max,2024.0,470.0,50.0,260013300.0,150673400.0,13400000.0,16741490.0,13146410.0,54479420.0,7492505.0,176809000.0
