# CREDITO EN EL SECTOR ASEGURADOR

Descripción de los datos

El conjunto de datos contiene información relacionada con la emisión de créditos, incluyendo características temporales, geográficas, operativas y contractuales. La tabla está compuesta por 24,280 registros y 14 columnas, y permite analizar la distribución y el comportamiento de los créditos desde distintos enfoques, como el tipo de crédito, el país, el plazo y la estructura de las pólizas.

A continuación, se describen las principales columnas analizadas:

anio: indica el año en el que se registró o emitió el crédito. Los datos abarcan el periodo de 2015 a 2024, lo que permite realizar análisis temporales y observar tendencias a lo largo del tiempo.

pais: representa el país asociado al crédito. Incluye tanto países específicos como categorías generales, por ejemplo créditos internos o registros sin país especificado, lo que sugiere la coexistencia de operaciones nacionales e internacionales.

tipo_credito: clasifica el crédito según su naturaleza, como interno, exportación o mixto. Esta variable es clave para segmentar los créditos y analizar diferencias en su comportamiento.

forma_venta: describe el canal a través del cual se colocó el crédito, como agentes (persona física o moral), fuerza de venta interna, red de sucursales bancarias o venta directa. Permite evaluar la distribución de los créditos según el canal de comercialización.

plazo: indica la duración del crédito. El análisis de sus valores sugiere que esta variable está expresada en días, con una concentración en créditos de corto y mediano plazo.

tipo_poliza: identifica el tipo de póliza asociada al crédito. Durante la exploración se detectaron variaciones en la escritura de algunas categorías, lo que indica la necesidad de estandarización para un análisis consistente.

numero_polizas: señala la cantidad de pólizas asociadas a cada registro. Los valores van de 1 a 22, lo que refleja diferencias en la complejidad de las operaciones crediticias.

moneda: especifica la moneda en la que está denominado el crédito. Esta columna será relevante para análisis financieros y comparaciones de montos entre distintos registros.

# Inicializacion y exploración de los datos

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
from pathlib import Path

In [4]:
c_emision = pd.read_csv('49_Informacion_estadistica_Credito_Emision_ok.csv')
c_siniestros = pd.read_csv('50_Informacion_estadistica_Credito_Siniestros_ok.csv')

## Explorar datos '' Tabla c_emision''

__*Características principales*__

La tabla contiene 24,280 registros distribuidos en 14 columnas. En general, las columnas presentan tipos de datos adecuados para el análisis.

Los siguientes pasos serán identificar la existencia de valores nulos o duplicados y, posteriormente, realizar una exploración individual de ciertas columnas para extraer información relevante. En particular, se busca identificar los años incluidos en la base de datos, los países participantes, los tipos de crédito existentes, las monedas utilizadas y los plazos registrados, con el objetivo de confirmar su unidad de medida.

Asimismo, se analizará la información relacionada con las pólizas para conocer el número de contratos, detectar posibles registros repetidos y comprender su comportamiento general. En conjunto, estos pasos permitirán entender a fondo los datos disponibles, redactar correctamente el resumen inicial y establecer una base sólida para análisis posteriores.

In [5]:
c_emision.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24280 entries, 0 to 24279
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   anio              24280 non-null  int64  
 1   plazo             24280 non-null  int64  
 2   pais              24280 non-null  object 
 3   tipo_credito      24280 non-null  object 
 4   giro              24280 non-null  object 
 5   tipo_poliza       24280 non-null  object 
 6   moneda            24280 non-null  object 
 7   forma_venta       24280 non-null  object 
 8   numero_polizas    24280 non-null  int64  
 9   prima_emitida     24280 non-null  int64  
 10  prima_retenida    24280 non-null  int64  
 11  prima_devengada   24280 non-null  int64  
 12  suma_asegurada    24280 non-null  float64
 13  comision_directa  24280 non-null  int64  
dtypes: float64(1), int64(7), object(6)
memory usage: 2.6+ MB


In [6]:
c_emision.head()

Unnamed: 0,anio,plazo,pais,tipo_credito,giro,tipo_poliza,moneda,forma_venta,numero_polizas,prima_emitida,prima_retenida,prima_devengada,suma_asegurada,comision_directa
0,2015,7,E.U.A.,Exportacion,Comercio al por mayor de alimentos y abarrotes,Global,Extranjera,Agentes Persona Moral,2,1521463,420914,262586,577263923.0,228219
1,2015,14,No aplica (interno),Interno,Otras industrias manufactureras,Global,Nacional,Fuerza de Venta Interna o Casa Matriz,2,234971,63780,52641,1305505.0,0
2,2015,15,No aplica (interno),Interno,Comercio al por mayor de electrodomesticos men...,Global,Nacional,Fuerza de Venta Interna o Casa Matriz,1,28800,7920,3558,1.0,0
3,2015,15,No aplica (interno),Interno,Fabricacion de accesorios de iluminacion,Global,Nacional,Fuerza de Venta Interna o Casa Matriz,1,181500,49912,22426,1.0,0
4,2015,15,Pais no Especificado,Exportacion,Fabricacion de accesorios de iluminacion,Global,Extranjera,Fuerza de Venta Interna o Casa Matriz,1,18992,5222,3461,33.0,0


In [7]:
c_emision.tail()

Unnamed: 0,anio,plazo,pais,tipo_credito,giro,tipo_poliza,moneda,forma_venta,numero_polizas,prima_emitida,prima_retenida,prima_devengada,suma_asegurada,comision_directa
24275,2024,365,No aplica (interno),Interno,"Edicion de periodicos, revistas, libros y simi...",Global,Nacional,Agentes Persona Fisica,3,907787,290492,0,405000001.0,136168
24276,2024,365,No aplica (interno),Mixto,Otra actividad o servicio relacionada con la a...,Global,Nacional,Agentes Persona Moral,1,982603,196521,0,849450030.0,147391
24277,2024,366,No aplica (interno),Mixto,Fabricacion de maquinaria y equipo para las ac...,Global,Nacional,Agentes Persona Moral,2,219294,43859,160064,440000000.0,32894
24278,2024,455,No aplica (interno),Interno,Comercio al por mayor de maquinaria y equipo a...,Global,Nacional,Agentes Persona Moral,1,559106,139776,0,575429427.0,100639
24279,2024,730,No aplica (interno),Interno,Fabricacion de productos metalicos forjados y ...,Global,Extranjera,Agentes Persona Fisica,1,-150066,-150066,0,732710.0,-24011


__*Duplicados y Ausentes*__

No existen filas que puedan estar duplicadas.

In [8]:
# Visualización de valores duplicados
c_emision.duplicated().sum()

np.int64(0)

Se confirma que no se visualizan datos nulos como ya habiamos visto.

In [9]:
# Visualizacion de valores ausentes
c_emision.isnull().sum()

anio                0
plazo               0
pais                0
tipo_credito        0
giro                0
tipo_poliza         0
moneda              0
forma_venta         0
numero_polizas      0
prima_emitida       0
prima_retenida      0
prima_devengada     0
suma_asegurada      0
comision_directa    0
dtype: int64

__*Columna anio*__

En la columna año se verificó el rango temporal de la información. Los resultados indican que los créditos del conjunto de datos van de 2015 a 2024, sumando un total de 10 años de registros.

In [10]:
# Ver valores únicos de año
c_emision['anio'].unique()

array([2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023, 2024])

__*Columna plazo*__

La razón por la cual estoy investigando esta columna es para saber si los plazos eran dias, meses o años. En conjunto, estos valores sugieren que los plazos están expresados en días, siendo común la concentración alrededor de 120 días, lo que corresponde a créditos de corto y mediano plazo. En promedio, los créditos tienen un plazo de aproximadamente 129 días, con una variabilidad moderada, reflejada en una desviación estándar de 55.8 días.

El plazo mínimo registrado es de 7 días, mientras que el máximo alcanza 731 días, lo que equivale a cerca de dos años. La mediana es de 120 días, lo que indica que al menos la mitad de los créditos tienen un plazo igual o menor a este valor. Asimismo, el 75 % de los plazos no supera los 150 días.

In [11]:
c_emision['plazo'].describe()

count    24280.000000
mean       129.287026
std         55.824472
min          7.000000
25%        120.000000
50%        120.000000
75%        150.000000
max        731.000000
Name: plazo, dtype: float64

__*Columna pais*__

En la columna pais se identifican los países asociados a los créditos registrados en el dataset. Los resultados muestran una amplia diversidad geográfica, que incluye tanto países específicos como categorías generales como “No aplica (interno)” y “País no especificado”.

In [12]:
c_emision['pais'].unique()

array(['E.U.A.', 'No aplica (interno)', 'Pais no Especificado',
       'Costa Rica', 'Alemania', 'Canada', 'Colombia', 'Corea del Sur',
       'El Salvador', 'España', 'Francia', 'Guatemala', 'Honduras',
       'Hong-Kong', 'Japon', 'Luxemburgo', 'Nicaragua', 'Panama', 'Peru',
       'Puerto Rico', 'Republica Dominicana', 'Brasil', 'Belice',
       'Holanda', 'Andorra', 'Antillas Holandesas', 'Argentina', 'Aruba',
       'Australia', 'Austria', 'Bahamas', 'Belgica', 'Chile', 'China',
       'Curacao', 'Ecuador', 'Hungria', 'Inglaterra', 'Israel', 'Italia',
       'Jamaica', 'Martinica', 'Otro', 'Singapur', 'Surinam', 'Uruguay',
       'Arabia Saudita', 'Dinamarca', 'Polonia', 'Republica Checa',
       'Suecia', 'Finlandia', 'Rusia', 'Taiwan', 'Bolivia', 'Guyana',
       'Irlanda', 'Paraguay', 'Portugal', 'Suiza', 'Turquia', 'Sudafrica',
       'Rumania', 'Nueva Zelanda', 'Tailandia', 'Trinidad y Tobago',
       'India', 'Malasia', 'Filipinas', 'Noruega', 'Pais No Especificado',
       

__*Columna tipo_credito*__

Se identificaron 5 categorías en total ('Exportacion', 'Interno', 'Mixto', 'No Disponible','No disponible'); dos de estas equivalentes para valores no disponibles en la variable tipo_credito, diferenciadas únicamente por el uso de mayúsculas. Ambas fueron unificadas para garantizar consistencia en el análisis.

In [14]:
c_emision['tipo_credito'].value_counts()

tipo_credito
Exportacion      8260
Mixto            8255
Interno          7730
No disponible      25
No Disponible      10
Name: count, dtype: int64

In [24]:
c_emision['tipo_credito'] = c_emision['tipo_credito'].replace({'No Disponible' : 'No disponible'})

In [25]:
c_emision['tipo_credito'].unique()

array(['Exportacion', 'Interno', 'Mixto', 'No disponible'], dtype=object)

__*Columna tipo_poliza*__

Se identificaron 4 categorías ('Global', 'No Disponible', 'Especifica', 'No disponible'), de nuevo se identificaron diferencias en la escritura de categorías equivalentes, utilice la misma solución que el caso anterior.

In [27]:
c_emision['tipo_poliza'].value_counts()

tipo_poliza
Global           24214
Especifica          31
No Disponible       18
No disponible       17
Name: count, dtype: int64

In [28]:
c_emision['tipo_poliza'] = c_emision['tipo_poliza'].replace({'No Disponible' : 'No disponible'})

In [29]:
c_emision['tipo_poliza'].unique()

array(['Global', 'No disponible', 'Especifica'], dtype=object)

__*Columna moneda*__

Se puede ver que solo hay 3 categorias finales ('Extranjera', 'Nacional', 'No disponible').Al parecer existe la misma diferencia de ecritura que en los anteriores casos, aplicare la misma solución, aunque se podría hacer un único código que pueda solucionar esto, estoy tratando por separado las columnas.

In [30]:
c_emision['moneda'].unique()

array(['Extranjera', 'Nacional', 'No Disponible', 'No disponible'],
      dtype=object)

In [31]:
c_emision['moneda'] = c_emision['moneda'].replace({'No Disponible': 'No disponible'})

In [32]:
c_emision['moneda'].unique()

array(['Extranjera', 'Nacional', 'No disponible'], dtype=object)

__*Columna forma_venta*__

Los valores identificados incluyen agentes (persona física y moral), fuerza de venta interna, red de sucursales bancarias y venta directa, lo que refleja la existencia de múltiples canales de comercialización. Asimismo, se observan registros clasificados como no disponibles, los cuales ya fueron identificados como una categoría a estandarizar.

In [33]:
c_emision['forma_venta'].unique()

array(['Agentes Persona Moral', 'Fuerza de Venta Interna o Casa Matriz',
       'Agentes Persona Fisica', 'Red de Sucursales Bancarias',
       'No Disponible', 'Directo', 'No disponible'], dtype=object)

In [36]:
c_emision['forma_venta'] = c_emision['forma_venta'].replace({'No Disponible' : 'No disponible'})

In [37]:
c_emision['forma_venta'].unique()

array(['Agentes Persona Moral', 'Fuerza de Venta Interna o Casa Matriz',
       'Agentes Persona Fisica', 'Red de Sucursales Bancarias',
       'No disponible', 'Directo'], dtype=object)

__*Columna numero_polizas*__

La columna numero_polizas indica la cantidad de pólizas asociadas a cada registro. Los valores observados van de 1 a 22, lo que sugiere que algunos créditos están vinculados a una sola póliza, mientras que otros agrupan múltiples pólizas dentro de una misma operación. Esta variabilidad será relevante para analizar la concentración de pólizas, identificar créditos con estructuras más complejas y evaluar posibles diferencias en su comportamiento frente a aquellos con una sola póliza asociada.

In [34]:
c_emision['numero_polizas'].unique()

array([ 2,  1,  3,  4,  7,  5,  6,  8, 11, 12,  9, 15, 10, 13, 14, 16, 18,
       22, 20, 19, 17])

__Resumen__

En esta etapa se realizó un análisis exploratorio inicial del conjunto de datos con el objetivo de comprender su estructura y las principales características de las variables. Se revisaron columnas clave como año, país, tipo de crédito, forma de venta, plazo y número de pólizas, identificando rangos, categorías existentes y patrones generales.

Asimismo, se detectaron inconsistencias en la escritura de algunas categorías, las cuales fueron reconocidas como oportunidades de estandarización para asegurar la consistencia del análisis. Este proceso permitió obtener una visión general clara de la información disponible y sentó las bases para análisis posteriores más detallados y confiables.

## Explorar datos ''Tabla c_siniestros''

In [15]:
c_siniestros.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19808 entries, 0 to 19807
Data columns (total 19 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   anio                    19808 non-null  int64  
 1   plazo                   19808 non-null  int64  
 2   tipo_insolvencia        19808 non-null  object 
 3   entidad                 19808 non-null  object 
 4   pais                    19808 non-null  object 
 5   tipo_credito            19808 non-null  object 
 6   giro                    19808 non-null  object 
 7   tipo_poliza             19808 non-null  object 
 8   moneda                  19808 non-null  object 
 9   forma_venta             19808 non-null  object 
 10  numero_siniestros       19808 non-null  int64  
 11  monto_siniestro         19808 non-null  int64  
 12  monto_pagado            19808 non-null  int64  
 13  monto_deducible         19808 non-null  int64  
 14  monto_coaseguros        19808 non-null

In [16]:
c_siniestros.head()

Unnamed: 0,anio,plazo,tipo_insolvencia,entidad,pais,tipo_credito,giro,tipo_poliza,moneda,forma_venta,numero_siniestros,monto_siniestro,monto_pagado,monto_deducible,monto_coaseguros,gastos_ajuste,salvamentos,monto_recuperacion,recuperacion_reaseguro
0,2015,1,Mora prolongada,Puebla,No aplica (interno),Interno,Fabricacion de productos de plastico,Global,Extranjera,Agentes Persona Fisica,1,0,0,0,0,7460,0,,
1,2015,5,Mora prolongada,Distrito Federal,No aplica (interno),Interno,Otras industrias alimentarias,Global,Nacional,Fuerza de Venta Interna o Casa Matriz,1,-24242,0,0,0,3124,0,,
2,2015,7,Insolvencia de hecho,Estado de Mexico,No aplica (interno),Interno,"Comercio al por menor de combustibles, aceites...",Global,Nacional,Agentes Persona Fisica,2,0,0,0,0,157241,425880,,
3,2015,7,Mora prolongada,Distrito Federal,No aplica (interno),Interno,Otras industrias alimentarias,Global,Nacional,Fuerza de Venta Interna o Casa Matriz,1,-32612,0,0,0,0,0,,
4,2015,7,Mora prolongada,Sonora,No aplica (interno),Interno,Otro producto al Comercio al por mayor,Global,Nacional,Directo,1,0,0,0,0,522,0,,


In [17]:
c_emision.describe()

Unnamed: 0,anio,plazo,numero_polizas,prima_emitida,prima_retenida,prima_devengada,suma_asegurada,comision_directa
count,24280.0,24280.0,24280.0,24280.0,24280.0,24280.0,24280.0,24280.0
mean,2020.015157,129.287026,1.813097,613738.7,117717.5,301771.2,640300700.0,68027.43
std,2.773611,55.824472,1.44047,1832466.0,422986.5,1160302.0,2907163000.0,255968.5
min,2015.0,7.0,1.0,-7345525.0,-1768996.0,-844038.0,1.0,-1777855.0
25%,2018.0,120.0,1.0,8556.5,1310.0,455.0,5812156.0,0.0
50%,2020.0,120.0,1.0,112395.0,17493.5,14558.5,36168360.0,805.5
75%,2022.0,150.0,2.0,501112.2,82903.5,162716.0,241841100.0,38794.0
max,2024.0,731.0,22.0,61960900.0,19827490.0,38351080.0,113381000000.0,9294135.0


In [18]:
c_siniestros.describe()

Unnamed: 0,anio,plazo,numero_siniestros,monto_siniestro,monto_pagado,monto_deducible,monto_coaseguros,gastos_ajuste,salvamentos,monto_recuperacion,recuperacion_reaseguro
count,19808.0,19808.0,19808.0,19808.0,19808.0,19808.0,19808.0,19808.0,19808.0,8055.0,5915.0
mean,2019.690075,121.966933,1.698556,346838.0,317119.7,3160.61,23027.2,45915.15,55973.75,18033.33,253472.1
std,2.757187,57.209377,1.985598,3119901.0,2108211.0,121460.1,220213.1,261014.6,636491.7,238042.8,3132801.0
min,2015.0,1.0,1.0,-84067820.0,-440386.0,0.0,-103810.0,-2414471.0,-442218.0,-5484259.0,-75661040.0
25%,2017.0,90.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,2020.0,120.0,1.0,0.0,0.0,0.0,0.0,2884.0,0.0,0.0,0.0
75%,2022.0,180.0,2.0,222643.0,124547.8,0.0,0.0,25890.25,0.0,0.0,152520.5
max,2024.0,470.0,50.0,260013300.0,150673400.0,13400000.0,16741490.0,13146410.0,54479420.0,7492505.0,176809000.0


In [19]:
c_siniestros.duplicated().sum()

np.int64(0)

In [20]:
c_siniestros.isnull().sum()

anio                          0
plazo                         0
tipo_insolvencia              0
entidad                       0
pais                          0
tipo_credito                  0
giro                          0
tipo_poliza                   0
moneda                        0
forma_venta                   0
numero_siniestros             0
monto_siniestro               0
monto_pagado                  0
monto_deducible               0
monto_coaseguros              0
gastos_ajuste                 0
salvamentos                   0
monto_recuperacion        11753
recuperacion_reaseguro    13893
dtype: int64

In [21]:
# Reemplazar NaN por 0 en columnas de recuperación
c_siniestros[['monto_recuperacion','recuperacion_reaseguro']] = c_siniestros[['monto_recuperacion','recuperacion_reaseguro']].fillna(0)

In [22]:
c_siniestros.isnull().sum()

anio                      0
plazo                     0
tipo_insolvencia          0
entidad                   0
pais                      0
tipo_credito              0
giro                      0
tipo_poliza               0
moneda                    0
forma_venta               0
numero_siniestros         0
monto_siniestro           0
monto_pagado              0
monto_deducible           0
monto_coaseguros          0
gastos_ajuste             0
salvamentos               0
monto_recuperacion        0
recuperacion_reaseguro    0
dtype: int64