# Importación de módulos

In [1]:
import os
import pandas as pd

# Lectura de la Base de Datos
Para descargar la base de datos original se necesita ir a la siguiente [ruta](https://sio.cnsf.gob.mx/)

## Definición de ruta

In [2]:
read_dir = r'C:\Users\ed_22\Documents\SIO'
read_file = 'ER_sep2023.xlsx'
read_path = os.path.join(read_dir, read_file)

## Variables globales

In [18]:
FIELDS = {
    'FECHA_CORTE':'corte',
    'NOMBRE_CORTO':'nombre',
    'DESCRIPCION':'cuenta',
    'DESC_OPERACION':'ramo',
    'IMPORTE':'importe'
}

In [19]:
ER = pd.read_excel(read_path, usecols=FIELDS.keys()).rename(columns=FIELDS)

In [20]:
ER.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 518811 entries, 0 to 518810
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype         
---  ------   --------------   -----         
 0   corte    518811 non-null  datetime64[ns]
 1   nombre   518811 non-null  object        
 2   cuenta   518811 non-null  object        
 3   ramo     518811 non-null  object        
 4   importe  518811 non-null  float64       
dtypes: datetime64[ns](1), float64(1), object(3)
memory usage: 19.8+ MB


In [21]:
ER.nombre.unique()

array(['Crédito Afianzador', 'Fianzas Guardiana Inbursa',
       'Liberty Fianzas', 'Fianzas Asecam', 'Afianzadora CBL Fiducia',
       'Mapfre Fianzas', 'CESCE Fianzas México', 'Zurich Fianzas México',
       'MBIA México', 'Plan Seguro', 'Medi Access Seguros de Salud',
       'BBVA Bancomer Seguros Salud', 'AXA Salud', 'General de Salud',
       'Servicios Integrales de Salud Nova', 'Seguros Centauro',
       'Dentegra Seguros Dentales', 'Odontored Seguros Dentales',
       'Pensiones Sura', 'Pensiones Banorte', 'HSBC Pensiones',
       'Pensiones BBVA Bancomer', 'Profuturo GNP Pensiones',
       'Principal Pensiones', 'Pensiones Banamex',
       'Metlife Pensiones México', 'Pensiones Inbursa', 'Seguros Banorte',
       'Allianz México', 'Patrimonial Inbursa',
       'Atradius Seguros de Crédito', 'Seguros El Potosí',
       'General de Seguros', 'Seguros Sura', 'AIG Seguros México',
       'La Latinoamericana Seguros', 'Seguros Ve por Más',
       'Zurich Santander Seguros México', 

In [22]:
ER.ramo.unique()

array(['Total', '*Fianzas', '**Fidelidad', '***Individual',
       '***Colectivo', '**Judicial o Penal', '***Penales',
       '***No penales', '***Amparan conductores de automóviles',
       '**Administrativo', '***Por Obra', '***Proveeduría', '***Fiscales',
       '***Arrendamiento', '***Otras de Administrativo', '**De crédito',
       '***Suministro', '***Compra Venta', '***Otras de Crédito',
       '***Financiera', '*Da?os', '**Garantía financiera',
       '*Accidentes y Enfermedades', '***Gastos Médicos', '***Salud',
       '***Accidentes Personales', '*Pensiones',
       '***IMSS Incapacidad Permanente RT',
       '***IMSS Muerte (riesgos de trabajo)',
       '***IMSS Invalidez (invalidez y vida)',
       '***IMSS Muerte (invalidez y vida)',
       '***IMSS Jubilación (retiro, cesantía y vejez)',
       '***ISSSTE Incapacidad Permanente RT',
       '***ISSSTE Muerte (riesgos de trabajo)',
       '***ISSSTE Invalidez (invalidez y vida)',
       '***ISSSTE Muerte (invalidez y vida)'

In [23]:
'***Administrativo'.count('*')

3

In [24]:
def asignar_nivel(cadena):
    """ devuelve el nivel correspondiente al ramo""" 
    return cadena.count('*')

In [26]:
ER['nivel'] = ER.ramo.apply(asignar_nivel)

In [27]:
ER.head()

Unnamed: 0,corte,nombre,cuenta,ramo,importe,nivel
0,2016-03-31,Crédito Afianzador,Directo,Total,17.68,0
1,2016-06-30,Crédito Afianzador,Directo,Total,19.3,0
2,2016-09-30,Crédito Afianzador,Directo,Total,21.39,0
3,2016-12-31,Crédito Afianzador,Directo,Total,24.54,0
4,2017-03-31,Crédito Afianzador,Directo,Total,17.77,0


In [10]:
ER.cuenta.unique()

array(['Directo', 'Primas Cedidas', 'Primas De Retención',
       'Primas de Retención Devengadas', 'Costo Neto de Adquisición',
       'Comisiones a Agentes',
       'Costo Neto de Siniestralidad, Reclamaciones y Otras Obligaciones Pendientes de Cumplir',
       'Utilidad (Pérdida) Técnica', 'Gastos de Operación Netos',
       'Resultado Integral de Financiamiento',
       'Utilidad (Pérdida) antes de Impuestos a la Utilidad',
       'Utilidad  (Pérdida) del Ejercicio',
       'Utilidad (Pérdida) de la Operación', 'Tomado',
       'Compensaciones Adicionales a Agentes'], dtype=object)

In [30]:
ER.query('cuenta == "Directo"').importe.sum() + ER.query('cuenta == "Tomado"').importe.sum() - ER.query('cuenta == "Primas Cedidas"').importe.sum()

30994940.24000001

In [29]:
ER.query('cuenta == "Primas De Retención"').importe.sum()

30986033.189999998

In [11]:
df = ER.copy()

In [12]:
df['nombre'] = df.nombre.str.replace('?', 'ñ', regex=True)
df['desc'] = df.desc.str.replace('?', 'ñ', regex=True)
df['desc_op'] = df.desc_op.str.replace('*', '', regex=True)
df['desc_op'] = df.desc_op.str.replace('?', 'ñ', regex=True)

In [13]:
df.pivot_table(columns=['corte'], index=['nombre'], values='importe').head()

corte,2016-03-31,2016-06-30,2016-09-30,2016-12-31,2017-03-31,2017-06-30,2017-09-30,2017-12-31,2018-03-31,2018-06-30,...,2021-06-30,2021-09-30,2021-12-31,2022-03-31,2022-06-30,2022-09-30,2022-12-31,2023-03-31,2023-06-30,2023-09-30
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Armour Secure Insurance,3.601818,12.29,19.134545,25.32,5.489091,12.89,20.369091,27.010909,2.924545,12.928182,...,16.433333,20.963333,27.811667,2.730909,18.486667,25.205833,33.028333,6.253333,16.636667,35.8025
A.N.A. Compañía de Seguros,41.121209,84.565824,124.83989,183.015385,62.841868,119.588791,178.265604,248.655275,78.953407,150.985385,...,213.140612,320.915306,462.012755,121.909694,234.652653,340.947959,479.295204,119.757959,238.570612,354.420612
AIG Seguros México,48.982303,62.695184,91.103323,139.05318,44.170154,83.512215,136.858532,193.711713,37.87219,101.395683,...,85.92178,125.647901,168.820641,44.229822,90.552997,140.481357,178.383569,74.707713,114.21871,164.408271
AXA Salud,20.896,35.973,46.673636,60.734545,23.023,30.05,44.248,57.913,12.832,28.049,...,13.520833,18.150833,19.870833,78.015,81.685833,102.615833,87.98,78.431667,79.9175,103.945
AXA Seguros,321.767366,587.335182,835.292067,1121.23223,311.173842,552.388361,824.50082,1116.206307,304.428943,618.268905,...,752.010896,1071.7048,1413.980869,424.760571,806.3289,1171.188729,1554.81022,474.501931,881.061691,1279.866754


# Exploratory Data Analysis
También conocido como **EDA**. Nos permite hacer una exploración de los datos para darnos una idea de qué tipo de análisis podemos llegar a hacer.

## YData Profiling
Para ver la documentación oficial [aquí](https://docs.profiling.ydata.ai/latest/)

**Instalación**

    pip install ydata-profiling

In [6]:
!pip install ydata-profiling

Collecting ydata-profiling




  Downloading ydata_profiling-4.6.5-py2.py3-none-any.whl.metadata (20 kB)
Collecting pydantic>=2 (from ydata-profiling)
  Downloading pydantic-2.6.3-py3-none-any.whl.metadata (84 kB)
     ---------------------------------------- 0.0/84.4 kB ? eta -:--:--
     ---------------------------------------- 84.4/84.4 kB 2.4 MB/s eta 0:00:00
Collecting visions==0.7.5 (from visions[type_image_path]==0.7.5->ydata-profiling)
  Downloading visions-0.7.5-py3-none-any.whl.metadata (6.3 kB)
Collecting htmlmin==0.1.12 (from ydata-profiling)
  Downloading htmlmin-0.1.12.tar.gz (19 kB)
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting phik<0.13,>=0.11.1 (from ydata-profiling)
  Downloading phik-0.12.4-cp39-cp39-win_amd64.whl.metadata (5.6 kB)
Collecting multimethod<2,>=1.4 (from ydata-profiling)
  Downloading multimethod-1.11.2-py3-none-any.whl.metadata (9.1 kB)
Collecting typeguard<5,>=4.1.2 (from ydata-profiling)
  Downloading typeguard-4.

In [14]:
from ydata_profiling import ProfileReport

profile = ProfileReport(df, title="Profiling Report")

In [15]:
profile

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]



# Ejercicios
1. Obtener la prima directa del ramo Agrícola de las 5 principales instituciones.
2. ¿Qué institución cuenta con