## Importacion de bibliotecas

In [2]:
# Importar paquetes

import pandas as pd
import numpy as np

## Etapa de carga de datos
En esta etapa se cargan los datos de los datasets.

In [3]:
# #En este caso se reciben los datos desde local, se puede cambiar la ruta en caso sea necesario
ruta_base = "C:/Users/Omar/Downloads/Data SIS/"

# Lista de nombres de archivo para hacer la tarea mas rapido, se puede hacer el read por cada archivo
meses = [f"2024{str(m).zfill(2)}" for m in range(1, 13)]

# Creamos un diccionario para la crecacion de los dataframes
df_afiliados = {}

# Usamos un for para la carga
for mes in meses:
    archivo = f"{ruta_base}OPENDATA_AFILIADOS_DS01_{mes}.csv"
    df_afiliados[mes] = pd.read_csv(archivo)

# Acceder a los DataFrames como df_afiliados["202401"], df_afiliados["202402"], etc.

In [4]:
df_afiliados["202401"].head()

Unnamed: 0,FECHA_CORTE,REGION,PROVINCIA,DISTRITO,UBIGEO,COD_UNIDAD_EJECUTORA,UNIDAD_EJECUTORA,AMBITO_INEI,CODIGO_IPRESS,IPRESS,VRAEM,NACIONAL_EXTRANJERO,PAIS_EXTRANJERO,DOCUMENTO_IDENTIDAD,EDAD,SEXO,REGIMEN_FINANCIAMIENTO,PLAN_DE_SEGURO,COBERTURA_FINANCIERA,TOTAL_AFILIADOS
0,2024-01-31,PIURA,AYABACA,MONTERO,200205,900,REGION PIURA - SALUD LUCIANO CASTILLO COLONNA,RURAL,1970,CENTRO DE SALUD MONTERO,NO,NACIONAL,,D.N.I.,67,FEMENINO,SUBSIDIADO,SIS GRATUITO,PEAS + PC,17
1,2024-01-31,LAMBAYEQUE,LAMBAYEQUE,MOCHUMI,140305,860,REGION LAMBAYEQUE - SALUD,RURAL,4380,MOCHUMI,NO,NACIONAL,,D.N.I.,48,FEMENINO,SUBSIDIADO,SIS PARA TODOS,PEAS + PC,35
2,2024-01-31,CALLAO,PROV. CONST. DEL CALLAO,VENTANILLA,70106,1316,REGION CALLAO - DIRECCION DE SALUD I CALLAO,URBANA,7314,C.S. MATERNO INFANTIL PACHACUTEC PERU-COREA,NO,NACIONAL,,D.N.I.,19,MASCULINO,SUBSIDIADO,SIS PARA TODOS,PEAS + PC,1302
3,2024-01-31,LIMA METROPOLITANA,LIMA,ATE,150103,1528,HOSPITAL DE HUAYCAN,URBANA,5883,HOSPITAL DE HUAYCAN,NO,NACIONAL,,D.N.I.,8,MASCULINO,SUBSIDIADO,SIS GRATUITO,PEAS + PC,302
4,2024-01-31,LIMA METROPOLITANA,LIMA,COMAS,150110,1684,DIRECCION DE REDES INTEGRADAS DE SALUD LIMA NORTE,URBANA,5756,GUSTAVO LANATTA,NO,NACIONAL,,D.N.I.,67,MASCULINO,SUBSIDIADO,SIS GRATUITO,PEAS + PC,21


## Etapa de combinacion de datos
En esta etapa se combinan los datos con el proposito de facilitar la limpieza de datos

In [4]:
# Combinamos todos los DataFrames en uno solo

df_afiliados_sis = pd.concat([df_afiliados["202401"], df_afiliados["202402"],
                            df_afiliados["202403"], df_afiliados["202404"],
                            df_afiliados["202405"], df_afiliados["202406"],
                            df_afiliados["202407"], df_afiliados["202408"],
                            df_afiliados["202409"], df_afiliados["202410"],
                            df_afiliados["202411"], df_afiliados["202412"]])

df_afiliados_sis.head()

Unnamed: 0,FECHA_CORTE,REGION,PROVINCIA,DISTRITO,UBIGEO,COD_UNIDAD_EJECUTORA,UNIDAD_EJECUTORA,AMBITO_INEI,CODIGO_IPRESS,IPRESS,VRAEM,NACIONAL_EXTRANJERO,PAIS_EXTRANJERO,DOCUMENTO_IDENTIDAD,EDAD,SEXO,REGIMEN_FINANCIAMIENTO,PLAN_DE_SEGURO,COBERTURA_FINANCIERA,TOTAL_AFILIADOS
0,2024-01-31,PIURA,AYABACA,MONTERO,200205,900.0,REGION PIURA - SALUD LUCIANO CASTILLO COLONNA,RURAL,1970.0,CENTRO DE SALUD MONTERO,NO,NACIONAL,,D.N.I.,67,FEMENINO,SUBSIDIADO,SIS GRATUITO,PEAS + PC,17
1,2024-01-31,LAMBAYEQUE,LAMBAYEQUE,MOCHUMI,140305,860.0,REGION LAMBAYEQUE - SALUD,RURAL,4380.0,MOCHUMI,NO,NACIONAL,,D.N.I.,48,FEMENINO,SUBSIDIADO,SIS PARA TODOS,PEAS + PC,35
2,2024-01-31,CALLAO,PROV. CONST. DEL CALLAO,VENTANILLA,70106,1316.0,REGION CALLAO - DIRECCION DE SALUD I CALLAO,URBANA,7314.0,C.S. MATERNO INFANTIL PACHACUTEC PERU-COREA,NO,NACIONAL,,D.N.I.,19,MASCULINO,SUBSIDIADO,SIS PARA TODOS,PEAS + PC,1302
3,2024-01-31,LIMA METROPOLITANA,LIMA,ATE,150103,1528.0,HOSPITAL DE HUAYCAN,URBANA,5883.0,HOSPITAL DE HUAYCAN,NO,NACIONAL,,D.N.I.,8,MASCULINO,SUBSIDIADO,SIS GRATUITO,PEAS + PC,302
4,2024-01-31,LIMA METROPOLITANA,LIMA,COMAS,150110,1684.0,DIRECCION DE REDES INTEGRADAS DE SALUD LIMA NORTE,URBANA,5756.0,GUSTAVO LANATTA,NO,NACIONAL,,D.N.I.,67,MASCULINO,SUBSIDIADO,SIS GRATUITO,PEAS + PC,21


## Etapa de calidad y limpieza de datos
En esta etapa, nos enfocamos en mejorar la integridad de los datos mediante la detección y corrección de errores, eliminación de duplicados y estandarización de formatos, garantizando así su precisión y fiabilidad para el análisis.

### Exploración inicial (Overview Data)

In [5]:
#Revision de filas del dataframe

df_afiliados_sis.head()

Unnamed: 0,FECHA_CORTE,REGION,PROVINCIA,DISTRITO,UBIGEO,COD_UNIDAD_EJECUTORA,UNIDAD_EJECUTORA,AMBITO_INEI,CODIGO_IPRESS,IPRESS,VRAEM,NACIONAL_EXTRANJERO,PAIS_EXTRANJERO,DOCUMENTO_IDENTIDAD,EDAD,SEXO,REGIMEN_FINANCIAMIENTO,PLAN_DE_SEGURO,COBERTURA_FINANCIERA,TOTAL_AFILIADOS
0,2024-01-31,PIURA,AYABACA,MONTERO,200205,900.0,REGION PIURA - SALUD LUCIANO CASTILLO COLONNA,RURAL,1970.0,CENTRO DE SALUD MONTERO,NO,NACIONAL,,D.N.I.,67,FEMENINO,SUBSIDIADO,SIS GRATUITO,PEAS + PC,17
1,2024-01-31,LAMBAYEQUE,LAMBAYEQUE,MOCHUMI,140305,860.0,REGION LAMBAYEQUE - SALUD,RURAL,4380.0,MOCHUMI,NO,NACIONAL,,D.N.I.,48,FEMENINO,SUBSIDIADO,SIS PARA TODOS,PEAS + PC,35
2,2024-01-31,CALLAO,PROV. CONST. DEL CALLAO,VENTANILLA,70106,1316.0,REGION CALLAO - DIRECCION DE SALUD I CALLAO,URBANA,7314.0,C.S. MATERNO INFANTIL PACHACUTEC PERU-COREA,NO,NACIONAL,,D.N.I.,19,MASCULINO,SUBSIDIADO,SIS PARA TODOS,PEAS + PC,1302
3,2024-01-31,LIMA METROPOLITANA,LIMA,ATE,150103,1528.0,HOSPITAL DE HUAYCAN,URBANA,5883.0,HOSPITAL DE HUAYCAN,NO,NACIONAL,,D.N.I.,8,MASCULINO,SUBSIDIADO,SIS GRATUITO,PEAS + PC,302
4,2024-01-31,LIMA METROPOLITANA,LIMA,COMAS,150110,1684.0,DIRECCION DE REDES INTEGRADAS DE SALUD LIMA NORTE,URBANA,5756.0,GUSTAVO LANATTA,NO,NACIONAL,,D.N.I.,67,MASCULINO,SUBSIDIADO,SIS GRATUITO,PEAS + PC,21


In [6]:
num_filas, num_columnas = df_afiliados_sis.shape
print(f"Número de filas: {num_filas}, Número de columnas: {num_columnas}")

Número de filas: 30391801, Número de columnas: 20


In [7]:
# Explorar los tipos de datos de cada columna

print(df_afiliados_sis.dtypes)

FECHA_CORTE                object
REGION                     object
PROVINCIA                  object
DISTRITO                   object
UBIGEO                      int64
COD_UNIDAD_EJECUTORA      float64
UNIDAD_EJECUTORA           object
AMBITO_INEI                object
CODIGO_IPRESS             float64
IPRESS                     object
VRAEM                      object
NACIONAL_EXTRANJERO        object
PAIS_EXTRANJERO            object
DOCUMENTO_IDENTIDAD        object
EDAD                        int64
SEXO                       object
REGIMEN_FINANCIAMIENTO     object
PLAN_DE_SEGURO             object
COBERTURA_FINANCIERA       object
TOTAL_AFILIADOS             int64
dtype: object


In [8]:
# Describir los datos del dataset
df_afiliados_sis.describe()

Unnamed: 0,UBIGEO,COD_UNIDAD_EJECUTORA,CODIGO_IPRESS,EDAD,TOTAL_AFILIADOS
count,30391800.0,30390140.0,30390550.0,30391800.0,30391800.0
mean,121120.4,1200.192,5204.604,38.19066,10.52221
std,65701.88,342.5463,5333.623,24.50126,40.69754
min,10101.0,725.0,2.0,0.0,1.0
25%,60701.0,879.0,2116.0,18.0,1.0
50%,130104.0,1175.0,4378.0,35.0,3.0
75%,160210.0,1613.0,6106.0,56.0,7.0
max,250401.0,1744.0,35864.0,131.0,3954.0


In [42]:
# Identificar valores faltantes
df_afiliados_sis.isnull().sum()

FECHA_CORTE                      0
REGION                           0
PROVINCIA                        0
DISTRITO                         0
UBIGEO                           0
COD_UNIDAD_EJECUTORA          1666
UNIDAD_EJECUTORA              1666
AMBITO_INEI                      0
CODIGO_IPRESS                 1249
IPRESS                        1249
VRAEM                            0
NACIONAL_EXTRANJERO              0
PAIS_EXTRANJERO           29126473
DOCUMENTO_IDENTIDAD              0
EDAD                             0
SEXO                             0
REGIMEN_FINANCIAMIENTO           0
PLAN_DE_SEGURO                   0
COBERTURA_FINANCIERA             0
TOTAL_AFILIADOS                  0
dtype: int64

In [9]:
# Buscamos los nulos dentro de Pais extranjero
df_afiliados_sis["PAIS_EXTRANJERO"].value_counts(dropna=False)

PAIS_EXTRANJERO
NaN                        29126473
VENEZUELA                    853902
NO ESPECIFICA                124736
COLOMBIA                     110166
ECUADOR                       28796
                             ...   
SANTA SEDE ( VATICANO )           9
ERITREA                           7
GUYANA FRANCESA                   3
REP. CENTRO AFRICANA              3
JAMAICA                           2
Name: count, Length: 165, dtype: int64

Se llega a la conclusion de que los valores "NaN" son por el campo "NACIONALIDAD" donde no son extranjeros.

### Limpieza de datos

In [10]:
#Reemplazamos los valores NaN antes encontrados con el valor "NO APLICA"

df_afiliados_sis["PAIS_EXTRANJERO"] = df_afiliados_sis["PAIS_EXTRANJERO"].fillna("NO APLICA")

In [11]:
# Corregimos el tipo de dato de la fecha para solo tener el mes

df_afiliados_sis['FECHA_CORTE'] = pd.to_datetime(df_afiliados_sis['FECHA_CORTE'], format='%Y-%m-%d')
df_afiliados_sis['FECHA_CORTE'] = df_afiliados_sis['FECHA_CORTE'].dt.to_period('M')
df_afiliados_sis.dtypes

FECHA_CORTE               period[M]
REGION                       object
PROVINCIA                    object
DISTRITO                     object
UBIGEO                        int64
COD_UNIDAD_EJECUTORA        float64
UNIDAD_EJECUTORA             object
AMBITO_INEI                  object
CODIGO_IPRESS               float64
IPRESS                       object
VRAEM                        object
NACIONAL_EXTRANJERO          object
PAIS_EXTRANJERO              object
DOCUMENTO_IDENTIDAD          object
EDAD                          int64
SEXO                         object
REGIMEN_FINANCIAMIENTO       object
PLAN_DE_SEGURO               object
COBERTURA_FINANCIERA         object
TOTAL_AFILIADOS               int64
dtype: object

In [12]:
# Crear columna 'Mes' 'Año' y eliminamos "FECHA_CORTE"

df_afiliados_sis['AÑO'] = df_afiliados_sis['FECHA_CORTE'].dt.year
df_afiliados_sis['MES'] = df_afiliados_sis['FECHA_CORTE'].dt.month
df_afiliados_sis.drop(['FECHA_CORTE'], axis=1, inplace =True)

In [13]:
# Eliminar columnas que no brindan data para el analisis en cuestion

cols = ['COD_UNIDAD_EJECUTORA', 'UNIDAD_EJECUTORA', 'UBIGEO', 'CODIGO_IPRESS',
        'IPRESS', 'VRAEM', 'COBERTURA_FINANCIERA']

df_afiliados_sis.drop(columns=cols, inplace = True)

In [14]:
#Visualizamos valores dentro de urbano INEI

df_afiliados_sis["AMBITO_INEI"].value_counts()

AMBITO_INEI
RURAL     16681296
URBANA    13708559
URBANO        1946
Name: count, dtype: int64

In [15]:
#Limpiamos el valor

df_afiliados_sis.loc[df_afiliados_sis["AMBITO_INEI"]== 'URBANO', "AMBITO_INEI"] = "URBANA"
df_afiliados_sis["AMBITO_INEI"].value_counts()

AMBITO_INEI
RURAL     16681296
URBANA    13710505
Name: count, dtype: int64

In [16]:
# Normalizar los datos según sea necesario

for col in df_afiliados_sis.select_dtypes(include=['object']).columns:
    df_afiliados_sis[col] = df_afiliados_sis[col].str.strip()

In [17]:
#Calculamos la cantidad de valores unico por variable
df_afiliados_sis.nunique().sort_values()

AÑO                          1
AMBITO_INEI                  2
SEXO                         2
NACIONAL_EXTRANJERO          2
REGIMEN_FINANCIAMIENTO       2
DOCUMENTO_IDENTIDAD          3
PLAN_DE_SEGURO               5
MES                         12
REGION                      26
EDAD                       132
PAIS_EXTRANJERO            165
PROVINCIA                  196
DISTRITO                  1739
TOTAL_AFILIADOS           2485
dtype: int64

In [55]:
df_afiliados_sis.head()

Unnamed: 0,REGION,PROVINCIA,DISTRITO,AMBITO_INEI,NACIONAL_EXTRANJERO,PAIS_EXTRANJERO,DOCUMENTO_IDENTIDAD,EDAD,SEXO,REGIMEN_FINANCIAMIENTO,PLAN_DE_SEGURO,TOTAL_AFILIADOS,AÑO,MES
0,PIURA,AYABACA,MONTERO,RURAL,NACIONAL,NO APLICA,D.N.I.,67,FEMENINO,SUBSIDIADO,SIS GRATUITO,17,2024,1
1,LAMBAYEQUE,LAMBAYEQUE,MOCHUMI,RURAL,NACIONAL,NO APLICA,D.N.I.,48,FEMENINO,SUBSIDIADO,SIS PARA TODOS,35,2024,1
2,CALLAO,PROV. CONST. DEL CALLAO,VENTANILLA,URBANA,NACIONAL,NO APLICA,D.N.I.,19,MASCULINO,SUBSIDIADO,SIS PARA TODOS,1302,2024,1
3,LIMA METROPOLITANA,LIMA,ATE,URBANA,NACIONAL,NO APLICA,D.N.I.,8,MASCULINO,SUBSIDIADO,SIS GRATUITO,302,2024,1
4,LIMA METROPOLITANA,LIMA,COMAS,URBANA,NACIONAL,NO APLICA,D.N.I.,67,MASCULINO,SUBSIDIADO,SIS GRATUITO,21,2024,1


Despues de esto procedemos a exportar la data  para realizar el dashboard en power bi, esto por el peso del archivo.


In [18]:
df_afiliados_sis.to_csv("C:/Users/Omar/Documents/SIS_ANALISIS.csv", index=False, encoding='utf-8-sig')