# FASE 1: COMPRENDER EL NEGOCIO

**CONTEXTO**
En un esfuerzo por mejorar la salud pública y optimizar la toma de decisiones en políticas sanitarias, el Ministerio de Salud de Chile (MINSAL) ha encargado a nuestro equipo especializado en análisis de datos y modelado predictivo una tarea crítica: realizar un análisis detallado de las tendencias y patrones de mortalidad en el país. Este proyecto se enmarca en la estrategia nacional de salud, que busca reducir las desigualdades en salud, aumentar la esperanza de vida y mejorar la calidad de vida de toda la población chilena.

El proyecto tiene como objetivo principal el desarrollo de modelos predictivos robustos que permitan al MINSAL anticipar y responder de manera más efectiva a las necesidades emergentes en el ámbito de la salud pública. Para ello, nos basaremos en un extenso conjunto de datos que abarca registros de defunciones, diagnósticos de enfermedades, accesibilidad a servicios de salud, y otros indicadores que influyen en la salud de la población.

In [1]:
import pandas as pd
import numpy as np
import seaborn as sb
import matplotlib.pyplot as plt

In [1]:
df = pd.read_csv("/content/DEFUNCIONES.csv", sep=";", encoding='ISO-8859-1')

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape (3895335458.py, line 1)

In [None]:
dfo = df.copy()

# FASE 2: COMPRENDER LOS DATOS

In [None]:
df.shape

(341567, 27)

In [None]:
df.head(30)

Unnamed: 0,ANO_DEF,FECHA_DEF,GLOSA_SEXO,EDAD_TIPO,EDAD_CANT,CODIGO_COMUNA_RESIDENCIA,GLOSA_COMUNA_RESIDENCIA,GLOSA_REG_RES,DIAG1,CAPITULO_DIAG1,...,DIAG2,CAPITULO_DIAG2,GLOSA_CAPITULO_DIAG2,CODIGO_GRUPO_DIAG2,GLOSA_GRUPO_DIAG2,CODIGO_CATEGORIA_DIAG2,GLOSA_CATEGORIA_DIAG2,CODIGO_SUBCATEGORIA_DIAG2,GLOSA_SUBCATEGORIA_DIAG2,LUGAR_DEFUNCION
0,2024,24-06-2024,Mujer,1,73,13604.0,Padre Hurtado,Metropolitana de Santiago,G309,G00-G99,...,,,,,,,,,,Casa habitación
1,2024,27-07-2024,Hombre,1,71,14101.0,Valdivia,De Los Ríos,I509,I00-I99,...,,,,,,,,,,Hospital o Clínica
2,2024,28-03-2024,Hombre,1,61,6116.0,Requínoa,Del Libertador B. O'Higgins,I259,I00-I99,...,,,,,,,,,,Casa habitación
3,2024,02-07-2024,Mujer,1,19,13117.0,Lo Prado,Metropolitana de Santiago,Q433,Q00-Q99,...,,,,,,,,,,Otro
4,2024,20-07-2024,Hombre,1,77,8110.0,Talcahuano,Del Bíobío,J189,J00-J99,...,,,,,,,,,,Casa habitación
5,2024,14-06-2024,Mujer,1,55,7101.0,Talca,Del Maule,C509,C00-D48,...,,,,,,,,,,Casa habitación
6,2024,05-08-2024,Hombre,1,73,4102.0,Coquimbo,De Coquimbo,I219,I00-I99,...,,,,,,,,,,Casa habitación
7,2024,16-01-2024,Mujer,2,11,13501.0,Melipilla,Metropolitana de Santiago,G403,G00-G99,...,,,,,,,,,,Hospital o Clínica
8,2024,15-08-2024,Mujer,1,105,10101.0,Puerto Montt,De Los Lagos,R99X,R00-R99,...,,,,,,,,,,Casa habitación
9,2024,15-05-2024,Hombre,1,102,4103.0,Andacollo,De Coquimbo,G309,G00-G99,...,,,,,,,,,,Casa habitación


In [None]:
df.columns

Index(['ANO_DEF', 'FECHA_DEF', 'GLOSA_SEXO', 'EDAD_TIPO', 'EDAD_CANT',
       'CODIGO_COMUNA_RESIDENCIA', 'GLOSA_COMUNA_RESIDENCIA', 'GLOSA_REG_RES',
       'DIAG1', 'CAPITULO_DIAG1', 'GLOSA_CAPITULO_DIAG1', 'CODIGO_GRUPO_DIAG1',
       'GLOSA_GRUPO_DIAG1', 'CODIGO_CATEGORIA_DIAG1', 'GLOSA_CATEGORIA_DIAG1',
       'CODIGO_SUBCATEGORIA_DIAG1', 'GLOSA_SUBCATEGORIA_DIAG1', 'DIAG2',
       'CAPITULO_DIAG2', 'GLOSA_CAPITULO_DIAG2', 'CODIGO_GRUPO_DIAG2',
       'GLOSA_GRUPO_DIAG2', 'CODIGO_CATEGORIA_DIAG2', 'GLOSA_CATEGORIA_DIAG2',
       'CODIGO_SUBCATEGORIA_DIAG2', 'GLOSA_SUBCATEGORIA_DIAG2',
       'LUGAR_DEFUNCION'],
      dtype='object')

In [None]:
df.tail()

Unnamed: 0,ANO_DEF,FECHA_DEF,GLOSA_SEXO,EDAD_TIPO,EDAD_CANT,CODIGO_COMUNA_RESIDENCIA,GLOSA_COMUNA_RESIDENCIA,GLOSA_REG_RES,DIAG1,CAPITULO_DIAG1,...,DIAG2,CAPITULO_DIAG2,GLOSA_CAPITULO_DIAG2,CODIGO_GRUPO_DIAG2,GLOSA_GRUPO_DIAG2,CODIGO_CATEGORIA_DIAG2,GLOSA_CATEGORIA_DIAG2,CODIGO_SUBCATEGORIA_DIAG2,GLOSA_SUBCATEGORIA_DIAG2,LUGAR_DEFUNCION
341562,2022,03-05-2022,Mujer,1,51,6107.0,Las Cabras,Del Libertador B. O'Higgins,C509,C00-D48,...,,,,,,,,,,Casa habitación
341563,2022,13-02-2022,Mujer,1,51,6107.0,Las Cabras,Del Libertador B. O'Higgins,U071,U00-U99,...,,,,,,,,,,Hospital o Clínica
341564,2022,02-04-2022,Mujer,1,51,6116.0,Requínoa,Del Libertador B. O'Higgins,C20X,C00-D48,...,,,,,,,,,,Casa habitación
341565,2022,08-02-2022,Mujer,1,51,6116.0,Requínoa,Del Libertador B. O'Higgins,C56X,C00-D48,...,,,,,,,,,,Casa habitación
341566,2022,06-07-2022,Mujer,1,52,6201.0,Pichilemu,Del Libertador B. O'Higgins,G122,G00-G99,...,,,,,,,,,,Casa habitación


In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 341567 entries, 0 to 341566
Data columns (total 27 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   ANO_DEF                    341567 non-null  int64  
 1   FECHA_DEF                  341567 non-null  object 
 2   GLOSA_SEXO                 341567 non-null  object 
 3   EDAD_TIPO                  341567 non-null  int64  
 4   EDAD_CANT                  341567 non-null  int64  
 5   CODIGO_COMUNA_RESIDENCIA   341563 non-null  float64
 6   GLOSA_COMUNA_RESIDENCIA    341563 non-null  object 
 7   GLOSA_REG_RES              341563 non-null  object 
 8   DIAG1                      341567 non-null  object 
 9   CAPITULO_DIAG1             341567 non-null  object 
 10  GLOSA_CAPITULO_DIAG1       341567 non-null  object 
 11  CODIGO_GRUPO_DIAG1         341567 non-null  object 
 12  GLOSA_GRUPO_DIAG1          341567 non-null  object 
 13  CODIGO_CATEGORIA_DIAG1     34

In [14]:
df.isna().sum()

Unnamed: 0,0
ANO_DEF,0
FECHA_DEF,0
GLOSA_SEXO,0
EDAD_TIPO,0
EDAD_CANT,0
CODIGO_COMUNA_RESIDENCIA,4
GLOSA_COMUNA_RESIDENCIA,4
GLOSA_REG_RES,4
DIAG1,0
CAPITULO_DIAG1,0
