## Defunciones registradas (mortalidad general)

Los datos se obtuvieron del sitio web https://www.inegi.org.mx/programas/mortalidad/#Tabulados el 10 de Abril del 2022.


* Defunciones infantiles https://www.inegi.org.mx/sistemas/olap/consulta/general_ver4/MDXQueryDatos.asp?#Regreso&c=11808
* Por sexo y edad

Pendientes: 

* En caso de usar este dataset, pasar el dataframe de defunciones_infantiles_clean a csv
* Aclarar si se utilizará la columna Mes, ya que en los otras bases de datos solo se incluye el año
* Encontrar datos por edad

In [32]:
#Importando librerias necesarias
import pandas as pd
import pathlib
import numpy as np

#Todo lo relacionado a graficar
import plotly.express as px

### Defunciones infantiles

In [2]:
#Definiendo el Path del archivo
path = pathlib.Path('..', 'data_dir/INEGI_exporta_10_4_2022_21_2_8.xls')

In [3]:
#Leyendo los datos
defunciones_infantiles = pd.read_excel(path, header =4, skipfooter=4, index_col=0)

In [4]:
defunciones_infantiles

Unnamed: 0,Total,Total.1,Total.2,Total.3,Total.4,Total.5,Total.6,Total.7,Total.8,Total.9,...,No especificado.6,No especificado.7,No especificado.8,No especificado.9,No especificado.10,No especificado.11,No especificado.12,No especificado.13,No especificado.14,No especificado.15
,1990,1991,1992,1993.0,1994.0,1995.0,1996,1997.0,1998,1999,...,2008.0,2010.0,2011.0,2012.0,2013.0,2014.0,2015.0,2016.0,2017.0,2019.0
Total,1137,949,1074,923.0,944.0,815.0,857,882.0,833,743,...,2.0,2.0,3.0,1.0,4.0,2.0,4.0,3.0,1.0,1.0
Enero,115,109,122,93.0,105.0,86.0,115,95.0,81,94,...,,,,,,,,,,
Febrero,86,81,90,72.0,73.0,63.0,87,58.0,70,65,...,,,,1.0,,,2.0,,,
Marzo,96,75,79,75.0,56.0,50.0,64,63.0,57,45,...,,,,,1.0,,,,,1.0
Abril,72,53,72,83.0,52.0,63.0,54,51.0,63,59,...,,,,,,,,1.0,1.0,
Mayo,80,70,79,60.0,57.0,43.0,48,72.0,39,62,...,,1.0,,,,,1.0,,,
Junio,89,44,93,62.0,73.0,57.0,68,55.0,57,44,...,,,,,1.0,,,,,
Julio,70,69,78,63.0,63.0,76.0,58,68.0,70,48,...,,,2.0,,,,,,,
Agosto,124,87,84,60.0,70.0,60.0,59,72.0,86,63,...,,,,,,1.0,,,,


### Limpieza de datos

In [5]:
#Transponemos la matriz de datos para poder facilitar su análisis
defunciones_infantiles = defunciones_infantiles.T
defunciones_infantiles

Unnamed: 0,NaN,Total,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre,No especificado
Total,1990,1137,115,86,96,72,80,89,70,124,87,97,79,139,3
Total.1,1991,949,109,81,75,53,70,44,69,87,66,73,92,129,1
Total.2,1992,1074,122,90,79,72,79,93,78,84,77,77,86,136,1
Total.3,1993.0,923.0,93.0,72.0,75.0,83.0,60.0,62.0,63.0,60.0,75.0,76.0,91.0,113.0,
Total.4,1994.0,944.0,105.0,73.0,56.0,52.0,57.0,73.0,63.0,70.0,99.0,85.0,89.0,122.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
No especificado.11,2014.0,2.0,,,,,,,,1.0,,1.0,,,
No especificado.12,2015.0,4.0,,2.0,,,1.0,,,,,,1.0,,
No especificado.13,2016.0,3.0,,,,1.0,,,,,1.0,,,1.0,
No especificado.14,2017.0,1.0,,,,1.0,,,,,,,,,


In [6]:
#Arreglamos el nombre de la columna de Año Nota: Se usó este metodo porque rename no funcionaba con NaN(el nombre de columna pasado)
defunciones_infantiles.columns =['Año',           'Total',           'Enero',
               'Febrero',           'Marzo',           'Abril',
                  'Mayo',           'Junio',           'Julio',
                'Agosto',      'Septiembre',         'Octubre',
             'Noviembre',       'Diciembre', 'No especificado']

In [7]:
defunciones_infantiles

Unnamed: 0,Año,Total,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre,No especificado
Total,1990,1137,115,86,96,72,80,89,70,124,87,97,79,139,3
Total.1,1991,949,109,81,75,53,70,44,69,87,66,73,92,129,1
Total.2,1992,1074,122,90,79,72,79,93,78,84,77,77,86,136,1
Total.3,1993.0,923.0,93.0,72.0,75.0,83.0,60.0,62.0,63.0,60.0,75.0,76.0,91.0,113.0,
Total.4,1994.0,944.0,105.0,73.0,56.0,52.0,57.0,73.0,63.0,70.0,99.0,85.0,89.0,122.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
No especificado.11,2014.0,2.0,,,,,,,,1.0,,1.0,,,
No especificado.12,2015.0,4.0,,2.0,,,1.0,,,,,,1.0,,
No especificado.13,2016.0,3.0,,,,1.0,,,,,1.0,,,1.0,
No especificado.14,2017.0,1.0,,,,1.0,,,,,,,,,


In [8]:
#Observamos los valores que hay en el index para ver como los trataremos
defunciones_infantiles.reset_index(inplace=True)
defunciones_infantiles['index'].unique()

array(['Total', 'Total.1', 'Total.2', 'Total.3', 'Total.4', 'Total.5',
       'Total.6', 'Total.7', 'Total.8', 'Total.9', 'Total.10', 'Total.11',
       'Total.12', 'Total.13', 'Total.14', 'Total.15', 'Total.16',
       'Total.17', 'Total.18', 'Total.19', 'Total.20', 'Total.21',
       'Total.22', 'Total.23', 'Total.24', 'Total.25', 'Total.26',
       'Total.27', 'Total.28', 'Total.29', 'Total.30', 'Hombre',
       'Hombre.1', 'Hombre.2', 'Hombre.3', 'Hombre.4', 'Hombre.5',
       'Hombre.6', 'Hombre.7', 'Hombre.8', 'Hombre.9', 'Hombre.10',
       'Hombre.11', 'Hombre.12', 'Hombre.13', 'Hombre.14', 'Hombre.15',
       'Hombre.16', 'Hombre.17', 'Hombre.18', 'Hombre.19', 'Hombre.20',
       'Hombre.21', 'Hombre.22', 'Hombre.23', 'Hombre.24', 'Hombre.25',
       'Hombre.26', 'Hombre.27', 'Hombre.28', 'Hombre.29', 'Hombre.30',
       'Mujer', 'Mujer.1', 'Mujer.2', 'Mujer.3', 'Mujer.4', 'Mujer.5',
       'Mujer.6', 'Mujer.7', 'Mujer.8', 'Mujer.9', 'Mujer.10', 'Mujer.11',
       'Mujer.12', 

In [9]:
# Lo que queremos ahora es quitar todos los numeros y el punto (que lo agrega pandas a la hora de leer archivos de excel)
defunciones_infantiles['index'] = defunciones_infantiles['index'].str.split('.', expand=True)[0]
defunciones_infantiles.rename(columns={'index':'Sexo'}, inplace=True)
defunciones_infantiles


Unnamed: 0,Sexo,Año,Total,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre,No especificado
0,Total,1990,1137,115,86,96,72,80,89,70,124,87,97,79,139,3
1,Total,1991,949,109,81,75,53,70,44,69,87,66,73,92,129,1
2,Total,1992,1074,122,90,79,72,79,93,78,84,77,77,86,136,1
3,Total,1993.0,923.0,93.0,72.0,75.0,83.0,60.0,62.0,63.0,60.0,75.0,76.0,91.0,113.0,
4,Total,1994.0,944.0,105.0,73.0,56.0,52.0,57.0,73.0,63.0,70.0,99.0,85.0,89.0,122.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
104,No especificado,2014.0,2.0,,,,,,,,1.0,,1.0,,,
105,No especificado,2015.0,4.0,,2.0,,,1.0,,,,,,1.0,,
106,No especificado,2016.0,3.0,,,,1.0,,,,,1.0,,,1.0,
107,No especificado,2017.0,1.0,,,,1.0,,,,,,,,,


In [10]:
meses = ['Total', 'Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo',
       'Junio', 'Julio', 'Agosto', 'Septiembre', 'Octubre', 'Noviembre',
       'Diciembre', 'No especificado']

In [11]:
#Realizaremos un melt para tener los datos en formato tidy, para facilitar su análisis
defunciones_infantiles_tidy = pd.melt(defunciones_infantiles, id_vars=['Sexo', 'Año' ], value_vars=meses, ignore_index=False,
                value_name = 'defunciones_infantiles', var_name= 'Mes')

In [12]:
defunciones_infantiles_tidy

Unnamed: 0,Sexo,Año,Mes,defunciones_infantiles
0,Total,1990,Total,1137
1,Total,1991,Total,949
2,Total,1992,Total,1074
3,Total,1993.0,Total,923.0
4,Total,1994.0,Total,944.0
...,...,...,...,...
104,No especificado,2014.0,No especificado,
105,No especificado,2015.0,No especificado,
106,No especificado,2016.0,No especificado,
107,No especificado,2017.0,No especificado,


In [13]:
# Contamos el numero de valores perdidos por columna
defunciones_infantiles_tidy.isnull().sum()

Sexo                        0
Año                         0
Mes                         0
defunciones_infantiles    256
dtype: int64

In [14]:
# Como vemos solo hay valores perdidos en el numero de defunciones, por lo que lo reemplazaremos por 0
defunciones_infantiles_tidy.fillna(0, inplace=True)
defunciones_infantiles_tidy.isnull().sum()

Sexo                      0
Año                       0
Mes                       0
defunciones_infantiles    0
dtype: int64

In [15]:
#Corroboramos el tipo de datos
defunciones_infantiles_tidy.dtypes

Sexo                      object
Año                       object
Mes                       object
defunciones_infantiles    object
dtype: object

In [16]:
defunciones_infantiles_tidy

Unnamed: 0,Sexo,Año,Mes,defunciones_infantiles
0,Total,1990,Total,1137
1,Total,1991,Total,949
2,Total,1992,Total,1074
3,Total,1993.0,Total,923.0
4,Total,1994.0,Total,944.0
...,...,...,...,...
104,No especificado,2014.0,No especificado,0
105,No especificado,2015.0,No especificado,0
106,No especificado,2016.0,No especificado,0
107,No especificado,2017.0,No especificado,0


In [17]:
#Antes de cambiar el tipo de datos de cada columna, vemos que el INEGI separa enteros grandes con ',', por ejemplo
# 1137 lo representan como 1,137. Para esto removeremos todos los ','
#Nota: no funciona el replace directo porque sustituye registros sin ',' por NaN
for index, row in defunciones_infantiles_tidy.iterrows():
    if ',' in str(row['defunciones_infantiles']):
        row['defunciones_infantiles'] = row['defunciones_infantiles'].replace(",", "")
    else:
        continue

In [18]:
defunciones_infantiles_tidy

Unnamed: 0,Sexo,Año,Mes,defunciones_infantiles
0,Total,1990,Total,1137
1,Total,1991,Total,949
2,Total,1992,Total,1074
3,Total,1993.0,Total,923.0
4,Total,1994.0,Total,944.0
...,...,...,...,...
104,No especificado,2014.0,No especificado,0
105,No especificado,2015.0,No especificado,0
106,No especificado,2016.0,No especificado,0
107,No especificado,2017.0,No especificado,0


In [19]:
# Cambiaremos la columna Sexo a categórica, Año a Entero, Mes a Categórica y defunciones_infantiles a entero
defunciones_infantiles_tidy['Sexo'] = defunciones_infantiles_tidy['Sexo'].astype('category')
defunciones_infantiles_tidy['Año'] = defunciones_infantiles_tidy['Año'].astype('int64')
defunciones_infantiles_tidy['Mes'] = defunciones_infantiles_tidy['Mes'].astype('category')
defunciones_infantiles_tidy['defunciones_infantiles'] = defunciones_infantiles_tidy['defunciones_infantiles'].astype('int64')

In [20]:
defunciones_infantiles_tidy.dtypes

Sexo                      category
Año                          int64
Mes                       category
defunciones_infantiles       int64
dtype: object

In [21]:
#Por ultimo, debido a que Python nos brinda opciones de agrupamiento que nos dan el total de manera sencilla, quitaremos
#Los registros donde 
#TODO quitar registros no especificados y crear una columna para fecha completa

In [34]:
defunciones_infantiles_tidy.to_csv('testborrar.csv')

In [51]:
#Cambiaremos el formato para tener en diferentes defunciones infantiles de hombres, de mujeres y el total
defunciones_infantiles_clean = pd.pivot_table(defunciones_infantiles_tidy, values='defunciones_infantiles', index=['Año', 'Mes'],
                    columns=['Sexo'], aggfunc=np.sum)
defunciones_infantiles_clean.reset_index(inplace=True)
defunciones_infantiles_clean

Sexo,Año,Mes,Hombre,Mujer,No especificado,Total
0,1990,Abril,39,33,0,72
1,1990,Agosto,65,59,0,124
2,1990,Diciembre,80,59,0,139
3,1990,Enero,58,57,0,115
4,1990,Febrero,53,33,0,86
...,...,...,...,...,...,...
429,2020,No especificado,0,0,0,0
430,2020,Noviembre,14,14,0,28
431,2020,Octubre,17,11,0,28
432,2020,Septiembre,24,13,0,37


In [57]:
# Debido a que con Python es muy sencillo reagrupar y sacar el total de cada año, removeremos aquellos registros donde Mes == 'Total'
defunciones_infantiles_clean = defunciones_infantiles_clean[defunciones_infantiles_clean['Mes'] != 'Total']
defunciones_infantiles_clean

Sexo,Año,Mes,Hombre,Mujer,No especificado,Total
0,1990,Abril,39,33,0,72
1,1990,Agosto,65,59,0,124
2,1990,Diciembre,80,59,0,139
3,1990,Enero,58,57,0,115
4,1990,Febrero,53,33,0,86
...,...,...,...,...,...,...
428,2020,Mayo,17,11,0,28
429,2020,No especificado,0,0,0,0
430,2020,Noviembre,14,14,0,28
431,2020,Octubre,17,11,0,28


In [60]:
#Asi mismo podemos ver los casos donde el mes no es especificado en su mayoría son registros vacíos, por lo que los removeremos
defunciones_infantiles_clean[defunciones_infantiles_clean['Mes'] == 'No especificado']

Sexo,Año,Mes,Hombre,Mujer,No especificado,Total
9,1990,No especificado,2,1,0,3
23,1991,No especificado,1,0,0,1
37,1992,No especificado,0,1,0,1
51,1993,No especificado,0,0,0,0
65,1994,No especificado,0,0,0,0
79,1995,No especificado,0,0,0,0
93,1996,No especificado,2,2,0,4
107,1997,No especificado,0,0,0,0
121,1998,No especificado,0,1,0,1
135,1999,No especificado,1,0,0,1


In [62]:
defunciones_infantiles_clean = defunciones_infantiles_clean[defunciones_infantiles_clean['Mes'] != 'No especificado']


In [79]:
#Por ultimo, cambiamos los nombres (lo cual facilitará unirlo a otras bases de datos)
defunciones_infantiles_clean.rename_axis('',axis=1,inplace=True)
defunciones_infantiles_clean.rename({'Hombre':'defunciones_infantiles_hombre',
                                    'Mujer':'defunciones_infantiles_mujer',
                                    'Total':'defunciones_infantiles_total'}, axis=1, inplace=True)

In [80]:
#Una vez realizado lo anterior, ya tenemos todo listo para poder empezar a hacer un análisis de datos exploratorio
defunciones_infantiles_clean

Unnamed: 0,Año,Mes,defunciones_infantiles_hombre,defunciones_infantiles_mujer,No especificado,defunciones_infantiles_total
0,1990,Abril,39,33,0,72
1,1990,Agosto,65,59,0,124
2,1990,Diciembre,80,59,0,139
3,1990,Enero,58,57,0,115
4,1990,Febrero,53,33,0,86
...,...,...,...,...,...,...
427,2020,Marzo,13,13,0,26
428,2020,Mayo,17,11,0,28
430,2020,Noviembre,14,14,0,28
431,2020,Octubre,17,11,0,28


### Análisis de datos exploratorio

In [81]:
defunciones_infantiles_clean

Unnamed: 0,Año,Mes,defunciones_infantiles_hombre,defunciones_infantiles_mujer,No especificado,defunciones_infantiles_total
0,1990,Abril,39,33,0,72
1,1990,Agosto,65,59,0,124
2,1990,Diciembre,80,59,0,139
3,1990,Enero,58,57,0,115
4,1990,Febrero,53,33,0,86
...,...,...,...,...,...,...
427,2020,Marzo,13,13,0,26
428,2020,Mayo,17,11,0,28
430,2020,Noviembre,14,14,0,28
431,2020,Octubre,17,11,0,28


In [82]:
#BoxPlot para las defunciones infantiles totales para cada año (Ambos sexos)
fig = px.box(defunciones_infantiles_clean, x="Año", y="defunciones_infantiles_total", 
             title='Distribucion de  defunciones infantiles totales en Sonora para cada año (Ambos Sexos) (1990-2020)',
                labels={'defunciones_infantiles' : 'Defunciones infantiles'})

fig.show()

In [83]:
#BoxPlot para las defunciones infantiles totales para cada año (Mujeres)
fig = px.box(defunciones_infantiles_clean, x="Año", y="defunciones_infantiles_mujer", 
             title='Distribucion de  defunciones infantiles totales en Sonora para cada año (Mujeres) (1990-2020)',
                labels={'defunciones_infantiles' : 'Defunciones infantiles'})

fig.show()

In [84]:
#BoxPlot para las defunciones infantiles totales para cada año (Mujeres)
fig = px.box(defunciones_infantiles_clean, x="Año", y="defunciones_infantiles_hombre", 
             title='Distribucion de  defunciones infantiles totales en Sonora para cada año (Mujeres) (1990-2020)',
                labels={'defunciones_infantiles' : 'Defunciones infantiles'})

fig.show()

In [90]:
#BoxPlot comparativo de defunciones infantiles
dff = pd.melt(defunciones_infantiles_clean, id_vars=['Año', 'Mes'], value_vars=['defunciones_infantiles_mujer', 'defunciones_infantiles_hombre'], var_name='Sexo')
fig = px.box(dff, x="Año", y="value", color='Sexo', 
             title='Distribucion de  defunciones infantiles totales en Sonora para cada año por sexo (1990-2020)',
                labels={'value' : 'Defunciones infantiles'},
                width=1200, height=1000)
newnames = {'defunciones_infantiles_mujer':'Mujer', 'defunciones_infantiles_hombre': 'Hombre'}
fig.for_each_trace(lambda t: t.update(name = newnames[t.name],
                                      legendgroup = newnames[t.name],
                                      hovertemplate = t.hovertemplate.replace(t.name, newnames[t.name])
                                     )
                  )
fig.show()

In [99]:
#BoxPlot para las defunciones infantiles totales para cada mes (Ambos sexos)
fig = px.box(defunciones_infantiles_clean, x="Mes", y="defunciones_infantiles_total", 
             title='Distribucion de  defunciones infantiles totales en Sonora para cada Mes (Ambos Sexos) (1990-2020)',
                labels={'defunciones_infantiles_total' : 'Defunciones infantiles'},
                 category_orders={"Mes": ['Enero',
                                        'Febrero',
                                        'Marzo',
                                        'Abril',
                                        'Mayo',
                                        'Junio',
                                        'Julio',
                                        'Agosto',
                                        'Septiembre',
                                        'Octubre',
                                        'Noviembre',
                                        'Diciembre']})

fig.show()

In [100]:
#BoxPlot para las defunciones infantiles totales para cada mes (Mujeres)
fig = px.box(defunciones_infantiles_clean, x="Mes", y="defunciones_infantiles_mujer", 
             title='Distribucion de  defunciones infantiles totales en Sonora para cada Mes (Mujeres) (1990-2020)',
                labels={'defunciones_infantiles_total' : 'Defunciones infantiles'},
                 category_orders={"Mes": ['Enero',
                                        'Febrero',
                                        'Marzo',
                                        'Abril',
                                        'Mayo',
                                        'Junio',
                                        'Julio',
                                        'Agosto',
                                        'Septiembre',
                                        'Octubre',
                                        'Noviembre',
                                        'Diciembre']})

fig.show()

In [101]:
#BoxPlot para las defunciones infantiles totales para cada mes (Mujeres)
fig = px.box(defunciones_infantiles_clean, x="Mes", y="defunciones_infantiles_hombre", 
             title='Distribucion de  defunciones infantiles totales en Sonora para cada Mes (Hombres) (1990-2020)',
                labels={'defunciones_infantiles_total' : 'Defunciones infantiles'},
                 category_orders={"Mes": ['Enero',
                                        'Febrero',
                                        'Marzo',
                                        'Abril',
                                        'Mayo',
                                        'Junio',
                                        'Julio',
                                        'Agosto',
                                        'Septiembre',
                                        'Octubre',
                                        'Noviembre',
                                        'Diciembre']})

fig.show()

### Histogramas

In [128]:
dff = pd.melt(defunciones_infantiles_clean, id_vars=['Año', 'Mes'], value_vars=['defunciones_infantiles_mujer', 'defunciones_infantiles_hombre'], var_name='Sexo')
fig = px.histogram(dff, x="value", color="Sexo", barmode="overlay", title='Histograma de Defunciones Infantiles Mensuales para ambos sexos (1990-2020)')
newnames = {'defunciones_infantiles_mujer':'Mujer', 'defunciones_infantiles_hombre': 'Hombre'}
fig.for_each_trace(lambda t: t.update(name = newnames[t.name],
                                      legendgroup = newnames[t.name],
                                      hovertemplate = t.hovertemplate.replace(t.name, newnames[t.name])
                                     )
                  )
fig.show()

### Series de Tiempo

In [107]:
#Observaremos el numero de defunciones totales por año para ambos sexos
dff = defunciones_infantiles_clean.groupby('Año')['defunciones_infantiles_total'].sum().reset_index()
fig = px.line(dff, x="Año", y="defunciones_infantiles_total",
                title='Número de Defunciones Infantiles en el estado de Sonora (Ambos Sexos) (1990-2020)',
                labels={'defunciones_infantiles_total' : 'Defunciones Infantiles'})
fig.show()

In [111]:
#Observaremos el numero de defunciones totales por año para hombres
dff = defunciones_infantiles_clean.groupby('Año')['defunciones_infantiles_hombre'].sum().reset_index()
fig = px.line(dff, x="Año", y="defunciones_infantiles_hombre",
                title='Número de Defunciones Infantiles en el estado de Sonora (Hombres) (1990-2020)',
                labels={'defunciones_infantiles_hombre' : 'Defunciones Infantiles'})
fig.show()

In [113]:
#Observaremos el numero de defunciones totales por año para mujeres
dff = defunciones_infantiles_clean.groupby('Año')['defunciones_infantiles_mujer'].sum().reset_index()
fig = px.line(dff, x="Año", y="defunciones_infantiles_mujer",
                title='Número de Defunciones Infantiles en el estado de Sonora (Mujeres) (1990-2020)',
                labels={'defunciones_infantiles_mujer' : 'Defunciones Infantiles'})
fig.show()

### Observaciones principales

* El número de defunciones infantiles en el estado de Sonora ha ido disminuyendo de 1990 al 2020 (para ambos sexos).
* Aparentemente en casi todos los años en promedio hay mas defunciones infantiles de hombres que de mujeres, es necesario hacer una prueba estadística para confirmar.
* No aparenta haber diferencia entre el promedio de defunciones infantiles entre los diferentes meses del año.