In [47]:
# Importando librerías de interés
import pandas as pd
import numpy as np

In [48]:
# Columnas de interés de las tablas de Defunciones Generales
cols = ['anio_ocur',
        'area_ur',
        'causa_def',
        'loc_resid',
        'ent_resid',
        'mun_resid',
        'tloc_resid']

In [49]:
# Lista de defunciones en México en 2012
path = 'defunciones_generales_2012.csv'
df_12 = pd.read_csv(path)

In [50]:
# Seleccionando únicamente las columnas de interés del df_12
df_12 = df_12[cols]

In [51]:
# Filtrando df por año de ocurrencia = 2012
df_12 = df_12[df_12['anio_ocur'] == 2012]

In [52]:
# Dimensión del dataframe filtrado
df_12.shape

(587826, 7)

In [53]:
# Lista de defunciones en México en 2016
path = 'defunciones_generales_2016.csv'
df_16 = pd.read_csv(path)

In [54]:
# Seleccionando únicamente las columnas de interés del df_16
df_16 = df_16[cols]

In [55]:
# Filtrando df por año de ocurrencia = 2016
df_16 = df_16[df_16['anio_ocur'] == 2016]

In [56]:
# Dimensión del dataframe filtrado
df_16.shape

(671536, 7)

In [57]:
# Concatenación de ambos dataframes 
df = pd.concat([df_12, 
                df_16], axis=0)

In [58]:
# Columnas resultantes 
df.columns

Index(['anio_ocur', 'area_ur', 'causa_def', 'loc_resid', 'ent_resid',
       'mun_resid', 'tloc_resid'],
      dtype='object')

In [59]:
# Descripción de las variables del dataframe resultante
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1259362 entries, 2 to 685765
Data columns (total 7 columns):
 #   Column      Non-Null Count    Dtype 
---  ------      --------------    ----- 
 0   anio_ocur   1259362 non-null  int64 
 1   area_ur     1259362 non-null  int64 
 2   causa_def   1259362 non-null  object
 3   loc_resid   1259362 non-null  int64 
 4   ent_resid   1259362 non-null  int64 
 5   mun_resid   1259362 non-null  int64 
 6   tloc_resid  1259362 non-null  int64 
dtypes: int64(6), object(1)
memory usage: 76.9+ MB


In [60]:
# Obteniendo primeros registros del df resultante
df.head()

Unnamed: 0,anio_ocur,area_ur,causa_def,loc_resid,ent_resid,mun_resid,tloc_resid
2,2012,2,M729,7777,1,1,1
4,2012,1,R54X,1,1,1,15
8,2012,1,I219,1,1,1,15
11,2012,1,J440,1,1,1,15
13,2012,2,K259,47,1,3,2


In [61]:
# Obteniendo últimos registros del df resultante
df.tail()

Unnamed: 0,anio_ocur,area_ur,causa_def,loc_resid,ent_resid,mun_resid,tloc_resid
685761,2016,1,R959,1,32,17,13
685762,2016,1,P288,1,32,57,6
685763,2016,1,X997,1,32,56,13
685764,2016,1,X957,16,32,37,5
685765,2016,1,Y094,1,32,17,13


In [62]:
# Creando columna de ID de localidad
df['id_loc'] = df['ent_resid'].astype(str) + '_' + df['mun_resid'].astype(str) + '_' + df['loc_resid'].astype(str)
df.head()

Unnamed: 0,anio_ocur,area_ur,causa_def,loc_resid,ent_resid,mun_resid,tloc_resid,id_loc
2,2012,2,M729,7777,1,1,1,1_1_7777
4,2012,1,R54X,1,1,1,15,1_1_1
8,2012,1,I219,1,1,1,15,1_1_1
11,2012,1,J440,1,1,1,15,1_1_1
13,2012,2,K259,47,1,3,2,1_3_47


In [63]:
# Eliminando columnas de Entidad, Localidad y Municipio de Residencia pues ya se tienen
df.drop(['ent_resid', 'mun_resid', 'loc_resid'], axis=1, inplace=True)
df.columns

Index(['anio_ocur', 'area_ur', 'causa_def', 'tloc_resid', 'id_loc'], dtype='object')

In [68]:
# Leyendo diccionario de condiciones respiratorias 
path = 'diccionario_cond_resp.csv'
df_cond_resp = pd.read_csv(path) 

In [69]:
# Describiendo catálogo de condiciones respiratorias
df_cond_resp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10664 entries, 0 to 10663
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   causa_def  10664 non-null  object
 1   cond_resp  10664 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 166.8+ KB


In [70]:
# Uniendo tablas de condiciones respiratorias y defunciones generales
df = df.merge(df_cond_resp, how='left')
df.shape

(1259362, 6)

In [71]:
# Encabezado de la nueva tabla
df.head()

Unnamed: 0,anio_ocur,area_ur,causa_def,tloc_resid,id_loc,cond_resp
0,2012,2,M729,1,1_1_7777,0
1,2012,1,R54X,15,1_1_1,0
2,2012,1,I219,15,1_1_1,0
3,2012,1,J440,15,1_1_1,1
4,2012,2,K259,2,1_3_47,0


In [72]:
# Eliminando columna de causa de defunción
df.drop(['causa_def'], axis=1, inplace=True)
df.columns

Index(['anio_ocur', 'area_ur', 'tloc_resid', 'id_loc', 'cond_resp'], dtype='object')

In [77]:
# Agrupación de datos por localidad
df_filtrada = df.groupby(['id_loc','anio_ocur','area_ur','tloc_resid'], as_index=False).sum()

In [78]:
# Obteniendo número de defunciones por condiciones agrupadas
df_filtrada.head()

Unnamed: 0,id_loc,anio_ocur,area_ur,tloc_resid,cond_resp
0,10_10_1,2012,2,1,2
1,10_10_1,2016,2,1,1
2,10_10_29,2012,2,1,0
3,10_10_29,2016,2,1,1
4,10_10_33,2012,2,1,0


In [79]:
# Obteniendo números únicos de defunciones
df_filtrada.cond_resp.unique()

array([   2,    1,    0,    5,    3,   48,   47,    4,    6,    9,   12,
         16,   13,   22,    8,   27,   19,   10,  281,  314,  123,  138,
         11,    7,   21,   39,   31,   23,   24,   54,   73,  185,  225,
        572,  770,   29,   25,   35,   33,   14,   98,  101,   41,   15,
         18,   45,   17,   26,   60,   46,   43,   37,   28,  167,  174,
        364,  313,   61,   72,   56,   76,   30,   20,  125,  133,   63,
        203,  246,  637,  813,   34,   32,   68,   75, 1317, 1611,   83,
         88,   57,   79,  117,  143,   36,   53,   80,   67,  127,  296,
        393,  423,  489,  274,  271,   49,  148,  152,   38,  197,  211,
        165,  250,  105,   42,   64,   71,  265,  295,  831,  847,   94,
         87,  112,  132,   91,  525,  527,  641,  747,  149,  145,   74,
        111,   50,   78,  126,  131,   51,  329,  376,   58,   89,  234,
        272,  172,  202,   40,   66,  377,  366,   90,  743,  929,  292,
        135,  144,  371,  441,   59,  115,  795,  8

In [80]:
# Exportando archivo
df_filtrada.to_csv('defunciones-filtrado.csv', index=False)