# Procesando varios datasets de diversas fuentes para juntarlos en uno solo
Objetivo de salida: un dataset con en la que cada fila es una entidad federativa de México y cada columna un indicador sobre dicha entidad.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt

## Empezando por los que ya estan en formato csv y tienen el mismo formato.
Limpiando los datos inncesarios

In [2]:
# Archivos a constantes
DS_DIABETES = 'istabla43_2018.csv' # Detección padecimientos Diabetes por delegación, por año hasta el 2015
DS_HIPERTENSION = 'istabla45_2018.csv' # Detección de padecimientos Hipertensión arterial por delegación, por año hasta el 2015
DS_PADECIMIENTOS = 'istabla39_2018.csv' # Número total de detecciones por delegación, por año hasta el 2015

In [3]:
db = pd.read_csv(DS_DIABETES, encoding='latin')
# Ignorando la fila de totales y seleccionando solo las filas de estados
db = db[1:36]
# Seleccionando solo las columnas de interés
db = db[[db.columns[0], '2015', '2018']]
# Renombrando las columnas a su clave definida en el diccionario del dataset
db = db.rename(columns={
    db.columns[0] : 'EDO',
    '2015' : 'DET.DIAB.15',
    '2018' : 'DET.DIAB.18'
    })

In [4]:
# Resultado de procesado de DS_DIABETES
db

Unnamed: 0,EDO,DET.DIAB.15,DET.DIAB.18
1,Aguascalientes,234123,194442
2,Baja California,582879,581767
3,Baja California Sur,73752,106368
4,Campeche,67127,72631
5,Coahuila,478300,578930
6,Colima,93374,110638
7,Chiapas,188511,195738
8,Chihuahua,440178,388451
9,D.F. Norte,1028326,1065473
10,D.F. Sur,869820,1197903


In [5]:
# Repitiendo el proceso para DS_HIPERTENSION
hp = pd.read_csv(DS_HIPERTENSION, encoding='latin')
# Ignorando la fila de totales y seleccionando solo las filas de estados
hp = hp[1:36]
# Seleccionando solo las columnas de interés
hp = hp[[hp.columns[0], '2015', '2018']]
# Renombrando las columnas a su clave definida en el diccionario del dataset
hp = hp.rename(columns={
    hp.columns[0] : 'EDO',
    '2015' : 'DET.HIPT.15',
    '2018' : 'DET.HIPT.18'
    })

In [6]:
# Resultado parcial de DS_HIPERTENSION
hp

Unnamed: 0,EDO,DET.HIPT.15,DET.HIPT.18
1,Aguascalientes,201410,185357
2,Baja California,566390,512157
3,Baja California Sur,97565,105735
4,Campeche,85993,79592
5,Coahuila,464005,528650
6,Colima,98868,108561
7,Chiapas,204783,185940
8,Chihuahua,416534,348219
9,D.F. Norte,747549,858790
10,D.F. Sur,810255,847858


In [7]:
# Repitiendo el proceso para DS_PADECIMIENTOS
pad = pd.read_csv(DS_PADECIMIENTOS, encoding='latin')
# Ignorando la fila de totales y seleccionando solo las filas de estados
pad = pad[1:36]
# Seleccionando solo las columnas de interés
pad = pad[[pad.columns[0], '2015', '2018']]
# Renombrando las columnas a su clave definida en el diccionario del dataset
pad = pad.rename(columns={
    pad.columns[0] : 'EDO',
    '2015' : 'DET.TOT.15',
    '2018' : 'DET.TOT.18'
    })

In [8]:
# Resultado parcial de DS_HIPERTENSION
pad

Unnamed: 0,EDO,DET.TOT.15,DET.TOT.18
1,Aguascalientes,1229067.0,1070207.0
2,Baja California,3106261.0,2775290.0
3,Baja California Sur,597622.0,590918.0
4,Campeche,554331.0,454911.0
5,Coahuila,2830690.0,3095342.0
6,Colima,559042.0,573927.0
7,Chiapas,998778.0,982119.0
8,Chihuahua,2469943.0,2087517.0
9,D.F. Norte,3950488.0,4204739.0
10,D.F. Sur,4592542.0,4536252.0


## Uniendo los datasets anteriores

In [9]:
todos = pd.merge(db, hp, on='EDO')

In [10]:
todos = pd.merge(todos, pad, on='EDO')

In [11]:
# Resultado final de esta parte
todos

Unnamed: 0,EDO,DET.DIAB.15,DET.DIAB.18,DET.HIPT.15,DET.HIPT.18,DET.TOT.15,DET.TOT.18
0,Aguascalientes,234123,194442,201410,185357,1229067.0,1070207.0
1,Baja California,582879,581767,566390,512157,3106261.0,2775290.0
2,Baja California Sur,73752,106368,97565,105735,597622.0,590918.0
3,Campeche,67127,72631,85993,79592,554331.0,454911.0
4,Coahuila,478300,578930,464005,528650,2830690.0,3095342.0
5,Colima,93374,110638,98868,108561,559042.0,573927.0
6,Chiapas,188511,195738,204783,185940,998778.0,982119.0
7,Chihuahua,440178,388451,416534,348219,2469943.0,2087517.0
8,D.F. Norte,1028326,1065473,747549,858790,3950488.0,4204739.0
9,D.F. Sur,869820,1197903,810255,847858,4592542.0,4536252.0


In [12]:
# Removiendo espacios en blanco en la columna EDO
todos['EDO'] = todos['EDO'].str.strip()

In [13]:
# Haciendo que EDO sea el indice
todos = todos.set_index('EDO')

In [14]:
# Sumando filas de estado de mexico
todos.loc['México Oriente'] += todos.loc['México Poniente']

In [15]:
# Borrando la columna ya sumada
todos.drop(['México Poniente'], inplace=True)

In [16]:
# Renombrando la columna con la suma
todos = todos.rename(index={'México Oriente' : 'México'})

In [17]:
# Repitiendo el proceso para el DF
todos.loc['D.F. Norte'] += todos.loc['D.F. Sur']
todos.drop(['D.F. Sur'], inplace=True)# Renombrando la columna con la suma
todos = todos.rename(index={'D.F. Norte' : 'CIUDAD DE MÉXICO'})

In [18]:
# Repitiendo el proceso para el Veracruz
todos.loc['Veracruz Norte'] += todos.loc['Veracruz Sur']
todos.drop(['Veracruz Sur'], inplace=True)# Renombrando la columna con la suma
todos = todos.rename(index={'Veracruz Norte' : 'Veracruz'})

In [19]:
for estado in todos.index:
    todos = todos.rename(index={estado : estado.upper()})

In [20]:
 todos.to_csv('EDO_DIAB_HIP_PAD.csv')