# Procesando dataset de habitantes por estados

In [1]:
import pandas as pd
DS_HABITANTES = '01_poblacion.csv' # Poblacion por entidad federativa, año 2015
hab = pd.read_csv(DS_HABITANTES, encoding='latin')

In [2]:
# Seleccionando solo los totales de los grupos de edad
hab = hab[hab[hab.columns[1]] == 'Total']

In [3]:
# Seleccionando unicamente los valores
hab = hab[hab[hab.columns[2]] == 'Valor']

In [4]:
# Seleccionando solo las columnas de estado y de población total
hab = hab[[hab.columns[0], hab.columns[3]]]

In [5]:
hab

Unnamed: 0,Entidad federativa,Población total
0,Estados Unidos Mexicanos,119530753
108,01 Aguascalientes,1312544
216,02 Baja California,3315766
324,03 Baja California Sur,712029
432,04 Campeche,899931
540,05 Coahuila de Zaragoza,2954915
648,06 Colima,711235
756,07 Chiapas,5217908
864,08 Chihuahua,3556574
972,09 Ciudad de México,8918653


In [6]:
hab = hab.rename(columns={
    hab.columns[0] : 'EDO',
    hab.columns[1] : 'POB.HAB.15'
    })

In [7]:
hab['EDO'] = hab['EDO'].str.strip()

In [8]:
# Quitando la fila del total del pais y solo conservando los estados
hab = hab[1:]

In [9]:
# Reseteando el indice del dataframe (consevaba los indices enormes del dataset original)
hab = hab.reset_index(drop=True)

In [10]:
# Removiendo numeros del inicio de cada estado
hab = hab.replace(to_replace ={'EDO' : r'^\d{2}.'}, value = {'EDO' : ''}, regex = True) 

In [11]:
# Poniendo en mayúsculas la columna EDO
hab['EDO'] = hab['EDO'].str.upper()

In [12]:
# Uniendo con dataset creado anteriormente
todos = pd.read_csv('EDO_DIAB_HIP_PAD.csv')

In [13]:
todos

Unnamed: 0,EDO,DET.DIAB.15,DET.DIAB.18,DET.HIPT.15,DET.HIPT.18,DET.TOT.15,DET.TOT.18
0,AGUASCALIENTES,234123.0,194442.0,201410.0,185357.0,1229067.0,1070207.0
1,BAJA CALIFORNIA,582879.0,581767.0,566390.0,512157.0,3106261.0,2775290.0
2,BAJA CALIFORNIA SUR,73752.0,106368.0,97565.0,105735.0,597622.0,590918.0
3,CAMPECHE,67127.0,72631.0,85993.0,79592.0,554331.0,454911.0
4,COAHUILA,478300.0,578930.0,464005.0,528650.0,2830690.0,3095342.0
5,COLIMA,93374.0,110638.0,98868.0,108561.0,559042.0,573927.0
6,CHIAPAS,188511.0,195738.0,204783.0,185940.0,998778.0,982119.0
7,CHIHUAHUA,440178.0,388451.0,416534.0,348219.0,2469943.0,2087517.0
8,CIUDAD DE MÉXICO,1898146.0,2263376.0,1557804.0,1706648.0,8543030.0,8740991.0
9,DURANGO,215914.0,247689.0,199834.0,220172.0,1167398.0,1184376.0


In [14]:
# Imprimiendo merge de los dos dataset sin guardar para ver que se halla hecho correctamente
todos.merge(hab, left_index=True, right_index=True)

Unnamed: 0,EDO_x,DET.DIAB.15,DET.DIAB.18,DET.HIPT.15,DET.HIPT.18,DET.TOT.15,DET.TOT.18,EDO_y,POB.HAB.15
0,AGUASCALIENTES,234123.0,194442.0,201410.0,185357.0,1229067.0,1070207.0,AGUASCALIENTES,1312544
1,BAJA CALIFORNIA,582879.0,581767.0,566390.0,512157.0,3106261.0,2775290.0,BAJA CALIFORNIA,3315766
2,BAJA CALIFORNIA SUR,73752.0,106368.0,97565.0,105735.0,597622.0,590918.0,BAJA CALIFORNIA SUR,712029
3,CAMPECHE,67127.0,72631.0,85993.0,79592.0,554331.0,454911.0,CAMPECHE,899931
4,COAHUILA,478300.0,578930.0,464005.0,528650.0,2830690.0,3095342.0,COAHUILA DE ZARAGOZA,2954915
5,COLIMA,93374.0,110638.0,98868.0,108561.0,559042.0,573927.0,COLIMA,711235
6,CHIAPAS,188511.0,195738.0,204783.0,185940.0,998778.0,982119.0,CHIAPAS,5217908
7,CHIHUAHUA,440178.0,388451.0,416534.0,348219.0,2469943.0,2087517.0,CHIHUAHUA,3556574
8,CIUDAD DE MÉXICO,1898146.0,2263376.0,1557804.0,1706648.0,8543030.0,8740991.0,CIUDAD DE MÉXICO,8918653
9,DURANGO,215914.0,247689.0,199834.0,220172.0,1167398.0,1184376.0,DURANGO,1754754


In [15]:
# Guardando el merge omitiendo la columna de EDO de hab
todos.merge(hab['POB.HAB.15'], left_index=True, right_index=True)

Unnamed: 0,EDO,DET.DIAB.15,DET.DIAB.18,DET.HIPT.15,DET.HIPT.18,DET.TOT.15,DET.TOT.18,POB.HAB.15
0,AGUASCALIENTES,234123.0,194442.0,201410.0,185357.0,1229067.0,1070207.0,1312544
1,BAJA CALIFORNIA,582879.0,581767.0,566390.0,512157.0,3106261.0,2775290.0,3315766
2,BAJA CALIFORNIA SUR,73752.0,106368.0,97565.0,105735.0,597622.0,590918.0,712029
3,CAMPECHE,67127.0,72631.0,85993.0,79592.0,554331.0,454911.0,899931
4,COAHUILA,478300.0,578930.0,464005.0,528650.0,2830690.0,3095342.0,2954915
5,COLIMA,93374.0,110638.0,98868.0,108561.0,559042.0,573927.0,711235
6,CHIAPAS,188511.0,195738.0,204783.0,185940.0,998778.0,982119.0,5217908
7,CHIHUAHUA,440178.0,388451.0,416534.0,348219.0,2469943.0,2087517.0,3556574
8,CIUDAD DE MÉXICO,1898146.0,2263376.0,1557804.0,1706648.0,8543030.0,8740991.0,8918653
9,DURANGO,215914.0,247689.0,199834.0,220172.0,1167398.0,1184376.0,1754754


In [17]:
 todos.to_csv('EDO_DIAB_HIP_PAD_HAB.csv')