In [1]:
import pandas as pd
import os 
import glob

Los 32 estados de la república son:  
Aguascalientes  
Baja California Sur  
Baja California  
Campeche  
Chiapas  
Chihuahua  
CDMX  
Coahuila de Zaragoza  
Colima  
Durango  
Guanajuato  
Guerrero  
Hidalgo  
etc


In [2]:
# Realizamos el mismo procedimiento para todos los estados con un pipeline 

# Definimos la ruta de carpeta de datos 
ruta_carpeta = '..\\data\\estudiantes_por_municipio\\'

# Obtenemos la lista de archivos CSV en la carpeta
lista_archivos = glob.glob(os.path.join(ruta_carpeta, '*.csv'))

# Lista de DF final 
df_a_unir = [] 

for archivo in lista_archivos:
    try: 
        # leemos el archivo csv
        df_temp = pd.read_csv(archivo)
        # Filtramos por localidad 0 (municipio)
        df_temp = df_temp[df_temp['LOC'] == 0].copy()
        # eliminamos el primer registro 
        df_temp_limpio = df_temp.iloc[1:]
        # añadimos a la lista 
        df_a_unir.append(df_temp_limpio)
    except Exception as e:
        print(f'Error al procesar el archivo {archivo}: {e}')

# Unimos todos los dataframes en uno solo
df_estudiantes_municipio = pd.concat(df_a_unir, ignore_index=True)


In [3]:
df_estudiantes_municipio.head()

Unnamed: 0,ENTIDAD,NOM_ENT,MUN,NOM_MUN,LOC,NOM_LOC,P18A24A
0,11,Guanajuato,1,Abasolo,0,Total del Municipio,2701
1,11,Guanajuato,2,Acámbaro,0,Total del Municipio,3084
2,11,Guanajuato,3,San Miguel de Allende,0,Total del Municipio,4513
3,11,Guanajuato,4,Apaseo el Alto,0,Total del Municipio,1931
4,11,Guanajuato,5,Apaseo el Grande,0,Total del Municipio,3126


In [4]:
print(f"{df_estudiantes_municipio['NOM_ENT'].unique()}, "
      f"{len(df_estudiantes_municipio['NOM_ENT'].unique())} estados representados, "
      f"con un total de {df_estudiantes_municipio.shape[0]} registros")

['Guanajuato' 'Guerrero' 'Hidalgo' 'Jalisco' 'México'
 'Michoacán de Ocampo' 'Morelos' 'Nayarit' 'Nuevo León' 'Oaxaca' 'Puebla'
 'Querétaro' 'Quintana Roo' 'San Luis Potosí' 'Sinaloa' 'Sonora' 'Tabasco'
 'Tamaulipas' 'Tlaxcala' 'Veracruz de Ignacio de la Llave' 'Yucatán'
 'Zacatecas' 'Aguascalientes' 'Baja California Sur' 'Baja California'
 'Campeche' 'Chiapas' 'Chihuahua' 'Ciudad de México'
 'Coahuila de Zaragoza' 'Colima' 'Durango'], 32 estados representados, con un total de 2469 registros


In [5]:
df_estudiantes_municipio.to_csv('..\\data\\estudiantes_municipio_todos_los_estados.csv', index=False)

In [6]:
ruta_estados_mexicanos = '..\\data\\censo_estados_unidos_mexicanos\\iter_00_cpv2020\\conjunto_de_datos\\conjunto_de_datos_iter_00CSV20.csv' 
df_estados_u_mexicanos = pd.read_csv(ruta_estados_mexicanos)
df_estados_u_mexicanos = df_estados_u_mexicanos[['ENTIDAD', 'NOM_ENT', 'MUN', 'NOM_MUN', 'LOC', 'NOM_LOC', 'POBTOT', 'P_18A24']].copy()
df_estados_u_mexicanos.head()

  df_estados_u_mexicanos = pd.read_csv(ruta_estados_mexicanos)


Unnamed: 0,ENTIDAD,NOM_ENT,MUN,NOM_MUN,LOC,NOM_LOC,POBTOT,P_18A24
0,0,Total nacional,0,Total nacional,0,Total nacional,126014024,14736111
1,0,Total nacional,0,Total nacional,9998,Localidades de una vivienda,250354,27841
2,0,Total nacional,0,Total nacional,9999,Localidades de dos viviendas,147125,16336
3,1,Aguascalientes,0,Total de la entidad Aguascalientes,0,Total de la Entidad,1425607,180847
4,1,Aguascalientes,0,Total de la entidad Aguascalientes,9998,Localidades de una vivienda,3697,438


In [7]:
# Nos quedamos solo con las LOC == 0 
df_estados_u_mexicanos = df_estados_u_mexicanos[(df_estados_u_mexicanos['LOC'] == 0) & (df_estados_u_mexicanos['NOM_LOC'] == 'Total del Municipio')].copy()
df_estados_u_mexicanos.head()

Unnamed: 0,ENTIDAD,NOM_ENT,MUN,NOM_MUN,LOC,NOM_LOC,POBTOT,P_18A24
6,1,Aguascalientes,1,Aguascalientes,0,Total del Municipio,948990,120452
574,1,Aguascalientes,2,Asientos,0,Total del Municipio,51536,6581
749,1,Aguascalientes,3,Calvillo,0,Total del Municipio,58250,6935
918,1,Aguascalientes,4,Cosío,0,Total del Municipio,17000,2228
985,1,Aguascalientes,5,Jesús María,0,Total del Municipio,129929,16640


In [8]:
df_estados_u_mexicanos['NOM_ENT'].unique()

array(['Aguascalientes', 'Baja California', 'Baja California Sur',
       'Campeche', 'Coahuila de Zaragoza', 'Colima', 'Chiapas',
       'Chihuahua', 'Ciudad de México', 'Durango', 'Guanajuato',
       'Guerrero', 'Hidalgo', 'Jalisco', 'México', 'Michoacán de Ocampo',
       'Morelos', 'Nayarit', 'Nuevo León', 'Oaxaca', 'Puebla',
       'Querétaro', 'Quintana Roo', 'San Luis Potosí', 'Sinaloa',
       'Sonora', 'Tabasco', 'Tamaulipas', 'Tlaxcala',
       'Veracruz de Ignacio de la Llave', 'Yucatán', 'Zacatecas'],
      dtype=object)

In [9]:
df_estados_u_mexicanos[df_estados_u_mexicanos['NOM_MUN'] == 'Abasolo']

Unnamed: 0,ENTIDAD,NOM_ENT,MUN,NOM_MUN,LOC,NOM_LOC,POBTOT,P_18A24
12991,5,Coahuila de Zaragoza,1,Abasolo,0,Total del Municipio,1022,110
58947,11,Guanajuato,1,Abasolo,0,Total del Municipio,92040,11426
109207,19,Nuevo León,1,Abasolo,0,Total del Municipio,2974,358
159886,28,Tamaulipas,1,Abasolo,0,Total del Municipio,9822,786


In [10]:
df_estados_u_mexicanos.drop(columns=['ENTIDAD', 'MUN', 'LOC'], inplace=True)

In [12]:
df_estados_u_mexicanos.to_csv('..\\data\\estudiantes_municipio_todos_los_estados.csv', index=False)