In [39]:
# Para trabajar con regex
# -----------------------------------------------------------------------
import re

# Para trabajar con ficheros
# -----------------------------------------------------------------------
import os


# Para trabajar con los DataFrames
# -----------------------------------------------------------------------
import pandas as pd

# Para poner barras progreso
# -----------------------------------------------------------------------
from tqdm import tqdm



# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Ignorar warings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

# Librerias para generar gráficas
# ----------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns


### Cargamos los archivos del INE

In [40]:
df_censo_2022 = pd.read_csv("datos/ine/censo_2022.csv", encoding= 'latin-1', sep=';')

In [41]:
df_censo_2022.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Nacionalidad,Sexo,Edad,Periodo,Total
0,Total Nacional,,,Total,Total,Todas las edades,2022,47.486.727
1,Total Nacional,01 Andalucía,,Total,Total,Todas las edades,2022,8.511.167
2,Total Nacional,01 Andalucía,29 Málaga,Total,Total,Todas las edades,2022,1.715.109
3,Total Nacional,01 Andalucía,23 Jaén,Total,Total,Todas las edades,2022,624.191
4,Total Nacional,01 Andalucía,04 Almería,Total,Total,Todas las edades,2022,739.541


In [42]:
df_censo_2022.sample(35)

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Nacionalidad,Sexo,Edad,Periodo,Total
23,Total Nacional,08 Castilla - La Mancha,,Total,Total,Todas las edades,2022,2.058.278
25,Total Nacional,08 Castilla - La Mancha,13 Ciudad Real,Total,Total,Todas las edades,2022,490.950
49,Total Nacional,11 Extremadura,10 Cáceres,Total,Total,Todas las edades,2022,388.957
51,Total Nacional,12 Galicia,,Total,Total,Todas las edades,2022,2.692.825
67,Total Nacional,"17 Rioja, La","26 Rioja, La",Total,Total,Todas las edades,2022,319.617
58,Total Nacional,"14 Murcia, Región de",,Total,Total,Todas las edades,2022,1.529.658
9,Total Nacional,01 Andalucía,14 Córdoba,Total,Total,Todas las edades,2022,775.110
31,Total Nacional,07 Castilla y León,42 Soria,Total,Total,Todas las edades,2022,88.330
7,Total Nacional,01 Andalucía,41 Sevilla,Total,Total,Todas las edades,2022,1.949.558
17,Total Nacional,"04 Balears, Illes","07 Balears, Illes",Total,Total,Todas las edades,2022,1.187.043


Eliminamos las columnas de Edad, Nacionalidad,Sexo y Periodo pues no interesan para el analisis. Los datos relevantes de estas categorías los obtenemos asociados a nivel educativo en otro archivo del INE.

In [43]:
# Eliminar las columnas 'Edad', 'Nacionalidad' y 'Sexo'
df_censo_2022.drop(columns=['Edad','Nacionalidad','Sexo','Periodo'], inplace=True)

# Mostrar las primeras filas del DataFrame actualizado
df_censo_2022.head()


Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Total
0,Total Nacional,,,47.486.727
1,Total Nacional,01 Andalucía,,8.511.167
2,Total Nacional,01 Andalucía,29 Málaga,1.715.109
3,Total Nacional,01 Andalucía,23 Jaén,624.191
4,Total Nacional,01 Andalucía,04 Almería,739.541


Formatemaos la columna "Total"

In [44]:
# Convertimos la columna "Total" a int64
df_censo_2022['Total'] = df_censo_2022['Total'].str.replace('.', '').astype('int64')
df_censo_2022.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Total
0,Total Nacional,,,47486727
1,Total Nacional,01 Andalucía,,8511167
2,Total Nacional,01 Andalucía,29 Málaga,1715109
3,Total Nacional,01 Andalucía,23 Jaén,624191
4,Total Nacional,01 Andalucía,04 Almería,739541


A partir del DataFrame df_censo_2022 vamos a crear tres dataframes con la información a nivel nacional, autonómico y provincial respectivamente

In [45]:
def filtrar_dataframe_ine(df):
    """
    Filtra un DataFrame del ine en tres niveles: nacional, autonómico y provincial.

    Parámetros:
    df (pd.DataFrame): DataFrame que contiene las columnas 'Comunidades y Ciudades Autónomas' y 'Provincias'.

    Retorna:
    tuple: Tres DataFrames correspondientes a nivel nacional, autonómico y provincial.
    """
    # Nivel nacional: Filtramos donde "Comunidades y Ciudades Autónomas" sea NaN
    df_nacional = df[df['Comunidades y Ciudades Autónomas'].isna()].copy().reset_index(drop=True)

    # Nivel autonómico: Filtramos donde "Comunidades y Ciudades Autónomas" no sea NaN y "Provincias" sea NaN
    df_autonomico = df[df['Comunidades y Ciudades Autónomas'].notna() & df['Provincias'].isna()].copy().reset_index(drop=True)

    # Nivel provincial: Filtramos donde "Provincias" no sea NaN
    df_provincial = df[df['Provincias'].notna()].copy().reset_index(drop=True)

    return df_nacional, df_autonomico, df_provincial

# Lo aplicamos al DataFrame del censo de 2022:
df_censo_2022_nacional, df_censo_2022_autonomico, df_censo_2022_provincial = filtrar_dataframe_ine(df_censo_2022)




Verificamos que los dataframes filtrados se han creado correctamente    

In [46]:
df_censo_2022_nacional.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Total
0,Total Nacional,,,47486727


In [47]:
df_censo_2022_autonomico.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Total
0,Total Nacional,01 Andalucía,,8511167
1,Total Nacional,02 Aragón,,1328215
2,Total Nacional,"03 Asturias, Principado de",,1004960
3,Total Nacional,"04 Balears, Illes",,1187043
4,Total Nacional,05 Canarias,,2185607


In [48]:
df_censo_2022_provincial.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Total
0,Total Nacional,01 Andalucía,29 Málaga,1715109
1,Total Nacional,01 Andalucía,23 Jaén,624191
2,Total Nacional,01 Andalucía,04 Almería,739541
3,Total Nacional,01 Andalucía,21 Huelva,531094
4,Total Nacional,01 Andalucía,11 Cádiz,1250545


# En primer lugar limpiamos los datos a nivel provincial

In [49]:
df_censo_2022_provincial.sample(20)

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Total
28,Total Nacional,07 Castilla y León,37 Salamanca,326285
47,Total Nacional,16 País Vasco,01 Araba/Álava,333908
41,Total Nacional,12 Galicia,27 Lugo,324240
37,Total Nacional,11 Extremadura,10 Cáceres,388957
15,Total Nacional,06 Cantabria,39 Cantabria,585450
35,Total Nacional,10 Comunitat Valenciana,03 Alicante/Alacant,1907494
6,Total Nacional,01 Andalucía,18 Granada,926019
2,Total Nacional,01 Andalucía,04 Almería,739541
46,Total Nacional,16 País Vasco,48 Bizkaia,1148677
50,Total Nacional,18 Ceuta,51 Ceuta,83051


In [50]:
def procesar_nivel_educativo_provincias(df):
    """
    Realiza el procesamiento de un Dataframe con información a nivel provincial, extraida del INE,
    aplicando las siguientes transformaciones:
    1. Elimina la columna "Total Nacional".
    2. Separa los códigos y nombres de comunidades y provincias en columnas distintas.
    3. Convierte las columnas 'Código comunidad' y 'Código provincia' a tipo int64.
    4. Reordena las columnas colocando los códigos y nombres de comunidades y provincias al inicio.
        
    Parámetros:
        df (pd.DataFrame): DataFrame con la información de nivel educativo por provincias.
    
    Retorna:
        pd.DataFrame: DataFrame transformado con las modificaciones aplicadas.
    """
    df = df.copy()  # Crear una copia para no modificar el original
    
    # 1. Eliminar la columna "Total Nacional"
    if "Total Nacional" in df.columns:
        df.drop(columns=["Total Nacional"], inplace=True)
           
    # 2. Separar código y nombre de comunidad y provincia
    if 'Comunidades y Ciudades Autónomas' in df.columns and 'Provincias' in df.columns:
        df[['Código comunidad', 'Nombre comunidad']] = df['Comunidades y Ciudades Autónomas'].str.split(pat=' ', n=1, expand=True)
        df[['Código provincia', 'Nombre provincia']] = df['Provincias'].str.split(pat=' ', n=1, expand=True)
        df.drop(columns=['Comunidades y Ciudades Autónomas', 'Provincias'], inplace=True)

    # 3. Convertir las columnas 'Código comunidad' y 'Código provincia' a tipo int64 si existen
    for col in ['Código comunidad', 'Código provincia']:
        if col in df.columns:
            df[col] = df[col].astype('int64')
    
    # 4. Reordenar las columnas para que los códigos y nombres aparezcan primero
    columnas_prioritarias = ['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia']
    columnas_ordenadas = columnas_prioritarias + [col for col in df.columns if col not in columnas_prioritarias]
    df = df[columnas_ordenadas]
        
    return df

# Aplicar la función al DataFrame
df_censo_2022_provincial = procesar_nivel_educativo_provincias(df_censo_2022_provincial)

# Mostrar información y primeras filas del DataFrame actualizado
print(df_censo_2022_provincial.info())
df_censo_2022_provincial.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52 entries, 0 to 51
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Código comunidad  52 non-null     int64 
 1   Nombre comunidad  52 non-null     object
 2   Código provincia  52 non-null     int64 
 3   Nombre provincia  52 non-null     object
 4   Total             52 non-null     int64 
dtypes: int64(3), object(2)
memory usage: 2.2+ KB
None


Unnamed: 0,Código comunidad,Nombre comunidad,Código provincia,Nombre provincia,Total
0,1,Andalucía,29,Málaga,1715109
1,1,Andalucía,23,Jaén,624191
2,1,Andalucía,4,Almería,739541
3,1,Andalucía,21,Huelva,531094
4,1,Andalucía,11,Cádiz,1250545


In [51]:
df_censo_2022_provincial.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52 entries, 0 to 51
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Código comunidad  52 non-null     int64 
 1   Nombre comunidad  52 non-null     object
 2   Código provincia  52 non-null     int64 
 3   Nombre provincia  52 non-null     object
 4   Total             52 non-null     int64 
dtypes: int64(3), object(2)
memory usage: 2.2+ KB


Ordenamos las filas del dataframe de acuerdo a la numeración de la columna "Código Comunidad"

In [52]:
df_censo_2022_provincial = df_censo_2022_provincial.sort_values(by="Código comunidad").reset_index(drop=True)

In [53]:
df_censo_2022_provincial

Unnamed: 0,Código comunidad,Nombre comunidad,Código provincia,Nombre provincia,Total
0,1,Andalucía,29,Málaga,1715109
1,1,Andalucía,23,Jaén,624191
2,1,Andalucía,4,Almería,739541
3,1,Andalucía,21,Huelva,531094
4,1,Andalucía,11,Cádiz,1250545
5,1,Andalucía,41,Sevilla,1949558
6,1,Andalucía,18,Granada,926019
7,1,Andalucía,14,Córdoba,775110
8,2,Aragón,50,Zaragoza,968884
9,2,Aragón,44,Teruel,134132


In [54]:
# Guardamos el DataFrame en un archivo CSV
df_censo_2022_provincial.to_csv("datos_limpiados/provincias/censo_2022_provincias_limpio.csv", index=False)

## Limpiamos el dataframe con la información autonomica del censo

In [55]:
df_censo_2022_autonomico.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Total
0,Total Nacional,01 Andalucía,,8511167
1,Total Nacional,02 Aragón,,1328215
2,Total Nacional,"03 Asturias, Principado de",,1004960
3,Total Nacional,"04 Balears, Illes",,1187043
4,Total Nacional,05 Canarias,,2185607


Eliminamos la columna "Provincias que está vacía"

In [56]:
# Eliminar la columna 'Provincias'
df_censo_2022_autonomico.drop(columns=['Provincias'], inplace=True)

# Mostrar las primeras filas del DataFrame actualizado
df_censo_2022_autonomico.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Total
0,Total Nacional,01 Andalucía,8511167
1,Total Nacional,02 Aragón,1328215
2,Total Nacional,"03 Asturias, Principado de",1004960
3,Total Nacional,"04 Balears, Illes",1187043
4,Total Nacional,05 Canarias,2185607


In [57]:
def procesar_informacion_comunidades(df):
    """
    Realiza el procesamiento de un Dataframe con información a nivel de comunidad autónoma, extraida del INE,
    aplicando las siguientes transformaciones:
    1. Elimina la columna "Total Nacional".
    2. Separa los códigos y nombres de comunidades en columnas distintas.
    3. Convierte la columna 'Código comunidad' a tipo int64.
    4. Reordena las columnas colocando los códigos y nombres de comunidades al inicio.
        
    Parámetros:
        df (pd.DataFrame): DataFrame con la información de nivel educativo por provincias.
    
    Retorna:
        pd.DataFrame: DataFrame transformado con las modificaciones aplicadas.
    """
    df = df.copy()  # Crear una copia para no modificar el original
    
    # 1. Eliminar la columna "Total Nacional"
    if "Total Nacional" in df.columns:
        df.drop(columns=["Total Nacional"], inplace=True)
           
    # 2. Separar código y nombre de comunidad
    if 'Comunidades y Ciudades Autónomas' in df.columns:
        df[['Código comunidad', 'Nombre comunidad']] = df['Comunidades y Ciudades Autónomas'].str.split(pat=' ', n=1, expand=True)
        df.drop(columns=['Comunidades y Ciudades Autónomas'], inplace=True)

    # 3. Convertir la columnas 'Código comunidad' a tipo int64 si existe
    for col in ['Código comunidad']:
        if col in df.columns:
            df[col] = df[col].astype('int64')
    
    # 4. Reordenar las columnas para que el codigo y nombre de comunidad aparezcan primero
    columnas_prioritarias = ['Código comunidad', 'Nombre comunidad']
    columnas_ordenadas = columnas_prioritarias + [col for col in df.columns if col not in columnas_prioritarias]
    df = df[columnas_ordenadas]
        
    return df

# Aplicar la función al DataFrame
df_censo_2022_autonomico = procesar_informacion_comunidades(df_censo_2022_autonomico)

# Mostrar información y primeras filas del DataFrame actualizado
print(df_censo_2022_autonomico.info())
df_censo_2022_autonomico.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19 entries, 0 to 18
Data columns (total 3 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Código comunidad  19 non-null     int64 
 1   Nombre comunidad  19 non-null     object
 2   Total             19 non-null     int64 
dtypes: int64(2), object(1)
memory usage: 588.0+ bytes
None


Unnamed: 0,Código comunidad,Nombre comunidad,Total
0,1,Andalucía,8511167
1,2,Aragón,1328215
2,3,"Asturias, Principado de",1004960
3,4,"Balears, Illes",1187043
4,5,Canarias,2185607


Ordenamos las filas del dataframe de acuerdo a la numeración de la columna "Código Comunidad"

In [58]:
df_censo_2022_autonomico = df_censo_2022_autonomico.sort_values(by="Código comunidad").reset_index(drop=True)
df_censo_2022_autonomico

Unnamed: 0,Código comunidad,Nombre comunidad,Total
0,1,Andalucía,8511167
1,2,Aragón,1328215
2,3,"Asturias, Principado de",1004960
3,4,"Balears, Illes",1187043
4,5,Canarias,2185607
5,6,Cantabria,585450
6,7,Castilla y León,2375583
7,8,Castilla - La Mancha,2058278
8,9,Cataluña,7761823
9,10,Comunitat Valenciana,5108116


In [59]:
# Guardamos el DataFrame en un archivo CSV
df_censo_2022_autonomico.to_csv("datos_limpiados/comunidades/censo_2022_autonomico_limpio.csv", index=False)

Procesamos y limipamos el dataframe con la informaciónnacional del censo

In [60]:
def procesar_informacion_nacional(df):
    """
    Realiza el procesamiento de un DataFrame con información a nivel nacional, extraída del INE,
    aplicando las siguientes transformaciones:

    1. Elimina las columnas 'Provincias' y 'Comunidades y Ciudades Autónomas'.
    2. Renombra la columna "Total Nacional" a "Nombre del país".
    3. Asigna el valor "España" a todas las filas en la columna "Nombre del país".
        
    Parámetros:
    -----------
        df (pd.DataFrame): DataFrame con la información de nivel educativo a nivel nacional.

    Retorna:
    --------
        pd.DataFrame: DataFrame transformado con las modificaciones aplicadas.
    """
    df = df.copy()  # Crear una copia para no modificar el original
    
    # 1. Eliminar las columnas 'Provincias' y 'Comunidades y Ciudades Autónomas' si existen
    columnas_a_eliminar = ['Comunidades y Ciudades Autónomas', 'Provincias']
    df.drop(columns=[col for col in columnas_a_eliminar if col in df.columns], inplace=True)

    # 2. Renombrar la columna "Total Nacional" a "Nombre del país" si existe
    if "Total Nacional" in df.columns:
        df.rename(columns={"Total Nacional": "Nombre del país"}, inplace=True)

    # 3. Asignar el valor "España" a todas las filas en la columna "Nombre del país"
    if "Nombre del país" in df.columns:
        df["Nombre del país"] = "España"

    return df

# Aplicar la función al DataFrame
df_censo_2022_nacional = procesar_informacion_nacional(df_censo_2022_nacional)

# Mostrar información y primeras filas del DataFrame actualizado
print(df_censo_2022_nacional.info())
df_censo_2022_nacional.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1 entries, 0 to 0
Data columns (total 2 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Nombre del país  1 non-null      object
 1   Total            1 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 148.0+ bytes
None


Unnamed: 0,Nombre del país,Total
0,España,47486727


In [61]:
# Guardamos el DataFrame en un archivo CSV
df_censo_2022_nacional.to_csv("datos_limpiados/nacionales/censo_2022_nacional_limpio.csv", index=False)

## Ahora limpiamos los datos del censo para municipios

In [62]:
df_censo_2022_municipios = pd.read_csv("datos/ine/censo_2022_municipios.csv", encoding= 'latin-1', sep=';')

In [63]:
df_censo_2022_municipios.head()

Unnamed: 0,Total Nacional,Provincias,Municipios,Sexo,Edad,Lugar de nacimiento,Periodo,Total
0,Total Nacional,01 Araba/Álava,,Total,Todas las edades,Total,2022,333.908
1,Total Nacional,01 Araba/Álava,01001 Alegría-Dulantzi,Total,Todas las edades,Total,2022,2.969
2,Total Nacional,01 Araba/Álava,01002 Amurrio,Total,Todas las edades,Total,2022,10.265
3,Total Nacional,01 Araba/Álava,01003 Aramaio,Total,Todas las edades,Total,2022,1.429
4,Total Nacional,01 Araba/Álava,01004 Artziniega,Total,Todas las edades,Total,2022,1.809


In [64]:
df_censo_2022_municipios.sample(20)

Unnamed: 0,Total Nacional,Provincias,Municipios,Sexo,Edad,Lugar de nacimiento,Periodo,Total
5081,Total Nacional,33 Asturias,33068 Somiedo,Total,Todas las edades,Total,2022,1.109
1921,Total Nacional,12 Castellón/Castelló,12107 Sot de Ferrer,Total,Todas las edades,Total,2022,449.0
2647,Total Nacional,17 Girona,"17187 Saus, Camallera i Llampaies",Total,Todas las edades,Total,2022,881.0
6788,Total Nacional,44 Teruel,44225 Torre del Compte,Total,Todas las edades,Total,2022,123.0
5254,Total Nacional,34 Palencia,34216 Villalcón,Total,Todas las edades,Total,2022,58.0
676,Total Nacional,06 Badajoz,06041 Cristina,Total,Todas las edades,Total,2022,558.0
3184,Total Nacional,20 Gipuzkoa,20025 Zegama,Total,Todas las edades,Total,2022,1.535
7419,Total Nacional,47 Valladolid,47126 Puras,Total,Todas las edades,Total,2022,44.0
6133,Total Nacional,41 Sevilla,41021 Camas,Total,Todas las edades,Total,2022,27.47
2539,Total Nacional,17 Girona,17070 Fontanilles,Total,Todas las edades,Total,2022,163.0


In [65]:
df_censo_2022_municipios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8184 entries, 0 to 8183
Data columns (total 8 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Total Nacional       8184 non-null   object
 1   Provincias           8184 non-null   object
 2   Municipios           8132 non-null   object
 3   Sexo                 8184 non-null   object
 4   Edad                 8184 non-null   object
 5   Lugar de nacimiento  8184 non-null   object
 6   Periodo              8184 non-null   int64 
 7   Total                8183 non-null   object
dtypes: int64(1), object(7)
memory usage: 511.6+ KB


La columna "Total" tiene un nulo que vamos a identificar y decidir como lo tratamos

In [66]:
# Identificar la fila donde la columna "Total" tiene un valor nulo
fila_nula = df_censo_2022_municipios[df_censo_2022_municipios['Total'].isnull()]
fila_nula


Unnamed: 0,Total Nacional,Provincias,Municipios,Sexo,Edad,Lugar de nacimiento,Periodo,Total
7636,Total Nacional,48 Bizkaia,48916 Usansolo,Total,Todas las edades,Total,2022,


En la web del INE de donde se descargaron los datos comprobamos que efectivamente el valor de Población total para este municipio. falta tanto para el 2022 como también el 2021 y 2023. Para 2024 si está disponible, así que lo imputamos por el valor extraido de la web del INE para el año 2024

In [67]:
# Imputar el valor nulo con 4.568 en la columna "Total"
df_censo_2022_municipios.loc[df_censo_2022_municipios['Total'].isnull(), 'Total'] = "4.568"

# Verificar que la imputación se realizó correctamente
df_censo_2022_municipios.loc[7636]


Total Nacional           Total Nacional
Provincias                   48 Bizkaia
Municipios               48916 Usansolo
Sexo                              Total
Edad                   Todas las edades
Lugar de nacimiento               Total
Periodo                            2022
Total                             4.568
Name: 7636, dtype: object

Formateamos la columna "Total"

In [68]:
# Convertimos la columna "Total" a int64
df_censo_2022_municipios['Total'] = df_censo_2022_municipios['Total'].str.replace('.', '').astype('int64')
df_censo_2022_municipios.head()

Unnamed: 0,Total Nacional,Provincias,Municipios,Sexo,Edad,Lugar de nacimiento,Periodo,Total
0,Total Nacional,01 Araba/Álava,,Total,Todas las edades,Total,2022,333908
1,Total Nacional,01 Araba/Álava,01001 Alegría-Dulantzi,Total,Todas las edades,Total,2022,2969
2,Total Nacional,01 Araba/Álava,01002 Amurrio,Total,Todas las edades,Total,2022,10265
3,Total Nacional,01 Araba/Álava,01003 Aramaio,Total,Todas las edades,Total,2022,1429
4,Total Nacional,01 Araba/Álava,01004 Artziniega,Total,Todas las edades,Total,2022,1809


Identificamos ahora los nulos de la columna "Municipios"

In [69]:
filas_nulas = df_censo_2022_municipios[df_censo_2022_municipios['Municipios'].isnull()]
filas_nulas

Unnamed: 0,Total Nacional,Provincias,Municipios,Sexo,Edad,Lugar de nacimiento,Periodo,Total
0,Total Nacional,01 Araba/Álava,,Total,Todas las edades,Total,2022,333908
52,Total Nacional,02 Albacete,,Total,Todas las edades,Total,2022,385967
140,Total Nacional,03 Alicante/Alacant,,Total,Todas las edades,Total,2022,1907494
282,Total Nacional,04 Almería,,Total,Todas las edades,Total,2022,739541
386,Total Nacional,05 Ávila,,Total,Todas las edades,Total,2022,159102
635,Total Nacional,06 Badajoz,,Total,Todas las edades,Total,2022,667851
801,Total Nacional,"07 Balears, Illes",,Total,Todas las edades,Total,2022,1187043
869,Total Nacional,08 Barcelona,,Total,Todas las edades,Total,2022,5699602
1181,Total Nacional,09 Burgos,,Total,Todas las edades,Total,2022,354846
1553,Total Nacional,10 Cáceres,,Total,Todas las edades,Total,2022,388957


Vemos que corresponden a datos nacionales y de provincias, ya tratados en otro dataframe, así pues los eliminamos de este.

In [70]:
# Eliminar las filas donde la columna "Municipios" tiene valores nulos
df_censo_2022_municipios = df_censo_2022_municipios.dropna(subset=['Municipios']).reset_index(drop=True)

# Mostrar el DataFrame actualizado
df_censo_2022_municipios.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8132 entries, 0 to 8131
Data columns (total 8 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Total Nacional       8132 non-null   object
 1   Provincias           8132 non-null   object
 2   Municipios           8132 non-null   object
 3   Sexo                 8132 non-null   object
 4   Edad                 8132 non-null   object
 5   Lugar de nacimiento  8132 non-null   object
 6   Periodo              8132 non-null   int64 
 7   Total                8132 non-null   int64 
dtypes: int64(2), object(6)
memory usage: 508.4+ KB


Eliminamos las columnas "Total Nacional", "Sexo", "Edad", "Lugar de nacimiento" y "Periodo" pues sol buscamos de este dataframe el quedarnos con los datos de Población Total.

In [71]:
# Eliminar las columnas 'Total Nacional', 'Edad', 'Nacionalidad' y 'Sexo'
df_censo_2022_municipios.drop(columns=['Total Nacional','Edad','Lugar de nacimiento','Sexo','Periodo'], inplace=True)

# Mostrar las primeras filas del DataFrame actualizado
df_censo_2022_municipios.head()

Unnamed: 0,Provincias,Municipios,Total
0,01 Araba/Álava,01001 Alegría-Dulantzi,2969
1,01 Araba/Álava,01002 Amurrio,10265
2,01 Araba/Álava,01003 Aramaio,1429
3,01 Araba/Álava,01004 Artziniega,1809
4,01 Araba/Álava,01006 Armiñón,235


Vamos a separar la parte numerica de la columna Provincias y a guardarla como código en una nueva columna que creamos.

In [72]:
# Separar código y nombre de las provincias         
if 'Provincias' in df_censo_2022_municipios.columns:
    df_censo_2022_municipios[['Código provincia', 'Nombre provincia']] = df_censo_2022_municipios['Provincias'].str.split(pat=' ', n=1, expand=True)
    df_censo_2022_municipios.drop(columns=['Provincias'], inplace=True)
    
# Convertir la columna 'Código provincia' a tipo int64 si existe
if 'Código provincia' in df_censo_2022_municipios.columns:
    df_censo_2022_municipios['Código provincia'] = df_censo_2022_municipios['Código provincia'].astype('int64')

# Reordenar las columnas para que el código y nombre de provincia aparezcan primero
columnas_prioritarias = ['Código provincia', 'Nombre provincia']
columnas_ordenadas = columnas_prioritarias + [col for col in df_censo_2022_municipios.columns if col not in columnas_prioritarias]
df_censo_2022_municipios = df_censo_2022_municipios[columnas_ordenadas]

# Mostrar información y primeras filas del DataFrame actualizado
print(df_censo_2022_municipios.info())
df_censo_2022_municipios.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8132 entries, 0 to 8131
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Código provincia  8132 non-null   int64 
 1   Nombre provincia  8132 non-null   object
 2   Municipios        8132 non-null   object
 3   Total             8132 non-null   int64 
dtypes: int64(2), object(2)
memory usage: 254.3+ KB
None


Unnamed: 0,Código provincia,Nombre provincia,Municipios,Total
0,1,Araba/Álava,01001 Alegría-Dulantzi,2969
1,1,Araba/Álava,01002 Amurrio,10265
2,1,Araba/Álava,01003 Aramaio,1429
3,1,Araba/Álava,01004 Artziniega,1809
4,1,Araba/Álava,01006 Armiñón,235


Proesamos el dataframe con una función creada para limpiar dataframes con información municipal del INE.

In [73]:
def procesar_informacion_municipios(df):
    """
    Realiza el procesamiento de un Dataframe con información a nivel municipal, extraida del INE,
    aplicando las siguientes transformaciones:
    1. Separa los códigos y nombres de comunidades y provincias en columnas distintas.
    2. Convierte las columnas 'Código comunidad' y 'Código provincia' a tipo int64.
    3. Reordena las columnas colocando los códigos y nombres de comunidades y provincias al inicio.
        
    Parámetros:
        df (pd.DataFrame): DataFrame con la información de nivel educativo por provincias.
    
    Retorna:
        pd.DataFrame: DataFrame transformado con las modificaciones aplicadas.
    """
        
    # 1. Separar código y nombre de los municipios         
    if 'Municipios' in df.columns:
        df[['Código municipio', 'Nombre municipio']] = df['Municipios'].str.split(pat=' ', n=1, expand=True)
        df.drop(columns=['Municipios'], inplace=True)
        
    # 2. Convertir la columna 'Código municipio' a tipo int64 si existe
    if 'Código municipio' in df.columns:
        df['Código municipio'] = df['Código municipio'].astype('int64')
    
    # 3. Reordenar las columnas para que los códigos y nombres aparezcan primero
    columnas_prioritarias = ['Código municipio', 'Nombre municipio']
    columnas_ordenadas = columnas_prioritarias + [col for col in df.columns if col not in columnas_prioritarias]
    df = df[columnas_ordenadas]
        
    return df

# Aplicar la función al DataFrame
df_censo_2022_municipios = procesar_informacion_municipios(df_censo_2022_municipios)

# Mostrar información y primeras filas del DataFrame actualizado
print(df_censo_2022_municipios.info())
df_censo_2022_municipios.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8132 entries, 0 to 8131
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Código municipio  8132 non-null   int64 
 1   Nombre municipio  8132 non-null   object
 2   Código provincia  8132 non-null   int64 
 3   Nombre provincia  8132 non-null   object
 4   Total             8132 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 317.8+ KB
None


Unnamed: 0,Código municipio,Nombre municipio,Código provincia,Nombre provincia,Total
0,1001,Alegría-Dulantzi,1,Araba/Álava,2969
1,1002,Amurrio,1,Araba/Álava,10265
2,1003,Aramaio,1,Araba/Álava,1429
3,1004,Artziniega,1,Araba/Álava,1809
4,1006,Armiñón,1,Araba/Álava,235


In [74]:
# Guardamos el DataFrame en un archivo CSV
df_censo_2022_municipios.to_csv("datos_limpiados/municipios/censo_2022_municipal_limpio.csv", index=False)