In [868]:
# Para trabajar con regex
# -----------------------------------------------------------------------
import re

# Para trabajar con ficheros
# -----------------------------------------------------------------------
import os


# Para trabajar con los DataFrames
# -----------------------------------------------------------------------
import pandas as pd

# Para poner barras progreso
# -----------------------------------------------------------------------
from tqdm import tqdm



# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Ignorar warings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

# Librerias para generar gráficas
# ----------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns


### Cargamos los archivos del INE

In [869]:
df_censo_2022 = pd.read_csv("datos/ine/censo_2022.csv", encoding= 'latin-1', sep=';')

In [870]:
df_censo_2022.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Nacionalidad,Sexo,Edad,Periodo,Total
0,Total Nacional,,,Total,Total,Todas las edades,2022,47.486.727
1,Total Nacional,01 Andalucía,,Total,Total,Todas las edades,2022,8.511.167
2,Total Nacional,01 Andalucía,29 Málaga,Total,Total,Todas las edades,2022,1.715.109
3,Total Nacional,01 Andalucía,23 Jaén,Total,Total,Todas las edades,2022,624.191
4,Total Nacional,01 Andalucía,04 Almería,Total,Total,Todas las edades,2022,739.541


In [871]:
df_censo_2022.sample(20)

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Nacionalidad,Sexo,Edad,Periodo,Total
61,Total Nacional,"15 Navarra, Comunidad Foral de",31 Navarra,Total,Total,Todas las edades,2022,664.514
21,Total Nacional,06 Cantabria,,Total,Total,Todas las edades,2022,585.450
1,Total Nacional,01 Andalucía,,Total,Total,Todas las edades,2022,8.511.167
53,Total Nacional,12 Galicia,"15 Coruña, A",Total,Total,Todas las edades,2022,1.119.164
70,Total Nacional,19 Melilla,,Total,Total,Todas las edades,2022,84.932
59,Total Nacional,"14 Murcia, Región de",30 Murcia,Total,Total,Todas las edades,2022,1.529.658
58,Total Nacional,"14 Murcia, Región de",,Total,Total,Todas las edades,2022,1.529.658
5,Total Nacional,01 Andalucía,21 Huelva,Total,Total,Todas las edades,2022,531.094
29,Total Nacional,07 Castilla y León,,Total,Total,Todas las edades,2022,2.375.583
13,Total Nacional,02 Aragón,22 Huesca,Total,Total,Todas las edades,2022,225.199


In [872]:
df_censo_2022_municipios = pd.read_csv("datos/ine/censo_2022_municipios.csv", sep=';')

In [873]:
df_censo_2022_municipios.head()

Unnamed: 0,Total Nacional,Provincias,Municipios,Sexo,Edad,Lugar de nacimiento,Periodo,Total
0,Total Nacional,,,Total,Todas las edades,Total,2024,48.619.695
1,Total Nacional,,,Total,Todas las edades,Total,2023,48.085.361
2,Total Nacional,,,Total,Todas las edades,Total,2022,47.486.727
3,Total Nacional,,,Total,Todas las edades,Total,2021,47.400.798
4,Total Nacional,,,Total,Todas las edades,España,2024,39.781.461


In [874]:
df_censo_2022_municipios.sample(20)

Unnamed: 0,Total Nacional,Provincias,Municipios,Sexo,Edad,Lugar de nacimiento,Periodo,Total
865849,Total Nacional,08 Barcelona,08225 Sant Martí d'Albars,Total,De 75 a 79 años,Total,2023,9.0
4647252,Total Nacional,39 Cantabria,39067 Ruesga,Mujeres,De 20 a 24 años,Total,2024,11.0
2160219,Total Nacional,18 Granada,18036 Cájar,Hombres,De 65 a 69 años,Total,2021,119.0
4126386,Total Nacional,34 Palencia,34151 Respenda de la Peña,Total,De 20 a 24 años,España,2022,4.0
6136462,Total Nacional,49 Zamora,49121 Mombuey,Total,De 10 a 14 años,Extranjera,2022,0.0
1435734,Total Nacional,11 Cádiz,11034 Setenil de las Bodegas,Mujeres,De 35 a 39 años,España,2022,77.0
3991907,Total Nacional,33 Asturias,33026 Grado,Total,De 85 a 89 años,Extranjera,2021,4.0
147890,Total Nacional,03 Alicante/Alacant,03045 Bolulla,Mujeres,De 15 a 19 años,Total,2022,8.0
253391,Total Nacional,04 Almería,04037 Chirivel,Mujeres,De 80 a 84 años,Extranjera,2021,1.0
4821918,Total Nacional,40 Segovia,40212 Valdevacas de Montejo,Total,De 85 a 89 años,España,2022,2.0


# Limpiamos y concatenamos los dataframes de nivel educativo de municipios pequeños y grandes

In [875]:
df_nivel_educativo_municipios_pequenios = pd.read_csv("datos/ine/nivel_educativo_municipios_pequenios.csv",sep=';')

In [876]:
df_nivel_educativo_municipios_pequenios.head()

Unnamed: 0,Municipios,Sexo,Nivel de estudios,Periodo,Total
0,01006 Armiñón,Total,Total,2022,205
1,01006 Armiñón,Total,Total,2021,198
2,01006 Armiñón,Total,Educación primaria e inferior,2022,18
3,01006 Armiñón,Total,Educación primaria e inferior,2021,17
4,01006 Armiñón,Total,Primera etapa de educación secundaria y similar,2022,55


In [877]:
df_nivel_educativo_municipios_grandes = pd.read_csv("datos/ine/nivel_educativo_municipios_grandes.csv",sep=';')

In [878]:
df_nivel_educativo_municipios_grandes.sample(20)

Unnamed: 0,Municipios,Sexo,País de nacimiento,Nivel de estudios,Periodo,Total
314552,18149 Villa de Otura,Hombres,España,"Másteres, especialidades en Ciencias de la Sal...",2022,80.0
498730,30001 Abanilla,Mujeres,Extranjera,"Enseñanzas de formación profesional, artes plá...",2022,13.0
206780,"12126 Vall d'Uixó, la",Hombres,Total,Sin estudios,2022,337.0
284257,17145 Ribes de Freser,Hombres,España,Grados universitarios de más de 240 créditos E...,2021,50.0
355415,21068 Santa Bárbara de Casa,Total,Total,Educación primaria,2021,173.0
421798,"25168 Poal, El",Total,España,Grados universitarios de hasta 240 créditos EC...,2022,60.0
330773,19291 Trillo,Hombres,España,Sin estudios,2021,13.0
315055,18153 Peligros,Total,Extranjera,Grados universitarios de hasta 240 créditos EC...,2021,46.0
668570,43071 Horta de Sant Joan,Hombres,España,"Enseñanzas de formación profesional, artes plá...",2022,36.0
28574,03074 Granja de Rocamora,Total,España,"Másteres, especialidades en Ciencias de la Sal...",2022,44.0


In [879]:
df_nivel_estudios_en_curso_por_lugar = pd.read_csv("datos/ine/nivel_estudios_en_curso_por_lugar.csv",sep=';')

In [880]:
df_nivel_estudios_en_curso_por_lugar.sample(20)

Unnamed: 0,Capitales y grandes ciudades,Sexo,Relación entre lugar de residencia y lugar de estudios,Nacionalidad,Nivel de estudios en curso,Periodo,Total
132299,41095 Utrera,Total,Cursa estudios pero no hay información sobre e...,Total,Educación superior,2021,197.0
105995,30030 Murcia,Total,Distinta provincia de la misma comunidad,Total,Educación superior,2021,0.0
139631,46131 Gandia,Hombres,Distinta provincia de la misma comunidad,Extranjera,Cursa estudios pero no hay información sobre l...,2021,0.0
126395,39075 Santander,Hombres,Mismo municipio al de residencia,Total,Educación superior,2021,2.728
92434,28134 San Sebastián de los Reyes,Mujeres,Total,Extranjera,Educación primaria e inferior,2022,8.0
107153,31201 Pamplona/Iruña,Total,No cursa estudios,Española,Total,2021,137.958
123025,38017 Granadilla de Abona,Total,Mismo municipio al de residencia,Total,Total,2021,1.799
86764,28106 Parla,Total,Mismo municipio al de residencia,Española,No cursa estudios,2022,0.0
24547,"08101 Hospitalet de Llobregat, L'",Hombres,Total,Española,Educación primaria e inferior,2021,45.0
147498,48044 Getxo,Total,No cursa estudios,Extranjera,Educación superior,2022,0.0


In [881]:
df_nivel_educativo_municipios_pequenios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102570 entries, 0 to 102569
Data columns (total 5 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   Municipios         102570 non-null  object
 1   Sexo               102570 non-null  object
 2   Nivel de estudios  102570 non-null  object
 3   Periodo            102570 non-null  int64 
 4   Total              102570 non-null  int64 
dtypes: int64(2), object(3)
memory usage: 3.9+ MB


In [882]:
df_nivel_educativo_municipios_grandes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 820512 entries, 0 to 820511
Data columns (total 6 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Municipios          820512 non-null  object
 1   Sexo                820512 non-null  object
 2   País de nacimiento  820512 non-null  object
 3   Nivel de estudios   820512 non-null  object
 4   Periodo             820512 non-null  int64 
 5   Total               820512 non-null  object
dtypes: int64(1), object(5)
memory usage: 37.6+ MB


Formateamos la columna "Total"

In [883]:
# Eliminar caracteres no numéricos y convertir la columna 'Total' a entero
df_nivel_educativo_municipios_grandes['Total'] = (
    df_nivel_educativo_municipios_grandes['Total']
    .astype(str)  # Convertir a string para realizar operaciones
    .str.replace(r'[^\d]', '', regex=True)  # Eliminar caracteres no numéricos
    .astype(int)  # Convertir a entero
)

# Confirmar el cambio mostrando las primeras filas
df_nivel_educativo_municipios_grandes.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 820512 entries, 0 to 820511
Data columns (total 6 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Municipios          820512 non-null  object
 1   Sexo                820512 non-null  object
 2   País de nacimiento  820512 non-null  object
 3   Nivel de estudios   820512 non-null  object
 4   Periodo             820512 non-null  int64 
 5   Total               820512 non-null  int64 
dtypes: int64(2), object(4)
memory usage: 37.6+ MB


Queremos juntar los datos de nivel educativo alcanzado en un solo dataframe. 

In [884]:
unique_grandes = df_nivel_educativo_municipios_grandes["Nivel de estudios"].unique()
unique_pequenios = df_nivel_educativo_municipios_pequenios["Nivel de estudios"].unique()

unique_grandes, unique_pequenios

(array(['Total', 'Sin estudios', 'Educación primaria',
        'Primera etapa de educación secundaria y similar',
        'Segunda etapa de educación secundaria, con orientación general',
        'Segunda etapa de educación secundaria con orientación profesional, Educación postsecundaria no superior',
        'Enseñanzas de formación profesional, artes plásticas y diseño y deportivas de grado superior y equivalentes',
        'Grados universitarios de hasta 240 créditos ECTS, diplomados universitarios y equivalentes',
        'Grados universitarios de más de 240 créditos ECTS, licenciados y equivalentes',
        'Másteres, especialidades en Ciencias de la Salud por el sistema de residencia y similares',
        'Doctorado universitario'], dtype=object),
 array(['Total', 'Educación primaria e inferior',
        'Primera etapa de educación secundaria y similar',
        'Segunda etapa de educación secundaria y educación postsecundaria no superior',
        'Educación superior'], dtype=o

Observamos que la columna "Nivel de estudios" toma distintos valores en ambos dataframes, pero podemos hacer un mapeo, mediante un diccionario que permita asignar los mismos valores a dicha columna para ambos dataframes.

In [885]:
def reasignar_nivel_estudios(df, columna):
    """
    Reasigna los valores de una columna específica en un DataFrame 
    según un diccionario de mapeo predefinido.

    Args:
    df (pd.DataFrame): DataFrame que contiene la columna a modificar.
    columna (str): Nombre de la columna cuyos valores serán reasignados.

    Returns:
    pd.DataFrame: DataFrame con los valores de la columna reasignados.
    """
    # Crear un diccionario de mapeo para reasignar los valores
    mapeo_nivel_estudios = {
        'Total': 'Total',
        'Sin estudios': 'Educación primaria e inferior',
        'Educación primaria': 'Educación primaria e inferior',
        'Primera etapa de educación secundaria y similar': 'Primera etapa de educación secundaria y similar',
        'Segunda etapa de educación secundaria, con orientación general': 'Segunda etapa de educación secundaria y educación postsecundaria no superior',
        'Segunda etapa de educación secundaria con orientación profesional, Educación postsecundaria no superior': 'Segunda etapa de educación secundaria y educación postsecundaria no superior',
        'Enseñanzas de formación profesional, artes plásticas y diseño y deportivas de grado superior y equivalentes': 'Educación superior',
        'Grados universitarios de hasta 240 créditos ECTS, diplomados universitarios y equivalentes': 'Educación superior',
        'Grados universitarios de más de 240 créditos ECTS, licenciados y equivalentes': 'Educación superior',
        'Másteres, especialidades en Ciencias de la Salud por el sistema de residencia y similares': 'Educación superior',
        'Doctorado universitario': 'Educación superior'
    }

    # Reasignar los valores en la columna especificada
    df[columna] = df[columna].replace(mapeo_nivel_estudios)
    
    return df




In [886]:
df_nivel_educativo_municipios_grandes = reasignar_nivel_estudios(
    df_nivel_educativo_municipios_grandes, 'Nivel de estudios'
)

In [887]:
df_nivel_educativo_municipios_grandes['Nivel de estudios'].unique()

array(['Total', 'Educación primaria e inferior',
       'Primera etapa de educación secundaria y similar',
       'Segunda etapa de educación secundaria y educación postsecundaria no superior',
       'Educación superior'], dtype=object)

In [888]:
df_nivel_educativo_municipios_pequenios['Nivel de estudios'].unique()

array(['Total', 'Educación primaria e inferior',
       'Primera etapa de educación secundaria y similar',
       'Segunda etapa de educación secundaria y educación postsecundaria no superior',
       'Educación superior'], dtype=object)

In [889]:
df_nivel_educativo_municipios_pequenios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102570 entries, 0 to 102569
Data columns (total 5 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   Municipios         102570 non-null  object
 1   Sexo               102570 non-null  object
 2   Nivel de estudios  102570 non-null  object
 3   Periodo            102570 non-null  int64 
 4   Total              102570 non-null  int64 
dtypes: int64(2), object(3)
memory usage: 3.9+ MB


In [890]:
df_nivel_educativo_municipios_grandes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 820512 entries, 0 to 820511
Data columns (total 6 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Municipios          820512 non-null  object
 1   Sexo                820512 non-null  object
 2   País de nacimiento  820512 non-null  object
 3   Nivel de estudios   820512 non-null  object
 4   Periodo             820512 non-null  int64 
 5   Total               820512 non-null  int64 
dtypes: int64(2), object(4)
memory usage: 37.6+ MB


Concatenamos ambos dataframes en uno que agrupe a todos los municipios

In [891]:
# Concatenar los DataFrames
df_nivel_educativo_municipios = pd.concat([df_nivel_educativo_municipios_grandes, df_nivel_educativo_municipios_pequenios], ignore_index=True)

In [892]:
df_nivel_educativo_municipios.sample(20)

Unnamed: 0,Municipios,Sexo,País de nacimiento,Nivel de estudios,Periodo,Total
487591,29040 Casarabonela,Hombres,España,Educación primaria e inferior,2021,90
3082,01031 Laguardia,Hombres,España,Educación primaria e inferior,2022,2
780435,48026 Dima,Hombres,España,Primera etapa de educación secundaria y similar,2021,1050
335309,20027 Zestoa,Hombres,Extranjera,Primera etapa de educación secundaria y similar,2021,720
750669,46174 Montesa,Total,España,Primera etapa de educación secundaria y similar,2021,4900
767422,47050 Cigales,Mujeres,Extranjera,Educación superior,2022,90
605704,38038 Santa Cruz de Tenerife,Total,Extranjera,Total,2022,32098
895591,42064 Ciria,Hombres,,Educación superior,2021,5
615709,39037 Liérganes,Hombres,España,Educación superior,2021,790
549515,33006 Bimenes,Total,España,Educación superior,2021,50


Como de los municipios pequeños no teemos datos del País de Nacimiento se generan muchos nulos en esa columna

In [893]:
df_nivel_educativo_municipios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 923082 entries, 0 to 923081
Data columns (total 6 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Municipios          923082 non-null  object
 1   Sexo                923082 non-null  object
 2   País de nacimiento  820512 non-null  object
 3   Nivel de estudios   923082 non-null  object
 4   Periodo             923082 non-null  int64 
 5   Total               923082 non-null  int64 
dtypes: int64(2), object(4)
memory usage: 42.3+ MB


Imputamos esos nulos

In [894]:
# Reemplazar los valores nulos en la columna "País de nacimiento" por "Desconocido"
df_nivel_educativo_municipios['País de nacimiento'] = (df_nivel_educativo_municipios['País de nacimiento'].fillna("Desconocido"))

Los datos recogidos en el datafrmae son del año 2021 y 2022. Nos quedamos solos con los de 2022 que es el año objeto de nuestro estudo.

In [895]:
# Filtrar el DataFrame para conservar solo las filas donde "Periodo" es 2022
df_nivel_educativo_municipios = df_nivel_educativo_municipios[df_nivel_educativo_municipios['Periodo'] == 2022]
df_nivel_educativo_municipios.reset_index(drop=True, inplace=True)

In [896]:
df_nivel_educativo_municipios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 461541 entries, 0 to 461540
Data columns (total 6 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Municipios          461541 non-null  object
 1   Sexo                461541 non-null  object
 2   País de nacimiento  461541 non-null  object
 3   Nivel de estudios   461541 non-null  object
 4   Periodo             461541 non-null  int64 
 5   Total               461541 non-null  int64 
dtypes: int64(2), object(4)
memory usage: 21.1+ MB


In [897]:
df_nivel_educativo_municipios.sample(20)

Unnamed: 0,Municipios,Sexo,País de nacimiento,Nivel de estudios,Periodo,Total
335356,43092 Mont-roig del Camp,Hombres,Total,Educación superior,2022,440
41876,06134 Trasierra,Mujeres,España,Educación superior,2022,0
456896,49088 Gamones,Hombres,Desconocido,Total,2022,51
423282,16122 Mariana,Hombres,Desconocido,Educación primaria e inferior,2022,23
393563,48069 Mungia,Hombres,Total,Segunda etapa de educación secundaria y educac...,2022,7510
342490,44025 Andorra,Hombres,Extranjera,Segunda etapa de educación secundaria y educac...,2022,450
186273,23021 Carboneros,Hombres,Extranjera,Educación superior,2022,10
381628,46251 Vallada,Mujeres,Extranjera,Segunda etapa de educación secundaria y educac...,2022,30
185864,23017 Cabra del Santo Cristo,Hombres,Total,Educación superior,2022,130
284773,35006 Arucas,Hombres,Extranjera,Segunda etapa de educación secundaria y educac...,2022,830


In [898]:
df_nivel_educativo_municipios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 461541 entries, 0 to 461540
Data columns (total 6 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Municipios          461541 non-null  object
 1   Sexo                461541 non-null  object
 2   País de nacimiento  461541 non-null  object
 3   Nivel de estudios   461541 non-null  object
 4   Periodo             461541 non-null  int64 
 5   Total               461541 non-null  int64 
dtypes: int64(2), object(4)
memory usage: 21.1+ MB


Vamos a pivotar en función de sexo, país de nacimiento y nivel de estudios. Nuestro objetivo es tener toda la información de cada municipio en una fila del DataFrame. Dejamos fuera la columna Periodo, pues al ser todos los datos del 2022 no aporta información relevante.

In [899]:
# Crear Dataframes pivotado por sexo, país de nacimiento y nivel de estudios
df_pivot_sexo = df_nivel_educativo_municipios.pivot_table(
    index='Municipios', 
    columns='Sexo', 
    values='Total', 
    aggfunc='sum'
).reset_index()

df_pivot_pais = df_nivel_educativo_municipios.pivot_table(
    index='Municipios', 
    columns='País de nacimiento', 
    values='Total', 
    aggfunc='sum'
).reset_index()

df_pivot_nivel_estudios = df_nivel_educativo_municipios.pivot_table(
    index='Municipios', 
    columns='Nivel de estudios', 
    values='Total', 
    aggfunc='sum'
).reset_index()



In [900]:
df_pivot_sexo.head()

Sexo,Municipios,Hombres,Mujeres,Total
0,01001 Alegría-Dulantzi,4984,4728,9712
1,01002 Amurrio,17064,17692,34756
2,01003 Aramaio,2572,2400,4972
3,01004 Artziniega,2952,3104,6056
4,01006 Armiñón,206,204,410


In [901]:
df_pivot_pais.head()

País de nacimiento,Municipios,Desconocido,España,Extranjera,Total
0,01001 Alegría-Dulantzi,,8060.0,1652.0,9712.0
1,01002 Amurrio,,31376.0,3380.0,34756.0
2,01003 Aramaio,,4760.0,212.0,4972.0
3,01004 Artziniega,,5596.0,460.0,6056.0
4,01006 Armiñón,820.0,,,


In [902]:
df_pivot_nivel_estudios.head()

Nivel de estudios,Municipios,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,01001 Alegría-Dulantzi,1108,4132,2468,2004,9712
1,01002 Amurrio,4972,13608,7660,8516,34756
2,01003 Aramaio,552,2544,1008,868,4972
3,01004 Artziniega,732,2572,1356,1396,6056
4,01006 Armiñón,36,156,110,108,410


In [903]:
# Combinar las tablas pivote en un único DataFrame
df_nivel_educativo_municipios_transformado = (
    df_pivot_sexo
    .merge(df_pivot_pais, on='Municipios', how='outer')
    .merge(df_pivot_nivel_estudios, on='Municipios', how='outer')
)

# Mostrar las primeras filas del DataFrame transformado
df_nivel_educativo_municipios_transformado.head()

Unnamed: 0,Municipios,Hombres,Mujeres,Total_x,Desconocido,España,Extranjera,Total_y,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,01001 Alegría-Dulantzi,4984,4728,9712,,8060.0,1652.0,9712.0,1108,4132,2468,2004,9712
1,01002 Amurrio,17064,17692,34756,,31376.0,3380.0,34756.0,4972,13608,7660,8516,34756
2,01003 Aramaio,2572,2400,4972,,4760.0,212.0,4972.0,552,2544,1008,868,4972
3,01004 Artziniega,2952,3104,6056,,5596.0,460.0,6056.0,732,2572,1356,1396,6056
4,01006 Armiñón,206,204,410,820.0,,,,36,156,110,108,410


Vemos que al pivotar se han generado nulos, estos nulos vienen de que para los municipios en el que la información del lugar de nacimiento de los habitantes es desconocida se generan nulos en las columnas "España" y "Extranjera" y viceversa, si se conoce la información de nacimiento se generan nulos para la columna Desconocido. Imputamos por 0 los nulos.

In [904]:
# Imputar valores nulos con 0
df_nivel_educativo_municipios_transformado.fillna(int(0), inplace=True)


In [905]:
df_nivel_educativo_municipios_transformado.head()

Unnamed: 0,Municipios,Hombres,Mujeres,Total_x,Desconocido,España,Extranjera,Total_y,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,01001 Alegría-Dulantzi,4984,4728,9712,0.0,8060.0,1652.0,9712.0,1108,4132,2468,2004,9712
1,01002 Amurrio,17064,17692,34756,0.0,31376.0,3380.0,34756.0,4972,13608,7660,8516,34756
2,01003 Aramaio,2572,2400,4972,0.0,4760.0,212.0,4972.0,552,2544,1008,868,4972
3,01004 Artziniega,2952,3104,6056,0.0,5596.0,460.0,6056.0,732,2572,1356,1396,6056
4,01006 Armiñón,206,204,410,820.0,0.0,0.0,0.0,36,156,110,108,410


In [906]:
df_nivel_educativo_municipios_transformado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7563 entries, 0 to 7562
Data columns (total 13 columns):
 #   Column                                                                        Non-Null Count  Dtype  
---  ------                                                                        --------------  -----  
 0   Municipios                                                                    7563 non-null   object 
 1   Hombres                                                                       7563 non-null   int64  
 2   Mujeres                                                                       7563 non-null   int64  
 3   Total_x                                                                       7563 non-null   int64  
 4   Desconocido                                                                   7563 non-null   float64
 5   España                                                                        7563 non-null   float64
 6   Extranjera                      

Eliminamos las columnas "Total_X" y "Total_y" del Dataframe pues son duplicados de la columa "Total"

In [907]:
# Eliminar las columnas Total_x y Total_y del DataFrame
df_nivel_educativo_municipios_transformado = df_nivel_educativo_municipios_transformado.drop(columns=['Total_x', 'Total_y'])

df_nivel_educativo_municipios_transformado.head()


Unnamed: 0,Municipios,Hombres,Mujeres,Desconocido,España,Extranjera,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,01001 Alegría-Dulantzi,4984,4728,0.0,8060.0,1652.0,1108,4132,2468,2004,9712
1,01002 Amurrio,17064,17692,0.0,31376.0,3380.0,4972,13608,7660,8516,34756
2,01003 Aramaio,2572,2400,0.0,4760.0,212.0,552,2544,1008,868,4972
3,01004 Artziniega,2952,3104,0.0,5596.0,460.0,732,2572,1356,1396,6056
4,01006 Armiñón,206,204,820.0,0.0,0.0,36,156,110,108,410


In [908]:
# Eliminar las columnas Desconocido, España y Extranjera del DataFrame
df_nivel_educativo_municipios_transformado = df_nivel_educativo_municipios_transformado.drop(columns=['Desconocido', 'España', 'Extranjera'])

# Verificar las columnas restantes
df_nivel_educativo_municipios_transformado.head()


Unnamed: 0,Municipios,Hombres,Mujeres,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,01001 Alegría-Dulantzi,4984,4728,1108,4132,2468,2004,9712
1,01002 Amurrio,17064,17692,4972,13608,7660,8516,34756
2,01003 Aramaio,2572,2400,552,2544,1008,868,4972
3,01004 Artziniega,2952,3104,732,2572,1356,1396,6056
4,01006 Armiñón,206,204,36,156,110,108,410


Para una lectura mas clara vamos a crear encabezados para cada tipo de información recogida en el Dataframe

In [909]:

# Usamos la función pd.MultiIndex.from_tuples() para crear encabezados y subencabezados
new_columns = pd.MultiIndex.from_tuples(
    [
        ("Municipio", "Nombre del municipio"),
        ("Sexo", "Hombres"),
        ("Sexo", "Mujeres"),
        ("Máximo nivel educativo alcanzado", "Educación primaria e inferior"),
        ("Máximo nivel educativo alcanzado", "Educación superior"),
        ("Máximo nivel educativo alcanzado", "Primera etapa de educación secundaria y similar"),
        ("Máximo nivel educativo alcanzado", "Segunda etapa de educación secundaria y educación postsecundaria no superior"),
        ("Población mayor de 15 años", "Total"),
    ]
)

# Asignar el nuevo MultiIndex a las columnas del DataFrame
df_nivel_educativo_municipios_transformado.columns = new_columns

# Mostrar el DataFrame actualizado
df_nivel_educativo_municipios_transformado.head()


Unnamed: 0_level_0,Municipio,Sexo,Sexo,Máximo nivel educativo alcanzado,Máximo nivel educativo alcanzado,Máximo nivel educativo alcanzado,Máximo nivel educativo alcanzado,Población mayor de 15 años
Unnamed: 0_level_1,Nombre del municipio,Hombres,Mujeres,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,01001 Alegría-Dulantzi,4984,4728,1108,4132,2468,2004,9712
1,01002 Amurrio,17064,17692,4972,13608,7660,8516,34756
2,01003 Aramaio,2572,2400,552,2544,1008,868,4972
3,01004 Artziniega,2952,3104,732,2572,1356,1396,6056
4,01006 Armiñón,206,204,36,156,110,108,410


Reordenamos las columnas de manera que las etapas educativas estenordenadas de "menor a mayor".

In [910]:
# Reordenar las subcolumnas en "Máximo nivel educativo alcanzado"
new_order = [
    ("Municipio", "Nombre del municipio"),
    ("Sexo", "Hombres"),
    ("Sexo", "Mujeres"),
    ("Máximo nivel educativo alcanzado", "Educación primaria e inferior"),
    ("Máximo nivel educativo alcanzado", "Primera etapa de educación secundaria y similar"),
    ("Máximo nivel educativo alcanzado", "Segunda etapa de educación secundaria y educación postsecundaria no superior"),
    ("Máximo nivel educativo alcanzado", "Educación superior"),
    ("Población mayor de 15 años", "Total"),
]

# Reordenar las columnas
df_nivel_educativo_municipios_transformado = df_nivel_educativo_municipios_transformado.reorder_levels([0, 1], axis=1)
df_nivel_educativo_municipios_transformado = df_nivel_educativo_municipios_transformado[new_order]

# Mostrar el DataFrame actualizado con las columnas reordenadas
df_nivel_educativo_municipios_transformado.head()


Unnamed: 0_level_0,Municipio,Sexo,Sexo,Máximo nivel educativo alcanzado,Máximo nivel educativo alcanzado,Máximo nivel educativo alcanzado,Máximo nivel educativo alcanzado,Población mayor de 15 años
Unnamed: 0_level_1,Nombre del municipio,Hombres,Mujeres,Educación primaria e inferior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Educación superior,Total
0,01001 Alegría-Dulantzi,4984,4728,1108,2468,2004,4132,9712
1,01002 Amurrio,17064,17692,4972,7660,8516,13608,34756
2,01003 Aramaio,2572,2400,552,1008,868,2544,4972
3,01004 Artziniega,2952,3104,732,1356,1396,2572,6056
4,01006 Armiñón,206,204,36,110,108,156,410


In [911]:
# Dividir la columna "Nombre del municipio" en dos: "Código" y "Nombre del Municipio"
df_nivel_educativo_municipios_transformado[("Municipio", "Código")] = df_nivel_educativo_municipios_transformado[("Municipio", "Nombre del municipio")].apply(
    lambda x: x.split()[0] if isinstance(x, str) else None
)
df_nivel_educativo_municipios_transformado[("Municipio", "Nombre del municipio")] = df_nivel_educativo_municipios_transformado[("Municipio", "Nombre del municipio")].apply(
    lambda x: " ".join(x.split()[1:]) if isinstance(x, str) else None
)

# Reordenar las columnas para que "Código" aparezca antes de "Nombre del municipio"
df_nivel_educativo_municipios_transformado = df_nivel_educativo_municipios_transformado.reorder_levels([0, 1], axis=1)
new_order = [
    ("Municipio", "Código"),
    ("Municipio", "Nombre del municipio"),
    ("Sexo", "Hombres"),
    ("Sexo", "Mujeres"),
    ("Máximo nivel educativo alcanzado", "Educación primaria e inferior"),
    ("Máximo nivel educativo alcanzado", "Primera etapa de educación secundaria y similar"),
    ("Máximo nivel educativo alcanzado", "Segunda etapa de educación secundaria y educación postsecundaria no superior"),
    ("Máximo nivel educativo alcanzado", "Educación superior"),
    ("Población mayor de 15 años", "Total"),
]
df_nivel_educativo_municipios_transformado = df_nivel_educativo_municipios_transformado[new_order]

# Mostrar el DataFrame actualizado
df_nivel_educativo_municipios_transformado.head()


Unnamed: 0_level_0,Municipio,Municipio,Sexo,Sexo,Máximo nivel educativo alcanzado,Máximo nivel educativo alcanzado,Máximo nivel educativo alcanzado,Máximo nivel educativo alcanzado,Población mayor de 15 años
Unnamed: 0_level_1,Código,Nombre del municipio,Hombres,Mujeres,Educación primaria e inferior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Educación superior,Total
0,1001,Alegría-Dulantzi,4984,4728,1108,2468,2004,4132,9712
1,1002,Amurrio,17064,17692,4972,7660,8516,13608,34756
2,1003,Aramaio,2572,2400,552,1008,868,2544,4972
3,1004,Artziniega,2952,3104,732,1356,1396,2572,6056
4,1006,Armiñón,206,204,36,110,108,156,410


In [912]:
# Convertir la columna "Código" a tipo Int64
df_nivel_educativo_municipios_transformado[("Municipio", "Código")] = df_nivel_educativo_municipios_transformado[("Municipio", "Código")].astype('int64')

df_nivel_educativo_municipios_transformado.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7563 entries, 0 to 7562
Data columns (total 9 columns):
 #   Column                                                                                                            Non-Null Count  Dtype 
---  ------                                                                                                            --------------  ----- 
 0   (Municipio, Código)                                                                                               7563 non-null   int64 
 1   (Municipio, Nombre del municipio)                                                                                 7563 non-null   object
 2   (Sexo, Hombres)                                                                                                   7563 non-null   int64 
 3   (Sexo, Mujeres)                                                                                                   7563 non-null   int64 
 4   (Máximo nivel educativo alcanzado, Ed

Hemos acabado el proceso de limpieza del archivo

In [913]:
df_nivel_educativo_municipios_transformado.to_csv("datos_limpiados/municipios/nivel_educativo_municipios_limpio.csv", index=False)

## Limpiamos ahora  los datos de nivel educativo alcanzado por provincias.

In [914]:
df_nivel_educativo_provincias = pd.read_csv("datos/ine/nivel_educativo_provincias.csv", encoding= 'latin-1', sep=';')

In [915]:
df_nivel_educativo_provincias.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,Total Nacional,01 Andalucía,04 Almería,Total,Total,Total,2022,618.592
1,Total Nacional,01 Andalucía,04 Almería,Total,Total,Hombres,2022,315.7
2,Total Nacional,01 Andalucía,04 Almería,Total,Total,Mujeres,2022,302.892
3,Total Nacional,01 Andalucía,04 Almería,Total,Educación primaria e inferior,Total,2022,164.692
4,Total Nacional,01 Andalucía,04 Almería,Total,Educación primaria e inferior,Hombres,2022,86.587


Procesamos el dataframe con la información provincial de nivel de educación

In [916]:
def procesar_informacion_provincias(df):
    """
    Realiza el procesamiento de un Dataframe con información a nivel provincial, extraida del INE,
    aplicando las siguientes transformaciones:
    1. Elimina la columna "Total Nacional".
    2. Separa los códigos y nombres de comunidades y provincias en columnas distintas.
    3. Convierte las columnas 'Código comunidad' y 'Código provincia' a tipo int64.
    4. Reordena las columnas colocando los códigos y nombres de comunidades y provincias al inicio.
        
    Parámetros:
        df (pd.DataFrame): DataFrame con la información de nivel educativo por provincias.
    
    Retorna:
        pd.DataFrame: DataFrame transformado con las modificaciones aplicadas.
    """
    df = df.copy()  # Crear una copia para no modificar el original
    
    # 1. Eliminar la columna "Total Nacional"
    if "Total Nacional" in df.columns:
        df.drop(columns=["Total Nacional"], inplace=True)
           
    # 2. Separar código y nombre de comunidad y provincia
    if 'Comunidades y Ciudades Autónomas' in df.columns and 'Provincias' in df.columns:
        df[['Código comunidad', 'Nombre comunidad']] = df['Comunidades y Ciudades Autónomas'].str.split(pat=' ', n=1, expand=True)
        df[['Código provincia', 'Nombre provincia']] = df['Provincias'].str.split(pat=' ', n=1, expand=True)
        df.drop(columns=['Comunidades y Ciudades Autónomas', 'Provincias'], inplace=True)

    # 3. Convertir las columnas 'Código comunidad' y 'Código provincia' a tipo int64 si existen
    for col in ['Código comunidad', 'Código provincia']:
        if col in df.columns:
            df[col] = df[col].astype('int64')
    
    # 4. Reordenar las columnas para que los códigos y nombres aparezcan primero
    columnas_prioritarias = ['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia']
    columnas_ordenadas = columnas_prioritarias + [col for col in df.columns if col not in columnas_prioritarias]
    df = df[columnas_ordenadas]
        
    return df

# Aplicar la función al DataFrame
df_nivel_educativo_provincias = procesar_informacion_provincias(df_nivel_educativo_provincias)

# Mostrar información y primeras filas del DataFrame actualizado
print(df_nivel_educativo_provincias.info())
df_nivel_educativo_provincias.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16380 entries, 0 to 16379
Data columns (total 9 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Código comunidad              16380 non-null  int64 
 1   Nombre comunidad              16380 non-null  object
 2   Código provincia              16380 non-null  int64 
 3   Nombre provincia              16380 non-null  object
 4   País de nacimiento            16380 non-null  object
 5   Nivel de formación alcanzado  16380 non-null  object
 6   Sexo                          16380 non-null  object
 7   Periodo                       16380 non-null  int64 
 8   Total                         16380 non-null  object
dtypes: int64(3), object(6)
memory usage: 1.1+ MB
None


Unnamed: 0,Código comunidad,Nombre comunidad,Código provincia,Nombre provincia,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,1,Andalucía,4,Almería,Total,Total,Total,2022,618.592
1,1,Andalucía,4,Almería,Total,Total,Hombres,2022,315.7
2,1,Andalucía,4,Almería,Total,Total,Mujeres,2022,302.892
3,1,Andalucía,4,Almería,Total,Educación primaria e inferior,Total,2022,164.692
4,1,Andalucía,4,Almería,Total,Educación primaria e inferior,Hombres,2022,86.587


In [917]:
# Convertimos la columna "Total" a int64
df_nivel_educativo_provincias['Total'] = df_nivel_educativo_provincias['Total'].str.replace('.', '').astype('int64')

# Mostramos el DataFrame actualizado
df_nivel_educativo_provincias.head()

Unnamed: 0,Código comunidad,Nombre comunidad,Código provincia,Nombre provincia,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,1,Andalucía,4,Almería,Total,Total,Total,2022,618592
1,1,Andalucía,4,Almería,Total,Total,Hombres,2022,315700
2,1,Andalucía,4,Almería,Total,Total,Mujeres,2022,302892
3,1,Andalucía,4,Almería,Total,Educación primaria e inferior,Total,2022,164692
4,1,Andalucía,4,Almería,Total,Educación primaria e inferior,Hombres,2022,86587


Ceuta y Melilla son ciudades autónomas tenemos que decidir que hacer con ellas

In [918]:
"""
# Filtrar el DataFrame eliminando las filas donde el Nombre provincia sea "Ceuta" o "Melilla"
df_nivel_educativo_provincias = df_nivel_educativo_provincias[
    ~df_nivel_educativo_provincias["Nombre provincia"].isin(["Ceuta", "Melilla"])
]

# Redf_nivel_educativo_provinciassetear el índice después de eliminar las filas no deseadas
df_censo_2022_provincial = df_nivel_educativo_provincias.reset_index(drop=True)
"""

'\n# Filtrar el DataFrame eliminando las filas donde el Nombre provincia sea "Ceuta" o "Melilla"\ndf_nivel_educativo_provincias = df_nivel_educativo_provincias[\n    ~df_nivel_educativo_provincias["Nombre provincia"].isin(["Ceuta", "Melilla"])\n]\n\n# Redf_nivel_educativo_provinciassetear el índice después de eliminar las filas no deseadas\ndf_censo_2022_provincial = df_nivel_educativo_provincias.reset_index(drop=True)\n'

Vamos a pivotar columnas del dataframe para que cada fila contenga toda la información de una provincia. Generamos encabezados dobles que agrupen la información por categorías.

In [919]:
def pivotar_y_generar_encabezados_provincias(df):
    """
    Transforma un DataFrame mediante la pivotación de tres variables clave 
    ('País de nacimiento', 'Nivel de formación alcanzado' y 'Sexo') 
    y reorganiza los encabezados con un índice de múltiples niveles.

    Parámetros:
    -----------
    df : pandas.DataFrame
        DataFrame que contiene las columnas:
        - 'Código comunidad'
        - 'Nombre comunidad'
        - 'Código provincia'
        - 'Nombre provincia'
        - 'País de nacimiento'
        - 'Nivel de formación alcanzado'
        - 'Sexo'
        - 'Total'
    
    Retorna:
    --------
    pandas.DataFrame
        DataFrame transformado con las columnas pivotadas y organizadas bajo un 
        MultiIndex donde las categorías corresponden a la variable a la que pertenecen.
        Se incluyen los siguientes niveles de encabezado:
        - 'Comunidades y ciudades autónomas' (Código y Nombre de comunidad)
        - 'Provincias' (Código y Nombre de provincia)
        - 'Sexo' (Hombres y Mujeres)
        - 'País de nacimiento' (Cada país representado en la data)
        - 'Nivel educativo' (Diferentes niveles de formación)
        - 'Población mayor de 15 años' (Total)
    """

    # 1. Verificación de columnas necesarias
    columnas_necesarias = [
        'Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia', 
        'País de nacimiento', 'Nivel de formación alcanzado', 'Sexo', 'Total'
    ]
    
    for col in columnas_necesarias:
        if col not in df.columns:
            raise ValueError(f"Falta la columna necesaria en el DataFrame: {col}")

    # 2. Pivotamos la columna "País de nacimiento"
    if 'País de nacimiento' in df.columns:
        df_pivotado_pais = df.pivot_table(
            index=['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia'],
            columns='País de nacimiento',
            values='Total',
            aggfunc='sum'
        ).reset_index()
    else:
        df_pivotado_pais = pd.DataFrame()

    # 3. Pivotamos la columna "Nivel de formación alcanzado"
    if 'Nivel de formación alcanzado' in df.columns:
        df_pivotado_nivel = df.pivot_table(
            index=['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia'],
            columns='Nivel de formación alcanzado',
            values='Total',
            aggfunc='sum'
        ).reset_index()
    else:
        df_pivotado_nivel = pd.DataFrame()

    # 4. Pivotamos la columna "Sexo"
    if 'Sexo' in df.columns:
        df_pivotado_sexo = df.pivot_table(
            index=['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia'],
            columns='Sexo',
            values='Total',
            aggfunc='sum'
        ).reset_index()
    else:
        df_pivotado_sexo = pd.DataFrame()

    # 5. Fusionamos los DataFrames resultantes con outer join
    df_concatenado = df_pivotado_pais.copy() if not df_pivotado_pais.empty else pd.DataFrame()
    
    if not df_pivotado_nivel.empty:
        df_concatenado = pd.merge(
            df_concatenado, df_pivotado_nivel, 
            on=['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia'], 
            how='outer'
        ) if not df_concatenado.empty else df_pivotado_nivel
    
    if not df_pivotado_sexo.empty:
        df_concatenado = pd.merge(
            df_concatenado, df_pivotado_sexo, 
            on=['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia'], 
            how='outer'
        ) if not df_concatenado.empty else df_pivotado_sexo
    
    # 6. Eliminamos columnas duplicadas si existen
    columnas_duplicadas = [col for col in ['Total_x', 'Total_y'] if col in df_concatenado.columns]
    if columnas_duplicadas:
        df_concatenado = df_concatenado.drop(columns=columnas_duplicadas)

    # 7. Reordenamos las columnas para ubicar 'Hombres' y 'Mujeres' después de 'Nombre provincia'
    columnas_base = ['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia']
    columnas_sexo = ['Hombres', 'Mujeres'] if 'Hombres' in df_concatenado.columns and 'Mujeres' in df_concatenado.columns else []
    
    otras_columnas = [col for col in df_concatenado.columns if col not in columnas_base + columnas_sexo]
    df_concatenado = df_concatenado[columnas_base + columnas_sexo + otras_columnas]

    # 8. Creamos una lista de categorías para las columnas del DataFrame
    categorias = (
        ['Comunidades y ciudades autónomas'] * 2 +  # Código comunidad, Nombre comunidad
        ['Provincias'] * 2 +  # Código provincia, Nombre provincia
        (['Sexo'] * 2 if 'Hombres' in df_concatenado.columns and 'Mujeres' in df_concatenado.columns else []) +  # Sexo
        ['País de nacimiento'] * (len(df_pivotado_pais.columns) - 4 if not df_pivotado_pais.empty else 0) +  # Países de nacimiento
        ['Nivel educativo'] * (len(df_pivotado_nivel.columns) - 4 if not df_pivotado_nivel.empty else 0) +  # Niveles educativos
        ['Población mayor de 15 años'] * (1 if 'Total' in df_concatenado.columns else 0)  # Total
    )

    # 9. Asignamos las categorías a las columnas del DataFrame
    if len(categorias) == len(df_concatenado.columns):
        df_concatenado.columns = pd.MultiIndex.from_tuples(zip(categorias, df_concatenado.columns))
    
    return df_concatenado



# Aplicar la función al DataFrame
df_nivel_educativo_provincias = pivotar_y_generar_encabezados_provincias(df_nivel_educativo_provincias)

# Mostrar las primeras filas y la información del DataFrame actualizado
df_nivel_educativo_provincias.head()
# df_nivel_educativo_provincias.info()


Unnamed: 0,Código comunidad,Nombre comunidad,Código provincia,Nombre provincia,Hombres,Mujeres,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Ucrania,Venezuela,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,1,Andalucía,4,Almería,1262800,1211568,22836,4880,3784,21328,3112,27780,1837208,13496,205044,16976,8260,66520,312,73992,11324,65544,3908,75224,5916,6924,658768,568804,818604,428192,2474368
1,1,Andalucía,11,Cádiz,2088800,2177956,10892,9744,7628,13840,4848,3696,3980088,12560,64768,30644,7884,49552,776,12124,5168,28136,5000,8716,2804,7888,743224,1120036,1516532,886964,4266756
2,1,Andalucía,14,Córdoba,1298348,1374124,2796,1972,3416,8908,2056,7960,2549124,5156,15224,18616,3476,17148,296,6112,1960,4348,1496,16380,1820,4208,485528,737780,944780,504384,2672472
3,1,Andalucía,18,Granada,1554956,1619956,20732,16844,7168,18380,4260,9396,2819328,16636,73360,29676,8372,54332,572,20576,4088,25636,4232,28420,2416,10488,525080,976448,1064516,608868,3174912
4,1,Andalucía,21,Huelva,892656,920400,2152,1816,2616,8456,1968,4244,1586476,2540,64108,9628,1980,38248,92,21540,1680,4536,1372,52520,3512,3572,342592,444416,714704,311344,1813056


In [920]:
# Guardamos el DataFrame en un archivo CSV
df_nivel_educativo_provincias.to_csv("datos_limpiados/provincias/nivel_educativo_provincias_limpio.csv", index=False)

## Limpiamos ahora los datos de nivel educativo alcanzado por comunidades autónomas

In [921]:
df_nivel_educativo_comunidades = pd.read_csv("datos/ine/nivel_educativo_comunidades.csv", encoding= 'latin-1', sep=';')

In [922]:
df_nivel_educativo_comunidades.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,Total Nacional,01 Andalucía,,Total,Total,Total,2022,7.251.427
1,Total Nacional,01 Andalucía,,Total,Total,Hombres,2022,3.547.880
2,Total Nacional,01 Andalucía,,Total,Total,Mujeres,2022,3.703.547
3,Total Nacional,01 Andalucía,,Total,Educación primaria e inferior,Total,2022,1.332.260
4,Total Nacional,01 Andalucía,,Total,Educación primaria e inferior,Hombres,2022,583.687


La columna 'Provincias' está vacía así que la eliminaos

In [923]:
# Eliminar la columna 'Provincias'
df_nivel_educativo_comunidades.drop(columns=['Provincias'], inplace=True)

# Mostrar las primeras filas del DataFrame actualizado
df_nivel_educativo_comunidades.head()


Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,Total Nacional,01 Andalucía,Total,Total,Total,2022,7.251.427
1,Total Nacional,01 Andalucía,Total,Total,Hombres,2022,3.547.880
2,Total Nacional,01 Andalucía,Total,Total,Mujeres,2022,3.703.547
3,Total Nacional,01 Andalucía,Total,Educación primaria e inferior,Total,2022,1.332.260
4,Total Nacional,01 Andalucía,Total,Educación primaria e inferior,Hombres,2022,583.687


In [924]:
def procesar_informacion_comunidades(df):
    """
    Realiza el procesamiento de un Dataframe con información a nivel de comunidad autónoma, extraida del INE,
    aplicando las siguientes transformaciones:
    1. Elimina la columna "Total Nacional".
    2. Separa los códigos y nombres de comunidades en columnas distintas.
    3. Convierte la columna 'Código comunidad' a tipo int64.
    4. Reordena las columnas colocando los códigos y nombres de comunidades al inicio.
        
    Parámetros:
        df (pd.DataFrame): DataFrame con la información de nivel educativo por provincias.
    
    Retorna:
        pd.DataFrame: DataFrame transformado con las modificaciones aplicadas.
    """
    df = df.copy()  # Crear una copia para no modificar el original
    
    # 1. Eliminar la columna "Total Nacional"
    if "Total Nacional" in df.columns:
        df.drop(columns=["Total Nacional"], inplace=True)
           
    # 2. Separar código y nombre de comunidad
    if 'Comunidades y Ciudades Autónomas' in df.columns:
        df[['Código comunidad', 'Nombre comunidad']] = df['Comunidades y Ciudades Autónomas'].str.split(pat=' ', n=1, expand=True)
        df.drop(columns=['Comunidades y Ciudades Autónomas'], inplace=True)

    # 3. Convertir la columnas 'Código comunidad' a tipo int64 si existe
    for col in ['Código comunidad']:
        if col in df.columns:
            df[col] = df[col].astype('int64')
    
    # 4. Reordenar las columnas para que el codigo y nombre de comunidad aparezcan primero
    columnas_prioritarias = ['Código comunidad', 'Nombre comunidad']
    columnas_ordenadas = columnas_prioritarias + [col for col in df.columns if col not in columnas_prioritarias]
    df = df[columnas_ordenadas]
        
    return df

# Aplicar la función al DataFrame
df_nivel_educativo_comunidades = procesar_informacion_comunidades(df_nivel_educativo_comunidades)

# Mostrar información y primeras filas del DataFrame actualizado
print(df_nivel_educativo_comunidades.info())
df_nivel_educativo_comunidades.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5985 entries, 0 to 5984
Data columns (total 7 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Código comunidad              5985 non-null   int64 
 1   Nombre comunidad              5985 non-null   object
 2   País de nacimiento            5985 non-null   object
 3   Nivel de formación alcanzado  5985 non-null   object
 4   Sexo                          5985 non-null   object
 5   Periodo                       5985 non-null   int64 
 6   Total                         5985 non-null   object
dtypes: int64(2), object(5)
memory usage: 327.4+ KB
None


Unnamed: 0,Código comunidad,Nombre comunidad,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,1,Andalucía,Total,Total,Total,2022,7.251.427
1,1,Andalucía,Total,Total,Hombres,2022,3.547.880
2,1,Andalucía,Total,Total,Mujeres,2022,3.703.547
3,1,Andalucía,Total,Educación primaria e inferior,Total,2022,1.332.260
4,1,Andalucía,Total,Educación primaria e inferior,Hombres,2022,583.687


Formateamos la columna "Total" 

In [925]:
# Convertimos la columna "Total" a int64 eliminando puntos de miles
df_nivel_educativo_comunidades['Total'] = df_nivel_educativo_comunidades['Total'].str.replace('.', '').astype('int64')

Vamos a pivotar columnas del dataframe para que cada fila contenga toda la información de una Comunidad Autónoma. Generamos encabezados dobles que agrupen la información por categorías.

In [926]:
def pivotar_y_generar_encabezados_comunidades(df):
    """
    Transforma un DataFrame mediante la pivotación de tres variables clave 
    ('País de nacimiento', 'Nivel de formación alcanzado' y 'Sexo') 
    y reorganiza los encabezados con un índice de múltiples niveles.

    Parámetros:
    -----------
    df : pandas.DataFrame
        DataFrame que contiene las columnas:
        - 'Código comunidad'
        - 'Nombre comunidad'
        - 'País de nacimiento'
        - 'Nivel de formación alcanzado'
        - 'Sexo'
        - 'Total'
    
    Retorna:
    --------
    pandas.DataFrame
        DataFrame transformado con las columnas pivotadas y organizadas bajo un 
        MultiIndex donde las categorías corresponden a la variable a la que pertenecen.
        Se incluyen los siguientes niveles de encabezado:
        - 'Comunidades y ciudades autónomas' (Código y Nombre de comunidad)
        - 'Sexo' (Hombres y Mujeres)
        - 'País de nacimiento' (Cada país representado en la data)
        - 'Nivel educativo' (Diferentes niveles de formación)
        - 'Población mayor de 15 años' (Total)
    """

    # 1. Verificación de columnas necesarias
    columnas_necesarias = [
        'Código comunidad', 'Nombre comunidad', 'País de nacimiento', 'Nivel de formación alcanzado', 'Sexo', 'Total'
    ]
    
    for col in columnas_necesarias:
        if col not in df.columns:
            raise ValueError(f"Falta la columna necesaria en el DataFrame: {col}")

    # 2. Pivotamos la columna "País de nacimiento"
    if 'País de nacimiento' in df.columns:
        df_pivotado_pais = df.pivot_table(
            index=['Código comunidad', 'Nombre comunidad'],
            columns='País de nacimiento',
            values='Total',
            aggfunc='sum'
        ).reset_index()
    else:
        df_pivotado_pais = pd.DataFrame()

    # 3. Pivotamos la columna "Nivel de formación alcanzado"
    if 'Nivel de formación alcanzado' in df.columns:
        df_pivotado_nivel = df.pivot_table(
            index=['Código comunidad', 'Nombre comunidad'],
            columns='Nivel de formación alcanzado',
            values='Total',
            aggfunc='sum'
        ).reset_index()
    else:
        df_pivotado_nivel = pd.DataFrame()

    # 4. Pivotamos la columna "Sexo"
    if 'Sexo' in df.columns:
        df_pivotado_sexo = df.pivot_table(
            index=['Código comunidad', 'Nombre comunidad'],
            columns='Sexo',
            values='Total',
            aggfunc='sum'
        ).reset_index()
    else:
        df_pivotado_sexo = pd.DataFrame()

    # 5. Fusionamos los DataFrames resultantes con outer join
    df_concatenado = df_pivotado_pais.copy() if not df_pivotado_pais.empty else pd.DataFrame()
    
    if not df_pivotado_nivel.empty:
        df_concatenado = pd.merge(
            df_concatenado, df_pivotado_nivel, 
            on=['Código comunidad', 'Nombre comunidad'], 
            how='outer'
        ) if not df_concatenado.empty else df_pivotado_nivel
    
    if not df_pivotado_sexo.empty:
        df_concatenado = pd.merge(
            df_concatenado, df_pivotado_sexo, 
            on=['Código comunidad', 'Nombre comunidad'], 
            how='outer'
        ) if not df_concatenado.empty else df_pivotado_sexo
    
    # 6. Eliminamos columnas duplicadas si existen
    columnas_duplicadas = [col for col in ['Total_x', 'Total_y'] if col in df_concatenado.columns]
    if columnas_duplicadas:
        df_concatenado = df_concatenado.drop(columns=columnas_duplicadas)

    # 7. Reordenamos las columnas para ubicar 'Hombres' y 'Mujeres' después de 'Nombre provincia'
    columnas_base = ['Código comunidad', 'Nombre comunidad']
    columnas_sexo = ['Hombres', 'Mujeres'] if 'Hombres' in df_concatenado.columns and 'Mujeres' in df_concatenado.columns else []
    
    otras_columnas = [col for col in df_concatenado.columns if col not in columnas_base + columnas_sexo]
    df_concatenado = df_concatenado[columnas_base + columnas_sexo + otras_columnas]

    # 8. Creamos una lista de categorías para las columnas del DataFrame
    categorias = (
        ['Comunidades y ciudades autónomas'] * 2 +  # Código comunidad, Nombre comunidad
        (['Sexo'] * 2 if 'Hombres' in df_concatenado.columns and 'Mujeres' in df_concatenado.columns else []) +  # Sexo
        ['País de nacimiento'] * (len(df_pivotado_pais.columns) - 4 if not df_pivotado_pais.empty else 0) +  # Países de nacimiento
        ['Nivel educativo'] * (len(df_pivotado_nivel.columns) - 4 if not df_pivotado_nivel.empty else 0) +  # Niveles educativos
        ['Población mayor de 15 años'] * (1 if 'Total' in df_concatenado.columns else 0)  # Total
    )

    # 9. Asignamos las categorías a las columnas del DataFrame
    if len(categorias) == len(df_concatenado.columns):
        df_concatenado.columns = pd.MultiIndex.from_tuples(zip(categorias, df_concatenado.columns))
    
    return df_concatenado


# Aplicar la función al DataFrame
df_nivel_educativo_comunidades = pivotar_y_generar_encabezados_comunidades(df_nivel_educativo_comunidades)

# Mostrar las primeras filas y la información del DataFrame actualizado
df_nivel_educativo_comunidades.head()



Unnamed: 0,Código comunidad,Nombre comunidad,Hombres,Mujeres,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Ucrania,Venezuela,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,1,Andalucía,14191520,14814188,179896,68788,70360,168684,44220,95272,25504212,109364,694492,309596,97952,608596,5084,204624,53628,340296,34140,254560,65968,95976,5329040,7889300,10066364,5721004,29005708
1,2,Aragón,2257748,2337012,16420,4852,19048,56884,14292,50548,3830992,15676,86312,89092,18628,61128,632,87656,17924,4520,21072,166692,9272,23120,677896,1516724,1391740,1008400,4594760
2,3,"Asturias, Principado de",1703944,1898752,17804,2264,4812,27380,18996,18680,3280668,9356,14500,51244,5660,53372,920,15244,6948,4756,18116,22772,3412,25792,556792,1210520,1035988,799396,3602696
3,4,"Balears, Illes",2017116,2049688,109768,27656,19624,92660,27096,62752,2939664,33368,107764,114968,43276,245684,2108,54416,19192,72096,20548,41612,8608,23944,551496,1146044,1295332,1073932,4066804
4,5,Canarias,3773072,3902360,71592,15352,34976,136776,181500,26268,5980416,27628,100384,98672,51412,429960,1232,61376,17872,113688,18760,29468,6412,271688,1403748,2200628,2267688,1803368,7675432


In [927]:
df_nivel_educativo_comunidades.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19 entries, 0 to 18
Data columns (total 29 columns):
 #   Column                                                                        Non-Null Count  Dtype 
---  ------                                                                        --------------  ----- 
 0   Código comunidad                                                              19 non-null     int64 
 1   Nombre comunidad                                                              19 non-null     object
 2   Hombres                                                                       19 non-null     int64 
 3   Mujeres                                                                       19 non-null     int64 
 4   Argentina                                                                     19 non-null     int64 
 5   Bolivia                                                                       19 non-null     int64 
 6   China                                       

## Limpiamos el dataframe con la información del nivel educativo a nivel nacional

In [928]:
df_nivel_educativo_nacional = pd.read_csv("datos/ine/nivel_educativo_nacional.csv", encoding= 'latin-1', sep=';')

In [929]:
df_nivel_educativo_nacional.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,Total Nacional,,,Total,Total,Total,2022,40.899.207
1,Total Nacional,,,Total,Total,Hombres,2022,19.897.392
2,Total Nacional,,,Total,Total,Mujeres,2022,21.001.815
3,Total Nacional,,,Total,Educación primaria e inferior,Total,2022,6.545.911
4,Total Nacional,,,Total,Educación primaria e inferior,Hombres,2022,2.747.314


In [930]:
df_nivel_educativo_nacional.sample(20)

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
127,Total Nacional,,,Otros países de África,Primera etapa de educación secundaria y similar,Hombres,2022,83.251
89,Total Nacional,,,Ucrania,Educación superior,Mujeres,2022,22.013
287,Total Nacional,,,Otros países de Asia,Total,Mujeres,2022,121.317
214,Total Nacional,,,Ecuador,Educación primaria e inferior,Hombres,2022,26.915
207,Total Nacional,,,Colombia,Educación superior,Total,2022,138.227
309,Total Nacional,,,Otros países de Oceanía,Segunda etapa de educación secundaria y educac...,Total,2022,1.912
96,Total Nacional,,,Otros países de Europa,Primera etapa de educación secundaria y similar,Total,2022,197.953
120,Total Nacional,,,Otros países de África,Total,Total,2022,361.442
28,Total Nacional,,,España,Educación superior,Hombres,2022,5.276.986
132,Total Nacional,,,Otros países de África,Educación superior,Total,2022,47.231


Formateamos la columna 'Total'

In [931]:
# Convertimos la columna "Total" a int64
df_nivel_educativo_nacional['Total'] = df_nivel_educativo_nacional['Total'].str.replace('.', '').astype('int64')
df_nivel_educativo_nacional.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,Total Nacional,,,Total,Total,Total,2022,40899207
1,Total Nacional,,,Total,Total,Hombres,2022,19897392
2,Total Nacional,,,Total,Total,Mujeres,2022,21001815
3,Total Nacional,,,Total,Educación primaria e inferior,Total,2022,6545911
4,Total Nacional,,,Total,Educación primaria e inferior,Hombres,2022,2747314


Limpiamos el dataframe

In [932]:
def procesar_informacion_nacional(df):
    """
    Realiza el procesamiento de un DataFrame con información a nivel nacional, extraída del INE,
    aplicando las siguientes transformaciones:

    1. Elimina las columnas 'Provincias' y 'Comunidades y Ciudades Autónomas'.
    2. Renombra la columna "Total Nacional" a "Nombre del país".
    3. Asigna el valor "España" a todas las filas en la columna "Nombre del país".
        
    Parámetros:
    -----------
        df (pd.DataFrame): DataFrame con la información de nivel educativo a nivel nacional.

    Retorna:
    --------
        pd.DataFrame: DataFrame transformado con las modificaciones aplicadas.
    """
    df = df.copy()  # Crear una copia para no modificar el original
    
    # 1. Eliminar las columnas 'Provincias' y 'Comunidades y Ciudades Autónomas' si existen
    columnas_a_eliminar = ['Comunidades y Ciudades Autónomas', 'Provincias']
    df.drop(columns=[col for col in columnas_a_eliminar if col in df.columns], inplace=True)

    # 2. Renombrar la columna "Total Nacional" a "Nombre del país" si existe
    if "Total Nacional" in df.columns:
        df.rename(columns={"Total Nacional": "Nombre del país"}, inplace=True)

    # 3. Asignar el valor "España" a todas las filas en la columna "Nombre del país"
    if "Nombre del país" in df.columns:
        df["Nombre del país"] = "España"

    return df

# Aplicar la función al DataFrame
df_nivel_educativo_nacional = procesar_informacion_nacional(df_nivel_educativo_nacional)

# Mostrar información y primeras filas del DataFrame actualizado
print(df_nivel_educativo_nacional.info())
df_nivel_educativo_nacional.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 315 entries, 0 to 314
Data columns (total 6 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Nombre del país               315 non-null    object
 1   País de nacimiento            315 non-null    object
 2   Nivel de formación alcanzado  315 non-null    object
 3   Sexo                          315 non-null    object
 4   Periodo                       315 non-null    int64 
 5   Total                         315 non-null    int64 
dtypes: int64(2), object(4)
memory usage: 14.9+ KB
None


Unnamed: 0,Nombre del país,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,España,Total,Total,Total,2022,40899207
1,España,Total,Total,Hombres,2022,19897392
2,España,Total,Total,Mujeres,2022,21001815
3,España,Total,Educación primaria e inferior,Total,2022,6545911
4,España,Total,Educación primaria e inferior,Hombres,2022,2747314


Vamos a pivotar columnas del dataframe para que cada fila contenga toda la información de un país. Generamos encabezados dobles que agrupen la información por categorías.

In [933]:
def pivotar_y_generar_encabezados_nacional(df):
    """
    Transforma un DataFrame de nivel educativo a nivel nacional mediante la pivotación de 
    tres variables clave ('País de nacimiento', 'Nivel de formación alcanzado' y 'Sexo'), 
    y organiza los encabezados con un índice de múltiples niveles.

    Parámetros:
    -----------
    df : pandas.DataFrame
        DataFrame que contiene las columnas:
        - 'Nombre del país'
        - 'País de nacimiento'
        - 'Nivel de formación alcanzado'
        - 'Sexo'
        - 'Total'
    
    Retorna:
    --------
    pandas.DataFrame
        DataFrame transformado con las columnas pivotadas y organizadas bajo un 
        MultiIndex donde las categorías corresponden a la variable a la que pertenecen.
        Se incluyen los siguientes niveles de encabezado:
        - 'Países' (Código y Nombre del país)
        - 'Sexo' (Hombres y Mujeres)
        - 'País de nacimiento' (Cada país representado en la data)
        - 'Nivel educativo' (Diferentes niveles de formación)
        - 'Población mayor de 15 años' (Total)
    """

    # 1. Verificación de columnas necesarias
    columnas_necesarias = ['Nombre del país', 'País de nacimiento', 'Nivel de formación alcanzado', 'Sexo', 'Total']
    for col in columnas_necesarias:
        if col not in df.columns:
            raise ValueError(f"Falta la columna necesaria en el DataFrame: {col}")

    # 2. Pivotamos la columna "País de nacimiento"
    df_pivotado_pais = df.pivot_table(
        index=['Nombre del país'],
        columns='País de nacimiento',
        values='Total',
        aggfunc='sum'
    ).reset_index()

    # 3. Pivotamos la columna "Nivel de formación alcanzado"
    df_pivotado_nivel = df.pivot_table(
        index=['Nombre del país'],
        columns='Nivel de formación alcanzado',
        values='Total',
        aggfunc='sum'
    ).reset_index()

    # 4. Pivotamos la columna "Sexo"
    df_pivotado_sexo = df.pivot_table(
        index=['Nombre del país'],
        columns='Sexo',
        values='Total',
        aggfunc='sum'
    ).reset_index()

    # 5. Fusionamos los DataFrames resultantes con outer join
    df_concatenado = pd.merge(
        pd.merge(
            df_pivotado_pais, 
            df_pivotado_nivel, 
            on=['Nombre del país'], 
            how='outer'
        ), 
        df_pivotado_sexo, 
        on=['Nombre del país'], 
        how='outer'
    )

    # 6. Eliminamos columnas duplicadas si existen
    columnas_duplicadas = ['Total_x', 'Total_y']
    df_concatenado = df_concatenado.drop(columns=[col for col in columnas_duplicadas if col in df_concatenado.columns], errors='ignore')

    # 7. Renombramos el DataFrame
    df_nivel_educativo_nacional = df_concatenado.copy()

    # 8. Generamos una columna de código de país (España = 1)
    df_nivel_educativo_nacional["Código país"] = 1

    # 9. Reordenamos las columnas
    columnas_reordenadas = (
        ['Código país', 'Nombre del país', 'Hombres', 'Mujeres'] +
        [col for col in df_nivel_educativo_nacional.columns if col not in ['Código país', 'Nombre del país', 'Hombres', 'Mujeres']]
    )
    df_nivel_educativo_nacional = df_nivel_educativo_nacional[columnas_reordenadas]

    # 10. Creamos una lista de categorías para las columnas del DataFrame
    categorias = (
        ['Países'] * 2 +  # Código país, Nombre país
        ['Sexo'] * 2 +  # Hombres, Mujeres
        ['País de nacimiento'] * (len(df_pivotado_pais.columns) - 1) +  # Países de nacimiento
        ['Nivel educativo'] * (len(df_pivotado_nivel.columns) - 1) +  # Niveles educativos
        ['Población mayor de 15 años']  # Total
    )

    # 11. Asignamos las categorías a las columnas del DataFrame
    if len(categorias) == len(df_nivel_educativo_nacional.columns):
        df_nivel_educativo_nacional.columns = pd.MultiIndex.from_tuples(zip(categorias, df_nivel_educativo_nacional.columns))

    return df_nivel_educativo_nacional


# Aplicar la función al DataFrame
df_nivel_educativo_nacional = pivotar_y_generar_encabezados_nacional(df_nivel_educativo_nacional)

# Mostrar las primeras filas del DataFrame actualizado
df_nivel_educativo_nacional.head()


Unnamed: 0,Código país,Nombre del país,Hombres,Mujeres,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Ucrania,Venezuela,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,1,España,79589568,84007260,1245180,701868,722044,2123816,678776,1642368,135390128,808136,3601748,3052212,1182364,3975804,31868,1445768,997400,1124284,719432,2123684,424240,1605708,26183644,52596496,49384308,35432380,163596828


In [935]:
df_nivel_educativo_nacional.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1 entries, 0 to 0
Data columns (total 29 columns):
 #   Column                                                                        Non-Null Count  Dtype 
---  ------                                                                        --------------  ----- 
 0   Código país                                                                   1 non-null      int64 
 1   Nombre del país                                                               1 non-null      object
 2   Hombres                                                                       1 non-null      int64 
 3   Mujeres                                                                       1 non-null      int64 
 4   Argentina                                                                     1 non-null      int64 
 5   Bolivia                                                                       1 non-null      int64 
 6   China                                         

In [934]:
# Guardamos el DataFrame en un archivo CSV
df_nivel_educativo_nacional.to_csv("datos_limpiados/nacionales/nivel_educativo_nacional_limpio.csv", index=False)