In [656]:
# Para trabajar con regex
# -----------------------------------------------------------------------
import re

# Para trabajar con ficheros
# -----------------------------------------------------------------------
import os


# Para trabajar con los DataFrames
# -----------------------------------------------------------------------
import pandas as pd

# Para poner barras progreso
# -----------------------------------------------------------------------
from tqdm import tqdm



# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Ignorar warings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

# Librerias para generar gráficas
# ----------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns


En este notebook se limpian los archivos de nivel educativivo alcanzado extraidos del INE. Por un lado se tratan los municipios (grandes y pequeños) y por otro las provincias, comunidades y total de país, pues provienen de archivos distintos.

## Limpiamos y concatenamos los dataframes de nivel educativo de municipios pequeños (de 50 a 500 habitantes) y grandes (más de 500 habitantes)

In [657]:
df_nivel_educativo_municipios_pequenios = pd.read_csv("datos/ine/nivel_educativo_municipios_pequenios.csv",sep=';')

In [658]:
df_nivel_educativo_municipios_pequenios.head()

Unnamed: 0,Municipios,Sexo,Nivel de estudios,Periodo,Total
0,01006 Armiñón,Total,Total,2022,205
1,01006 Armiñón,Total,Total,2021,198
2,01006 Armiñón,Total,Educación primaria e inferior,2022,18
3,01006 Armiñón,Total,Educación primaria e inferior,2021,17
4,01006 Armiñón,Total,Primera etapa de educación secundaria y similar,2022,55


In [659]:
df_nivel_educativo_municipios_grandes = pd.read_csv("datos/ine/nivel_educativo_municipios_grandes.csv",sep=';')

In [660]:
df_nivel_educativo_municipios_grandes.sample(20)

Unnamed: 0,Municipios,Sexo,País de nacimiento,Nivel de estudios,Periodo,Total
507935,31009 Aibar/Oibar,Total,España,Doctorado universitario,2021,4.0
43528,04029 Berja,Mujeres,Extranjera,"Enseñanzas de formación profesional, artes plá...",2022,17.0
208063,12138 Vinaròs,Mujeres,Extranjera,"Segunda etapa de educación secundaria, con ori...",2021,397.0
262622,16148 Palomares del Campo,Hombres,Total,"Segunda etapa de educación secundaria, con ori...",2022,22.0
234474,14056 Puente Genil,Total,Extranjera,Doctorado universitario,2022,1.0
741636,46124 Fontanars dels Alforins,Hombres,España,Grados universitarios de más de 240 créditos E...,2022,20.0
126455,08157 Pallejà,Hombres,España,Doctorado universitario,2021,47.0
801082,49239 Villabuena del Puente,Mujeres,Extranjera,"Másteres, especialidades en Ciencias de la Sal...",2022,0.0
65247,06025 Calamonte,Hombres,Extranjera,Grados universitarios de más de 240 créditos E...,2021,3.0
186385,11002 Alcalá del Valle,Hombres,Total,Total,2021,2.223


In [661]:
df_nivel_estudios_en_curso_por_lugar = pd.read_csv("datos/ine/nivel_estudios_en_curso_por_lugar.csv",sep=';')

In [662]:
df_nivel_estudios_en_curso_por_lugar.sample(20)

Unnamed: 0,Capitales y grandes ciudades,Sexo,Relación entre lugar de residencia y lugar de estudios,Nacionalidad,Nivel de estudios en curso,Periodo,Total
136737,44216 Teruel,Hombres,No cursa estudios,Extranjera,Total,2021,1.344
76922,28022 Boadilla del Monte,Total,No cursa estudios,Española,Educación superior,2022,0.0
2994,03009 Alcoi/Alcoy,Mujeres,No cursa estudios,Española,Educación primaria e inferior,2022,0.0
4367,03031 Benidorm,Total,No cursa estudios,Extranjera,Cursa estudios pero no hay información sobre l...,2021,0.0
117314,35022 Santa Lucía de Tirajana,Hombres,Mismo municipio al de residencia,Total,Educación primaria e inferior,2022,48.0
62488,20069 Donostia/San Sebastián,Mujeres,No cursa estudios,Extranjera,"Segunda etapa de Educación Secundaria, con ori...",2022,0.0
26900,08121 Mataró,Mujeres,Total,Española,Primera etapa de Educación Secundaria y similar,2022,136.0
138677,45168 Toledo,Hombres,Cursa estudios pero no hay información sobre e...,Total,Primera etapa de Educación Secundaria y similar,2021,1.0
29411,08184 Rubí,Total,Distinta provincia de la misma comunidad,Extranjera,Educación primaria e inferior,2021,0.0
34631,08266 Cerdanyola del Vallès,Hombres,Total,Española,"Segunda etapa de educación secundaria, con ori...",2021,712.0


In [663]:
df_nivel_educativo_municipios_pequenios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102570 entries, 0 to 102569
Data columns (total 5 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   Municipios         102570 non-null  object
 1   Sexo               102570 non-null  object
 2   Nivel de estudios  102570 non-null  object
 3   Periodo            102570 non-null  int64 
 4   Total              102570 non-null  int64 
dtypes: int64(2), object(3)
memory usage: 3.9+ MB


In [664]:
df_nivel_educativo_municipios_grandes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 820512 entries, 0 to 820511
Data columns (total 6 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Municipios          820512 non-null  object
 1   Sexo                820512 non-null  object
 2   País de nacimiento  820512 non-null  object
 3   Nivel de estudios   820512 non-null  object
 4   Periodo             820512 non-null  int64 
 5   Total               820512 non-null  object
dtypes: int64(1), object(5)
memory usage: 37.6+ MB


Formateamos la columna "Total"

In [665]:
# Eliminar caracteres no numéricos y convertir la columna 'Total' a entero
df_nivel_educativo_municipios_grandes['Total'] = (
    df_nivel_educativo_municipios_grandes['Total']
    .astype(str)  # Convertir a string para realizar operaciones
    .str.replace(r'[^\d]', '', regex=True)  # Eliminar caracteres no numéricos
    .astype(int)  # Convertir a entero
)

# Confirmar el cambio mostrando las primeras filas
df_nivel_educativo_municipios_grandes.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 820512 entries, 0 to 820511
Data columns (total 6 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Municipios          820512 non-null  object
 1   Sexo                820512 non-null  object
 2   País de nacimiento  820512 non-null  object
 3   Nivel de estudios   820512 non-null  object
 4   Periodo             820512 non-null  int64 
 5   Total               820512 non-null  int64 
dtypes: int64(2), object(4)
memory usage: 37.6+ MB


Queremos juntar los datos de nivel educativo alcanzado en un solo dataframe. 

In [666]:
unique_grandes = df_nivel_educativo_municipios_grandes["Nivel de estudios"].unique()
unique_pequenios = df_nivel_educativo_municipios_pequenios["Nivel de estudios"].unique()

unique_grandes, unique_pequenios

(array(['Total', 'Sin estudios', 'Educación primaria',
        'Primera etapa de educación secundaria y similar',
        'Segunda etapa de educación secundaria, con orientación general',
        'Segunda etapa de educación secundaria con orientación profesional, Educación postsecundaria no superior',
        'Enseñanzas de formación profesional, artes plásticas y diseño y deportivas de grado superior y equivalentes',
        'Grados universitarios de hasta 240 créditos ECTS, diplomados universitarios y equivalentes',
        'Grados universitarios de más de 240 créditos ECTS, licenciados y equivalentes',
        'Másteres, especialidades en Ciencias de la Salud por el sistema de residencia y similares',
        'Doctorado universitario'], dtype=object),
 array(['Total', 'Educación primaria e inferior',
        'Primera etapa de educación secundaria y similar',
        'Segunda etapa de educación secundaria y educación postsecundaria no superior',
        'Educación superior'], dtype=o

Observamos que la columna "Nivel de estudios" toma distintos valores en ambos dataframes, pero podemos hacer un mapeo, mediante un diccionario que permita asignar los mismos valores a dicha columna para ambos dataframes.

In [667]:
def reasignar_nivel_estudios(df, columna):
    """
    Reasigna los valores de una columna específica en un DataFrame 
    según un diccionario de mapeo predefinido.

    Args:
    df (pd.DataFrame): DataFrame que contiene la columna a modificar.
    columna (str): Nombre de la columna cuyos valores serán reasignados.

    Returns:
    pd.DataFrame: DataFrame con los valores de la columna reasignados.
    """
    # Crear un diccionario de mapeo para reasignar los valores
    mapeo_nivel_estudios = {
        'Total': 'Total',
        'Sin estudios': 'Educación primaria e inferior',
        'Educación primaria': 'Educación primaria e inferior',
        'Primera etapa de educación secundaria y similar': 'Primera etapa de educación secundaria y similar',
        'Segunda etapa de educación secundaria, con orientación general': 'Segunda etapa de educación secundaria y educación postsecundaria no superior',
        'Segunda etapa de educación secundaria con orientación profesional, Educación postsecundaria no superior': 'Segunda etapa de educación secundaria y educación postsecundaria no superior',
        'Enseñanzas de formación profesional, artes plásticas y diseño y deportivas de grado superior y equivalentes': 'Educación superior',
        'Grados universitarios de hasta 240 créditos ECTS, diplomados universitarios y equivalentes': 'Educación superior',
        'Grados universitarios de más de 240 créditos ECTS, licenciados y equivalentes': 'Educación superior',
        'Másteres, especialidades en Ciencias de la Salud por el sistema de residencia y similares': 'Educación superior',
        'Doctorado universitario': 'Educación superior'
    }

    # Reasignar los valores en la columna especificada
    df[columna] = df[columna].replace(mapeo_nivel_estudios)
    
    return df




In [668]:
df_nivel_educativo_municipios_grandes = reasignar_nivel_estudios(
    df_nivel_educativo_municipios_grandes, 'Nivel de estudios'
)

In [669]:
df_nivel_educativo_municipios_grandes['Nivel de estudios'].unique()

array(['Total', 'Educación primaria e inferior',
       'Primera etapa de educación secundaria y similar',
       'Segunda etapa de educación secundaria y educación postsecundaria no superior',
       'Educación superior'], dtype=object)

In [670]:
df_nivel_educativo_municipios_pequenios['Nivel de estudios'].unique()

array(['Total', 'Educación primaria e inferior',
       'Primera etapa de educación secundaria y similar',
       'Segunda etapa de educación secundaria y educación postsecundaria no superior',
       'Educación superior'], dtype=object)

En el dataframe de nivel de estudios para muncipios pequeños vamos a añadir la columna "País de nacimiento" con el valor "Desconocido"

In [671]:
# Creamos una columna 'País de nacimiento' en el DataFrame de municipios pequeños
df_nivel_educativo_municipios_pequenios['País de nacimiento'] = "Desconocido"

In [672]:
df_nivel_educativo_municipios_pequenios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102570 entries, 0 to 102569
Data columns (total 6 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Municipios          102570 non-null  object
 1   Sexo                102570 non-null  object
 2   Nivel de estudios   102570 non-null  object
 3   Periodo             102570 non-null  int64 
 4   Total               102570 non-null  int64 
 5   País de nacimiento  102570 non-null  object
dtypes: int64(2), object(4)
memory usage: 4.7+ MB


In [673]:
df_nivel_educativo_municipios_grandes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 820512 entries, 0 to 820511
Data columns (total 6 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Municipios          820512 non-null  object
 1   Sexo                820512 non-null  object
 2   País de nacimiento  820512 non-null  object
 3   Nivel de estudios   820512 non-null  object
 4   Periodo             820512 non-null  int64 
 5   Total               820512 non-null  int64 
dtypes: int64(2), object(4)
memory usage: 37.6+ MB


Concatenamos ambos dataframes en uno que agrupe a todos los municipios

In [674]:
# Concatenar los DataFrames
df_nivel_educativo_municipios = pd.concat([df_nivel_educativo_municipios_grandes, df_nivel_educativo_municipios_pequenios], ignore_index=True)

In [675]:
df_nivel_educativo_municipios.sample(20)

Unnamed: 0,Municipios,Sexo,País de nacimiento,Nivel de estudios,Periodo,Total
306650,18088 Guadahortuna,Mujeres,Total,Educación superior,2022,390
414273,25053 Benavent de Segrià,Total,España,Educación superior,2021,189
548866,33003 Amieva,Total,Total,Segunda etapa de educación secundaria y educac...,2022,420
702437,45082 Lagartera,Hombres,España,Educación superior,2021,10
904079,45010 Aldeanueva de San Bartolomé,Hombres,Desconocido,Segunda etapa de educación secundaria y educac...,2021,25
455218,28026 Brunete,Total,Total,Educación superior,2022,1091
570431,35010 Haría,Mujeres,España,Educación superior,2021,2830
548210,32091 Vilardevós,Mujeres,Total,Educación superior,2022,200
655739,42004 Ágreda,Mujeres,Extranjera,Primera etapa de educación secundaria y similar,2021,450
635273,41003 Albaida del Aljarafe,Hombres,Extranjera,Total,2021,390


Los datos recogidos en el datafrmae son del año 2021 y 2022. Nos quedamos solos con los de 2022 que es el año objeto de nuestro estudo.

In [676]:
# Filtrar el DataFrame para conservar solo las filas donde "Periodo" es 2022
df_nivel_educativo_municipios = df_nivel_educativo_municipios[df_nivel_educativo_municipios['Periodo'] == 2022]
df_nivel_educativo_municipios.reset_index(drop=True, inplace=True)

In [677]:
df_nivel_educativo_municipios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 461541 entries, 0 to 461540
Data columns (total 6 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Municipios          461541 non-null  object
 1   Sexo                461541 non-null  object
 2   País de nacimiento  461541 non-null  object
 3   Nivel de estudios   461541 non-null  object
 4   Periodo             461541 non-null  int64 
 5   Total               461541 non-null  int64 
dtypes: int64(2), object(4)
memory usage: 21.1+ MB


In [678]:
df_nivel_educativo_municipios.sample(20)

Unnamed: 0,Municipios,Sexo,País de nacimiento,Nivel de estudios,Periodo,Total
289651,"36023 Guarda, A",Mujeres,Total,Educación superior,2022,300
234015,28107 Patones,Mujeres,Extranjera,Educación primaria e inferior,2022,2
100210,12053 Chilches/Xilxes,Total,España,Total,2022,2074
55296,08054 Castellbisbal,Hombres,Extranjera,Educación superior,2022,4
213889,25242 Verdú,Hombres,Extranjera,Segunda etapa de educación secundaria y educac...,2022,3
117376,"14057 Rambla, La",Hombres,España,Educación superior,2022,2690
15657,03091 Murla,Total,Extranjera,Segunda etapa de educación secundaria y educac...,2022,15
347920,45032 Camarenilla,Hombres,Total,Educación primaria e inferior,2022,180
191134,23076 Santa Elena,Hombres,España,Educación superior,2022,20
294633,37069 Calvarrasa de Abajo,Total,Total,Educación superior,2022,240


Vamos a pivotar en función de sexo, país de nacimiento y nivel de estudios. Nuestro objetivo es tener toda la información de cada municipio en una fila del DataFrame. Dejamos fuera la columna Periodo, pues al ser todos los datos del 2022 no aporta información relevante.

In [679]:
# Crear Dataframes pivotado por sexo, país de nacimiento y nivel de estudios
df_pivot_sexo = df_nivel_educativo_municipios.pivot_table(
    index='Municipios', 
    columns='Sexo', 
    values='Total', 
    aggfunc='sum'
).reset_index()

df_pivot_pais = df_nivel_educativo_municipios.pivot_table(
    index='Municipios', 
    columns='País de nacimiento', 
    values='Total', 
    aggfunc='sum'
).reset_index()

df_pivot_nivel_estudios = df_nivel_educativo_municipios.pivot_table(
    index='Municipios', 
    columns='Nivel de estudios', 
    values='Total', 
    aggfunc='sum'
).reset_index()



In [680]:
df_pivot_sexo.head()

Sexo,Municipios,Hombres,Mujeres,Total
0,01001 Alegría-Dulantzi,4984,4728,9712
1,01002 Amurrio,17064,17692,34756
2,01003 Aramaio,2572,2400,4972
3,01004 Artziniega,2952,3104,6056
4,01006 Armiñón,206,204,410


In [681]:
df_pivot_pais.head()

País de nacimiento,Municipios,Desconocido,España,Extranjera,Total
0,01001 Alegría-Dulantzi,,8060.0,1652.0,9712.0
1,01002 Amurrio,,31376.0,3380.0,34756.0
2,01003 Aramaio,,4760.0,212.0,4972.0
3,01004 Artziniega,,5596.0,460.0,6056.0
4,01006 Armiñón,820.0,,,


In [682]:
df_pivot_nivel_estudios.head()

Nivel de estudios,Municipios,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,01001 Alegría-Dulantzi,1108,4132,2468,2004,9712
1,01002 Amurrio,4972,13608,7660,8516,34756
2,01003 Aramaio,552,2544,1008,868,4972
3,01004 Artziniega,732,2572,1356,1396,6056
4,01006 Armiñón,36,156,110,108,410


In [683]:
# Combinar las tablas pivote en un único DataFrame
df_nivel_educativo_municipios_transformado = (
    df_pivot_sexo
    .merge(df_pivot_pais, on='Municipios', how='outer')
    .merge(df_pivot_nivel_estudios, on='Municipios', how='outer')
)

# Mostrar las primeras filas del DataFrame transformado
df_nivel_educativo_municipios_transformado.head()

Unnamed: 0,Municipios,Hombres,Mujeres,Total_x,Desconocido,España,Extranjera,Total_y,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,01001 Alegría-Dulantzi,4984,4728,9712,,8060.0,1652.0,9712.0,1108,4132,2468,2004,9712
1,01002 Amurrio,17064,17692,34756,,31376.0,3380.0,34756.0,4972,13608,7660,8516,34756
2,01003 Aramaio,2572,2400,4972,,4760.0,212.0,4972.0,552,2544,1008,868,4972
3,01004 Artziniega,2952,3104,6056,,5596.0,460.0,6056.0,732,2572,1356,1396,6056
4,01006 Armiñón,206,204,410,820.0,,,,36,156,110,108,410


Vemos que al pivotar se han generado nulos, estos nulos vienen de que para los municipios en el que la información del lugar de nacimiento de los habitantes es desconocida se generan nulos en las columnas "España" y "Extranjera" y viceversa, si se conoce la información de nacimiento se generan nulos para la columna Desconocido. Imputamos por 0 los nulos.

In [684]:
# Imputar valores nulos con 0
df_nivel_educativo_municipios_transformado.fillna(int(0), inplace=True)


In [685]:
df_nivel_educativo_municipios_transformado.head()

Unnamed: 0,Municipios,Hombres,Mujeres,Total_x,Desconocido,España,Extranjera,Total_y,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,01001 Alegría-Dulantzi,4984,4728,9712,0.0,8060.0,1652.0,9712.0,1108,4132,2468,2004,9712
1,01002 Amurrio,17064,17692,34756,0.0,31376.0,3380.0,34756.0,4972,13608,7660,8516,34756
2,01003 Aramaio,2572,2400,4972,0.0,4760.0,212.0,4972.0,552,2544,1008,868,4972
3,01004 Artziniega,2952,3104,6056,0.0,5596.0,460.0,6056.0,732,2572,1356,1396,6056
4,01006 Armiñón,206,204,410,820.0,0.0,0.0,0.0,36,156,110,108,410


In [686]:
df_nivel_educativo_municipios_transformado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7563 entries, 0 to 7562
Data columns (total 13 columns):
 #   Column                                                                        Non-Null Count  Dtype  
---  ------                                                                        --------------  -----  
 0   Municipios                                                                    7563 non-null   object 
 1   Hombres                                                                       7563 non-null   int64  
 2   Mujeres                                                                       7563 non-null   int64  
 3   Total_x                                                                       7563 non-null   int64  
 4   Desconocido                                                                   7563 non-null   float64
 5   España                                                                        7563 non-null   float64
 6   Extranjera                      

Eliminamos las columnas "Total_X" y "Total_y" del Dataframe pues son duplicados de la columa "Total"

In [687]:
# Eliminar las columnas Total_x y Total_y del DataFrame
df_nivel_educativo_municipios_transformado = df_nivel_educativo_municipios_transformado.drop(columns=['Total_x', 'Total_y'])

df_nivel_educativo_municipios_transformado.head()


Unnamed: 0,Municipios,Hombres,Mujeres,Desconocido,España,Extranjera,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,01001 Alegría-Dulantzi,4984,4728,0.0,8060.0,1652.0,1108,4132,2468,2004,9712
1,01002 Amurrio,17064,17692,0.0,31376.0,3380.0,4972,13608,7660,8516,34756
2,01003 Aramaio,2572,2400,0.0,4760.0,212.0,552,2544,1008,868,4972
3,01004 Artziniega,2952,3104,0.0,5596.0,460.0,732,2572,1356,1396,6056
4,01006 Armiñón,206,204,820.0,0.0,0.0,36,156,110,108,410


In [688]:
# Eliminar las columnas Desconocido, España y Extranjera del DataFrame
df_nivel_educativo_municipios_transformado = df_nivel_educativo_municipios_transformado.drop(columns=['Desconocido', 'España', 'Extranjera'])

# Verificar las columnas restantes
df_nivel_educativo_municipios_transformado.head()


Unnamed: 0,Municipios,Hombres,Mujeres,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,01001 Alegría-Dulantzi,4984,4728,1108,4132,2468,2004,9712
1,01002 Amurrio,17064,17692,4972,13608,7660,8516,34756
2,01003 Aramaio,2572,2400,552,2544,1008,868,4972
3,01004 Artziniega,2952,3104,732,2572,1356,1396,6056
4,01006 Armiñón,206,204,36,156,110,108,410


Para una lectura mas clara vamos a crear encabezados para cada tipo de información recogida en el Dataframe

In [689]:

# Usamos la función pd.MultiIndex.from_tuples() para crear encabezados y subencabezados
new_columns = pd.MultiIndex.from_tuples(
    [
        ("Municipio", "Nombre del municipio"),
        ("Sexo", "Hombres"),
        ("Sexo", "Mujeres"),
        ("Máximo nivel educativo alcanzado", "Educación primaria e inferior"),
        ("Máximo nivel educativo alcanzado", "Educación superior"),
        ("Máximo nivel educativo alcanzado", "Primera etapa de educación secundaria y similar"),
        ("Máximo nivel educativo alcanzado", "Segunda etapa de educación secundaria y educación postsecundaria no superior"),
        ("Población mayor de 15 años", "Total"),
    ]
)

# Asignar el nuevo MultiIndex a las columnas del DataFrame
df_nivel_educativo_municipios_transformado.columns = new_columns

# Mostrar el DataFrame actualizado
df_nivel_educativo_municipios_transformado.head()


Unnamed: 0_level_0,Municipio,Sexo,Sexo,Máximo nivel educativo alcanzado,Máximo nivel educativo alcanzado,Máximo nivel educativo alcanzado,Máximo nivel educativo alcanzado,Población mayor de 15 años
Unnamed: 0_level_1,Nombre del municipio,Hombres,Mujeres,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,01001 Alegría-Dulantzi,4984,4728,1108,4132,2468,2004,9712
1,01002 Amurrio,17064,17692,4972,13608,7660,8516,34756
2,01003 Aramaio,2572,2400,552,2544,1008,868,4972
3,01004 Artziniega,2952,3104,732,2572,1356,1396,6056
4,01006 Armiñón,206,204,36,156,110,108,410


Reordenamos las columnas de manera que las etapas educativas estenordenadas de "menor a mayor".

In [690]:
# Reordenar las subcolumnas en "Máximo nivel educativo alcanzado"
new_order = [
    ("Municipio", "Nombre del municipio"),
    ("Sexo", "Hombres"),
    ("Sexo", "Mujeres"),
    ("Máximo nivel educativo alcanzado", "Educación primaria e inferior"),
    ("Máximo nivel educativo alcanzado", "Primera etapa de educación secundaria y similar"),
    ("Máximo nivel educativo alcanzado", "Segunda etapa de educación secundaria y educación postsecundaria no superior"),
    ("Máximo nivel educativo alcanzado", "Educación superior"),
    ("Población mayor de 15 años", "Total"),
]

# Reordenar las columnas
df_nivel_educativo_municipios_transformado = df_nivel_educativo_municipios_transformado.reorder_levels([0, 1], axis=1)
df_nivel_educativo_municipios_transformado = df_nivel_educativo_municipios_transformado[new_order]

# Mostrar el DataFrame actualizado con las columnas reordenadas
df_nivel_educativo_municipios_transformado.head()


Unnamed: 0_level_0,Municipio,Sexo,Sexo,Máximo nivel educativo alcanzado,Máximo nivel educativo alcanzado,Máximo nivel educativo alcanzado,Máximo nivel educativo alcanzado,Población mayor de 15 años
Unnamed: 0_level_1,Nombre del municipio,Hombres,Mujeres,Educación primaria e inferior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Educación superior,Total
0,01001 Alegría-Dulantzi,4984,4728,1108,2468,2004,4132,9712
1,01002 Amurrio,17064,17692,4972,7660,8516,13608,34756
2,01003 Aramaio,2572,2400,552,1008,868,2544,4972
3,01004 Artziniega,2952,3104,732,1356,1396,2572,6056
4,01006 Armiñón,206,204,36,110,108,156,410


In [691]:
# Dividir la columna "Nombre del municipio" en dos: "Código" y "Nombre del Municipio"
df_nivel_educativo_municipios_transformado[("Municipio", "Código")] = df_nivel_educativo_municipios_transformado[("Municipio", "Nombre del municipio")].apply(
    lambda x: x.split()[0] if isinstance(x, str) else None
)
df_nivel_educativo_municipios_transformado[("Municipio", "Nombre del municipio")] = df_nivel_educativo_municipios_transformado[("Municipio", "Nombre del municipio")].apply(
    lambda x: " ".join(x.split()[1:]) if isinstance(x, str) else None
)

# Reordenar las columnas para que "Código" aparezca antes de "Nombre del municipio"
df_nivel_educativo_municipios_transformado = df_nivel_educativo_municipios_transformado.reorder_levels([0, 1], axis=1)
new_order = [
    ("Municipio", "Código"),
    ("Municipio", "Nombre del municipio"),
    ("Sexo", "Hombres"),
    ("Sexo", "Mujeres"),
    ("Máximo nivel educativo alcanzado", "Educación primaria e inferior"),
    ("Máximo nivel educativo alcanzado", "Primera etapa de educación secundaria y similar"),
    ("Máximo nivel educativo alcanzado", "Segunda etapa de educación secundaria y educación postsecundaria no superior"),
    ("Máximo nivel educativo alcanzado", "Educación superior"),
    ("Población mayor de 15 años", "Total"),
]
df_nivel_educativo_municipios_transformado = df_nivel_educativo_municipios_transformado[new_order]

# Mostrar el DataFrame actualizado
df_nivel_educativo_municipios_transformado.head()


Unnamed: 0_level_0,Municipio,Municipio,Sexo,Sexo,Máximo nivel educativo alcanzado,Máximo nivel educativo alcanzado,Máximo nivel educativo alcanzado,Máximo nivel educativo alcanzado,Población mayor de 15 años
Unnamed: 0_level_1,Código,Nombre del municipio,Hombres,Mujeres,Educación primaria e inferior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Educación superior,Total
0,1001,Alegría-Dulantzi,4984,4728,1108,2468,2004,4132,9712
1,1002,Amurrio,17064,17692,4972,7660,8516,13608,34756
2,1003,Aramaio,2572,2400,552,1008,868,2544,4972
3,1004,Artziniega,2952,3104,732,1356,1396,2572,6056
4,1006,Armiñón,206,204,36,110,108,156,410


In [692]:
# Convertir la columna "Código" a tipo Int64
df_nivel_educativo_municipios_transformado[("Municipio", "Código")] = df_nivel_educativo_municipios_transformado[("Municipio", "Código")].astype('int64')

df_nivel_educativo_municipios_transformado.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7563 entries, 0 to 7562
Data columns (total 9 columns):
 #   Column                                                                                                            Non-Null Count  Dtype 
---  ------                                                                                                            --------------  ----- 
 0   (Municipio, Código)                                                                                               7563 non-null   int64 
 1   (Municipio, Nombre del municipio)                                                                                 7563 non-null   object
 2   (Sexo, Hombres)                                                                                                   7563 non-null   int64 
 3   (Sexo, Mujeres)                                                                                                   7563 non-null   int64 
 4   (Máximo nivel educativo alcanzado, Ed

Hemos acabado el proceso de limpieza del archivo

In [693]:
df_nivel_educativo_municipios_transformado.to_csv("datos_limpiados/municipios/nivel_educativo_municipios_limpio.csv", index=False)

## Procesamos ahora el archivo que contiene la información provincial, autonómica y nacional del nivel educativo alcanzado.

In [694]:
df_nivel_educativo = pd.read_csv("datos/ine/nivel_educativo.csv", encoding= 'latin-1', sep=';')

In [695]:
df_nivel_educativo.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Lugar de nacimiento,Nivel de formación alcanzado,Edad,Sexo,Periodo,Total
0,Total Nacional,,,España,Doctorado universitario,15 y más años,Hombres,2022,197.035
1,Total Nacional,,,España,Doctorado universitario,15 y más años,Mujeres,2022,168.651
2,Total Nacional,,,España,Doctorado universitario,15 y más años,Total,2022,365.686
3,Total Nacional,,,España,Educación primaria,15 y más años,Hombres,2022,1.500.259
4,Total Nacional,,,España,Educación primaria,15 y más años,Mujeres,2022,2.120.412


Eliminamos la columna "Edad" que no es relevante para nuestro análisis

In [696]:
# Eliminar las columnas 'Edad'
df_nivel_educativo.drop(columns=['Edad'], inplace=True)

# Mostrar las primeras filas del DataFrame actualizado
df_nivel_educativo.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Lugar de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,Total Nacional,,,España,Doctorado universitario,Hombres,2022,197.035
1,Total Nacional,,,España,Doctorado universitario,Mujeres,2022,168.651
2,Total Nacional,,,España,Doctorado universitario,Total,2022,365.686
3,Total Nacional,,,España,Educación primaria,Hombres,2022,1.500.259
4,Total Nacional,,,España,Educación primaria,Mujeres,2022,2.120.412


Formateamos la columna "Total"

In [697]:
# Convertimos la columna "Total" a int64
df_nivel_educativo['Total'] = df_nivel_educativo['Total'].str.replace('.', '').astype('int64')
df_nivel_educativo.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Lugar de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,Total Nacional,,,España,Doctorado universitario,Hombres,2022,197035
1,Total Nacional,,,España,Doctorado universitario,Mujeres,2022,168651
2,Total Nacional,,,España,Doctorado universitario,Total,2022,365686
3,Total Nacional,,,España,Educación primaria,Hombres,2022,1500259
4,Total Nacional,,,España,Educación primaria,Mujeres,2022,2120412


A partir del dataframe que estamos procesando vamos a crear 3, uno con la información nacional, otro con la información autonomica y otro con la información provincial.

In [698]:
# Filtrar el DataFrame para obtener los tres niveles de información

# Nivel nacional: Filtramos donde "Comunidades y Ciudades Autónomas" sea NaN
df_nivel_educativo_nacional_filtrado = df_nivel_educativo[df_nivel_educativo['Comunidades y Ciudades Autónomas'].isna()].copy().reset_index(drop=True)

# Nivel autonómico: Filtramos donde "Comunidades y Ciudades Autónomas" no sea NaN y "Provincias" sea NaN
df_nivel_educativo_autonomico_filtrado = df_nivel_educativo[df_nivel_educativo['Comunidades y Ciudades Autónomas'].notna() & df_nivel_educativo['Provincias'].isna()].copy().reset_index(drop=True)

# Nivel provincial: Filtramos donde "Provincias" no sea NaN
df_nivel_educativo_provincial_filtrado = df_nivel_educativo[df_nivel_educativo['Provincias'].notna()].copy().reset_index(drop=True)



In [699]:
df_nivel_educativo_nacional_filtrado.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Lugar de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,Total Nacional,,,España,Doctorado universitario,Hombres,2022,197035
1,Total Nacional,,,España,Doctorado universitario,Mujeres,2022,168651
2,Total Nacional,,,España,Doctorado universitario,Total,2022,365686
3,Total Nacional,,,España,Educación primaria,Hombres,2022,1500259
4,Total Nacional,,,España,Educación primaria,Mujeres,2022,2120412


In [700]:
df_nivel_educativo_autonomico_filtrado.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Lugar de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,Total Nacional,01 Andalucía,,España,Doctorado universitario,Hombres,2022,30241
1,Total Nacional,01 Andalucía,,España,Doctorado universitario,Mujeres,2022,23208
2,Total Nacional,01 Andalucía,,España,Doctorado universitario,Total,2022,53449
3,Total Nacional,01 Andalucía,,España,Educación primaria,Hombres,2022,290619
4,Total Nacional,01 Andalucía,,España,Educación primaria,Mujeres,2022,360800


In [701]:
df_nivel_educativo_provincial_filtrado.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Lugar de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,Total Nacional,01 Andalucía,04 Almería,España,Doctorado universitario,Hombres,2022,1673
1,Total Nacional,01 Andalucía,04 Almería,España,Doctorado universitario,Mujeres,2022,1354
2,Total Nacional,01 Andalucía,04 Almería,España,Doctorado universitario,Total,2022,3027
3,Total Nacional,01 Andalucía,04 Almería,España,Educación primaria,Hombres,2022,28248
4,Total Nacional,01 Andalucía,04 Almería,España,Educación primaria,Mujeres,2022,29773


## Limpiamos ahora  los datos de nivel educativo alcanzado por provincias.

In [702]:
df_nivel_educativo_provincias = pd.read_csv("datos/ine/nivel_educativo_provincias.csv", encoding= 'latin-1', sep=';')

In [703]:
df_nivel_educativo_provincias.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,Total Nacional,01 Andalucía,04 Almería,Total,Total,Total,2022,618.592
1,Total Nacional,01 Andalucía,04 Almería,Total,Total,Hombres,2022,315.7
2,Total Nacional,01 Andalucía,04 Almería,Total,Total,Mujeres,2022,302.892
3,Total Nacional,01 Andalucía,04 Almería,Total,Educación primaria e inferior,Total,2022,164.692
4,Total Nacional,01 Andalucía,04 Almería,Total,Educación primaria e inferior,Hombres,2022,86.587


Procesamos el dataframe con la información provincial de nivel de educación

In [704]:
def procesar_informacion_provincias(df):
    """
    Realiza el procesamiento de un Dataframe con información a nivel provincial, extraida del INE,
    aplicando las siguientes transformaciones:
    1. Elimina la columna "Total Nacional".
    2. Separa los códigos y nombres de comunidades y provincias en columnas distintas.
    3. Convierte las columnas 'Código comunidad' y 'Código provincia' a tipo int64.
    4. Reordena las columnas colocando los códigos y nombres de comunidades y provincias al inicio.
        
    Parámetros:
        df (pd.DataFrame): DataFrame con la información de nivel educativo por provincias.
    
    Retorna:
        pd.DataFrame: DataFrame transformado con las modificaciones aplicadas.
    """
    df = df.copy()  # Crear una copia para no modificar el original
    
    # 1. Eliminar la columna "Total Nacional"
    if "Total Nacional" in df.columns:
        df.drop(columns=["Total Nacional"], inplace=True)
           
    # 2. Separar código y nombre de comunidad y provincia
    if 'Comunidades y Ciudades Autónomas' in df.columns and 'Provincias' in df.columns:
        df[['Código comunidad', 'Nombre comunidad']] = df['Comunidades y Ciudades Autónomas'].str.split(pat=' ', n=1, expand=True)
        df[['Código provincia', 'Nombre provincia']] = df['Provincias'].str.split(pat=' ', n=1, expand=True)
        df.drop(columns=['Comunidades y Ciudades Autónomas', 'Provincias'], inplace=True)

    # 3. Convertir las columnas 'Código comunidad' y 'Código provincia' a tipo int64 si existen
    for col in ['Código comunidad', 'Código provincia']:
        if col in df.columns:
            df[col] = df[col].astype('int64')
    
    # 4. Reordenar las columnas para que los códigos y nombres aparezcan primero
    columnas_prioritarias = ['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia']
    columnas_ordenadas = columnas_prioritarias + [col for col in df.columns if col not in columnas_prioritarias]
    df = df[columnas_ordenadas]
        
    return df

# Aplicar la función al DataFrame
df_nivel_educativo_provincias = procesar_informacion_provincias(df_nivel_educativo_provincias)

# Mostrar información y primeras filas del DataFrame actualizado
print(df_nivel_educativo_provincias.info())
df_nivel_educativo_provincias.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16380 entries, 0 to 16379
Data columns (total 9 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Código comunidad              16380 non-null  int64 
 1   Nombre comunidad              16380 non-null  object
 2   Código provincia              16380 non-null  int64 
 3   Nombre provincia              16380 non-null  object
 4   País de nacimiento            16380 non-null  object
 5   Nivel de formación alcanzado  16380 non-null  object
 6   Sexo                          16380 non-null  object
 7   Periodo                       16380 non-null  int64 
 8   Total                         16380 non-null  object
dtypes: int64(3), object(6)
memory usage: 1.1+ MB
None


Unnamed: 0,Código comunidad,Nombre comunidad,Código provincia,Nombre provincia,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,1,Andalucía,4,Almería,Total,Total,Total,2022,618.592
1,1,Andalucía,4,Almería,Total,Total,Hombres,2022,315.7
2,1,Andalucía,4,Almería,Total,Total,Mujeres,2022,302.892
3,1,Andalucía,4,Almería,Total,Educación primaria e inferior,Total,2022,164.692
4,1,Andalucía,4,Almería,Total,Educación primaria e inferior,Hombres,2022,86.587


In [705]:
# Convertimos la columna "Total" a int64
df_nivel_educativo_provincias['Total'] = df_nivel_educativo_provincias['Total'].str.replace('.', '').astype('int64')

# Mostramos el DataFrame actualizado
df_nivel_educativo_provincias.head()

Unnamed: 0,Código comunidad,Nombre comunidad,Código provincia,Nombre provincia,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,1,Andalucía,4,Almería,Total,Total,Total,2022,618592
1,1,Andalucía,4,Almería,Total,Total,Hombres,2022,315700
2,1,Andalucía,4,Almería,Total,Total,Mujeres,2022,302892
3,1,Andalucía,4,Almería,Total,Educación primaria e inferior,Total,2022,164692
4,1,Andalucía,4,Almería,Total,Educación primaria e inferior,Hombres,2022,86587


Ceuta y Melilla son ciudades autónomas tenemos que decidir que hacer con ellas

In [706]:
"""
# Filtrar el DataFrame eliminando las filas donde el Nombre provincia sea "Ceuta" o "Melilla"
df_nivel_educativo_provincias = df_nivel_educativo_provincias[
    ~df_nivel_educativo_provincias["Nombre provincia"].isin(["Ceuta", "Melilla"])
]

# Redf_nivel_educativo_provinciassetear el índice después de eliminar las filas no deseadas
df_censo_2022_provincial = df_nivel_educativo_provincias.reset_index(drop=True)
"""

'\n# Filtrar el DataFrame eliminando las filas donde el Nombre provincia sea "Ceuta" o "Melilla"\ndf_nivel_educativo_provincias = df_nivel_educativo_provincias[\n    ~df_nivel_educativo_provincias["Nombre provincia"].isin(["Ceuta", "Melilla"])\n]\n\n# Redf_nivel_educativo_provinciassetear el índice después de eliminar las filas no deseadas\ndf_censo_2022_provincial = df_nivel_educativo_provincias.reset_index(drop=True)\n'

Vamos a pivotar columnas del dataframe para que cada fila contenga toda la información de una provincia. Generamos encabezados dobles que agrupen la información por categorías.

In [707]:
def pivotar_y_generar_encabezados_provincias(df):
    """
    Transforma un DataFrame mediante la pivotación de tres variables clave 
    ('País de nacimiento', 'Nivel de formación alcanzado' y 'Sexo') 
    y reorganiza los encabezados con un índice de múltiples niveles.

    Parámetros:
    -----------
    df : pandas.DataFrame
        DataFrame que contiene las columnas:
        - 'Código comunidad'
        - 'Nombre comunidad'
        - 'Código provincia'
        - 'Nombre provincia'
        - 'País de nacimiento'
        - 'Nivel de formación alcanzado'
        - 'Sexo'
        - 'Total'
    
    Retorna:
    --------
    pandas.DataFrame
        DataFrame transformado con las columnas pivotadas y organizadas bajo un 
        MultiIndex donde las categorías corresponden a la variable a la que pertenecen.
        Se incluyen los siguientes niveles de encabezado:
        - 'Comunidades y ciudades autónomas' (Código y Nombre de comunidad)
        - 'Provincias' (Código y Nombre de provincia)
        - 'Sexo' (Hombres y Mujeres)
        - 'País de nacimiento' (Cada país representado en la data)
        - 'Nivel educativo' (Diferentes niveles de formación)
        - 'Población mayor de 15 años' (Total)
    """

    # 1. Verificación de columnas necesarias
    columnas_necesarias = [
        'Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia', 
        'País de nacimiento', 'Nivel de formación alcanzado', 'Sexo', 'Total'
    ]
    
    for col in columnas_necesarias:
        if col not in df.columns:
            raise ValueError(f"Falta la columna necesaria en el DataFrame: {col}")

    # 2. Pivotamos la columna "País de nacimiento"
    if 'País de nacimiento' in df.columns:
        df_pivotado_pais = df.pivot_table(
            index=['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia'],
            columns='País de nacimiento',
            values='Total',
            aggfunc='sum'
        ).reset_index()
    else:
        df_pivotado_pais = pd.DataFrame()

    # 3. Pivotamos la columna "Nivel de formación alcanzado"
    if 'Nivel de formación alcanzado' in df.columns:
        df_pivotado_nivel = df.pivot_table(
            index=['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia'],
            columns='Nivel de formación alcanzado',
            values='Total',
            aggfunc='sum'
        ).reset_index()
    else:
        df_pivotado_nivel = pd.DataFrame()

    # 4. Pivotamos la columna "Sexo"
    if 'Sexo' in df.columns:
        df_pivotado_sexo = df.pivot_table(
            index=['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia'],
            columns='Sexo',
            values='Total',
            aggfunc='sum'
        ).reset_index()
    else:
        df_pivotado_sexo = pd.DataFrame()

    # 5. Fusionamos los DataFrames resultantes con outer join
    df_concatenado = df_pivotado_pais.copy() if not df_pivotado_pais.empty else pd.DataFrame()
    
    if not df_pivotado_nivel.empty:
        df_concatenado = pd.merge(
            df_concatenado, df_pivotado_nivel, 
            on=['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia'], 
            how='outer'
        ) if not df_concatenado.empty else df_pivotado_nivel
    
    if not df_pivotado_sexo.empty:
        df_concatenado = pd.merge(
            df_concatenado, df_pivotado_sexo, 
            on=['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia'], 
            how='outer'
        ) if not df_concatenado.empty else df_pivotado_sexo
    
    # 6. Eliminamos columnas duplicadas si existen
    columnas_duplicadas = [col for col in ['Total_x', 'Total_y'] if col in df_concatenado.columns]
    if columnas_duplicadas:
        df_concatenado = df_concatenado.drop(columns=columnas_duplicadas)

    # 7. Reordenamos las columnas para ubicar 'Hombres' y 'Mujeres' después de 'Nombre provincia'
    columnas_base = ['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia']
    columnas_sexo = ['Hombres', 'Mujeres'] if 'Hombres' in df_concatenado.columns and 'Mujeres' in df_concatenado.columns else []
    
    otras_columnas = [col for col in df_concatenado.columns if col not in columnas_base + columnas_sexo]
    df_concatenado = df_concatenado[columnas_base + columnas_sexo + otras_columnas]

    # 8. Creamos una lista de categorías para las columnas del DataFrame
    categorias = (
        ['Comunidades y ciudades autónomas'] * 2 +  # Código comunidad, Nombre comunidad
        ['Provincias'] * 2 +  # Código provincia, Nombre provincia
        (['Sexo'] * 2 if 'Hombres' in df_concatenado.columns and 'Mujeres' in df_concatenado.columns else []) +  # Sexo
        ['País de nacimiento'] * (len(df_pivotado_pais.columns) - 4 if not df_pivotado_pais.empty else 0) +  # Países de nacimiento
        ['Nivel educativo'] * (len(df_pivotado_nivel.columns) - 4 if not df_pivotado_nivel.empty else 0) +  # Niveles educativos
        ['Población mayor de 15 años'] * (1 if 'Total' in df_concatenado.columns else 0)  # Total
    )

    # 9. Asignamos las categorías a las columnas del DataFrame
    if len(categorias) == len(df_concatenado.columns):
        df_concatenado.columns = pd.MultiIndex.from_tuples(zip(categorias, df_concatenado.columns))
    
    return df_concatenado



# Aplicar la función al DataFrame
df_nivel_educativo_provincias = pivotar_y_generar_encabezados_provincias(df_nivel_educativo_provincias)

# Mostrar las primeras filas y la información del DataFrame actualizado
df_nivel_educativo_provincias.head()
# df_nivel_educativo_provincias.info()


Unnamed: 0,Código comunidad,Nombre comunidad,Código provincia,Nombre provincia,Hombres,Mujeres,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Ucrania,Venezuela,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,1,Andalucía,4,Almería,1262800,1211568,22836,4880,3784,21328,3112,27780,1837208,13496,205044,16976,8260,66520,312,73992,11324,65544,3908,75224,5916,6924,658768,568804,818604,428192,2474368
1,1,Andalucía,11,Cádiz,2088800,2177956,10892,9744,7628,13840,4848,3696,3980088,12560,64768,30644,7884,49552,776,12124,5168,28136,5000,8716,2804,7888,743224,1120036,1516532,886964,4266756
2,1,Andalucía,14,Córdoba,1298348,1374124,2796,1972,3416,8908,2056,7960,2549124,5156,15224,18616,3476,17148,296,6112,1960,4348,1496,16380,1820,4208,485528,737780,944780,504384,2672472
3,1,Andalucía,18,Granada,1554956,1619956,20732,16844,7168,18380,4260,9396,2819328,16636,73360,29676,8372,54332,572,20576,4088,25636,4232,28420,2416,10488,525080,976448,1064516,608868,3174912
4,1,Andalucía,21,Huelva,892656,920400,2152,1816,2616,8456,1968,4244,1586476,2540,64108,9628,1980,38248,92,21540,1680,4536,1372,52520,3512,3572,342592,444416,714704,311344,1813056


In [708]:
# Guardamos el DataFrame en un archivo CSV
df_nivel_educativo_provincias.to_csv("datos_limpiados/provincias/nivel_educativo_provincias_limpio.csv", index=False)

## Limpiamos ahora los datos de nivel educativo alcanzado por comunidades autónomas

In [709]:
df_nivel_educativo_comunidades = pd.read_csv("datos/ine/nivel_educativo_comunidades.csv", encoding= 'latin-1', sep=';')

In [710]:
df_nivel_educativo_comunidades.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,Total Nacional,01 Andalucía,,Total,Total,Total,2022,7.251.427
1,Total Nacional,01 Andalucía,,Total,Total,Hombres,2022,3.547.880
2,Total Nacional,01 Andalucía,,Total,Total,Mujeres,2022,3.703.547
3,Total Nacional,01 Andalucía,,Total,Educación primaria e inferior,Total,2022,1.332.260
4,Total Nacional,01 Andalucía,,Total,Educación primaria e inferior,Hombres,2022,583.687


La columna 'Provincias' está vacía así que la eliminaos

In [711]:
# Eliminar la columna 'Provincias'
df_nivel_educativo_comunidades.drop(columns=['Provincias'], inplace=True)

# Mostrar las primeras filas del DataFrame actualizado
df_nivel_educativo_comunidades.head()


Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,Total Nacional,01 Andalucía,Total,Total,Total,2022,7.251.427
1,Total Nacional,01 Andalucía,Total,Total,Hombres,2022,3.547.880
2,Total Nacional,01 Andalucía,Total,Total,Mujeres,2022,3.703.547
3,Total Nacional,01 Andalucía,Total,Educación primaria e inferior,Total,2022,1.332.260
4,Total Nacional,01 Andalucía,Total,Educación primaria e inferior,Hombres,2022,583.687


Procesamos el Dataframe con la información autonómica.

In [712]:
def procesar_informacion_comunidades(df):
    """
    Realiza el procesamiento de un Dataframe con información a nivel de comunidad autónoma, extraida del INE,
    aplicando las siguientes transformaciones:
    1. Elimina la columna "Total Nacional".
    2. Separa los códigos y nombres de comunidades en columnas distintas.
    3. Convierte la columna 'Código comunidad' a tipo int64.
    4. Reordena las columnas colocando los códigos y nombres de comunidades al inicio.
        
    Parámetros:
        df (pd.DataFrame): DataFrame con la información de nivel educativo por provincias.
    
    Retorna:
        pd.DataFrame: DataFrame transformado con las modificaciones aplicadas.
    """
    df = df.copy()  # Crear una copia para no modificar el original
    
    # 1. Eliminar la columna "Total Nacional"
    if "Total Nacional" in df.columns:
        df.drop(columns=["Total Nacional"], inplace=True)
           
    # 2. Separar código y nombre de comunidad
    if 'Comunidades y Ciudades Autónomas' in df.columns:
        df[['Código comunidad', 'Nombre comunidad']] = df['Comunidades y Ciudades Autónomas'].str.split(pat=' ', n=1, expand=True)
        df.drop(columns=['Comunidades y Ciudades Autónomas'], inplace=True)

    # 3. Convertir la columnas 'Código comunidad' a tipo int64 si existe
    for col in ['Código comunidad']:
        if col in df.columns:
            df[col] = df[col].astype('int64')
    
    # 4. Reordenar las columnas para que el codigo y nombre de comunidad aparezcan primero
    columnas_prioritarias = ['Código comunidad', 'Nombre comunidad']
    columnas_ordenadas = columnas_prioritarias + [col for col in df.columns if col not in columnas_prioritarias]
    df = df[columnas_ordenadas]
        
    return df

# Aplicar la función al DataFrame
df_nivel_educativo_comunidades = procesar_informacion_comunidades(df_nivel_educativo_comunidades)

# Mostrar información y primeras filas del DataFrame actualizado
print(df_nivel_educativo_comunidades.info())
df_nivel_educativo_comunidades.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5985 entries, 0 to 5984
Data columns (total 7 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Código comunidad              5985 non-null   int64 
 1   Nombre comunidad              5985 non-null   object
 2   País de nacimiento            5985 non-null   object
 3   Nivel de formación alcanzado  5985 non-null   object
 4   Sexo                          5985 non-null   object
 5   Periodo                       5985 non-null   int64 
 6   Total                         5985 non-null   object
dtypes: int64(2), object(5)
memory usage: 327.4+ KB
None


Unnamed: 0,Código comunidad,Nombre comunidad,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,1,Andalucía,Total,Total,Total,2022,7.251.427
1,1,Andalucía,Total,Total,Hombres,2022,3.547.880
2,1,Andalucía,Total,Total,Mujeres,2022,3.703.547
3,1,Andalucía,Total,Educación primaria e inferior,Total,2022,1.332.260
4,1,Andalucía,Total,Educación primaria e inferior,Hombres,2022,583.687


Formateamos la columna "Total" 

In [713]:
# Convertimos la columna "Total" a int64 eliminando puntos de miles
df_nivel_educativo_comunidades['Total'] = df_nivel_educativo_comunidades['Total'].str.replace('.', '').astype('int64')

Hacemos la pivotación bien hecha para Comunidades Autónomas

In [714]:
# Pivotar nuevamente incluyendo "País de nacimiento"
df_pivotado_completo = df_nivel_educativo_comunidades.pivot_table(
    index=['Código comunidad', 'Nombre comunidad', 'Periodo'],
    columns=['País de nacimiento', 'Nivel de formación alcanzado', 'Sexo'],
    values='Total',
    aggfunc='sum'
).reset_index()

# Renombrar columnas para mayor claridad
df_pivotado_completo.columns = ['_'.join(col).strip() if isinstance(col, tuple) else col for col in df_pivotado_completo.columns]
df_pivotado_completo.rename(columns={'Código comunidad_': 'Código comunidad', 'Nombre comunidad_': 'Nombre comunidad', 'Periodo_': 'Periodo'}, inplace=True)

# Mostrar el DataFrame transformado
df_pivotado_completo.head()


Unnamed: 0,Código comunidad__,Nombre comunidad__,Periodo__,Argentina_Educación primaria e inferior_Hombres,Argentina_Educación primaria e inferior_Mujeres,Argentina_Educación primaria e inferior_Total,Argentina_Educación superior_Hombres,Argentina_Educación superior_Mujeres,Argentina_Educación superior_Total,Argentina_Primera etapa de educación secundaria y similar_Hombres,Argentina_Primera etapa de educación secundaria y similar_Mujeres,Argentina_Primera etapa de educación secundaria y similar_Total,Argentina_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Argentina_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Argentina_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Argentina_Total_Hombres,Argentina_Total_Mujeres,Argentina_Total_Total,Bolivia_Educación primaria e inferior_Hombres,Bolivia_Educación primaria e inferior_Mujeres,Bolivia_Educación primaria e inferior_Total,Bolivia_Educación superior_Hombres,Bolivia_Educación superior_Mujeres,Bolivia_Educación superior_Total,Bolivia_Primera etapa de educación secundaria y similar_Hombres,Bolivia_Primera etapa de educación secundaria y similar_Mujeres,Bolivia_Primera etapa de educación secundaria y similar_Total,Bolivia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Bolivia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Bolivia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Bolivia_Total_Hombres,Bolivia_Total_Mujeres,Bolivia_Total_Total,China_Educación primaria e inferior_Hombres,China_Educación primaria e inferior_Mujeres,China_Educación primaria e inferior_Total,China_Educación superior_Hombres,China_Educación superior_Mujeres,China_Educación superior_Total,China_Primera etapa de educación secundaria y similar_Hombres,China_Primera etapa de educación secundaria y similar_Mujeres,China_Primera etapa de educación secundaria y similar_Total,China_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,China_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,China_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,China_Total_Hombres,China_Total_Mujeres,China_Total_Total,Colombia_Educación primaria e inferior_Hombres,Colombia_Educación primaria e inferior_Mujeres,Colombia_Educación primaria e inferior_Total,Colombia_Educación superior_Hombres,Colombia_Educación superior_Mujeres,Colombia_Educación superior_Total,Colombia_Primera etapa de educación secundaria y similar_Hombres,Colombia_Primera etapa de educación secundaria y similar_Mujeres,Colombia_Primera etapa de educación secundaria y similar_Total,Colombia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Colombia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Colombia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Colombia_Total_Hombres,Colombia_Total_Mujeres,Colombia_Total_Total,Cuba_Educación primaria e inferior_Hombres,Cuba_Educación primaria e inferior_Mujeres,Cuba_Educación primaria e inferior_Total,Cuba_Educación superior_Hombres,Cuba_Educación superior_Mujeres,Cuba_Educación superior_Total,Cuba_Primera etapa de educación secundaria y similar_Hombres,Cuba_Primera etapa de educación secundaria y similar_Mujeres,Cuba_Primera etapa de educación secundaria y similar_Total,Cuba_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Cuba_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Cuba_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Cuba_Total_Hombres,Cuba_Total_Mujeres,Cuba_Total_Total,Ecuador_Educación primaria e inferior_Hombres,Ecuador_Educación primaria e inferior_Mujeres,Ecuador_Educación primaria e inferior_Total,Ecuador_Educación superior_Hombres,Ecuador_Educación superior_Mujeres,Ecuador_Educación superior_Total,Ecuador_Primera etapa de educación secundaria y similar_Hombres,Ecuador_Primera etapa de educación secundaria y similar_Mujeres,Ecuador_Primera etapa de educación secundaria y similar_Total,Ecuador_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Ecuador_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Ecuador_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Ecuador_Total_Hombres,Ecuador_Total_Mujeres,Ecuador_Total_Total,España_Educación primaria e inferior_Hombres,España_Educación primaria e inferior_Mujeres,España_Educación primaria e inferior_Total,España_Educación superior_Hombres,España_Educación superior_Mujeres,España_Educación superior_Total,España_Primera etapa de educación secundaria y similar_Hombres,España_Primera etapa de educación secundaria y similar_Mujeres,España_Primera etapa de educación secundaria y similar_Total,España_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,España_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,España_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,España_Total_Hombres,España_Total_Mujeres,España_Total_Total,Francia_Educación primaria e inferior_Hombres,Francia_Educación primaria e inferior_Mujeres,Francia_Educación primaria e inferior_Total,Francia_Educación superior_Hombres,Francia_Educación superior_Mujeres,Francia_Educación superior_Total,Francia_Primera etapa de educación secundaria y similar_Hombres,Francia_Primera etapa de educación secundaria y similar_Mujeres,Francia_Primera etapa de educación secundaria y similar_Total,Francia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Francia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Francia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Francia_Total_Hombres,Francia_Total_Mujeres,Francia_Total_Total,Marruecos_Educación primaria e inferior_Hombres,Marruecos_Educación primaria e inferior_Mujeres,Marruecos_Educación primaria e inferior_Total,Marruecos_Educación superior_Hombres,Marruecos_Educación superior_Mujeres,Marruecos_Educación superior_Total,Marruecos_Primera etapa de educación secundaria y similar_Hombres,Marruecos_Primera etapa de educación secundaria y similar_Mujeres,Marruecos_Primera etapa de educación secundaria y similar_Total,Marruecos_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Marruecos_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Marruecos_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Marruecos_Total_Hombres,Marruecos_Total_Mujeres,Marruecos_Total_Total,Otros países de América_Educación primaria e inferior_Hombres,Otros países de América_Educación primaria e inferior_Mujeres,Otros países de América_Educación primaria e inferior_Total,Otros países de América_Educación superior_Hombres,Otros países de América_Educación superior_Mujeres,Otros países de América_Educación superior_Total,Otros países de América_Primera etapa de educación secundaria y similar_Hombres,Otros países de América_Primera etapa de educación secundaria y similar_Mujeres,Otros países de América_Primera etapa de educación secundaria y similar_Total,Otros países de América_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Otros países de América_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Otros países de América_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Otros países de América_Total_Hombres,Otros países de América_Total_Mujeres,Otros países de América_Total_Total,Otros países de Asia_Educación primaria e inferior_Hombres,Otros países de Asia_Educación primaria e inferior_Mujeres,Otros países de Asia_Educación primaria e inferior_Total,Otros países de Asia_Educación superior_Hombres,Otros países de Asia_Educación superior_Mujeres,Otros países de Asia_Educación superior_Total,Otros países de Asia_Primera etapa de educación secundaria y similar_Hombres,Otros países de Asia_Primera etapa de educación secundaria y similar_Mujeres,Otros países de Asia_Primera etapa de educación secundaria y similar_Total,Otros países de Asia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Otros países de Asia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Otros países de Asia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Otros países de Asia_Total_Hombres,Otros países de Asia_Total_Mujeres,Otros países de Asia_Total_Total,Otros países de Europa_Educación primaria e inferior_Hombres,Otros países de Europa_Educación primaria e inferior_Mujeres,Otros países de Europa_Educación primaria e inferior_Total,Otros países de Europa_Educación superior_Hombres,Otros países de Europa_Educación superior_Mujeres,Otros países de Europa_Educación superior_Total,Otros países de Europa_Primera etapa de educación secundaria y similar_Hombres,Otros países de Europa_Primera etapa de educación secundaria y similar_Mujeres,Otros países de Europa_Primera etapa de educación secundaria y similar_Total,Otros países de Europa_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Otros países de Europa_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Otros países de Europa_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Otros países de Europa_Total_Hombres,Otros países de Europa_Total_Mujeres,Otros países de Europa_Total_Total,Otros países de Oceanía_Educación primaria e inferior_Hombres,Otros países de Oceanía_Educación primaria e inferior_Mujeres,Otros países de Oceanía_Educación primaria e inferior_Total,Otros países de Oceanía_Educación superior_Hombres,Otros países de Oceanía_Educación superior_Mujeres,Otros países de Oceanía_Educación superior_Total,Otros países de Oceanía_Primera etapa de educación secundaria y similar_Hombres,Otros países de Oceanía_Primera etapa de educación secundaria y similar_Mujeres,Otros países de Oceanía_Primera etapa de educación secundaria y similar_Total,Otros países de Oceanía_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Otros países de Oceanía_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Otros países de Oceanía_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Otros países de Oceanía_Total_Hombres,Otros países de Oceanía_Total_Mujeres,Otros países de Oceanía_Total_Total,Otros países de África_Educación primaria e inferior_Hombres,Otros países de África_Educación primaria e inferior_Mujeres,Otros países de África_Educación primaria e inferior_Total,Otros países de África_Educación superior_Hombres,Otros países de África_Educación superior_Mujeres,Otros países de África_Educación superior_Total,Otros países de África_Primera etapa de educación secundaria y similar_Hombres,Otros países de África_Primera etapa de educación secundaria y similar_Mujeres,Otros países de África_Primera etapa de educación secundaria y similar_Total,Otros países de África_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Otros países de África_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Otros países de África_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Otros países de África_Total_Hombres,Otros países de África_Total_Mujeres,Otros países de África_Total_Total,Perú_Educación primaria e inferior_Hombres,Perú_Educación primaria e inferior_Mujeres,Perú_Educación primaria e inferior_Total,Perú_Educación superior_Hombres,Perú_Educación superior_Mujeres,Perú_Educación superior_Total,Perú_Primera etapa de educación secundaria y similar_Hombres,Perú_Primera etapa de educación secundaria y similar_Mujeres,Perú_Primera etapa de educación secundaria y similar_Total,Perú_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Perú_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Perú_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Perú_Total_Hombres,Perú_Total_Mujeres,Perú_Total_Total,Reino Unido_Educación primaria e inferior_Hombres,Reino Unido_Educación primaria e inferior_Mujeres,Reino Unido_Educación primaria e inferior_Total,Reino Unido_Educación superior_Hombres,Reino Unido_Educación superior_Mujeres,Reino Unido_Educación superior_Total,Reino Unido_Primera etapa de educación secundaria y similar_Hombres,Reino Unido_Primera etapa de educación secundaria y similar_Mujeres,Reino Unido_Primera etapa de educación secundaria y similar_Total,Reino Unido_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Reino Unido_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Reino Unido_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Reino Unido_Total_Hombres,Reino Unido_Total_Mujeres,Reino Unido_Total_Total,República Dominicana_Educación primaria e inferior_Hombres,República Dominicana_Educación primaria e inferior_Mujeres,República Dominicana_Educación primaria e inferior_Total,República Dominicana_Educación superior_Hombres,República Dominicana_Educación superior_Mujeres,República Dominicana_Educación superior_Total,República Dominicana_Primera etapa de educación secundaria y similar_Hombres,República Dominicana_Primera etapa de educación secundaria y similar_Mujeres,República Dominicana_Primera etapa de educación secundaria y similar_Total,República Dominicana_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,República Dominicana_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,República Dominicana_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,República Dominicana_Total_Hombres,República Dominicana_Total_Mujeres,República Dominicana_Total_Total,Rumanía_Educación primaria e inferior_Hombres,Rumanía_Educación primaria e inferior_Mujeres,Rumanía_Educación primaria e inferior_Total,Rumanía_Educación superior_Hombres,Rumanía_Educación superior_Mujeres,Rumanía_Educación superior_Total,Rumanía_Primera etapa de educación secundaria y similar_Hombres,Rumanía_Primera etapa de educación secundaria y similar_Mujeres,Rumanía_Primera etapa de educación secundaria y similar_Total,Rumanía_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Rumanía_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Rumanía_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Rumanía_Total_Hombres,Rumanía_Total_Mujeres,Rumanía_Total_Total,Total_Educación primaria e inferior_Hombres,Total_Educación primaria e inferior_Mujeres,Total_Educación primaria e inferior_Total,Total_Educación superior_Hombres,Total_Educación superior_Mujeres,Total_Educación superior_Total,Total_Primera etapa de educación secundaria y similar_Hombres,Total_Primera etapa de educación secundaria y similar_Mujeres,Total_Primera etapa de educación secundaria y similar_Total,Total_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Total_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Total_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Total_Total_Hombres,Total_Total_Mujeres,Total_Total_Total,Ucrania_Educación primaria e inferior_Hombres,Ucrania_Educación primaria e inferior_Mujeres,Ucrania_Educación primaria e inferior_Total,Ucrania_Educación superior_Hombres,Ucrania_Educación superior_Mujeres,Ucrania_Educación superior_Total,Ucrania_Primera etapa de educación secundaria y similar_Hombres,Ucrania_Primera etapa de educación secundaria y similar_Mujeres,Ucrania_Primera etapa de educación secundaria y similar_Total,Ucrania_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Ucrania_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Ucrania_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Ucrania_Total_Hombres,Ucrania_Total_Mujeres,Ucrania_Total_Total,Venezuela_Educación primaria e inferior_Hombres,Venezuela_Educación primaria e inferior_Mujeres,Venezuela_Educación primaria e inferior_Total,Venezuela_Educación superior_Hombres,Venezuela_Educación superior_Mujeres,Venezuela_Educación superior_Total,Venezuela_Primera etapa de educación secundaria y similar_Hombres,Venezuela_Primera etapa de educación secundaria y similar_Mujeres,Venezuela_Primera etapa de educación secundaria y similar_Total,Venezuela_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Venezuela_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Venezuela_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Venezuela_Total_Hombres,Venezuela_Total_Mujeres,Venezuela_Total_Total
0,1,Andalucía,2022,3809,3775,7584,6453,7662,14115,4813,3596,8409,7616,7250,14866,22691,22283,44974,2150,3585,5735,698,1098,1796,2390,2582,4972,1904,2790,4694,7142,10055,17197,2734,2948,5682,695,1159,1854,3343,3261,6604,1371,2079,3450,8143,9447,17590,3798,6905,10703,3368,6139,9507,3697,5124,8821,4686,8454,13140,15549,26622,42171,750,1226,1976,1946,2382,4328,659,867,1526,1421,1804,3225,4776,6279,11055,2737,3079,5816,1464,2240,3704,3601,3790,7391,3021,3886,6907,10823,12995,23818,421848,593463,1015311,820879,969737,1790616,1231530,1098856,2330386,643944,595796,1239740,3118201,3257852,6376053,1845,1742,3587,4535,5462,9997,3477,3177,6654,3497,3606,7103,13354,13987,27341,48770,39884,88654,8906,7753,16659,27673,17781,45454,12340,10516,22856,97689,75934,173623,7237,17464,24701,7799,12664,20463,5287,7604,12891,6901,12443,19344,27224,50175,77399,4705,4019,8724,3306,2888,6194,2833,1627,4460,2652,2458,5110,13496,10992,24488,18066,20255,38321,20784,25988,46772,14158,14255,28413,17916,20727,38643,70924,81225,152149,121,130,251,242,250,492,105,89,194,174,160,334,642,629,1271,25293,4993,30286,2648,1548,4196,9148,2253,11401,3470,1803,5273,40559,10597,51156,1141,1745,2886,1501,2202,3703,1339,1309,2648,1747,2423,4170,5728,7679,13407,19480,18189,37669,9209,8708,17917,5222,5724,10946,9115,9427,18542,43026,42048,85074,702,1476,2178,488,1135,1623,851,1414,2265,949,1520,2469,2990,5545,8535,14804,17387,32191,1592,3002,4594,7980,8828,16808,4433,5614,10047,28809,34831,63640,583687,748573,1332260,901563,1070762,1972325,1331159,1185432,2516591,731471,698780,1430251,3547880,3703547,7251427,2047,3906,5953,1064,2454,3518,1593,1764,3357,1362,2302,3664,6066,10426,16492,1650,2402,4052,3986,6291,10277,1460,1531,2991,2952,3722,6674,10048,13946,23994
1,2,Aragón,2022,186,225,411,708,807,1515,432,365,797,715,667,1382,2041,2064,4105,58,128,186,113,166,279,133,170,303,196,249,445,500,713,1213,626,697,1323,246,323,569,925,951,1876,448,546,994,2245,2517,4762,871,1414,2285,1222,1749,2971,1765,2205,3970,2079,2916,4995,5937,8284,14221,187,310,497,522,709,1231,375,374,749,488,608,1096,1572,2001,3573,507,680,1187,775,1232,2007,2392,2438,4830,2198,2415,4613,5872,6765,12637,47163,75039,122202,165223,180875,346098,147722,138950,286672,109682,93094,202776,469790,487958,957748,155,198,353,763,971,1734,412,413,825,464,543,1007,1794,2125,3919,4587,4061,8648,818,638,1456,5344,2753,8097,1968,1409,3377,12717,8861,21578,1438,3779,5217,1702,3072,4774,2015,3989,6004,2144,4134,6278,7299,14974,22273,1228,622,1850,435,323,758,935,363,1298,431,320,751,3029,1628,4657,1586,1693,3279,1877,2377,4254,2219,1789,4008,1939,1802,3741,7621,7661,15282,12,15,27,28,33,61,21,11,32,22,16,38,83,75,158,5834,2341,8175,1000,658,1658,6606,2322,8928,2057,1096,3153,15497,6417,21914,192,341,533,564,789,1353,517,517,1034,700,861,1561,1973,2508,4481,93,92,185,319,284,603,66,48,114,118,110,228,596,534,1130,408,676,1084,207,411,618,785,1180,1965,623,978,1601,2023,3245,5268,5018,5843,10861,1584,2546,4130,7863,7026,14889,5803,5990,11793,20268,21405,41673,70624,98850,169474,179389,199792,379181,181303,166632,347935,133121,118979,252100,564437,584253,1148690,156,246,402,243,449,692,309,299,608,258,358,616,966,1352,2318,319,450,769,1040,1380,2420,467,469,936,788,867,1655,2614,3166,5780
2,3,"Asturias, Principado de",2022,177,209,386,781,891,1672,371,345,716,837,840,1677,2166,2285,4451,23,51,74,44,78,122,59,60,119,90,161,251,216,350,566,130,152,282,56,116,172,193,191,384,146,219,365,525,678,1203,356,655,1011,579,999,1578,597,807,1404,1016,1836,2852,2548,4297,6845,196,367,563,781,1034,1815,242,298,540,877,954,1831,2096,2653,4749,176,363,539,286,441,727,734,792,1526,772,1106,1878,1968,2702,4670,44799,81807,126606,131744,147174,278918,124370,116297,240667,89541,84435,173976,390454,429713,820167,73,77,150,463,579,1042,259,249,508,295,344,639,1090,1249,2339,519,531,1050,206,213,419,887,481,1368,495,293,788,2107,1518,3625,594,1635,2229,1443,2377,3820,824,1525,2349,1475,2938,4413,4336,8475,12811,209,162,371,243,210,453,206,74,280,151,160,311,809,606,1415,695,798,1493,2282,2823,5105,1879,1517,3396,1735,1614,3349,6591,6752,13343,4,3,7,57,52,109,30,14,44,38,32,70,129,101,230,827,400,1227,323,228,551,894,360,1254,482,297,779,2526,1285,3811,73,144,217,234,384,618,126,142,268,259,375,634,692,1045,1737,67,43,110,434,303,737,35,38,73,140,129,269,676,513,1189,267,515,782,192,441,633,576,946,1522,591,1001,1592,1626,2903,4529,541,952,1493,250,424,674,806,894,1700,769,1057,1826,2366,3327,5693,49960,89238,139198,141734,160896,302630,133512,125485,258997,100780,99069,199849,425986,474688,900674,26,67,93,117,226,343,57,80,137,95,185,280,295,558,853,208,307,515,1219,1903,3122,367,375,742,976,1093,2069,2770,3678,6448
3,4,"Balears, Illes",2022,1621,1556,3177,3803,4490,8293,3146,2099,5245,5697,5030,10727,14267,13175,27442,765,1203,1968,315,497,812,839,906,1745,1056,1333,2389,2975,3939,6914,680,703,1383,184,297,481,880,758,1638,641,763,1404,2385,2521,4906,1850,2548,4398,1640,2772,4412,2495,2603,5098,4042,5215,9257,10027,13138,23165,396,570,966,1063,1283,2346,488,519,1007,1125,1330,2455,3072,3702,6774,1095,1384,2479,814,1260,2074,2873,2586,5459,2586,3090,5676,7368,8320,15688,32096,45479,77575,100228,118924,219152,140230,118765,258995,93426,85768,179194,365980,368936,734916,529,600,1129,1472,1762,3234,638,603,1241,1237,1501,2738,3876,4466,8342,6059,5735,11794,963,775,1738,7015,2589,9604,2366,1439,3805,16403,10538,26941,2254,3599,5853,2925,4379,7304,2839,2897,5736,4339,5510,9849,12357,16385,28742,1935,1509,3444,925,1083,2008,1962,881,2843,1407,1117,2524,6229,4590,10819,4739,4871,9610,8682,11518,20200,5465,5313,10778,9424,11409,20833,28310,33111,61421,45,34,79,132,102,234,24,26,50,96,68,164,297,230,527,3467,1494,4961,987,628,1615,3362,1178,4540,1604,884,2488,9420,4184,13604,292,448,740,598,887,1485,407,468,875,770,928,1698,2067,2731,4798,2015,1903,3918,2515,2849,5364,1427,1743,3170,2480,3092,5572,8437,9587,18024,444,581,1025,254,491,745,729,889,1618,736,1013,1749,2163,2974,5137,1155,1205,2360,604,1063,1667,1624,1369,2993,1697,1686,3383,5080,5323,10403,61845,76029,137874,129420,157091,286511,177049,146784,323833,135965,132518,268483,504279,512422,1016701,151,239,390,226,497,723,231,231,462,251,326,577,859,1293,2152,257,368,625,1090,1534,2624,375,361,736,985,1016,2001,2707,3279,5986
4,5,Canarias,2022,1665,1537,3202,2415,2875,5290,1753,1332,3085,3261,3060,6321,9094,8804,17898,439,753,1192,211,349,560,425,429,854,504,728,1232,1579,2259,3838,1364,1450,2814,295,475,770,1720,1633,3353,801,1006,1807,4180,4564,8744,3265,5122,8387,2284,3860,6144,3362,3945,7307,5171,7185,12356,14082,20112,34194,5990,7303,13293,5239,6558,11797,3529,3381,6910,6360,7015,13375,21118,24257,45375,755,806,1561,471,725,1196,773,779,1552,1037,1221,2258,3036,3531,6567,107883,130981,238864,200278,244047,444325,258333,226005,484338,172000,155577,327577,738494,756610,1495104,661,617,1278,1224,1274,2498,531,460,991,1045,1095,2140,3461,3446,6907,6947,4726,11673,1354,1052,2406,4891,2009,6900,2590,1527,4117,15782,9314,25096,2172,3473,5645,2500,3650,6150,2249,2535,4784,3440,4649,8089,10361,14307,24668,1920,2157,4077,1218,1260,2478,1822,1107,2929,1792,1577,3369,6752,6101,12853,14145,13352,27497,13938,16026,29964,9329,9269,18598,15374,16057,31431,52786,54704,107490,31,23,54,67,67,134,26,17,43,41,36,77,165,143,308,4299,2335,6634,1105,789,1894,2687,1351,4038,1682,1096,2778,9773,5571,15344,286,454,740,605,835,1440,345,359,704,696,888,1584,1932,2536,4468,5469,5125,10594,2342,2394,4736,2909,3137,6046,3407,3639,7046,14127,14295,28422,490,750,1240,226,476,702,561,734,1295,606,847,1453,1883,2807,4690,990,1085,2075,528,936,1464,840,821,1661,999,1168,2167,3357,4010,7367,163365,187572,350937,246681,303476,550157,301959,264963,566922,231263,219579,450842,943268,975590,1918858,113,183,296,234,464,698,106,127,233,158,218,376,611,992,1603,4481,5340,9821,10147,15364,25511,5768,5533,11301,10299,10990,21289,30695,37227,67922


In [715]:
df_nivel_educativo_comunidades.to_csv("datos_limpiados/comunidades/nivel_educativo_comunidades_sin_pivotar.csv", index=False)

In [716]:
# Pivotar el DataFrame para que cada fila represente una comunidad autónoma
df_pivotado= df_nivel_educativo_comunidades.pivot_table(
    index=['Código comunidad', 'Nombre comunidad', 'Periodo'],
    columns=['País de nacimiento', 'Nivel de formación alcanzado', 'Sexo'],
    values='Total',
    aggfunc='sum'
).reset_index()

# Renombrar columnas para mayor claridad
df_pivotado.columns = ['_'.join(col).strip() if isinstance(col, tuple) else col for col in df_pivotado.columns]

# Mostrar las primeras filas del DataFrame transformado
df_pivotado.head()


Unnamed: 0,Código comunidad__,Nombre comunidad__,Periodo__,Argentina_Educación primaria e inferior_Hombres,Argentina_Educación primaria e inferior_Mujeres,Argentina_Educación primaria e inferior_Total,Argentina_Educación superior_Hombres,Argentina_Educación superior_Mujeres,Argentina_Educación superior_Total,Argentina_Primera etapa de educación secundaria y similar_Hombres,Argentina_Primera etapa de educación secundaria y similar_Mujeres,Argentina_Primera etapa de educación secundaria y similar_Total,Argentina_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Argentina_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Argentina_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Argentina_Total_Hombres,Argentina_Total_Mujeres,Argentina_Total_Total,Bolivia_Educación primaria e inferior_Hombres,Bolivia_Educación primaria e inferior_Mujeres,Bolivia_Educación primaria e inferior_Total,Bolivia_Educación superior_Hombres,Bolivia_Educación superior_Mujeres,Bolivia_Educación superior_Total,Bolivia_Primera etapa de educación secundaria y similar_Hombres,Bolivia_Primera etapa de educación secundaria y similar_Mujeres,Bolivia_Primera etapa de educación secundaria y similar_Total,Bolivia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Bolivia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Bolivia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Bolivia_Total_Hombres,Bolivia_Total_Mujeres,Bolivia_Total_Total,China_Educación primaria e inferior_Hombres,China_Educación primaria e inferior_Mujeres,China_Educación primaria e inferior_Total,China_Educación superior_Hombres,China_Educación superior_Mujeres,China_Educación superior_Total,China_Primera etapa de educación secundaria y similar_Hombres,China_Primera etapa de educación secundaria y similar_Mujeres,China_Primera etapa de educación secundaria y similar_Total,China_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,China_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,China_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,China_Total_Hombres,China_Total_Mujeres,China_Total_Total,Colombia_Educación primaria e inferior_Hombres,Colombia_Educación primaria e inferior_Mujeres,Colombia_Educación primaria e inferior_Total,Colombia_Educación superior_Hombres,Colombia_Educación superior_Mujeres,Colombia_Educación superior_Total,Colombia_Primera etapa de educación secundaria y similar_Hombres,Colombia_Primera etapa de educación secundaria y similar_Mujeres,Colombia_Primera etapa de educación secundaria y similar_Total,Colombia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Colombia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Colombia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Colombia_Total_Hombres,Colombia_Total_Mujeres,Colombia_Total_Total,Cuba_Educación primaria e inferior_Hombres,Cuba_Educación primaria e inferior_Mujeres,Cuba_Educación primaria e inferior_Total,Cuba_Educación superior_Hombres,Cuba_Educación superior_Mujeres,Cuba_Educación superior_Total,Cuba_Primera etapa de educación secundaria y similar_Hombres,Cuba_Primera etapa de educación secundaria y similar_Mujeres,Cuba_Primera etapa de educación secundaria y similar_Total,Cuba_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Cuba_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Cuba_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Cuba_Total_Hombres,Cuba_Total_Mujeres,Cuba_Total_Total,Ecuador_Educación primaria e inferior_Hombres,Ecuador_Educación primaria e inferior_Mujeres,Ecuador_Educación primaria e inferior_Total,Ecuador_Educación superior_Hombres,Ecuador_Educación superior_Mujeres,Ecuador_Educación superior_Total,Ecuador_Primera etapa de educación secundaria y similar_Hombres,Ecuador_Primera etapa de educación secundaria y similar_Mujeres,Ecuador_Primera etapa de educación secundaria y similar_Total,Ecuador_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Ecuador_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Ecuador_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Ecuador_Total_Hombres,Ecuador_Total_Mujeres,Ecuador_Total_Total,España_Educación primaria e inferior_Hombres,España_Educación primaria e inferior_Mujeres,España_Educación primaria e inferior_Total,España_Educación superior_Hombres,España_Educación superior_Mujeres,España_Educación superior_Total,España_Primera etapa de educación secundaria y similar_Hombres,España_Primera etapa de educación secundaria y similar_Mujeres,España_Primera etapa de educación secundaria y similar_Total,España_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,España_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,España_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,España_Total_Hombres,España_Total_Mujeres,España_Total_Total,Francia_Educación primaria e inferior_Hombres,Francia_Educación primaria e inferior_Mujeres,Francia_Educación primaria e inferior_Total,Francia_Educación superior_Hombres,Francia_Educación superior_Mujeres,Francia_Educación superior_Total,Francia_Primera etapa de educación secundaria y similar_Hombres,Francia_Primera etapa de educación secundaria y similar_Mujeres,Francia_Primera etapa de educación secundaria y similar_Total,Francia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Francia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Francia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Francia_Total_Hombres,Francia_Total_Mujeres,Francia_Total_Total,Marruecos_Educación primaria e inferior_Hombres,Marruecos_Educación primaria e inferior_Mujeres,Marruecos_Educación primaria e inferior_Total,Marruecos_Educación superior_Hombres,Marruecos_Educación superior_Mujeres,Marruecos_Educación superior_Total,Marruecos_Primera etapa de educación secundaria y similar_Hombres,Marruecos_Primera etapa de educación secundaria y similar_Mujeres,Marruecos_Primera etapa de educación secundaria y similar_Total,Marruecos_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Marruecos_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Marruecos_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Marruecos_Total_Hombres,Marruecos_Total_Mujeres,Marruecos_Total_Total,Otros países de América_Educación primaria e inferior_Hombres,Otros países de América_Educación primaria e inferior_Mujeres,Otros países de América_Educación primaria e inferior_Total,Otros países de América_Educación superior_Hombres,Otros países de América_Educación superior_Mujeres,Otros países de América_Educación superior_Total,Otros países de América_Primera etapa de educación secundaria y similar_Hombres,Otros países de América_Primera etapa de educación secundaria y similar_Mujeres,Otros países de América_Primera etapa de educación secundaria y similar_Total,Otros países de América_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Otros países de América_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Otros países de América_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Otros países de América_Total_Hombres,Otros países de América_Total_Mujeres,Otros países de América_Total_Total,Otros países de Asia_Educación primaria e inferior_Hombres,Otros países de Asia_Educación primaria e inferior_Mujeres,Otros países de Asia_Educación primaria e inferior_Total,Otros países de Asia_Educación superior_Hombres,Otros países de Asia_Educación superior_Mujeres,Otros países de Asia_Educación superior_Total,Otros países de Asia_Primera etapa de educación secundaria y similar_Hombres,Otros países de Asia_Primera etapa de educación secundaria y similar_Mujeres,Otros países de Asia_Primera etapa de educación secundaria y similar_Total,Otros países de Asia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Otros países de Asia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Otros países de Asia_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Otros países de Asia_Total_Hombres,Otros países de Asia_Total_Mujeres,Otros países de Asia_Total_Total,Otros países de Europa_Educación primaria e inferior_Hombres,Otros países de Europa_Educación primaria e inferior_Mujeres,Otros países de Europa_Educación primaria e inferior_Total,Otros países de Europa_Educación superior_Hombres,Otros países de Europa_Educación superior_Mujeres,Otros países de Europa_Educación superior_Total,Otros países de Europa_Primera etapa de educación secundaria y similar_Hombres,Otros países de Europa_Primera etapa de educación secundaria y similar_Mujeres,Otros países de Europa_Primera etapa de educación secundaria y similar_Total,Otros países de Europa_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Otros países de Europa_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Otros países de Europa_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Otros países de Europa_Total_Hombres,Otros países de Europa_Total_Mujeres,Otros países de Europa_Total_Total,Otros países de Oceanía_Educación primaria e inferior_Hombres,Otros países de Oceanía_Educación primaria e inferior_Mujeres,Otros países de Oceanía_Educación primaria e inferior_Total,Otros países de Oceanía_Educación superior_Hombres,Otros países de Oceanía_Educación superior_Mujeres,Otros países de Oceanía_Educación superior_Total,Otros países de Oceanía_Primera etapa de educación secundaria y similar_Hombres,Otros países de Oceanía_Primera etapa de educación secundaria y similar_Mujeres,Otros países de Oceanía_Primera etapa de educación secundaria y similar_Total,Otros países de Oceanía_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Otros países de Oceanía_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Otros países de Oceanía_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Otros países de Oceanía_Total_Hombres,Otros países de Oceanía_Total_Mujeres,Otros países de Oceanía_Total_Total,Otros países de África_Educación primaria e inferior_Hombres,Otros países de África_Educación primaria e inferior_Mujeres,Otros países de África_Educación primaria e inferior_Total,Otros países de África_Educación superior_Hombres,Otros países de África_Educación superior_Mujeres,Otros países de África_Educación superior_Total,Otros países de África_Primera etapa de educación secundaria y similar_Hombres,Otros países de África_Primera etapa de educación secundaria y similar_Mujeres,Otros países de África_Primera etapa de educación secundaria y similar_Total,Otros países de África_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Otros países de África_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Otros países de África_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Otros países de África_Total_Hombres,Otros países de África_Total_Mujeres,Otros países de África_Total_Total,Perú_Educación primaria e inferior_Hombres,Perú_Educación primaria e inferior_Mujeres,Perú_Educación primaria e inferior_Total,Perú_Educación superior_Hombres,Perú_Educación superior_Mujeres,Perú_Educación superior_Total,Perú_Primera etapa de educación secundaria y similar_Hombres,Perú_Primera etapa de educación secundaria y similar_Mujeres,Perú_Primera etapa de educación secundaria y similar_Total,Perú_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Perú_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Perú_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Perú_Total_Hombres,Perú_Total_Mujeres,Perú_Total_Total,Reino Unido_Educación primaria e inferior_Hombres,Reino Unido_Educación primaria e inferior_Mujeres,Reino Unido_Educación primaria e inferior_Total,Reino Unido_Educación superior_Hombres,Reino Unido_Educación superior_Mujeres,Reino Unido_Educación superior_Total,Reino Unido_Primera etapa de educación secundaria y similar_Hombres,Reino Unido_Primera etapa de educación secundaria y similar_Mujeres,Reino Unido_Primera etapa de educación secundaria y similar_Total,Reino Unido_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Reino Unido_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Reino Unido_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Reino Unido_Total_Hombres,Reino Unido_Total_Mujeres,Reino Unido_Total_Total,República Dominicana_Educación primaria e inferior_Hombres,República Dominicana_Educación primaria e inferior_Mujeres,República Dominicana_Educación primaria e inferior_Total,República Dominicana_Educación superior_Hombres,República Dominicana_Educación superior_Mujeres,República Dominicana_Educación superior_Total,República Dominicana_Primera etapa de educación secundaria y similar_Hombres,República Dominicana_Primera etapa de educación secundaria y similar_Mujeres,República Dominicana_Primera etapa de educación secundaria y similar_Total,República Dominicana_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,República Dominicana_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,República Dominicana_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,República Dominicana_Total_Hombres,República Dominicana_Total_Mujeres,República Dominicana_Total_Total,Rumanía_Educación primaria e inferior_Hombres,Rumanía_Educación primaria e inferior_Mujeres,Rumanía_Educación primaria e inferior_Total,Rumanía_Educación superior_Hombres,Rumanía_Educación superior_Mujeres,Rumanía_Educación superior_Total,Rumanía_Primera etapa de educación secundaria y similar_Hombres,Rumanía_Primera etapa de educación secundaria y similar_Mujeres,Rumanía_Primera etapa de educación secundaria y similar_Total,Rumanía_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Rumanía_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Rumanía_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Rumanía_Total_Hombres,Rumanía_Total_Mujeres,Rumanía_Total_Total,Total_Educación primaria e inferior_Hombres,Total_Educación primaria e inferior_Mujeres,Total_Educación primaria e inferior_Total,Total_Educación superior_Hombres,Total_Educación superior_Mujeres,Total_Educación superior_Total,Total_Primera etapa de educación secundaria y similar_Hombres,Total_Primera etapa de educación secundaria y similar_Mujeres,Total_Primera etapa de educación secundaria y similar_Total,Total_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Total_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Total_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Total_Total_Hombres,Total_Total_Mujeres,Total_Total_Total,Ucrania_Educación primaria e inferior_Hombres,Ucrania_Educación primaria e inferior_Mujeres,Ucrania_Educación primaria e inferior_Total,Ucrania_Educación superior_Hombres,Ucrania_Educación superior_Mujeres,Ucrania_Educación superior_Total,Ucrania_Primera etapa de educación secundaria y similar_Hombres,Ucrania_Primera etapa de educación secundaria y similar_Mujeres,Ucrania_Primera etapa de educación secundaria y similar_Total,Ucrania_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Ucrania_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Ucrania_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Ucrania_Total_Hombres,Ucrania_Total_Mujeres,Ucrania_Total_Total,Venezuela_Educación primaria e inferior_Hombres,Venezuela_Educación primaria e inferior_Mujeres,Venezuela_Educación primaria e inferior_Total,Venezuela_Educación superior_Hombres,Venezuela_Educación superior_Mujeres,Venezuela_Educación superior_Total,Venezuela_Primera etapa de educación secundaria y similar_Hombres,Venezuela_Primera etapa de educación secundaria y similar_Mujeres,Venezuela_Primera etapa de educación secundaria y similar_Total,Venezuela_Segunda etapa de educación secundaria y educación postsecundaria no superior_Hombres,Venezuela_Segunda etapa de educación secundaria y educación postsecundaria no superior_Mujeres,Venezuela_Segunda etapa de educación secundaria y educación postsecundaria no superior_Total,Venezuela_Total_Hombres,Venezuela_Total_Mujeres,Venezuela_Total_Total
0,1,Andalucía,2022,3809,3775,7584,6453,7662,14115,4813,3596,8409,7616,7250,14866,22691,22283,44974,2150,3585,5735,698,1098,1796,2390,2582,4972,1904,2790,4694,7142,10055,17197,2734,2948,5682,695,1159,1854,3343,3261,6604,1371,2079,3450,8143,9447,17590,3798,6905,10703,3368,6139,9507,3697,5124,8821,4686,8454,13140,15549,26622,42171,750,1226,1976,1946,2382,4328,659,867,1526,1421,1804,3225,4776,6279,11055,2737,3079,5816,1464,2240,3704,3601,3790,7391,3021,3886,6907,10823,12995,23818,421848,593463,1015311,820879,969737,1790616,1231530,1098856,2330386,643944,595796,1239740,3118201,3257852,6376053,1845,1742,3587,4535,5462,9997,3477,3177,6654,3497,3606,7103,13354,13987,27341,48770,39884,88654,8906,7753,16659,27673,17781,45454,12340,10516,22856,97689,75934,173623,7237,17464,24701,7799,12664,20463,5287,7604,12891,6901,12443,19344,27224,50175,77399,4705,4019,8724,3306,2888,6194,2833,1627,4460,2652,2458,5110,13496,10992,24488,18066,20255,38321,20784,25988,46772,14158,14255,28413,17916,20727,38643,70924,81225,152149,121,130,251,242,250,492,105,89,194,174,160,334,642,629,1271,25293,4993,30286,2648,1548,4196,9148,2253,11401,3470,1803,5273,40559,10597,51156,1141,1745,2886,1501,2202,3703,1339,1309,2648,1747,2423,4170,5728,7679,13407,19480,18189,37669,9209,8708,17917,5222,5724,10946,9115,9427,18542,43026,42048,85074,702,1476,2178,488,1135,1623,851,1414,2265,949,1520,2469,2990,5545,8535,14804,17387,32191,1592,3002,4594,7980,8828,16808,4433,5614,10047,28809,34831,63640,583687,748573,1332260,901563,1070762,1972325,1331159,1185432,2516591,731471,698780,1430251,3547880,3703547,7251427,2047,3906,5953,1064,2454,3518,1593,1764,3357,1362,2302,3664,6066,10426,16492,1650,2402,4052,3986,6291,10277,1460,1531,2991,2952,3722,6674,10048,13946,23994
1,2,Aragón,2022,186,225,411,708,807,1515,432,365,797,715,667,1382,2041,2064,4105,58,128,186,113,166,279,133,170,303,196,249,445,500,713,1213,626,697,1323,246,323,569,925,951,1876,448,546,994,2245,2517,4762,871,1414,2285,1222,1749,2971,1765,2205,3970,2079,2916,4995,5937,8284,14221,187,310,497,522,709,1231,375,374,749,488,608,1096,1572,2001,3573,507,680,1187,775,1232,2007,2392,2438,4830,2198,2415,4613,5872,6765,12637,47163,75039,122202,165223,180875,346098,147722,138950,286672,109682,93094,202776,469790,487958,957748,155,198,353,763,971,1734,412,413,825,464,543,1007,1794,2125,3919,4587,4061,8648,818,638,1456,5344,2753,8097,1968,1409,3377,12717,8861,21578,1438,3779,5217,1702,3072,4774,2015,3989,6004,2144,4134,6278,7299,14974,22273,1228,622,1850,435,323,758,935,363,1298,431,320,751,3029,1628,4657,1586,1693,3279,1877,2377,4254,2219,1789,4008,1939,1802,3741,7621,7661,15282,12,15,27,28,33,61,21,11,32,22,16,38,83,75,158,5834,2341,8175,1000,658,1658,6606,2322,8928,2057,1096,3153,15497,6417,21914,192,341,533,564,789,1353,517,517,1034,700,861,1561,1973,2508,4481,93,92,185,319,284,603,66,48,114,118,110,228,596,534,1130,408,676,1084,207,411,618,785,1180,1965,623,978,1601,2023,3245,5268,5018,5843,10861,1584,2546,4130,7863,7026,14889,5803,5990,11793,20268,21405,41673,70624,98850,169474,179389,199792,379181,181303,166632,347935,133121,118979,252100,564437,584253,1148690,156,246,402,243,449,692,309,299,608,258,358,616,966,1352,2318,319,450,769,1040,1380,2420,467,469,936,788,867,1655,2614,3166,5780
2,3,"Asturias, Principado de",2022,177,209,386,781,891,1672,371,345,716,837,840,1677,2166,2285,4451,23,51,74,44,78,122,59,60,119,90,161,251,216,350,566,130,152,282,56,116,172,193,191,384,146,219,365,525,678,1203,356,655,1011,579,999,1578,597,807,1404,1016,1836,2852,2548,4297,6845,196,367,563,781,1034,1815,242,298,540,877,954,1831,2096,2653,4749,176,363,539,286,441,727,734,792,1526,772,1106,1878,1968,2702,4670,44799,81807,126606,131744,147174,278918,124370,116297,240667,89541,84435,173976,390454,429713,820167,73,77,150,463,579,1042,259,249,508,295,344,639,1090,1249,2339,519,531,1050,206,213,419,887,481,1368,495,293,788,2107,1518,3625,594,1635,2229,1443,2377,3820,824,1525,2349,1475,2938,4413,4336,8475,12811,209,162,371,243,210,453,206,74,280,151,160,311,809,606,1415,695,798,1493,2282,2823,5105,1879,1517,3396,1735,1614,3349,6591,6752,13343,4,3,7,57,52,109,30,14,44,38,32,70,129,101,230,827,400,1227,323,228,551,894,360,1254,482,297,779,2526,1285,3811,73,144,217,234,384,618,126,142,268,259,375,634,692,1045,1737,67,43,110,434,303,737,35,38,73,140,129,269,676,513,1189,267,515,782,192,441,633,576,946,1522,591,1001,1592,1626,2903,4529,541,952,1493,250,424,674,806,894,1700,769,1057,1826,2366,3327,5693,49960,89238,139198,141734,160896,302630,133512,125485,258997,100780,99069,199849,425986,474688,900674,26,67,93,117,226,343,57,80,137,95,185,280,295,558,853,208,307,515,1219,1903,3122,367,375,742,976,1093,2069,2770,3678,6448
3,4,"Balears, Illes",2022,1621,1556,3177,3803,4490,8293,3146,2099,5245,5697,5030,10727,14267,13175,27442,765,1203,1968,315,497,812,839,906,1745,1056,1333,2389,2975,3939,6914,680,703,1383,184,297,481,880,758,1638,641,763,1404,2385,2521,4906,1850,2548,4398,1640,2772,4412,2495,2603,5098,4042,5215,9257,10027,13138,23165,396,570,966,1063,1283,2346,488,519,1007,1125,1330,2455,3072,3702,6774,1095,1384,2479,814,1260,2074,2873,2586,5459,2586,3090,5676,7368,8320,15688,32096,45479,77575,100228,118924,219152,140230,118765,258995,93426,85768,179194,365980,368936,734916,529,600,1129,1472,1762,3234,638,603,1241,1237,1501,2738,3876,4466,8342,6059,5735,11794,963,775,1738,7015,2589,9604,2366,1439,3805,16403,10538,26941,2254,3599,5853,2925,4379,7304,2839,2897,5736,4339,5510,9849,12357,16385,28742,1935,1509,3444,925,1083,2008,1962,881,2843,1407,1117,2524,6229,4590,10819,4739,4871,9610,8682,11518,20200,5465,5313,10778,9424,11409,20833,28310,33111,61421,45,34,79,132,102,234,24,26,50,96,68,164,297,230,527,3467,1494,4961,987,628,1615,3362,1178,4540,1604,884,2488,9420,4184,13604,292,448,740,598,887,1485,407,468,875,770,928,1698,2067,2731,4798,2015,1903,3918,2515,2849,5364,1427,1743,3170,2480,3092,5572,8437,9587,18024,444,581,1025,254,491,745,729,889,1618,736,1013,1749,2163,2974,5137,1155,1205,2360,604,1063,1667,1624,1369,2993,1697,1686,3383,5080,5323,10403,61845,76029,137874,129420,157091,286511,177049,146784,323833,135965,132518,268483,504279,512422,1016701,151,239,390,226,497,723,231,231,462,251,326,577,859,1293,2152,257,368,625,1090,1534,2624,375,361,736,985,1016,2001,2707,3279,5986
4,5,Canarias,2022,1665,1537,3202,2415,2875,5290,1753,1332,3085,3261,3060,6321,9094,8804,17898,439,753,1192,211,349,560,425,429,854,504,728,1232,1579,2259,3838,1364,1450,2814,295,475,770,1720,1633,3353,801,1006,1807,4180,4564,8744,3265,5122,8387,2284,3860,6144,3362,3945,7307,5171,7185,12356,14082,20112,34194,5990,7303,13293,5239,6558,11797,3529,3381,6910,6360,7015,13375,21118,24257,45375,755,806,1561,471,725,1196,773,779,1552,1037,1221,2258,3036,3531,6567,107883,130981,238864,200278,244047,444325,258333,226005,484338,172000,155577,327577,738494,756610,1495104,661,617,1278,1224,1274,2498,531,460,991,1045,1095,2140,3461,3446,6907,6947,4726,11673,1354,1052,2406,4891,2009,6900,2590,1527,4117,15782,9314,25096,2172,3473,5645,2500,3650,6150,2249,2535,4784,3440,4649,8089,10361,14307,24668,1920,2157,4077,1218,1260,2478,1822,1107,2929,1792,1577,3369,6752,6101,12853,14145,13352,27497,13938,16026,29964,9329,9269,18598,15374,16057,31431,52786,54704,107490,31,23,54,67,67,134,26,17,43,41,36,77,165,143,308,4299,2335,6634,1105,789,1894,2687,1351,4038,1682,1096,2778,9773,5571,15344,286,454,740,605,835,1440,345,359,704,696,888,1584,1932,2536,4468,5469,5125,10594,2342,2394,4736,2909,3137,6046,3407,3639,7046,14127,14295,28422,490,750,1240,226,476,702,561,734,1295,606,847,1453,1883,2807,4690,990,1085,2075,528,936,1464,840,821,1661,999,1168,2167,3357,4010,7367,163365,187572,350937,246681,303476,550157,301959,264963,566922,231263,219579,450842,943268,975590,1918858,113,183,296,234,464,698,106,127,233,158,218,376,611,992,1603,4481,5340,9821,10147,15364,25511,5768,5533,11301,10299,10990,21289,30695,37227,67922


In [717]:
df_pivotado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19 entries, 0 to 18
Columns: 318 entries, Código comunidad__ to Venezuela_Total_Total
dtypes: int64(317), object(1)
memory usage: 47.3+ KB


Vamos a pivotar columnas del dataframe para que cada fila contenga toda la información de una Comunidad Autónoma. Generamos encabezados dobles que agrupen la información por categorías.

In [718]:
def pivotar_y_generar_encabezados_comunidades(df):
    """
    Transforma un DataFrame mediante la pivotación de tres variables clave 
    ('País de nacimiento', 'Nivel de formación alcanzado' y 'Sexo') 
    y reorganiza los encabezados con un índice de múltiples niveles.

    Parámetros:
    -----------
    df : pandas.DataFrame
        DataFrame que contiene las columnas:
        - 'Código comunidad'
        - 'Nombre comunidad'
        - 'País de nacimiento'
        - 'Nivel de formación alcanzado'
        - 'Sexo'
        - 'Total'
    
    Retorna:
    --------
    pandas.DataFrame
        DataFrame transformado con las columnas pivotadas y organizadas bajo un 
        MultiIndex donde las categorías corresponden a la variable a la que pertenecen.
        Se incluyen los siguientes niveles de encabezado:
        - 'Comunidades y ciudades autónomas' (Código y Nombre de comunidad)
        - 'Sexo' (Hombres y Mujeres)
        - 'País de nacimiento' (Cada país representado en la data)
        - 'Nivel educativo' (Diferentes niveles de formación)
        - 'Población mayor de 15 años' (Total)
    """

    # 1. Verificación de columnas necesarias
    columnas_necesarias = [
        'Código comunidad', 'Nombre comunidad', 'País de nacimiento', 'Nivel de formación alcanzado', 'Sexo', 'Total'
    ]
    
    for col in columnas_necesarias:
        if col not in df.columns:
            raise ValueError(f"Falta la columna necesaria en el DataFrame: {col}")

    # 2. Pivotamos la columna "País de nacimiento"
    if 'País de nacimiento' in df.columns:
        df_pivotado_pais = df.pivot_table(
            index=['Código comunidad', 'Nombre comunidad'],
            columns='País de nacimiento',
            values='Total',
            aggfunc='sum'
        ).reset_index()
    else:
        df_pivotado_pais = pd.DataFrame()

    # 3. Pivotamos la columna "Nivel de formación alcanzado"
    if 'Nivel de formación alcanzado' in df.columns:
        df_pivotado_nivel = df.pivot_table(
            index=['Código comunidad', 'Nombre comunidad'],
            columns='Nivel de formación alcanzado',
            values='Total',
            aggfunc='sum'
        ).reset_index()
    else:
        df_pivotado_nivel = pd.DataFrame()

    # 4. Pivotamos la columna "Sexo"
    if 'Sexo' in df.columns:
        df_pivotado_sexo = df.pivot_table(
            index=['Código comunidad', 'Nombre comunidad'],
            columns='Sexo',
            values='Total',
            aggfunc='sum'
        ).reset_index()
    else:
        df_pivotado_sexo = pd.DataFrame()

    # 5. Fusionamos los DataFrames resultantes con outer join
    df_concatenado = df_pivotado_pais.copy() if not df_pivotado_pais.empty else pd.DataFrame()
    
    if not df_pivotado_nivel.empty:
        df_concatenado = pd.merge(
            df_concatenado, df_pivotado_nivel, 
            on=['Código comunidad', 'Nombre comunidad'], 
            how='outer'
        ) if not df_concatenado.empty else df_pivotado_nivel
    
    if not df_pivotado_sexo.empty:
        df_concatenado = pd.merge(
            df_concatenado, df_pivotado_sexo, 
            on=['Código comunidad', 'Nombre comunidad'], 
            how='outer'
        ) if not df_concatenado.empty else df_pivotado_sexo
    
    # 6. Eliminamos columnas duplicadas si existen
    columnas_duplicadas = [col for col in ['Total_x', 'Total_y'] if col in df_concatenado.columns]
    if columnas_duplicadas:
        df_concatenado = df_concatenado.drop(columns=columnas_duplicadas)

    # 7. Reordenamos las columnas para ubicar 'Hombres' y 'Mujeres' después de 'Nombre provincia'
    columnas_base = ['Código comunidad', 'Nombre comunidad']
    columnas_sexo = ['Hombres', 'Mujeres'] if 'Hombres' in df_concatenado.columns and 'Mujeres' in df_concatenado.columns else []
    
    otras_columnas = [col for col in df_concatenado.columns if col not in columnas_base + columnas_sexo]
    df_concatenado = df_concatenado[columnas_base + columnas_sexo + otras_columnas]

    # 8. Creamos una lista de categorías para las columnas del DataFrame
    categorias = (
        ['Comunidades y ciudades autónomas'] * 2 +  # Código comunidad, Nombre comunidad
        (['Sexo'] * 2 if 'Hombres' in df_concatenado.columns and 'Mujeres' in df_concatenado.columns else []) +  # Sexo
        ['País de nacimiento'] * (len(df_pivotado_pais.columns) - 4 if not df_pivotado_pais.empty else 0) +  # Países de nacimiento
        ['Nivel educativo'] * (len(df_pivotado_nivel.columns) - 4 if not df_pivotado_nivel.empty else 0) +  # Niveles educativos
        ['Población mayor de 15 años'] * (1 if 'Total' in df_concatenado.columns else 0)  # Total
    )

    # 9. Asignamos las categorías a las columnas del DataFrame
    if len(categorias) == len(df_concatenado.columns):
        df_concatenado.columns = pd.MultiIndex.from_tuples(zip(categorias, df_concatenado.columns))
    
    return df_concatenado


# Aplicar la función al DataFrame
df_nivel_educativo_comunidades = pivotar_y_generar_encabezados_comunidades(df_nivel_educativo_comunidades)

# Mostrar las primeras filas y la información del DataFrame actualizado
df_nivel_educativo_comunidades.head()



Unnamed: 0,Código comunidad,Nombre comunidad,Hombres,Mujeres,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Ucrania,Venezuela,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,1,Andalucía,14191520,14814188,179896,68788,70360,168684,44220,95272,25504212,109364,694492,309596,97952,608596,5084,204624,53628,340296,34140,254560,65968,95976,5329040,7889300,10066364,5721004,29005708
1,2,Aragón,2257748,2337012,16420,4852,19048,56884,14292,50548,3830992,15676,86312,89092,18628,61128,632,87656,17924,4520,21072,166692,9272,23120,677896,1516724,1391740,1008400,4594760
2,3,"Asturias, Principado de",1703944,1898752,17804,2264,4812,27380,18996,18680,3280668,9356,14500,51244,5660,53372,920,15244,6948,4756,18116,22772,3412,25792,556792,1210520,1035988,799396,3602696
3,4,"Balears, Illes",2017116,2049688,109768,27656,19624,92660,27096,62752,2939664,33368,107764,114968,43276,245684,2108,54416,19192,72096,20548,41612,8608,23944,551496,1146044,1295332,1073932,4066804
4,5,Canarias,3773072,3902360,71592,15352,34976,136776,181500,26268,5980416,27628,100384,98672,51412,429960,1232,61376,17872,113688,18760,29468,6412,271688,1403748,2200628,2267688,1803368,7675432


In [719]:
df_nivel_educativo_comunidades.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19 entries, 0 to 18
Data columns (total 29 columns):
 #   Column                                                                        Non-Null Count  Dtype 
---  ------                                                                        --------------  ----- 
 0   Código comunidad                                                              19 non-null     int64 
 1   Nombre comunidad                                                              19 non-null     object
 2   Hombres                                                                       19 non-null     int64 
 3   Mujeres                                                                       19 non-null     int64 
 4   Argentina                                                                     19 non-null     int64 
 5   Bolivia                                                                       19 non-null     int64 
 6   China                                       

In [720]:
# Guardamos el DataFrame en un archivo CSV
df_nivel_educativo_comunidades.to_csv("datos_limpiados/comunidades/nivel_educativo_comunidades_limpio.csv", index=False)

## Limpiamos el dataframe con la información del nivel educativo a nivel nacional

In [721]:
df_nivel_educativo_nacional = pd.read_csv("datos/ine/nivel_educativo_nacional.csv", encoding= 'latin-1', sep=';')

In [722]:
df_nivel_educativo_nacional.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,Total Nacional,,,Total,Total,Total,2022,40.899.207
1,Total Nacional,,,Total,Total,Hombres,2022,19.897.392
2,Total Nacional,,,Total,Total,Mujeres,2022,21.001.815
3,Total Nacional,,,Total,Educación primaria e inferior,Total,2022,6.545.911
4,Total Nacional,,,Total,Educación primaria e inferior,Hombres,2022,2.747.314


In [723]:
df_nivel_educativo_nacional.sample(20)

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
162,Total Nacional,,,República Dominicana,Educación superior,Total,2022,28.584
124,Total Nacional,,,Otros países de África,Educación primaria e inferior,Hombres,2022,104.393
180,Total Nacional,,,Bolivia,Total,Total,2022,175.467
300,Total Nacional,,,Otros países de Oceanía,Total,Total,2022,7.967
313,Total Nacional,,,Otros países de Oceanía,Educación superior,Hombres,2022,2.178
195,Total Nacional,,,Colombia,Total,Total,2022,530.954
55,Total Nacional,,,Reino Unido,Segunda etapa de educación secundaria y educac...,Hombres,2022,28.034
236,Total Nacional,,,Perú,Segunda etapa de educación secundaria y educac...,Mujeres,2022,47.121
208,Total Nacional,,,Colombia,Educación superior,Hombres,2022,54.394
140,Total Nacional,,,Cuba,Educación primaria e inferior,Mujeres,2022,16.379


Formateamos la columna 'Total'

In [724]:
# Convertimos la columna "Total" a int64
df_nivel_educativo_nacional['Total'] = df_nivel_educativo_nacional['Total'].str.replace('.', '').astype('int64')
df_nivel_educativo_nacional.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,Total Nacional,,,Total,Total,Total,2022,40899207
1,Total Nacional,,,Total,Total,Hombres,2022,19897392
2,Total Nacional,,,Total,Total,Mujeres,2022,21001815
3,Total Nacional,,,Total,Educación primaria e inferior,Total,2022,6545911
4,Total Nacional,,,Total,Educación primaria e inferior,Hombres,2022,2747314


Limpiamos el dataframe

In [725]:
def procesar_informacion_nacional(df):
    """
    Realiza el procesamiento de un DataFrame con información a nivel nacional, extraída del INE,
    aplicando las siguientes transformaciones:

    1. Elimina las columnas 'Provincias' y 'Comunidades y Ciudades Autónomas'.
    2. Renombra la columna "Total Nacional" a "Nombre del país".
    3. Asigna el valor "España" a todas las filas en la columna "Nombre del país".
        
    Parámetros:
    -----------
        df (pd.DataFrame): DataFrame con la información de nivel educativo a nivel nacional.

    Retorna:
    --------
        pd.DataFrame: DataFrame transformado con las modificaciones aplicadas.
    """
    df = df.copy()  # Crear una copia para no modificar el original
    
    # 1. Eliminar las columnas 'Provincias' y 'Comunidades y Ciudades Autónomas' si existen
    columnas_a_eliminar = ['Comunidades y Ciudades Autónomas', 'Provincias']
    df.drop(columns=[col for col in columnas_a_eliminar if col in df.columns], inplace=True)

    # 2. Renombrar la columna "Total Nacional" a "Nombre del país" si existe
    if "Total Nacional" in df.columns:
        df.rename(columns={"Total Nacional": "Nombre del país"}, inplace=True)

    # 3. Asignar el valor "España" a todas las filas en la columna "Nombre del país"
    if "Nombre del país" in df.columns:
        df["Nombre del país"] = "España"

    return df

# Aplicar la función al DataFrame
df_nivel_educativo_nacional = procesar_informacion_nacional(df_nivel_educativo_nacional)

# Mostrar información y primeras filas del DataFrame actualizado
print(df_nivel_educativo_nacional.info())
df_nivel_educativo_nacional.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 315 entries, 0 to 314
Data columns (total 6 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Nombre del país               315 non-null    object
 1   País de nacimiento            315 non-null    object
 2   Nivel de formación alcanzado  315 non-null    object
 3   Sexo                          315 non-null    object
 4   Periodo                       315 non-null    int64 
 5   Total                         315 non-null    int64 
dtypes: int64(2), object(4)
memory usage: 14.9+ KB
None


Unnamed: 0,Nombre del país,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,España,Total,Total,Total,2022,40899207
1,España,Total,Total,Hombres,2022,19897392
2,España,Total,Total,Mujeres,2022,21001815
3,España,Total,Educación primaria e inferior,Total,2022,6545911
4,España,Total,Educación primaria e inferior,Hombres,2022,2747314


Vamos a pivotar columnas del dataframe para que cada fila contenga toda la información de un país. Generamos encabezados dobles que agrupen la información por categorías.

In [726]:
def pivotar_y_generar_encabezados_nacional(df):
    """
    Transforma un DataFrame de nivel educativo a nivel nacional mediante la pivotación de 
    tres variables clave ('País de nacimiento', 'Nivel de formación alcanzado' y 'Sexo'), 
    y organiza los encabezados con un índice de múltiples niveles.

    Parámetros:
    -----------
    df : pandas.DataFrame
        DataFrame que contiene las columnas:
        - 'Nombre del país'
        - 'País de nacimiento'
        - 'Nivel de formación alcanzado'
        - 'Sexo'
        - 'Total'
    
    Retorna:
    --------
    pandas.DataFrame
        DataFrame transformado con las columnas pivotadas y organizadas bajo un 
        MultiIndex donde las categorías corresponden a la variable a la que pertenecen.
        Se incluyen los siguientes niveles de encabezado:
        - 'Países' (Código y Nombre del país)
        - 'Sexo' (Hombres y Mujeres)
        - 'País de nacimiento' (Cada país representado en la data)
        - 'Nivel educativo' (Diferentes niveles de formación)
        - 'Población mayor de 15 años' (Total)
    """

    # 1. Verificación de columnas necesarias
    columnas_necesarias = ['Nombre del país', 'País de nacimiento', 'Nivel de formación alcanzado', 'Sexo', 'Total']
    for col in columnas_necesarias:
        if col not in df.columns:
            raise ValueError(f"Falta la columna necesaria en el DataFrame: {col}")

    # 2. Pivotamos la columna "País de nacimiento"
    df_pivotado_pais = df.pivot_table(
        index=['Nombre del país'],
        columns='País de nacimiento',
        values='Total',
        aggfunc='sum'
    ).reset_index()

    # 3. Pivotamos la columna "Nivel de formación alcanzado"
    df_pivotado_nivel = df.pivot_table(
        index=['Nombre del país'],
        columns='Nivel de formación alcanzado',
        values='Total',
        aggfunc='sum'
    ).reset_index()

    # 4. Pivotamos la columna "Sexo"
    df_pivotado_sexo = df.pivot_table(
        index=['Nombre del país'],
        columns='Sexo',
        values='Total',
        aggfunc='sum'
    ).reset_index()

    # 5. Fusionamos los DataFrames resultantes con outer join
    df_concatenado = pd.merge(
        pd.merge(
            df_pivotado_pais, 
            df_pivotado_nivel, 
            on=['Nombre del país'], 
            how='outer'
        ), 
        df_pivotado_sexo, 
        on=['Nombre del país'], 
        how='outer'
    )

    # 6. Eliminamos columnas duplicadas si existen
    columnas_duplicadas = ['Total_x', 'Total_y']
    df_concatenado = df_concatenado.drop(columns=[col for col in columnas_duplicadas if col in df_concatenado.columns], errors='ignore')

    # 7. Renombramos el DataFrame
    df_nivel_educativo_nacional = df_concatenado.copy()

    # 8. Generamos una columna de código de país (España = 1)
    df_nivel_educativo_nacional["Código país"] = 1

    # 9. Reordenamos las columnas
    columnas_reordenadas = (
        ['Código país', 'Nombre del país', 'Hombres', 'Mujeres'] +
        [col for col in df_nivel_educativo_nacional.columns if col not in ['Código país', 'Nombre del país', 'Hombres', 'Mujeres']]
    )
    df_nivel_educativo_nacional = df_nivel_educativo_nacional[columnas_reordenadas]

    # 10. Creamos una lista de categorías para las columnas del DataFrame
    categorias = (
        ['Países'] * 2 +  # Código país, Nombre país
        ['Sexo'] * 2 +  # Hombres, Mujeres
        ['País de nacimiento'] * (len(df_pivotado_pais.columns) - 1) +  # Países de nacimiento
        ['Nivel educativo'] * (len(df_pivotado_nivel.columns) - 1) +  # Niveles educativos
        ['Población mayor de 15 años']  # Total
    )

    # 11. Asignamos las categorías a las columnas del DataFrame
    if len(categorias) == len(df_nivel_educativo_nacional.columns):
        df_nivel_educativo_nacional.columns = pd.MultiIndex.from_tuples(zip(categorias, df_nivel_educativo_nacional.columns))

    return df_nivel_educativo_nacional


# Aplicar la función al DataFrame
df_nivel_educativo_nacional = pivotar_y_generar_encabezados_nacional(df_nivel_educativo_nacional)

# Mostrar las primeras filas del DataFrame actualizado
df_nivel_educativo_nacional.head()


Unnamed: 0,Código país,Nombre del país,Hombres,Mujeres,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Ucrania,Venezuela,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,1,España,79589568,84007260,1245180,701868,722044,2123816,678776,1642368,135390128,808136,3601748,3052212,1182364,3975804,31868,1445768,997400,1124284,719432,2123684,424240,1605708,26183644,52596496,49384308,35432380,163596828


In [727]:
df_nivel_educativo_nacional.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1 entries, 0 to 0
Data columns (total 29 columns):
 #   Column                                                                        Non-Null Count  Dtype 
---  ------                                                                        --------------  ----- 
 0   Código país                                                                   1 non-null      int64 
 1   Nombre del país                                                               1 non-null      object
 2   Hombres                                                                       1 non-null      int64 
 3   Mujeres                                                                       1 non-null      int64 
 4   Argentina                                                                     1 non-null      int64 
 5   Bolivia                                                                       1 non-null      int64 
 6   China                                         

In [728]:
# Guardamos el DataFrame en un archivo CSV
df_nivel_educativo_nacional.to_csv("datos_limpiados/nacionales/nivel_educativo_nacional_limpio.csv", index=False)