In [148]:
# Para trabajar con regex
# -----------------------------------------------------------------------
import re

# Para trabajar con ficheros
# -----------------------------------------------------------------------
import os


# Para trabajar con los DataFrames
# -----------------------------------------------------------------------
import pandas as pd

# Para poner barras progreso
# -----------------------------------------------------------------------
from tqdm import tqdm



# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Ignorar warings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

# Librerias para generar gráficas
# ----------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns


### Cargamos los archivos del INE

In [149]:
df_censo_2022 = pd.read_csv("datos/ine/censo_2022.csv", encoding= 'latin-1', sep=';')

In [150]:
df_censo_2022.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Nacionalidad,Sexo,Edad,Periodo,Total
0,Total Nacional,,,Total,Total,Todas las edades,2022,47.486.727
1,Total Nacional,01 Andalucía,,Total,Total,Todas las edades,2022,8.511.167
2,Total Nacional,01 Andalucía,29 Málaga,Total,Total,Todas las edades,2022,1.715.109
3,Total Nacional,01 Andalucía,23 Jaén,Total,Total,Todas las edades,2022,624.191
4,Total Nacional,01 Andalucía,04 Almería,Total,Total,Todas las edades,2022,739.541


In [151]:
df_censo_2022.sample(35)

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Nacionalidad,Sexo,Edad,Periodo,Total
41,Total Nacional,09 Cataluña,17 Girona,Total,Total,Todas las edades,2022,790.432
43,Total Nacional,09 Cataluña,43 Tarragona,Total,Total,Todas las edades,2022,830.906
69,Total Nacional,18 Ceuta,51 Ceuta,Total,Total,Todas las edades,2022,83.051
5,Total Nacional,01 Andalucía,21 Huelva,Total,Total,Todas las edades,2022,531.094
60,Total Nacional,"15 Navarra, Comunidad Foral de",,Total,Total,Todas las edades,2022,664.514
34,Total Nacional,07 Castilla y León,05 Ávila,Total,Total,Todas las edades,2022,159.102
22,Total Nacional,06 Cantabria,39 Cantabria,Total,Total,Todas las edades,2022,585.450
37,Total Nacional,07 Castilla y León,37 Salamanca,Total,Total,Todas las edades,2022,326.285
50,Total Nacional,11 Extremadura,06 Badajoz,Total,Total,Todas las edades,2022,667.851
58,Total Nacional,"14 Murcia, Región de",,Total,Total,Todas las edades,2022,1.529.658


Eliminamos las columnas de Edad, Nacionalidad y Sexo pues no interesan para el analisis. Los datos relevantes de estas categorías los obtenemos asociados a nivel educativo en otro archivo del INE.

In [152]:
# Eliminar la columna 'Edad'
df_censo_2022.drop(columns=['Edad','Nacionalidad','Sexo'], inplace=True)

# Mostrar las primeras filas del DataFrame actualizado
df_censo_2022.head()


Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Periodo,Total
0,Total Nacional,,,2022,47.486.727
1,Total Nacional,01 Andalucía,,2022,8.511.167
2,Total Nacional,01 Andalucía,29 Málaga,2022,1.715.109
3,Total Nacional,01 Andalucía,23 Jaén,2022,624.191
4,Total Nacional,01 Andalucía,04 Almería,2022,739.541


Formatemaos la columna "Total"

In [153]:
# Convertimos la columna "Total" a int64
df_censo_2022['Total'] = df_censo_2022['Total'].str.replace('.', '').astype('int64')
df_censo_2022.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Periodo,Total
0,Total Nacional,,,2022,47486727
1,Total Nacional,01 Andalucía,,2022,8511167
2,Total Nacional,01 Andalucía,29 Málaga,2022,1715109
3,Total Nacional,01 Andalucía,23 Jaén,2022,624191
4,Total Nacional,01 Andalucía,04 Almería,2022,739541


A partir del DataFrame df_censo_2022 vamos a crear tres dataframes con la información a nivel nacional, autonómico y provincial respectivamente

In [154]:
# Filtrar el DataFrame para obtener los tres niveles de información

# Nivel nacional: Filtramos donde "Comunidades y Ciudades Autónomas" sea NaN
df_censo_2022_nacional = df_censo_2022[df_censo_2022['Comunidades y Ciudades Autónomas'].isna()].copy().reset_index(drop=True)

# Nivel autonómico: Filtramos donde "Comunidades y Ciudades Autónomas" no sea NaN y "Provincias" sea NaN
df_censo_2022_autonomico = df_censo_2022[df_censo_2022['Comunidades y Ciudades Autónomas'].notna() & df_censo_2022['Provincias'].isna()].copy().reset_index(drop=True)

# Nivel provincial: Filtramos donde "Provincias" no sea NaN
df_censo_2022_provincial = df_censo_2022[df_censo_2022['Provincias'].notna()].copy().reset_index(drop=True)



Verificamos que los dataframes filtrados se han creado correctamente    

In [155]:
df_censo_2022_nacional.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Periodo,Total
0,Total Nacional,,,2022,47486727


In [156]:
df_censo_2022_autonomico.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Periodo,Total
0,Total Nacional,01 Andalucía,,2022,8511167
1,Total Nacional,02 Aragón,,2022,1328215
2,Total Nacional,"03 Asturias, Principado de",,2022,1004960
3,Total Nacional,"04 Balears, Illes",,2022,1187043
4,Total Nacional,05 Canarias,,2022,2185607


In [157]:
df_censo_2022_provincial.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Periodo,Total
0,Total Nacional,01 Andalucía,29 Málaga,2022,1715109
1,Total Nacional,01 Andalucía,23 Jaén,2022,624191
2,Total Nacional,01 Andalucía,04 Almería,2022,739541
3,Total Nacional,01 Andalucía,21 Huelva,2022,531094
4,Total Nacional,01 Andalucía,11 Cádiz,2022,1250545


En primer lugar limpiamos los datos a nivel provincial

In [158]:
# Eliminamos la columna "Total Nacional" del DataFrame
df_censo_2022_provincial = df_censo_2022_provincial.drop(columns=["Total Nacional"])

# Mostramos las primeras filas del DataFrame actualizado
df_censo_2022_provincial.head()


Unnamed: 0,Comunidades y Ciudades Autónomas,Provincias,Periodo,Total
0,01 Andalucía,29 Málaga,2022,1715109
1,01 Andalucía,23 Jaén,2022,624191
2,01 Andalucía,04 Almería,2022,739541
3,01 Andalucía,21 Huelva,2022,531094
4,01 Andalucía,11 Cádiz,2022,1250545


In [159]:
df_censo_2022_provincial.sample(20)

Unnamed: 0,Comunidades y Ciudades Autónomas,Provincias,Periodo,Total
47,16 País Vasco,01 Araba/Álava,2022,333908
40,12 Galicia,"15 Coruña, A",2022,1119164
24,07 Castilla y León,34 Palencia,2022,157993
45,"15 Navarra, Comunidad Foral de",31 Navarra,2022,664514
33,09 Cataluña,43 Tarragona,2022,830906
26,07 Castilla y León,49 Zamora,2022,167868
6,01 Andalucía,18 Granada,2022,926019
7,01 Andalucía,14 Córdoba,2022,775110
49,"17 Rioja, La","26 Rioja, La",2022,319617
35,10 Comunitat Valenciana,03 Alicante/Alacant,2022,1907494


Procesamos el dataframe con la información provincial del censo

In [160]:
def procesar_nivel_educativo_provincias(df):
    """
    Realiza el procesamiento de un Dataframe con información a nivel provincial, extraida del INE,
    aplicando las siguientes transformaciones:
    1. Elimina la columna "Total Nacional".
    2. Separa los códigos y nombres de comunidades y provincias en columnas distintas.
    3. Convierte las columnas 'Código comunidad' y 'Código provincia' a tipo int64.
    4. Reordena las columnas colocando los códigos y nombres de comunidades y provincias al inicio.
        
    Parámetros:
        df (pd.DataFrame): DataFrame con la información de nivel educativo por provincias.
    
    Retorna:
        pd.DataFrame: DataFrame transformado con las modificaciones aplicadas.
    """
    df = df.copy()  # Crear una copia para no modificar el original
    
    # 1. Eliminar la columna "Total Nacional"
    if "Total Nacional" in df.columns:
        df.drop(columns=["Total Nacional"], inplace=True)
           
    # 2. Separar código y nombre de comunidad y provincia
    if 'Comunidades y Ciudades Autónomas' in df.columns and 'Provincias' in df.columns:
        df[['Código comunidad', 'Nombre comunidad']] = df['Comunidades y Ciudades Autónomas'].str.split(pat=' ', n=1, expand=True)
        df[['Código provincia', 'Nombre provincia']] = df['Provincias'].str.split(pat=' ', n=1, expand=True)
        df.drop(columns=['Comunidades y Ciudades Autónomas', 'Provincias'], inplace=True)

    # 3. Convertir las columnas 'Código comunidad' y 'Código provincia' a tipo int64 si existen
    for col in ['Código comunidad', 'Código provincia']:
        if col in df.columns:
            df[col] = df[col].astype('int64')
    
    # 4. Reordenar las columnas para que los códigos y nombres aparezcan primero
    columnas_prioritarias = ['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia']
    columnas_ordenadas = columnas_prioritarias + [col for col in df.columns if col not in columnas_prioritarias]
    df = df[columnas_ordenadas]
        
    return df

# Aplicar la función al DataFrame
df_censo_2022_provincial = procesar_nivel_educativo_provincias(df_censo_2022_provincial)

# Mostrar información y primeras filas del DataFrame actualizado
print(df_censo_2022_provincial.info())
df_censo_2022_provincial.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52 entries, 0 to 51
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Código comunidad  52 non-null     int64 
 1   Nombre comunidad  52 non-null     object
 2   Código provincia  52 non-null     int64 
 3   Nombre provincia  52 non-null     object
 4   Periodo           52 non-null     int64 
 5   Total             52 non-null     int64 
dtypes: int64(4), object(2)
memory usage: 2.6+ KB
None


Unnamed: 0,Código comunidad,Nombre comunidad,Código provincia,Nombre provincia,Periodo,Total
0,1,Andalucía,29,Málaga,2022,1715109
1,1,Andalucía,23,Jaén,2022,624191
2,1,Andalucía,4,Almería,2022,739541
3,1,Andalucía,21,Huelva,2022,531094
4,1,Andalucía,11,Cádiz,2022,1250545


Elimanos la columna Periodo pues todos los datos son de 2022

In [161]:
# Eliminar la columna 'Periodo'
df_censo_2022_provincial.drop(columns=['Periodo'], inplace=True)

# Mostrar las primeras filas del DataFrame actualizado
df_censo_2022_provincial.head()

Unnamed: 0,Código comunidad,Nombre comunidad,Código provincia,Nombre provincia,Total
0,1,Andalucía,29,Málaga,1715109
1,1,Andalucía,23,Jaén,624191
2,1,Andalucía,4,Almería,739541
3,1,Andalucía,21,Huelva,531094
4,1,Andalucía,11,Cádiz,1250545


In [162]:
df_censo_2022_provincial.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52 entries, 0 to 51
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Código comunidad  52 non-null     int64 
 1   Nombre comunidad  52 non-null     object
 2   Código provincia  52 non-null     int64 
 3   Nombre provincia  52 non-null     object
 4   Total             52 non-null     int64 
dtypes: int64(3), object(2)
memory usage: 2.2+ KB


In [163]:
df_censo_2022_municipios = pd.read_csv("datos/ine/censo_2022_municipios.csv", sep=';')

In [164]:
df_censo_2022_municipios.head()

Unnamed: 0,Total Nacional,Provincias,Municipios,Sexo,Edad,Lugar de nacimiento,Periodo,Total
0,Total Nacional,,,Total,Todas las edades,Total,2024,48.619.695
1,Total Nacional,,,Total,Todas las edades,Total,2023,48.085.361
2,Total Nacional,,,Total,Todas las edades,Total,2022,47.486.727
3,Total Nacional,,,Total,Todas las edades,Total,2021,47.400.798
4,Total Nacional,,,Total,Todas las edades,España,2024,39.781.461


In [165]:
df_censo_2022_municipios.sample(20)

Unnamed: 0,Total Nacional,Provincias,Municipios,Sexo,Edad,Lugar de nacimiento,Periodo,Total
5191134,Total Nacional,43 Tarragona,"43151 Torre de Fontaubella, La",Hombres,De 35 a 39 años,España,2022,3.0
1169557,Total Nacional,09 Burgos,09390 Torresandino,Mujeres,De 10 a 14 años,Total,2023,11.0
1034119,Total Nacional,09 Burgos,09159 Hontanas,Mujeres,De 5 a 9 años,España,2021,0.0
4755753,Total Nacional,40 Segovia,40118 Marazuela,Mujeres,De 15 a 19 años,Extranjera,2023,0.0
615880,Total Nacional,06 Badajoz,06141 Valencia del Ventoso,Hombres,De 90 a 94 años,España,2024,18.0
4557439,Total Nacional,38 Santa Cruz de Tenerife,38009 Breña Baja,Hombres,Todas las edades,España,2021,2.451
3069702,Total Nacional,25 Lleida,"25035 Sentiu de Sió, La",Mujeres,De 65 a 69 años,España,2022,19.0
4168305,Total Nacional,34 Palencia,34225 Villamuriel de Cerrato,Total,Todas las edades,Extranjera,2023,468.0
4473163,Total Nacional,37 Salamanca,37282 Sanchotello,Mujeres,De 80 a 84 años,España,2021,9.0
2191086,Total Nacional,18 Granada,18084 Gójar,Hombres,De 55 a 59 años,España,2022,230.0


# Limpiamos y concatenamos los dataframes de nivel educativo de municipios pequeños y grandes

In [166]:
df_nivel_educativo_municipios_pequenios = pd.read_csv("datos/ine/nivel_educativo_municipios_pequenios.csv",sep=';')

In [167]:
df_nivel_educativo_municipios_pequenios.head()

Unnamed: 0,Municipios,Sexo,Nivel de estudios,Periodo,Total
0,01006 Armiñón,Total,Total,2022,205
1,01006 Armiñón,Total,Total,2021,198
2,01006 Armiñón,Total,Educación primaria e inferior,2022,18
3,01006 Armiñón,Total,Educación primaria e inferior,2021,17
4,01006 Armiñón,Total,Primera etapa de educación secundaria y similar,2022,55


In [168]:
df_nivel_educativo_municipios_grandes = pd.read_csv("datos/ine/nivel_educativo_municipios_grandes.csv",sep=';')

In [169]:
df_nivel_educativo_municipios_grandes.sample(20)

Unnamed: 0,Municipios,Sexo,País de nacimiento,Nivel de estudios,Periodo,Total
298802,18029 Benamaurel,Total,Total,Doctorado universitario,2022,6.0
416935,25093 Fondarella,Mujeres,Total,"Enseñanzas de formación profesional, artes plá...",2021,49.0
759368,46227 Senyera,Total,Extranjera,Grados universitarios de más de 240 créditos E...,2022,1.0
235936,14063 Valenzuela,Hombres,España,"Segunda etapa de educación secundaria, con ori...",2022,33.0
686648,44068 Castelserás,Mujeres,España,Primera etapa de educación secundaria y similar,2022,91.0
709311,45128 Pantoja,Hombres,Total,"Segunda etapa de educación secundaria, con ori...",2021,126.0
287310,17167 Sant Joan de les Abadesses,Total,Total,"Enseñanzas de formación profesional, artes plá...",2022,267.0
671033,43094 Móra la Nova,Total,Total,Segunda etapa de educación secundaria con orie...,2021,338.0
561762,33074 Vegadeo,Total,Extranjera,Grados universitarios de hasta 240 créditos EC...,2022,17.0
803706,"50025 Almunia de Doña Godina, La",Total,Extranjera,Sin estudios,2022,149.0


In [170]:
df_nivel_estudios_en_curso_por_lugar = pd.read_csv("datos/ine/nivel_estudios_en_curso_por_lugar.csv",sep=';')

In [171]:
df_nivel_estudios_en_curso_por_lugar.sample(20)

Unnamed: 0,Capitales y grandes ciudades,Sexo,Relación entre lugar de residencia y lugar de estudios,Nacionalidad,Nivel de estudios en curso,Periodo,Total
69154,25120 Lleida,Hombres,Cursa estudios pero no hay información sobre e...,Extranjera,Educación primaria e inferior,2022,0.0
83178,28074 Leganés,Hombres,Distinta provincia de la misma comunidad,Extranjera,Educación superior,2022,0.0
44245,11020 Jerez de la Frontera,Mujeres,Distinta comunidad,Extranjera,Primera etapa de Educación Secundaria y similar,2021,1.0
52233,14021 Córdoba,Mujeres,Distinta provincia de la misma comunidad,Total,"Segunda etapa de Educación Secundaria, con ori...",2021,110.0
15156,06083 Mérida,Total,Total,Extranjera,Primera etapa de Educación Secundaria y similar,2022,23.0
83590,28074 Leganés,Mujeres,Cursa estudios pero no hay información sobre e...,Española,"Segunda etapa de educación secundaria, con ori...",2022,11.0
49605,12135 Vila-real,Total,Distinta comunidad,Española,Primera etapa de Educación Secundaria y similar,2021,0.0
898,01059 Vitoria-Gasteiz,Mujeres,Distinta comunidad,Extranjera,Educación primaria e inferior,2022,0.0
73830,28007 Alcorcón,Total,Cursa estudios pero no hay información sobre e...,Total,"Segunda etapa de educación secundaria, con ori...",2022,59.0
106233,30030 Murcia,Hombres,Mismo municipio al de residencia,Total,"Segunda etapa de Educación Secundaria, con ori...",2021,2.823


## Limpiamos ahora  los datos de nivel educativo alcanzado por provincias.

In [172]:
df_nivel_educativo_provincias = pd.read_csv("datos/ine/nivel_educativo_provincias.csv", encoding= 'latin-1', sep=';')

In [173]:
df_nivel_educativo_provincias.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,Total Nacional,01 Andalucía,04 Almería,Total,Total,Total,2022,618.592
1,Total Nacional,01 Andalucía,04 Almería,Total,Total,Hombres,2022,315.7
2,Total Nacional,01 Andalucía,04 Almería,Total,Total,Mujeres,2022,302.892
3,Total Nacional,01 Andalucía,04 Almería,Total,Educación primaria e inferior,Total,2022,164.692
4,Total Nacional,01 Andalucía,04 Almería,Total,Educación primaria e inferior,Hombres,2022,86.587


In [174]:
# Eliminamos la columna "Total Nacional" del DataFrame
df_nivel_educativo_provincias = df_nivel_educativo_provincias.drop(columns=["Total Nacional"])

# Mostramos las primeras filas del DataFrame actualizado
df_nivel_educativo_provincias.head()


Unnamed: 0,Comunidades y Ciudades Autónomas,Provincias,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,01 Andalucía,04 Almería,Total,Total,Total,2022,618.592
1,01 Andalucía,04 Almería,Total,Total,Hombres,2022,315.7
2,01 Andalucía,04 Almería,Total,Total,Mujeres,2022,302.892
3,01 Andalucía,04 Almería,Total,Educación primaria e inferior,Total,2022,164.692
4,01 Andalucía,04 Almería,Total,Educación primaria e inferior,Hombres,2022,86.587


Vamos a limpiar los nombres de las comunidades autonomas y las provinicas, generando columnas de codigo (numérico) para ambas a partir de los numeros que aparecen junto a ellas.

In [175]:
# Dividimos las columnas de comunidad y codigo de provincias y comunidades autonomas

# Separar código y nombre de comunidad autónoma
df_nivel_educativo_provincias[['Código comunidad', 'Nombre comunidad']] = \
    df_nivel_educativo_provincias['Comunidades y Ciudades Autónomas'].str.split(pat=' ', n=1, expand=True)

# Separar código y nombre de provincia
df_nivel_educativo_provincias[['Código provincia', 'Nombre provincia']] = \
    df_nivel_educativo_provincias['Provincias'].str.split(pat=' ', n=1, expand=True)

# Eliminamos las columnas originales ya que han sido divididas
df_nivel_educativo_provincias = df_nivel_educativo_provincias.drop(columns=['Comunidades y Ciudades Autónomas', 'Provincias'])

# Mostramos las primeras filas del DataFrame actualizado
df_nivel_educativo_provincias.head()


Unnamed: 0,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total,Código comunidad,Nombre comunidad,Código provincia,Nombre provincia
0,Total,Total,Total,2022,618.592,1,Andalucía,4,Almería
1,Total,Total,Hombres,2022,315.7,1,Andalucía,4,Almería
2,Total,Total,Mujeres,2022,302.892,1,Andalucía,4,Almería
3,Total,Educación primaria e inferior,Total,2022,164.692,1,Andalucía,4,Almería
4,Total,Educación primaria e inferior,Hombres,2022,86.587,1,Andalucía,4,Almería


Formateamos las columnas "Total", "Código comunidad" y "Código provincia"

In [176]:
# Convertimos la columna "Total" a int64
df_nivel_educativo_provincias['Total'] = df_nivel_educativo_provincias['Total'].str.replace('.', '').astype('int64')

# Mostramos el DataFrame actualizado
df_nivel_educativo_provincias.head()


Unnamed: 0,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total,Código comunidad,Nombre comunidad,Código provincia,Nombre provincia
0,Total,Total,Total,2022,618592,1,Andalucía,4,Almería
1,Total,Total,Hombres,2022,315700,1,Andalucía,4,Almería
2,Total,Total,Mujeres,2022,302892,1,Andalucía,4,Almería
3,Total,Educación primaria e inferior,Total,2022,164692,1,Andalucía,4,Almería
4,Total,Educación primaria e inferior,Hombres,2022,86587,1,Andalucía,4,Almería


In [177]:
# Convertir las columnas 'Código comunidad' y 'Código provincia' a tipo int64
df_nivel_educativo_provincias[ 'Código comunidad'] = df_nivel_educativo_provincias['Código comunidad'].astype('int64')
df_nivel_educativo_provincias['Código provincia'] = df_nivel_educativo_provincias['Código provincia'].astype('int64')

Pivotamos las columnas "País de nacimiento", "Nivel de formación alcanzado" y "Sexo" para tener toda la información de cada provincia en una sola fila. Dejamos fuera la columna Periodo, pues es siempre el 2022 y por tanto no aporta información relevante

In [178]:
# Pivotamos la columna "País de nacimiento" para que sus valores únicos sean columnas
df_nivel_educativo_pivotado_pais = df_nivel_educativo_provincias.pivot_table(
    index=['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia'],
    columns='País de nacimiento',
    values='Total',
    aggfunc='sum'
).reset_index()

# Mostramos las primeras filas del DataFrame pivotado
df_nivel_educativo_pivotado_pais.head()


País de nacimiento,Código comunidad,Nombre comunidad,Código provincia,Nombre provincia,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Total,Ucrania,Venezuela
0,1,Andalucía,4,Almería,22836,4880,3784,21328,3112,27780,1837208,13496,205044,16976,8260,66520,312,73992,11324,65544,3908,75224,2474368,5916,6924
1,1,Andalucía,11,Cádiz,10892,9744,7628,13840,4848,3696,3980088,12560,64768,30644,7884,49552,776,12124,5168,28136,5000,8716,4266756,2804,7888
2,1,Andalucía,14,Córdoba,2796,1972,3416,8908,2056,7960,2549124,5156,15224,18616,3476,17148,296,6112,1960,4348,1496,16380,2672472,1820,4208
3,1,Andalucía,18,Granada,20732,16844,7168,18380,4260,9396,2819328,16636,73360,29676,8372,54332,572,20576,4088,25636,4232,28420,3174912,2416,10488
4,1,Andalucía,21,Huelva,2152,1816,2616,8456,1968,4244,1586476,2540,64108,9628,1980,38248,92,21540,1680,4536,1372,52520,1813056,3512,3572


In [179]:
# Pivotamos la columna "Nivel de formación alcanzado" para que sus valores únicos sean columnas
df_nivel_educativo_pivotado_nivel = df_nivel_educativo_provincias.pivot_table(
    index=['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia'],
    columns='Nivel de formación alcanzado',
    values='Total',
    aggfunc='sum'
).reset_index()

# Mostramos las primeras filas del DataFrame pivotado
df_nivel_educativo_pivotado_nivel.head()


Nivel de formación alcanzado,Código comunidad,Nombre comunidad,Código provincia,Nombre provincia,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,1,Andalucía,4,Almería,658768,568804,818604,428192,2474368
1,1,Andalucía,11,Cádiz,743224,1120036,1516532,886964,4266756
2,1,Andalucía,14,Córdoba,485528,737780,944780,504384,2672472
3,1,Andalucía,18,Granada,525080,976448,1064516,608868,3174912
4,1,Andalucía,21,Huelva,342592,444416,714704,311344,1813056


In [180]:
# Pivotamos la columna "Sexo" para que sus valores únicos sean columnas
df_nivel_educativo_pivotado_sexo = df_nivel_educativo_provincias.pivot_table(
    index=['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia'],
    columns='Sexo',
    values='Total',
    aggfunc='sum'
).reset_index()

# Mostramos las primeras filas del DataFrame pivotado
df_nivel_educativo_pivotado_sexo.head()


Sexo,Código comunidad,Nombre comunidad,Código provincia,Nombre provincia,Hombres,Mujeres,Total
0,1,Andalucía,4,Almería,1262800,1211568,2474368
1,1,Andalucía,11,Cádiz,2088800,2177956,4266756
2,1,Andalucía,14,Córdoba,1298348,1374124,2672472
3,1,Andalucía,18,Granada,1554956,1619956,3174912
4,1,Andalucía,21,Huelva,892656,920400,1813056


In [181]:
 # Concatenamos los tres DataFrames generados con outer join
df_concatenado = pd.merge(
    pd.merge(
        df_nivel_educativo_pivotado_pais, 
        df_nivel_educativo_pivotado_nivel, 
        on=['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia'], 
        how='outer'
    ), 
    df_nivel_educativo_pivotado_sexo, 
    on=['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia'], 
    how='outer'
)

# Mostramos las primeras filas del DataFrame concatenado
df_concatenado.head()


Unnamed: 0,Código comunidad,Nombre comunidad,Código provincia,Nombre provincia,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Total_x,Ucrania,Venezuela,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total_y,Hombres,Mujeres,Total
0,1,Andalucía,4,Almería,22836,4880,3784,21328,3112,27780,1837208,13496,205044,16976,8260,66520,312,73992,11324,65544,3908,75224,2474368,5916,6924,658768,568804,818604,428192,2474368,1262800,1211568,2474368
1,1,Andalucía,11,Cádiz,10892,9744,7628,13840,4848,3696,3980088,12560,64768,30644,7884,49552,776,12124,5168,28136,5000,8716,4266756,2804,7888,743224,1120036,1516532,886964,4266756,2088800,2177956,4266756
2,1,Andalucía,14,Córdoba,2796,1972,3416,8908,2056,7960,2549124,5156,15224,18616,3476,17148,296,6112,1960,4348,1496,16380,2672472,1820,4208,485528,737780,944780,504384,2672472,1298348,1374124,2672472
3,1,Andalucía,18,Granada,20732,16844,7168,18380,4260,9396,2819328,16636,73360,29676,8372,54332,572,20576,4088,25636,4232,28420,3174912,2416,10488,525080,976448,1064516,608868,3174912,1554956,1619956,3174912
4,1,Andalucía,21,Huelva,2152,1816,2616,8456,1968,4244,1586476,2540,64108,9628,1980,38248,92,21540,1680,4536,1372,52520,1813056,3512,3572,342592,444416,714704,311344,1813056,892656,920400,1813056


"Total_x" y "Total_y" son duplciados de la columna "Total" así que los eliminamos

In [182]:
# Eliminamos las columnas "Total_x" y "Total_y" ya que han sido divididas
df_concatenado = df_concatenado.drop(columns=["Total_x", "Total_y"])
df_concatenado.head()


Unnamed: 0,Código comunidad,Nombre comunidad,Código provincia,Nombre provincia,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Ucrania,Venezuela,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Hombres,Mujeres,Total
0,1,Andalucía,4,Almería,22836,4880,3784,21328,3112,27780,1837208,13496,205044,16976,8260,66520,312,73992,11324,65544,3908,75224,5916,6924,658768,568804,818604,428192,1262800,1211568,2474368
1,1,Andalucía,11,Cádiz,10892,9744,7628,13840,4848,3696,3980088,12560,64768,30644,7884,49552,776,12124,5168,28136,5000,8716,2804,7888,743224,1120036,1516532,886964,2088800,2177956,4266756
2,1,Andalucía,14,Córdoba,2796,1972,3416,8908,2056,7960,2549124,5156,15224,18616,3476,17148,296,6112,1960,4348,1496,16380,1820,4208,485528,737780,944780,504384,1298348,1374124,2672472
3,1,Andalucía,18,Granada,20732,16844,7168,18380,4260,9396,2819328,16636,73360,29676,8372,54332,572,20576,4088,25636,4232,28420,2416,10488,525080,976448,1064516,608868,1554956,1619956,3174912
4,1,Andalucía,21,Huelva,2152,1816,2616,8456,1968,4244,1586476,2540,64108,9628,1980,38248,92,21540,1680,4536,1372,52520,3512,3572,342592,444416,714704,311344,892656,920400,1813056


In [183]:
#Renombramos el dataframe para mayor claridad
df_nivel_educativo_provincias=df_concatenado

In [184]:
df_nivel_educativo_provincias.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52 entries, 0 to 51
Data columns (total 31 columns):
 #   Column                                                                        Non-Null Count  Dtype 
---  ------                                                                        --------------  ----- 
 0   Código comunidad                                                              52 non-null     int64 
 1   Nombre comunidad                                                              52 non-null     object
 2   Código provincia                                                              52 non-null     int64 
 3   Nombre provincia                                                              52 non-null     object
 4   Argentina                                                                     52 non-null     int64 
 5   Bolivia                                                                       52 non-null     int64 
 6   China                                       

In [185]:
df_nivel_educativo_provincias["Nombre provincia"].unique()

array(['Almería', 'Cádiz', 'Córdoba', 'Granada', 'Huelva', 'Jaén',
       'Málaga', 'Sevilla', 'Huesca', 'Teruel', 'Zaragoza', 'Asturias',
       'Balears, Illes', 'Palmas, Las', 'Santa Cruz de Tenerife',
       'Cantabria', 'Ávila', 'Burgos', 'León', 'Palencia', 'Salamanca',
       'Segovia', 'Soria', 'Valladolid', 'Zamora', 'Albacete',
       'Ciudad Real', 'Cuenca', 'Guadalajara', 'Toledo', 'Barcelona',
       'Girona', 'Lleida', 'Tarragona', 'Alicante/Alacant',
       'Castellón/Castelló', 'Valencia/València', 'Badajoz', 'Cáceres',
       'Coruña, A', 'Lugo', 'Ourense', 'Pontevedra', 'Madrid', 'Murcia',
       'Navarra', 'Araba/Álava', 'Gipuzkoa', 'Bizkaia', 'Rioja, La',
       'Ceuta', 'Melilla'], dtype=object)

In [186]:
df_nivel_educativo_provincias["Nombre comunidad"].unique()

array(['Andalucía', 'Aragón', 'Asturias, Principado de', 'Balears, Illes',
       'Canarias', 'Cantabria', 'Castilla y León', 'Castilla - La Mancha',
       'Cataluña', 'Comunitat Valenciana', 'Extremadura', 'Galicia',
       'Madrid, Comunidad de', 'Murcia, Región de',
       'Navarra, Comunidad Foral de', 'País Vasco', 'Rioja, La', 'Ceuta',
       'Melilla'], dtype=object)

Ceuta y Melilla son ciudades autónomas. Las analizaremos junto con las Comunidades autónomas

In [187]:
# Reordenar las columnas para que 'Hombres' y 'Mujeres' aparezcan después de 'Nombre provincia'
columnas_reordenadas = (
    ['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia', 'Hombres', 'Mujeres'] +
    [col for col in df_nivel_educativo_provincias.columns if col not in ['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia', 'Hombres', 'Mujeres']]
)

df_nivel_educativo_provincias = df_nivel_educativo_provincias[columnas_reordenadas]

# Mostrar las primeras filas del DataFrame reordenado
df_nivel_educativo_provincias.head()


Unnamed: 0,Código comunidad,Nombre comunidad,Código provincia,Nombre provincia,Hombres,Mujeres,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Ucrania,Venezuela,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,1,Andalucía,4,Almería,1262800,1211568,22836,4880,3784,21328,3112,27780,1837208,13496,205044,16976,8260,66520,312,73992,11324,65544,3908,75224,5916,6924,658768,568804,818604,428192,2474368
1,1,Andalucía,11,Cádiz,2088800,2177956,10892,9744,7628,13840,4848,3696,3980088,12560,64768,30644,7884,49552,776,12124,5168,28136,5000,8716,2804,7888,743224,1120036,1516532,886964,4266756
2,1,Andalucía,14,Córdoba,1298348,1374124,2796,1972,3416,8908,2056,7960,2549124,5156,15224,18616,3476,17148,296,6112,1960,4348,1496,16380,1820,4208,485528,737780,944780,504384,2672472
3,1,Andalucía,18,Granada,1554956,1619956,20732,16844,7168,18380,4260,9396,2819328,16636,73360,29676,8372,54332,572,20576,4088,25636,4232,28420,2416,10488,525080,976448,1064516,608868,3174912
4,1,Andalucía,21,Huelva,892656,920400,2152,1816,2616,8456,1968,4244,1586476,2540,64108,9628,1980,38248,92,21540,1680,4536,1372,52520,3512,3572,342592,444416,714704,311344,1813056


In [188]:
# Crear una lista de categorías para las columnas del DataFrame
categorias = (
    ['Comunidades ciudades autónomas'] * 2 +  # Código comunidad, Nombre comunidad
    ['Provincias'] * 2 +  # Código provincia, Nombre provincia
    ['Sexo'] * 2 +  # Hombres, Mujeres
    ['País de nacimiento'] * 20 +  # Países de nacimiento
    ['Nivel educativo'] * 4 +  # Niveles educativos
    ['Población mayor de 15 años']  # Total
)

# Asignar las categorías a las columnas del DataFrame
df_nivel_educativo_provincias.columns = pd.MultiIndex.from_tuples(zip(categorias, df_nivel_educativo_provincias.columns))
df_nivel_educativo_provincias.head()



Unnamed: 0_level_0,Comunidades ciudades autónomas,Comunidades ciudades autónomas,Provincias,Provincias,Sexo,Sexo,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,Nivel educativo,Nivel educativo,Nivel educativo,Nivel educativo,Población mayor de 15 años
Unnamed: 0_level_1,Código comunidad,Nombre comunidad,Código provincia,Nombre provincia,Hombres,Mujeres,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Ucrania,Venezuela,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,1,Andalucía,4,Almería,1262800,1211568,22836,4880,3784,21328,3112,27780,1837208,13496,205044,16976,8260,66520,312,73992,11324,65544,3908,75224,5916,6924,658768,568804,818604,428192,2474368
1,1,Andalucía,11,Cádiz,2088800,2177956,10892,9744,7628,13840,4848,3696,3980088,12560,64768,30644,7884,49552,776,12124,5168,28136,5000,8716,2804,7888,743224,1120036,1516532,886964,4266756
2,1,Andalucía,14,Córdoba,1298348,1374124,2796,1972,3416,8908,2056,7960,2549124,5156,15224,18616,3476,17148,296,6112,1960,4348,1496,16380,1820,4208,485528,737780,944780,504384,2672472
3,1,Andalucía,18,Granada,1554956,1619956,20732,16844,7168,18380,4260,9396,2819328,16636,73360,29676,8372,54332,572,20576,4088,25636,4232,28420,2416,10488,525080,976448,1064516,608868,3174912
4,1,Andalucía,21,Huelva,892656,920400,2152,1816,2616,8456,1968,4244,1586476,2540,64108,9628,1980,38248,92,21540,1680,4536,1372,52520,3512,3572,342592,444416,714704,311344,1813056


In [189]:
df_nivel_educativo_provincias.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52 entries, 0 to 51
Data columns (total 31 columns):
 #   Column                                                                                           Non-Null Count  Dtype 
---  ------                                                                                           --------------  ----- 
 0   (Comunidades ciudades autónomas, Código comunidad)                                               52 non-null     int64 
 1   (Comunidades ciudades autónomas, Nombre comunidad)                                               52 non-null     object
 2   (Provincias, Código provincia)                                                                   52 non-null     int64 
 3   (Provincias, Nombre provincia)                                                                   52 non-null     object
 4   (Sexo, Hombres)                                                                                  52 non-null     int64 
 5   (Sexo, Mujeres)  

In [190]:
# Guardamos el DataFrame en un archivo CSV
df_nivel_educativo_provincias.to_csv("datos_limpiados/provincias/nivel_educativo_provincias_limpio.csv", index=False)

## Limpiamos ahora los datos de nivel educativo alcanzado por comunidades autónomas

In [191]:
df_nivel_educativo_comunidades = pd.read_csv("datos/ine/nivel_educativo_comunidades.csv", encoding= 'latin-1', sep=';')

In [192]:
df_nivel_educativo_comunidades.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,Total Nacional,01 Andalucía,,Total,Total,Total,2022,7.251.427
1,Total Nacional,01 Andalucía,,Total,Total,Hombres,2022,3.547.880
2,Total Nacional,01 Andalucía,,Total,Total,Mujeres,2022,3.703.547
3,Total Nacional,01 Andalucía,,Total,Educación primaria e inferior,Total,2022,1.332.260
4,Total Nacional,01 Andalucía,,Total,Educación primaria e inferior,Hombres,2022,583.687


La columna 'Provincias' está vacía así que la eliminaos

In [193]:
# Eliminar la columna 'Provincias'
df_nivel_educativo_comunidades.drop(columns=['Provincias'], inplace=True)

# Mostrar las primeras filas del DataFrame actualizado
df_nivel_educativo_comunidades.head()


Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,Total Nacional,01 Andalucía,Total,Total,Total,2022,7.251.427
1,Total Nacional,01 Andalucía,Total,Total,Hombres,2022,3.547.880
2,Total Nacional,01 Andalucía,Total,Total,Mujeres,2022,3.703.547
3,Total Nacional,01 Andalucía,Total,Educación primaria e inferior,Total,2022,1.332.260
4,Total Nacional,01 Andalucía,Total,Educación primaria e inferior,Hombres,2022,583.687


In [194]:
# Eliminamos la columna "Total Nacional" del DataFrame
df_nivel_educativo_comunidades = df_nivel_educativo_comunidades.drop(columns=["Total Nacional"])
# Mostramos las primeras filas del DataFrame actualizado
df_nivel_educativo_comunidades.head()


Unnamed: 0,Comunidades y Ciudades Autónomas,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,01 Andalucía,Total,Total,Total,2022,7.251.427
1,01 Andalucía,Total,Total,Hombres,2022,3.547.880
2,01 Andalucía,Total,Total,Mujeres,2022,3.703.547
3,01 Andalucía,Total,Educación primaria e inferior,Total,2022,1.332.260
4,01 Andalucía,Total,Educación primaria e inferior,Hombres,2022,583.687


Vamos a limpiar los nombres de las comunidades y ciudades autonomas, generando columnas de codigo (numérico) para ambas a partir de los numeros que aparecen junto a ellas.

In [195]:
# Dividimos la columna de comunidad y codigo de comunidades y ciduades autonomas

# Separar código y nombre de comunidad autónoma
df_nivel_educativo_comunidades[['Código comunidad', 'Nombre comunidad']] = \
    df_nivel_educativo_comunidades['Comunidades y Ciudades Autónomas'].str.split(pat=' ', n=1, expand=True)


# Eliminamos la columna original que ya ha sido divididas
df_nivel_educativo_comunidades = df_nivel_educativo_comunidades.drop(columns=['Comunidades y Ciudades Autónomas'])

# Mostramos las primeras filas del DataFrame actualizado
df_nivel_educativo_comunidades.head()

Unnamed: 0,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total,Código comunidad,Nombre comunidad
0,Total,Total,Total,2022,7.251.427,1,Andalucía
1,Total,Total,Hombres,2022,3.547.880,1,Andalucía
2,Total,Total,Mujeres,2022,3.703.547,1,Andalucía
3,Total,Educación primaria e inferior,Total,2022,1.332.260,1,Andalucía
4,Total,Educación primaria e inferior,Hombres,2022,583.687,1,Andalucía


Ordenamos las columnas para que las columnas que contienen el código y el nombre de la comunidad estén al principio del dataframe

In [196]:
# Reordenamos las columnas para que las cuatro columnas indicadas sean las primeras
columnas_ordenadas = [
    'Código comunidad', 'Nombre comunidad', 
] + [col for col in df_nivel_educativo_comunidades.columns if col not in [
    'Código comunidad', 'Nombre comunidad'
]]

df_nivel_educativo_comunidades = df_nivel_educativo_comunidades[columnas_ordenadas]

# Mostramos el DataFrame reordenado
df_nivel_educativo_comunidades.head()

Unnamed: 0,Código comunidad,Nombre comunidad,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,1,Andalucía,Total,Total,Total,2022,7.251.427
1,1,Andalucía,Total,Total,Hombres,2022,3.547.880
2,1,Andalucía,Total,Total,Mujeres,2022,3.703.547
3,1,Andalucía,Total,Educación primaria e inferior,Total,2022,1.332.260
4,1,Andalucía,Total,Educación primaria e inferior,Hombres,2022,583.687


Formateamos la columna "Total" y la columna "Código comunidad"

In [197]:
# Convertimos la columna "Total" a int64
df_nivel_educativo_comunidades['Total'] = df_nivel_educativo_comunidades['Total'].str.replace('.', '').astype('int64')

In [198]:
# Convertir la columna 'Código comunidad' a tipo int64
df_nivel_educativo_comunidades[ 'Código comunidad'] = df_nivel_educativo_comunidades['Código comunidad'].astype('int64')

Pivotamos las columnas "País de nacimiento", "Nivel de formación alcanzado" y "Sexo" para tener toda la información de cada Comunidad en una sola fila. Dejamos fuera la columna Periodo, pues es siempre el 2022 y por tanto no aporta información relevante

In [199]:
# Pivotamos la columna "País de nacimiento" para que sus valores únicos sean columnas
df_nivel_educativo_pivotado_pais = df_nivel_educativo_comunidades.pivot_table(
    index=['Código comunidad', 'Nombre comunidad'],
    columns='País de nacimiento',
    values='Total',
    aggfunc='sum'
).reset_index()

# Mostramos las primeras filas del DataFrame pivotado
df_nivel_educativo_pivotado_pais.head()

País de nacimiento,Código comunidad,Nombre comunidad,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Total,Ucrania,Venezuela
0,1,Andalucía,179896,68788,70360,168684,44220,95272,25504212,109364,694492,309596,97952,608596,5084,204624,53628,340296,34140,254560,29005708,65968,95976
1,2,Aragón,16420,4852,19048,56884,14292,50548,3830992,15676,86312,89092,18628,61128,632,87656,17924,4520,21072,166692,4594760,9272,23120
2,3,"Asturias, Principado de",17804,2264,4812,27380,18996,18680,3280668,9356,14500,51244,5660,53372,920,15244,6948,4756,18116,22772,3602696,3412,25792
3,4,"Balears, Illes",109768,27656,19624,92660,27096,62752,2939664,33368,107764,114968,43276,245684,2108,54416,19192,72096,20548,41612,4066804,8608,23944
4,5,Canarias,71592,15352,34976,136776,181500,26268,5980416,27628,100384,98672,51412,429960,1232,61376,17872,113688,18760,29468,7675432,6412,271688


In [200]:
# Pivotamos la columna "Nivel de formación alcanzado" para que sus valores únicos sean columnas
df_nivel_educativo_pivotado_nivel = df_nivel_educativo_comunidades.pivot_table(
    index=['Código comunidad', 'Nombre comunidad'],
    columns='Nivel de formación alcanzado',
    values='Total',
    aggfunc='sum'
).reset_index()

# Mostramos las primeras filas del DataFrame pivotado
df_nivel_educativo_pivotado_nivel.head()

Nivel de formación alcanzado,Código comunidad,Nombre comunidad,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,1,Andalucía,5329040,7889300,10066364,5721004,29005708
1,2,Aragón,677896,1516724,1391740,1008400,4594760
2,3,"Asturias, Principado de",556792,1210520,1035988,799396,3602696
3,4,"Balears, Illes",551496,1146044,1295332,1073932,4066804
4,5,Canarias,1403748,2200628,2267688,1803368,7675432


In [201]:
# Pivotamos la columna "Sexo" para que sus valores únicos sean columnas
df_nivel_educativo_pivotado_sexo = df_nivel_educativo_comunidades.pivot_table(
    index=['Código comunidad', 'Nombre comunidad'],
    columns='Sexo',
    values='Total',
    aggfunc='sum'
).reset_index()

# Mostramos las primeras filas del DataFrame pivotado
df_nivel_educativo_pivotado_sexo.head()

Sexo,Código comunidad,Nombre comunidad,Hombres,Mujeres,Total
0,1,Andalucía,14191520,14814188,29005708
1,2,Aragón,2257748,2337012,4594760
2,3,"Asturias, Principado de",1703944,1898752,3602696
3,4,"Balears, Illes",2017116,2049688,4066804
4,5,Canarias,3773072,3902360,7675432


In [202]:
 # Concatenamos los tres DataFrames generados con outer join
df_concatenado = pd.merge(
    pd.merge(
        df_nivel_educativo_pivotado_pais, 
        df_nivel_educativo_pivotado_nivel, 
        on=['Código comunidad', 'Nombre comunidad'], 
        how='outer'
    ), 
    df_nivel_educativo_pivotado_sexo, 
    on=['Código comunidad', 'Nombre comunidad'], 
    how='outer'
)

# Mostramos las primeras filas del DataFrame concatenado
df_concatenado.head()

Unnamed: 0,Código comunidad,Nombre comunidad,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Total_x,Ucrania,Venezuela,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total_y,Hombres,Mujeres,Total
0,1,Andalucía,179896,68788,70360,168684,44220,95272,25504212,109364,694492,309596,97952,608596,5084,204624,53628,340296,34140,254560,29005708,65968,95976,5329040,7889300,10066364,5721004,29005708,14191520,14814188,29005708
1,2,Aragón,16420,4852,19048,56884,14292,50548,3830992,15676,86312,89092,18628,61128,632,87656,17924,4520,21072,166692,4594760,9272,23120,677896,1516724,1391740,1008400,4594760,2257748,2337012,4594760
2,3,"Asturias, Principado de",17804,2264,4812,27380,18996,18680,3280668,9356,14500,51244,5660,53372,920,15244,6948,4756,18116,22772,3602696,3412,25792,556792,1210520,1035988,799396,3602696,1703944,1898752,3602696
3,4,"Balears, Illes",109768,27656,19624,92660,27096,62752,2939664,33368,107764,114968,43276,245684,2108,54416,19192,72096,20548,41612,4066804,8608,23944,551496,1146044,1295332,1073932,4066804,2017116,2049688,4066804
4,5,Canarias,71592,15352,34976,136776,181500,26268,5980416,27628,100384,98672,51412,429960,1232,61376,17872,113688,18760,29468,7675432,6412,271688,1403748,2200628,2267688,1803368,7675432,3773072,3902360,7675432


"Total_x" y "Total_y" son duplciados de la columna "Total" así que los eliminamos


In [203]:
df_concatenado = df_concatenado.drop(columns=["Total_x", "Total_y"])
df_concatenado.head()


Unnamed: 0,Código comunidad,Nombre comunidad,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Ucrania,Venezuela,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Hombres,Mujeres,Total
0,1,Andalucía,179896,68788,70360,168684,44220,95272,25504212,109364,694492,309596,97952,608596,5084,204624,53628,340296,34140,254560,65968,95976,5329040,7889300,10066364,5721004,14191520,14814188,29005708
1,2,Aragón,16420,4852,19048,56884,14292,50548,3830992,15676,86312,89092,18628,61128,632,87656,17924,4520,21072,166692,9272,23120,677896,1516724,1391740,1008400,2257748,2337012,4594760
2,3,"Asturias, Principado de",17804,2264,4812,27380,18996,18680,3280668,9356,14500,51244,5660,53372,920,15244,6948,4756,18116,22772,3412,25792,556792,1210520,1035988,799396,1703944,1898752,3602696
3,4,"Balears, Illes",109768,27656,19624,92660,27096,62752,2939664,33368,107764,114968,43276,245684,2108,54416,19192,72096,20548,41612,8608,23944,551496,1146044,1295332,1073932,2017116,2049688,4066804
4,5,Canarias,71592,15352,34976,136776,181500,26268,5980416,27628,100384,98672,51412,429960,1232,61376,17872,113688,18760,29468,6412,271688,1403748,2200628,2267688,1803368,3773072,3902360,7675432


In [204]:
#Renombramos el dataframe para mayor claridad
df_nivel_educativo_comunidades=df_concatenado
df_nivel_educativo_comunidades.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19 entries, 0 to 18
Data columns (total 29 columns):
 #   Column                                                                        Non-Null Count  Dtype 
---  ------                                                                        --------------  ----- 
 0   Código comunidad                                                              19 non-null     int64 
 1   Nombre comunidad                                                              19 non-null     object
 2   Argentina                                                                     19 non-null     int64 
 3   Bolivia                                                                       19 non-null     int64 
 4   China                                                                         19 non-null     int64 
 5   Colombia                                                                      19 non-null     int64 
 6   Cuba                                        

In [205]:
df_nivel_educativo_comunidades["Nombre comunidad"].unique()

array(['Andalucía', 'Aragón', 'Asturias, Principado de', 'Balears, Illes',
       'Canarias', 'Cantabria', 'Castilla y León', 'Castilla - La Mancha',
       'Cataluña', 'Comunitat Valenciana', 'Extremadura', 'Galicia',
       'Madrid, Comunidad de', 'Murcia, Región de',
       'Navarra, Comunidad Foral de', 'País Vasco', 'Rioja, La', 'Ceuta',
       'Melilla'], dtype=object)

In [206]:
# Reordenar las columnas para que 'Hombres' y 'Mujeres' aparezcan después de 'Nombre comunidad'
columnas_reordenadas = (
    ['Código comunidad', 'Nombre comunidad', 'Hombres', 'Mujeres'] +
    [col for col in df_nivel_educativo_comunidades.columns if col not in ['Código comunidad', 'Nombre comunidad', 'Hombres', 'Mujeres']]
)

df_nivel_educativo_comunidades = df_nivel_educativo_comunidades[columnas_reordenadas]

# Mostrar las primeras filas del DataFrame reordenado
df_nivel_educativo_comunidades.head()

Unnamed: 0,Código comunidad,Nombre comunidad,Hombres,Mujeres,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Ucrania,Venezuela,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,1,Andalucía,14191520,14814188,179896,68788,70360,168684,44220,95272,25504212,109364,694492,309596,97952,608596,5084,204624,53628,340296,34140,254560,65968,95976,5329040,7889300,10066364,5721004,29005708
1,2,Aragón,2257748,2337012,16420,4852,19048,56884,14292,50548,3830992,15676,86312,89092,18628,61128,632,87656,17924,4520,21072,166692,9272,23120,677896,1516724,1391740,1008400,4594760
2,3,"Asturias, Principado de",1703944,1898752,17804,2264,4812,27380,18996,18680,3280668,9356,14500,51244,5660,53372,920,15244,6948,4756,18116,22772,3412,25792,556792,1210520,1035988,799396,3602696
3,4,"Balears, Illes",2017116,2049688,109768,27656,19624,92660,27096,62752,2939664,33368,107764,114968,43276,245684,2108,54416,19192,72096,20548,41612,8608,23944,551496,1146044,1295332,1073932,4066804
4,5,Canarias,3773072,3902360,71592,15352,34976,136776,181500,26268,5980416,27628,100384,98672,51412,429960,1232,61376,17872,113688,18760,29468,6412,271688,1403748,2200628,2267688,1803368,7675432


Vamos a generar categorías que serán encabezados del DataFrame

In [207]:
# Crear una lista de categorías para las columnas del DataFrame
categorias = (
    ['Comunidades y ciudades autónomas'] * 2 +  # Código comunidad, Nombre comunidad
    ['Sexo'] * 2 +  # Hombres, Mujeres
    ['País de nacimiento'] * 20 +  # Países de nacimiento
    ['Nivel educativo'] * 4 +  # Niveles educativos
    ['Población mayor de 15 años']  # Total
)

# Asignar las categorías a las columnas del DataFrame
df_nivel_educativo_comunidades.columns = pd.MultiIndex.from_tuples(zip(categorias, df_nivel_educativo_comunidades.columns))
df_nivel_educativo_comunidades.head()



Unnamed: 0_level_0,Comunidades y ciudades autónomas,Comunidades y ciudades autónomas,Sexo,Sexo,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,Nivel educativo,Nivel educativo,Nivel educativo,Nivel educativo,Población mayor de 15 años
Unnamed: 0_level_1,Código comunidad,Nombre comunidad,Hombres,Mujeres,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Ucrania,Venezuela,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,1,Andalucía,14191520,14814188,179896,68788,70360,168684,44220,95272,25504212,109364,694492,309596,97952,608596,5084,204624,53628,340296,34140,254560,65968,95976,5329040,7889300,10066364,5721004,29005708
1,2,Aragón,2257748,2337012,16420,4852,19048,56884,14292,50548,3830992,15676,86312,89092,18628,61128,632,87656,17924,4520,21072,166692,9272,23120,677896,1516724,1391740,1008400,4594760
2,3,"Asturias, Principado de",1703944,1898752,17804,2264,4812,27380,18996,18680,3280668,9356,14500,51244,5660,53372,920,15244,6948,4756,18116,22772,3412,25792,556792,1210520,1035988,799396,3602696
3,4,"Balears, Illes",2017116,2049688,109768,27656,19624,92660,27096,62752,2939664,33368,107764,114968,43276,245684,2108,54416,19192,72096,20548,41612,8608,23944,551496,1146044,1295332,1073932,4066804
4,5,Canarias,3773072,3902360,71592,15352,34976,136776,181500,26268,5980416,27628,100384,98672,51412,429960,1232,61376,17872,113688,18760,29468,6412,271688,1403748,2200628,2267688,1803368,7675432


In [208]:
df_nivel_educativo_comunidades.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19 entries, 0 to 18
Data columns (total 29 columns):
 #   Column                                                                                           Non-Null Count  Dtype 
---  ------                                                                                           --------------  ----- 
 0   (Comunidades y ciudades autónomas, Código comunidad)                                             19 non-null     int64 
 1   (Comunidades y ciudades autónomas, Nombre comunidad)                                             19 non-null     object
 2   (Sexo, Hombres)                                                                                  19 non-null     int64 
 3   (Sexo, Mujeres)                                                                                  19 non-null     int64 
 4   (País de nacimiento, Argentina)                                                                  19 non-null     int64 
 5   (País de nacimien

In [209]:
# Guardamos el DataFrame en un archivo CSV
df_nivel_educativo_comunidades.to_csv("datos_limpiados/comunidades/nivel_educativo_comunidades_limpio.csv", index=False)

## Limpiamos el dataframe con la información del nivel educativo a nivel nacional

In [210]:
df_nivel_educativo_nacional = pd.read_csv("datos/ine/nivel_educativo_nacional.csv", encoding= 'latin-1', sep=';')

In [211]:
df_nivel_educativo_nacional.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,Total Nacional,,,Total,Total,Total,2022,40.899.207
1,Total Nacional,,,Total,Total,Hombres,2022,19.897.392
2,Total Nacional,,,Total,Total,Mujeres,2022,21.001.815
3,Total Nacional,,,Total,Educación primaria e inferior,Total,2022,6.545.911
4,Total Nacional,,,Total,Educación primaria e inferior,Hombres,2022,2.747.314


In [212]:
df_nivel_educativo_nacional.sample(20)

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
159,Total Nacional,,,República Dominicana,Segunda etapa de educación secundaria y educac...,Total,2022,56.357
12,Total Nacional,,,Total,Educación superior,Total,2022,13.149.124
271,Total Nacional,,,China,Total,Hombres,2022,83.772
207,Total Nacional,,,Colombia,Educación superior,Total,2022,138.227
231,Total Nacional,,,Perú,Primera etapa de educación secundaria y similar,Total,2022,48.049
177,Total Nacional,,,Argentina,Educación superior,Total,2022,131.600
80,Total Nacional,,,Ucrania,Educación primaria e inferior,Mujeres,2022,14.320
21,Total Nacional,,,España,Primera etapa de educación secundaria y similar,Total,2022,10.639.121
151,Total Nacional,,,República Dominicana,Total,Hombres,2022,71.998
270,Total Nacional,,,China,Total,Total,2022,180.511


En primer lugar eliminamos las columnas "Comunidades y Ciudades Autónomas" y "Provincias" que están vacías

In [213]:
# Eliminamos las columnas 'Provincias' y 'Comunidades y Ciudades Autónomas'
df_nivel_educativo_nacional.drop(columns=['Comunidades y Ciudades Autónomas', 'Provincias'], inplace=True)

# Mostrar las primeras filas del DataFrame actualizado
df_nivel_educativo_nacional.head()


Unnamed: 0,Total Nacional,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,Total Nacional,Total,Total,Total,2022,40.899.207
1,Total Nacional,Total,Total,Hombres,2022,19.897.392
2,Total Nacional,Total,Total,Mujeres,2022,21.001.815
3,Total Nacional,Total,Educación primaria e inferior,Total,2022,6.545.911
4,Total Nacional,Total,Educación primaria e inferior,Hombres,2022,2.747.314


Formateamos la columna 'Total'

In [214]:
# Convertimos la columna "Total" a int64
df_nivel_educativo_nacional['Total'] = df_nivel_educativo_nacional['Total'].str.replace('.', '').astype('int64')
df_nivel_educativo_nacional.head()

Unnamed: 0,Total Nacional,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,Total Nacional,Total,Total,Total,2022,40899207
1,Total Nacional,Total,Total,Hombres,2022,19897392
2,Total Nacional,Total,Total,Mujeres,2022,21001815
3,Total Nacional,Total,Educación primaria e inferior,Total,2022,6545911
4,Total Nacional,Total,Educación primaria e inferior,Hombres,2022,2747314


Renombraos la columna "Total Nacional" a País, y asignamos a sus filas el valor España. De esta manea a parte de hacer más legible la columna favorecemos una posible ampliación de datos para incorporar los de otros países.

In [215]:
# Renombrar la columna "Total Nacional" a "País"
df_nivel_educativo_nacional.rename(columns={"Total Nacional": "Nombre del país"}, inplace=True)

# Asignar el valor "España" a todas las filas en la columna "País"
df_nivel_educativo_nacional["Nombre del país"] = "España"

# Mostrar las primeras filas para verificar los cambios
df_nivel_educativo_nacional.head()


Unnamed: 0,Nombre del país,País de nacimiento,Nivel de formación alcanzado,Sexo,Periodo,Total
0,España,Total,Total,Total,2022,40899207
1,España,Total,Total,Hombres,2022,19897392
2,España,Total,Total,Mujeres,2022,21001815
3,España,Total,Educación primaria e inferior,Total,2022,6545911
4,España,Total,Educación primaria e inferior,Hombres,2022,2747314


Pivotamos las columnas "País de nacimiento", "Nivel de formación alcanzado" y "Sexo" para tener toda la información a nivel nacional en una sola fila. Dejamos fuera la columna Periodo, pues es siempre el 2022 y por tanto no aporta información relevante.

In [216]:
# Pivotamos la columna "País de nacimiento" para que sus valores únicos sean columnas
df_nivel_educativo_pivotado_pais = df_nivel_educativo_nacional.pivot_table(
    index=['Nombre del país'],
    columns='País de nacimiento',
    values='Total',
    aggfunc='sum'
).reset_index()

# Mostramos las primeras filas del DataFrame pivotado
df_nivel_educativo_pivotado_pais.head()

País de nacimiento,Nombre del país,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Total,Ucrania,Venezuela
0,España,1245180,701868,722044,2123816,678776,1642368,135390128,808136,3601748,3052212,1182364,3975804,31868,1445768,997400,1124284,719432,2123684,163596828,424240,1605708


In [217]:
# Pivotamos la columna "Nivel de formación alcanzado" para que sus valores únicos sean columnas
df_nivel_educativo_pivotado_nivel = df_nivel_educativo_nacional.pivot_table(
    index=['Nombre del país'],
    columns='Nivel de formación alcanzado',
    values='Total',
    aggfunc='sum'
).reset_index()

# Mostramos las primeras filas del DataFrame pivotado
df_nivel_educativo_pivotado_nivel.head()

Nivel de formación alcanzado,Nombre del país,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,España,26183644,52596496,49384308,35432380,163596828


In [218]:
# Pivotamos la columna "Sexo" para que sus valores únicos sean columnas
df_nivel_educativo_pivotado_sexo = df_nivel_educativo_nacional.pivot_table(
    index=['Nombre del país'],
    columns='Sexo',
    values='Total',
    aggfunc='sum'
).reset_index()

# Mostramos las primeras filas del DataFrame pivotado
df_nivel_educativo_pivotado_sexo.head()

Sexo,Nombre del país,Hombres,Mujeres,Total
0,España,79589568,84007260,163596828


In [219]:
 # Concatenamos los tres DataFrames generados con outer join
df_concatenado = pd.merge(
    pd.merge(
        df_nivel_educativo_pivotado_pais, 
        df_nivel_educativo_pivotado_nivel, 
        on=['Nombre del país'], 
        how='outer'
    ), 
    df_nivel_educativo_pivotado_sexo, 
    on=['Nombre del país'], 
    how='outer'
)

# Mostramos las primeras filas del DataFrame concatenado
df_concatenado.head()

Unnamed: 0,Nombre del país,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Total_x,Ucrania,Venezuela,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total_y,Hombres,Mujeres,Total
0,España,1245180,701868,722044,2123816,678776,1642368,135390128,808136,3601748,3052212,1182364,3975804,31868,1445768,997400,1124284,719432,2123684,163596828,424240,1605708,26183644,52596496,49384308,35432380,163596828,79589568,84007260,163596828


Eliminamos las columnas "Total_X" y "Total_y" del Dataframe pues son duplicados de la columa "Total"

In [220]:
# Eliminar las columnas Total_x y Total_y del DataFrame
df_concatenado = df_concatenado.drop(columns=['Total_x', 'Total_y'])

df_concatenado.head()

Unnamed: 0,Nombre del país,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Ucrania,Venezuela,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Hombres,Mujeres,Total
0,España,1245180,701868,722044,2123816,678776,1642368,135390128,808136,3601748,3052212,1182364,3975804,31868,1445768,997400,1124284,719432,2123684,424240,1605708,26183644,52596496,49384308,35432380,79589568,84007260,163596828


In [221]:
#Renombramos el dataframe para mayor claridad
df_nivel_educativo_nacional=df_concatenado
df_nivel_educativo_nacional.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1 entries, 0 to 0
Data columns (total 28 columns):
 #   Column                                                                        Non-Null Count  Dtype 
---  ------                                                                        --------------  ----- 
 0   Nombre del país                                                               1 non-null      object
 1   Argentina                                                                     1 non-null      int64 
 2   Bolivia                                                                       1 non-null      int64 
 3   China                                                                         1 non-null      int64 
 4   Colombia                                                                      1 non-null      int64 
 5   Cuba                                                                          1 non-null      int64 
 6   Ecuador                                       

Generamos una columna de código de país. En el presente análisis solo se incluyen datos de España, pero es util incluir esta columna de cara a una posible inclusión futura de otros páises

In [222]:
df_nivel_educativo_nacional["Código país"] = range(1, len(df_nivel_educativo_nacional) + 1)

# Mostrar las primeras filas para verificar los cambios
df_nivel_educativo_nacional.head()

Unnamed: 0,Nombre del país,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Ucrania,Venezuela,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Hombres,Mujeres,Total,Código país
0,España,1245180,701868,722044,2123816,678776,1642368,135390128,808136,3601748,3052212,1182364,3975804,31868,1445768,997400,1124284,719432,2123684,424240,1605708,26183644,52596496,49384308,35432380,79589568,84007260,163596828,1


Vamosa reordenar las columnas para que "Codigo país" sea la primera columna y "Hombres" y "Mujeres vayan después de "Nombre del País"

In [223]:
# Reordenar las columnas
columnas_reordenadas = (
    ['Código país', 'Nombre del país', 'Hombres', 'Mujeres'] +
    [col for col in df_nivel_educativo_nacional.columns if col not in ['Código país', 'Nombre del país', 'Hombres', 'Mujeres']]
)

df_nivel_educativo_nacional = df_nivel_educativo_nacional[columnas_reordenadas]

# Mostrar las primeras filas del DataFrame reordenado
df_nivel_educativo_nacional.head()


Unnamed: 0,Código país,Nombre del país,Hombres,Mujeres,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Ucrania,Venezuela,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,1,España,79589568,84007260,1245180,701868,722044,2123816,678776,1642368,135390128,808136,3601748,3052212,1182364,3975804,31868,1445768,997400,1124284,719432,2123684,424240,1605708,26183644,52596496,49384308,35432380,163596828


Generamos encabezados para el DataFrame

In [224]:
# Crear una lista de categorías para las columnas del DataFrame
categorias = (
    ['Países'] * 2 +  # Código país, Nombre país
    ['Sexo'] * 2 +  # Hombres, Mujeres
    ['País de nacimiento'] * 20 +  # Países de nacimiento
    ['Nivel educativo'] * 4 +  # Niveles educativos
    ['Población mayor de 15 años']  # Total
)

# Asignar las categorías a las columnas del DataFrame
df_nivel_educativo_nacional.columns = pd.MultiIndex.from_tuples(zip(categorias, df_nivel_educativo_nacional.columns))
df_nivel_educativo_nacional.head()



Unnamed: 0_level_0,Países,Países,Sexo,Sexo,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,País de nacimiento,Nivel educativo,Nivel educativo,Nivel educativo,Nivel educativo,Población mayor de 15 años
Unnamed: 0_level_1,Código país,Nombre del país,Hombres,Mujeres,Argentina,Bolivia,China,Colombia,Cuba,Ecuador,España,Francia,Marruecos,Otros países de América,Otros países de Asia,Otros países de Europa,Otros países de Oceanía,Otros países de África,Perú,Reino Unido,República Dominicana,Rumanía,Ucrania,Venezuela,Educación primaria e inferior,Educación superior,Primera etapa de educación secundaria y similar,Segunda etapa de educación secundaria y educación postsecundaria no superior,Total
0,1,España,79589568,84007260,1245180,701868,722044,2123816,678776,1642368,135390128,808136,3601748,3052212,1182364,3975804,31868,1445768,997400,1124284,719432,2123684,424240,1605708,26183644,52596496,49384308,35432380,163596828


In [225]:
# Guardamos el DataFrame en un archivo CSV
df_nivel_educativo_nacional.to_csv("datos_limpiados/nacionales/nivel_educativo_nacional_limpio.csv", index=False)