In [197]:
# Para trabajar con regex
# -----------------------------------------------------------------------
import re

# Para trabajar con ficheros
# -----------------------------------------------------------------------
import os


# Para trabajar con los DataFrames
# -----------------------------------------------------------------------
import pandas as pd

# Para poner barras progreso
# -----------------------------------------------------------------------
from tqdm import tqdm



# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Ignorar warings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

# Librerias para generar gráficas
# ----------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns


En este notebook se limpian los archivos de nivel educativivo alcanzado extraidos del INE. Por un lado se tratan los municipios (grandes y pequeños) y por otro las provincias, comunidades y total de país, pues provienen de archivos distintos.

## Limpiamos y concatenamos los dataframes de nivel educativo de municipios pequeños (de 50 a 500 habitantes) y grandes (más de 500 habitantes)

In [198]:
df_nivel_educativo_municipios_pequenios = pd.read_csv("datos/ine/nivel_educativo_municipios_pequenios.csv",sep=';')

In [199]:
df_nivel_educativo_municipios_pequenios.head()

Unnamed: 0,Municipios,Sexo,Nivel de estudios,Periodo,Total
0,01006 Armiñón,Total,Total,2022,205
1,01006 Armiñón,Total,Total,2021,198
2,01006 Armiñón,Total,Educación primaria e inferior,2022,18
3,01006 Armiñón,Total,Educación primaria e inferior,2021,17
4,01006 Armiñón,Total,Primera etapa de educación secundaria y similar,2022,55


In [200]:
df_nivel_educativo_municipios_grandes = pd.read_csv("datos/ine/nivel_educativo_municipios_grandes.csv",sep=';')

In [201]:
df_nivel_educativo_municipios_grandes.head(20)

Unnamed: 0,Municipios,Sexo,País de nacimiento,Nivel de estudios,Periodo,Total
0,01001 Alegría-Dulantzi,Total,Total,Total,2022,2.428
1,01001 Alegría-Dulantzi,Total,Total,Total,2021,2.369
2,01001 Alegría-Dulantzi,Total,Total,Sin estudios,2022,75.0
3,01001 Alegría-Dulantzi,Total,Total,Sin estudios,2021,76.0
4,01001 Alegría-Dulantzi,Total,Total,Educación primaria,2022,202.0
5,01001 Alegría-Dulantzi,Total,Total,Educación primaria,2021,191.0
6,01001 Alegría-Dulantzi,Total,Total,Primera etapa de educación secundaria y similar,2022,617.0
7,01001 Alegría-Dulantzi,Total,Total,Primera etapa de educación secundaria y similar,2021,599.0
8,01001 Alegría-Dulantzi,Total,Total,"Segunda etapa de educación secundaria, con ori...",2022,232.0
9,01001 Alegría-Dulantzi,Total,Total,"Segunda etapa de educación secundaria, con ori...",2021,236.0


In [202]:
df_nivel_educativo_municipios_grandes.sample(20)

Unnamed: 0,Municipios,Sexo,País de nacimiento,Nivel de estudios,Periodo,Total
210218,13010 Alhambra,Mujeres,Total,"Segunda etapa de educación secundaria, con ori...",2022,22.0
714409,45163 Sonseca,Total,Extranjera,Sin estudios,2021,137.0
368918,22907 Aínsa-Sobrarbe,Total,España,Total,2022,1.433
497457,29098 Villanueva de Tapia,Hombres,Total,Grados universitarios de hasta 240 créditos EC...,2021,33.0
154301,09131 Fresnillo de las Dueñas,Total,España,Grados universitarios de hasta 240 créditos EC...,2021,59.0
651365,41085 Salteras,Mujeres,Total,Segunda etapa de educación secundaria con orie...,2021,281.0
408409,24228 Villazala,Mujeres,Total,Total,2021,284.0
421733,"25158 Palau d'Anglesola, El",Mujeres,España,Grados universitarios de hasta 240 créditos EC...,2021,114.0
549774,33007 Boal,Hombres,España,Grados universitarios de más de 240 créditos E...,2022,17.0
441530,27017 Folgoso do Courel,Mujeres,España,"Enseñanzas de formación profesional, artes plá...",2022,35.0


In [203]:
df_nivel_estudios_en_curso_por_lugar = pd.read_csv("datos/ine/nivel_estudios_en_curso_por_lugar.csv",sep=';')

In [204]:
df_nivel_estudios_en_curso_por_lugar.sample(20)

Unnamed: 0,Capitales y grandes ciudades,Sexo,Relación entre lugar de residencia y lugar de estudios,Nacionalidad,Nivel de estudios en curso,Periodo,Total
34414,08266 Cerdanyola del Vallès,Total,Distinto municipio de la misma provincia,Extranjera,Cursa estudios pero no hay información sobre l...,2022,1.0
20529,08019 Barcelona,Hombres,Total,Extranjera,Total,2021,151.893
53251,"15030 Coruña, A",Mujeres,Distinta provincia de la misma comunidad,Española,Educación primaria e inferior,2021,0.0
92485,28134 San Sebastián de los Reyes,Mujeres,Mismo municipio al de residencia,Extranjera,Primera etapa de Educación Secundaria y similar,2021,44.0
75560,28013 Aranjuez,Mujeres,No cursa estudios,Total,"Segunda etapa de Educación Secundaria, con ori...",2022,0.0
32523,08205 Sant Cugat del Vallès,Total,Cursa estudios pero no hay información sobre e...,Española,Educación superior,2021,691.0
88038,28113 Pinto,Hombres,Total,Total,"Segunda etapa de educación secundaria, con ori...",2022,758.0
140313,46190 Paterna,Total,Distinta comunidad,Total,"Segunda etapa de Educación Secundaria, con ori...",2021,24.0
118954,36038 Pontevedra,Total,Total,Total,Educación superior,2022,4.192
19754,08015 Badalona,Hombres,Cursa estudios pero no hay información sobre e...,Española,Educación superior,2022,325.0


In [205]:
df_nivel_educativo_municipios_pequenios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102570 entries, 0 to 102569
Data columns (total 5 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   Municipios         102570 non-null  object
 1   Sexo               102570 non-null  object
 2   Nivel de estudios  102570 non-null  object
 3   Periodo            102570 non-null  int64 
 4   Total              102570 non-null  int64 
dtypes: int64(2), object(3)
memory usage: 3.9+ MB


In [206]:
df_nivel_educativo_municipios_grandes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 820512 entries, 0 to 820511
Data columns (total 6 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Municipios          820512 non-null  object
 1   Sexo                820512 non-null  object
 2   País de nacimiento  820512 non-null  object
 3   Nivel de estudios   820512 non-null  object
 4   Periodo             820512 non-null  int64 
 5   Total               820512 non-null  object
dtypes: int64(1), object(5)
memory usage: 37.6+ MB


Formateamos la columna "Total"

In [207]:
# Eliminar caracteres no numéricos y convertir la columna 'Total' a entero
df_nivel_educativo_municipios_grandes['Total'] = (
    df_nivel_educativo_municipios_grandes['Total']
    .astype(str)  # Convertir a string para realizar operaciones
    .str.replace(r'[^\d]', '', regex=True)  # Eliminar caracteres no numéricos
    .astype(int)  # Convertir a entero
)

# Confirmar el cambio mostrando las primeras filas
df_nivel_educativo_municipios_grandes.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 820512 entries, 0 to 820511
Data columns (total 6 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Municipios          820512 non-null  object
 1   Sexo                820512 non-null  object
 2   País de nacimiento  820512 non-null  object
 3   Nivel de estudios   820512 non-null  object
 4   Periodo             820512 non-null  int64 
 5   Total               820512 non-null  int64 
dtypes: int64(2), object(4)
memory usage: 37.6+ MB


Queremos juntar los datos de nivel educativo alcanzado en un solo dataframe. 

In [208]:
unique_grandes = df_nivel_educativo_municipios_grandes["Nivel de estudios"].unique()
unique_pequenios = df_nivel_educativo_municipios_pequenios["Nivel de estudios"].unique()

unique_grandes, unique_pequenios

(array(['Total', 'Sin estudios', 'Educación primaria',
        'Primera etapa de educación secundaria y similar',
        'Segunda etapa de educación secundaria, con orientación general',
        'Segunda etapa de educación secundaria con orientación profesional, Educación postsecundaria no superior',
        'Enseñanzas de formación profesional, artes plásticas y diseño y deportivas de grado superior y equivalentes',
        'Grados universitarios de hasta 240 créditos ECTS, diplomados universitarios y equivalentes',
        'Grados universitarios de más de 240 créditos ECTS, licenciados y equivalentes',
        'Másteres, especialidades en Ciencias de la Salud por el sistema de residencia y similares',
        'Doctorado universitario'], dtype=object),
 array(['Total', 'Educación primaria e inferior',
        'Primera etapa de educación secundaria y similar',
        'Segunda etapa de educación secundaria y educación postsecundaria no superior',
        'Educación superior'], dtype=o

Observamos que la columna "Nivel de estudios" toma distintos valores en ambos dataframes, pero podemos hacer un mapeo, mediante un diccionario que permita asignar los mismos valores a dicha columna para ambos dataframes.

In [209]:
def reasignar_nivel_estudios(df, columna):
    """
    Reasigna los valores de una columna específica en un DataFrame 
    según un diccionario de mapeo predefinido.

    Args:
    df (pd.DataFrame): DataFrame que contiene la columna a modificar.
    columna (str): Nombre de la columna cuyos valores serán reasignados.

    Returns:
    pd.DataFrame: DataFrame con los valores de la columna reasignados.
    """
    # Crear un diccionario de mapeo para reasignar los valores
    mapeo_nivel_estudios = {
        'Total': 'Total',
        'Sin estudios': 'Educación primaria e inferior',
        'Educación primaria': 'Educación primaria e inferior',
        'Primera etapa de educación secundaria y similar': 'Primera etapa de educación secundaria y similar',
        'Segunda etapa de educación secundaria, con orientación general': 'Segunda etapa de educación secundaria y educación postsecundaria no superior',
        'Segunda etapa de educación secundaria con orientación profesional, Educación postsecundaria no superior': 'Segunda etapa de educación secundaria y educación postsecundaria no superior',
        'Enseñanzas de formación profesional, artes plásticas y diseño y deportivas de grado superior y equivalentes': 'Educación superior',
        'Grados universitarios de hasta 240 créditos ECTS, diplomados universitarios y equivalentes': 'Educación superior',
        'Grados universitarios de más de 240 créditos ECTS, licenciados y equivalentes': 'Educación superior',
        'Másteres, especialidades en Ciencias de la Salud por el sistema de residencia y similares': 'Educación superior',
        'Doctorado universitario': 'Educación superior'
    }

    # Reasignar los valores en la columna especificada
    df[columna] = df[columna].replace(mapeo_nivel_estudios)
    
    return df




In [210]:
df_nivel_educativo_municipios_grandes = reasignar_nivel_estudios(
    df_nivel_educativo_municipios_grandes, 'Nivel de estudios'
)

In [211]:
df_nivel_educativo_municipios_grandes['Nivel de estudios'].unique()

array(['Total', 'Educación primaria e inferior',
       'Primera etapa de educación secundaria y similar',
       'Segunda etapa de educación secundaria y educación postsecundaria no superior',
       'Educación superior'], dtype=object)

In [212]:
df_nivel_educativo_municipios_pequenios['Nivel de estudios'].unique()

array(['Total', 'Educación primaria e inferior',
       'Primera etapa de educación secundaria y similar',
       'Segunda etapa de educación secundaria y educación postsecundaria no superior',
       'Educación superior'], dtype=object)

Al mapear el nivel de estudios de los municipios pequeños en los grandes, se han generado filas con todos las celdas iguales excepto la de 'Total' en el dataframe de municipios grandes, las agrupamos sumando los totales.

In [213]:
# Agrupar por todas las columnas excepto "Total" y sumar los valores de "Total"
columnas_agrupacion = [col for col in df_nivel_educativo_municipios_grandes.columns if col != "Total"]
df_nivel_educativo_municipios_grandes = df_nivel_educativo_municipios_grandes.groupby(columnas_agrupacion, as_index=False)["Total"].sum()

# Mostrar las primeras filas del DataFrame actualizado
df_nivel_educativo_municipios_grandes.head()
 


Unnamed: 0,Municipios,Sexo,País de nacimiento,Nivel de estudios,Periodo,Total
0,01001 Alegría-Dulantzi,Hombres,España,Educación primaria e inferior,2021,76
1,01001 Alegría-Dulantzi,Hombres,España,Educación primaria e inferior,2022,76
2,01001 Alegría-Dulantzi,Hombres,España,Educación superior,2021,455
3,01001 Alegría-Dulantzi,Hombres,España,Educación superior,2022,470
4,01001 Alegría-Dulantzi,Hombres,España,Primera etapa de educación secundaria y similar,2021,263


En el dataframe de nivel de estudios para muncipios pequeños vamos a añadir la columna "País de nacimiento" con el valor "Desconocido"

In [214]:
# Creamos una columna 'País de nacimiento' en el DataFrame de municipios pequeños
df_nivel_educativo_municipios_pequenios['País de nacimiento'] = "Desconocido"

In [215]:
df_nivel_educativo_municipios_pequenios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102570 entries, 0 to 102569
Data columns (total 6 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Municipios          102570 non-null  object
 1   Sexo                102570 non-null  object
 2   Nivel de estudios   102570 non-null  object
 3   Periodo             102570 non-null  int64 
 4   Total               102570 non-null  int64 
 5   País de nacimiento  102570 non-null  object
dtypes: int64(2), object(4)
memory usage: 4.7+ MB


In [216]:
df_nivel_educativo_municipios_grandes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 372960 entries, 0 to 372959
Data columns (total 6 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Municipios          372960 non-null  object
 1   Sexo                372960 non-null  object
 2   País de nacimiento  372960 non-null  object
 3   Nivel de estudios   372960 non-null  object
 4   Periodo             372960 non-null  int64 
 5   Total               372960 non-null  int64 
dtypes: int64(2), object(4)
memory usage: 17.1+ MB


Concatenamos ambos dataframes en uno que agrupe a todos los municipios

In [217]:
# Concatenar los DataFrames
df_nivel_educativo_municipios = pd.concat([df_nivel_educativo_municipios_grandes, df_nivel_educativo_municipios_pequenios], ignore_index=True)

In [218]:
df_nivel_educativo_municipios.sample(20)

Unnamed: 0,Municipios,Sexo,País de nacimiento,Nivel de estudios,Periodo,Total
219361,29008 Alhaurín el Grande,Mujeres,España,Educación primaria e inferior,2022,1698
166358,22197 Robres,Mujeres,España,Total,2021,2100
312444,44086 Cretas,Mujeres,Total,Primera etapa de educación secundaria y similar,2021,920
339595,46155 Llaurí,Hombres,Total,Primera etapa de educación secundaria y similar,2022,2400
35751,06103 Puebla de la Calzada,Hombres,Total,Educación primaria e inferior,2022,429
249943,33008 Cabrales,Hombres,Extranjera,Educación superior,2022,380
348829,47050 Cigales,Total,Extranjera,Total,2022,4010
78866,10110 Losar de la Vera,Hombres,Total,Segunda etapa de educación secundaria y educac...,2021,2000
474961,50278 Velilla de Ebro,Total,Desconocido,Total,2021,182
55198,08124 Mollet del Vallès,Hombres,Total,Total,2021,21261


In [219]:
df_nivel_educativo_municipios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 475530 entries, 0 to 475529
Data columns (total 6 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Municipios          475530 non-null  object
 1   Sexo                475530 non-null  object
 2   País de nacimiento  475530 non-null  object
 3   Nivel de estudios   475530 non-null  object
 4   Periodo             475530 non-null  int64 
 5   Total               475530 non-null  int64 
dtypes: int64(2), object(4)
memory usage: 21.8+ MB


Los datos recogidos en el dataframe son de los años 2021 y 2022. Nos quedamos solos con los de 2022 que es el año objeto de nuestro estudio y eliminamos la columna pues nos quedamos con todos los datos de un mismo año

In [220]:
# Filtrar el DataFrame para conservar solo las filas donde "Periodo" es 2022
df_nivel_educativo_municipios = df_nivel_educativo_municipios[df_nivel_educativo_municipios['Periodo'] == 2022]
df_nivel_educativo_municipios.reset_index(drop=True, inplace=True)
# Eliminar la columna periodo
df_nivel_educativo_municipios.drop(columns=['Periodo'], inplace=True)

In [221]:
df_nivel_educativo_municipios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 237765 entries, 0 to 237764
Data columns (total 5 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Municipios          237765 non-null  object
 1   Sexo                237765 non-null  object
 2   País de nacimiento  237765 non-null  object
 3   Nivel de estudios   237765 non-null  object
 4   Total               237765 non-null  int64 
dtypes: int64(1), object(4)
memory usage: 9.1+ MB


In [222]:
df_nivel_educativo_municipios.sample(20)

Unnamed: 0,Municipios,Sexo,País de nacimiento,Nivel de estudios,Total
122807,32050 Monterrei,Hombres,España,Primera etapa de educación secundaria y similar,4680
160474,45109 Navahermosa,Hombres,España,Total,1464
192533,09060 Busto de Bureba,Hombres,Desconocido,Segunda etapa de educación secundaria y educac...,22
206220,"22115 Grado, El",Total,Desconocido,Total,374
16145,06057 Garlitos,Total,Extranjera,Educación primaria e inferior,1
224958,"42211 Villares de Soria, Los",Total,Desconocido,Segunda etapa de educación secundaria y educac...,11
228071,44251 Villafranca del Campo,Mujeres,Desconocido,Educación primaria e inferior,42
22027,07042 Pollença,Mujeres,Extranjera,Primera etapa de educación secundaria y similar,472
120192,31254 Villafranca,Total,Total,Primera etapa de educación secundaria y similar,115
209942,25150 Oliola,Total,Desconocido,Primera etapa de educación secundaria y similar,45


Procesamos el dataframe con la información de nivel educativo municipal para limpiarlo y dejarlo listo para el analisis.

In [223]:
def procesar_informacion_municipios(df):
    """
    Realiza el procesamiento de un Dataframe con información a nivel municipal, extraida del INE,
    aplicando las siguientes transformaciones:
    1. Separa los códigos y nombres de comunidades y provincias en columnas distintas.
    2. Convierte las columnas 'Código comunidad' y 'Código provincia' a tipo int64.
    3. Reordena las columnas colocando los códigos y nombres de comunidades y provincias al inicio.
        
    Parámetros:
        df (pd.DataFrame): DataFrame con la información de nivel educativo por provincias.
    
    Retorna:
        pd.DataFrame: DataFrame transformado con las modificaciones aplicadas.
    """
        
    # 1. Separar código y nombre de los municipios         
    if 'Municipios' in df.columns:
        df[['Código municipio', 'Nombre municipio']] = df['Municipios'].str.split(pat=' ', n=1, expand=True)
        df.drop(columns=['Municipios'], inplace=True)
        
    # 2. Convertir la columna 'Código municipio' a tipo int64 si existe
    if 'Código municipio' in df.columns:
        df['Código municipio'] = df['Código municipio'].astype('int64')
    
    # 3. Reordenar las columnas para que los códigos y nombres aparezcan primero
    columnas_prioritarias = ['Código municipio', 'Nombre municipio']
    columnas_ordenadas = columnas_prioritarias + [col for col in df.columns if col not in columnas_prioritarias]
    df = df[columnas_ordenadas]
        
    return df

# Aplicar la función al DataFrame
df_nivel_educativo_municipios = procesar_informacion_municipios(df_nivel_educativo_municipios)

# Mostrar información y primeras filas del DataFrame actualizado
print(df_nivel_educativo_municipios.info())
df_nivel_educativo_municipios.head(50)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 237765 entries, 0 to 237764
Data columns (total 6 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Código municipio    237765 non-null  int64 
 1   Nombre municipio    237765 non-null  object
 2   Sexo                237765 non-null  object
 3   País de nacimiento  237765 non-null  object
 4   Nivel de estudios   237765 non-null  object
 5   Total               237765 non-null  int64 
dtypes: int64(2), object(4)
memory usage: 10.9+ MB
None


Unnamed: 0,Código municipio,Nombre municipio,Sexo,País de nacimiento,Nivel de estudios,Total
0,1001,Alegría-Dulantzi,Hombres,España,Educación primaria e inferior,76
1,1001,Alegría-Dulantzi,Hombres,España,Educación superior,470
2,1001,Alegría-Dulantzi,Hombres,España,Primera etapa de educación secundaria y similar,253
3,1001,Alegría-Dulantzi,Hombres,España,Segunda etapa de educación secundaria y educac...,230
4,1001,Alegría-Dulantzi,Hombres,España,Total,1029
5,1001,Alegría-Dulantzi,Hombres,Extranjera,Educación primaria e inferior,44
6,1001,Alegría-Dulantzi,Hombres,Extranjera,Educación superior,41
7,1001,Alegría-Dulantzi,Hombres,Extranjera,Primera etapa de educación secundaria y similar,81
8,1001,Alegría-Dulantzi,Hombres,Extranjera,Segunda etapa de educación secundaria y educac...,51
9,1001,Alegría-Dulantzi,Hombres,Extranjera,Total,217


In [224]:
df_nivel_educativo_municipios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 237765 entries, 0 to 237764
Data columns (total 6 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Código municipio    237765 non-null  int64 
 1   Nombre municipio    237765 non-null  object
 2   Sexo                237765 non-null  object
 3   País de nacimiento  237765 non-null  object
 4   Nivel de estudios   237765 non-null  object
 5   Total               237765 non-null  int64 
dtypes: int64(2), object(4)
memory usage: 10.9+ MB


In [225]:
df_nivel_educativo_municipios.to_csv("datos_limpiados/municipios/nivel_educativo_municipios_limpio.csv", index=False)

## Procesamos ahora el archivo que contiene la información provincial, autonómica y nacional del nivel educativo alcanzado.

In [226]:
df_nivel_educativo = pd.read_csv("datos/ine/nivel_educativo.csv", encoding= 'latin-1', sep=';')

In [227]:
df_nivel_educativo.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Lugar de nacimiento,Nivel de formación alcanzado,Edad,Sexo,Periodo,Total
0,Total Nacional,,,España,Doctorado universitario,15 y más años,Hombres,2022,197.035
1,Total Nacional,,,España,Doctorado universitario,15 y más años,Mujeres,2022,168.651
2,Total Nacional,,,España,Doctorado universitario,15 y más años,Total,2022,365.686
3,Total Nacional,,,España,Educación primaria,15 y más años,Hombres,2022,1.500.259
4,Total Nacional,,,España,Educación primaria,15 y más años,Mujeres,2022,2.120.412


Eliminamos las columna "Edad" y "Periodo que no son relevantes para nuestro análisis

In [228]:
# Eliminar las columnas 'Edad'
df_nivel_educativo.drop(columns=['Edad','Periodo'], inplace=True)

# Mostrar las primeras filas del DataFrame actualizado
df_nivel_educativo.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Lugar de nacimiento,Nivel de formación alcanzado,Sexo,Total
0,Total Nacional,,,España,Doctorado universitario,Hombres,197.035
1,Total Nacional,,,España,Doctorado universitario,Mujeres,168.651
2,Total Nacional,,,España,Doctorado universitario,Total,365.686
3,Total Nacional,,,España,Educación primaria,Hombres,1.500.259
4,Total Nacional,,,España,Educación primaria,Mujeres,2.120.412


Formateamos la columna "Total"

In [229]:
# Convertimos la columna "Total" a int64
df_nivel_educativo['Total'] = df_nivel_educativo['Total'].str.replace('.', '').astype('int64')
df_nivel_educativo.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Lugar de nacimiento,Nivel de formación alcanzado,Sexo,Total
0,Total Nacional,,,España,Doctorado universitario,Hombres,197035
1,Total Nacional,,,España,Doctorado universitario,Mujeres,168651
2,Total Nacional,,,España,Doctorado universitario,Total,365686
3,Total Nacional,,,España,Educación primaria,Hombres,1500259
4,Total Nacional,,,España,Educación primaria,Mujeres,2120412


A partir del dataframe que estamos procesando vamos a crear 3, uno con la información nacional, otro con la información autonomica y otro con la información provincial.

In [230]:
def filtrar_dataframe_ine(df):
    """
    Filtra un DataFrame del ine en tres niveles: nacional, autonómico y provincial.

    Parámetros:
    df (pd.DataFrame): DataFrame que contiene las columnas 'Comunidades y Ciudades Autónomas' y 'Provincias'.

    Retorna:
    tuple: Tres DataFrames correspondientes a nivel nacional, autonómico y provincial.
    """
    # Nivel nacional: Filtramos donde "Comunidades y Ciudades Autónomas" sea NaN
    df_nacional = df[df['Comunidades y Ciudades Autónomas'].isna()].copy().reset_index(drop=True)

    # Nivel autonómico: Filtramos donde "Comunidades y Ciudades Autónomas" no sea NaN y "Provincias" sea NaN
    df_autonomico = df[df['Comunidades y Ciudades Autónomas'].notna() & df['Provincias'].isna()].copy().reset_index(drop=True)

    # Nivel provincial: Filtramos donde "Provincias" no sea NaN
    df_provincial = df[df['Provincias'].notna()].copy().reset_index(drop=True)

    return df_nacional, df_autonomico, df_provincial

# Lo aplicamos al DataFrame de nivel educativo:
df_nivel_educativo_nacional, df_nivel_educativo_comunidades, df_nivel_educativo_provincias = filtrar_dataframe_ine(df_nivel_educativo)




In [231]:
df_nivel_educativo_nacional.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Lugar de nacimiento,Nivel de formación alcanzado,Sexo,Total
0,Total Nacional,,,España,Doctorado universitario,Hombres,197035
1,Total Nacional,,,España,Doctorado universitario,Mujeres,168651
2,Total Nacional,,,España,Doctorado universitario,Total,365686
3,Total Nacional,,,España,Educación primaria,Hombres,1500259
4,Total Nacional,,,España,Educación primaria,Mujeres,2120412


In [232]:
df_nivel_educativo_comunidades.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Lugar de nacimiento,Nivel de formación alcanzado,Sexo,Total
0,Total Nacional,01 Andalucía,,España,Doctorado universitario,Hombres,30241
1,Total Nacional,01 Andalucía,,España,Doctorado universitario,Mujeres,23208
2,Total Nacional,01 Andalucía,,España,Doctorado universitario,Total,53449
3,Total Nacional,01 Andalucía,,España,Educación primaria,Hombres,290619
4,Total Nacional,01 Andalucía,,España,Educación primaria,Mujeres,360800


In [233]:
df_nivel_educativo_provincias.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Lugar de nacimiento,Nivel de formación alcanzado,Sexo,Total
0,Total Nacional,01 Andalucía,04 Almería,España,Doctorado universitario,Hombres,1673
1,Total Nacional,01 Andalucía,04 Almería,España,Doctorado universitario,Mujeres,1354
2,Total Nacional,01 Andalucía,04 Almería,España,Doctorado universitario,Total,3027
3,Total Nacional,01 Andalucía,04 Almería,España,Educación primaria,Hombres,28248
4,Total Nacional,01 Andalucía,04 Almería,España,Educación primaria,Mujeres,29773


## Limpiamos ahora  los datos de nivel educativo alcanzado por provincias.

In [234]:
df_nivel_educativo_provincias.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Lugar de nacimiento,Nivel de formación alcanzado,Sexo,Total
0,Total Nacional,01 Andalucía,04 Almería,España,Doctorado universitario,Hombres,1673
1,Total Nacional,01 Andalucía,04 Almería,España,Doctorado universitario,Mujeres,1354
2,Total Nacional,01 Andalucía,04 Almería,España,Doctorado universitario,Total,3027
3,Total Nacional,01 Andalucía,04 Almería,España,Educación primaria,Hombres,28248
4,Total Nacional,01 Andalucía,04 Almería,España,Educación primaria,Mujeres,29773


Procesamos el dataframe con la información provincial de nivel de educación

In [235]:
def procesar_informacion_provincias(df):
    """
    Realiza el procesamiento de un Dataframe con información a nivel provincial, extraida del INE,
    aplicando las siguientes transformaciones:
    1. Elimina la columna "Total Nacional".
    2. Separa los códigos y nombres de comunidades y provincias en columnas distintas.
    3. Convierte las columnas 'Código comunidad' y 'Código provincia' a tipo int64.
    4. Reordena las columnas colocando los códigos y nombres de comunidades y provincias al inicio.
        
    Parámetros:
        df (pd.DataFrame): DataFrame con la información de nivel educativo por provincias.
    
    Retorna:
        pd.DataFrame: DataFrame transformado con las modificaciones aplicadas.
    """
    df = df.copy()  # Crear una copia para no modificar el original
    
    # 1. Eliminar la columna "Total Nacional"
    if "Total Nacional" in df.columns:
        df.drop(columns=["Total Nacional"], inplace=True)
           
    # 2. Separar código y nombre de comunidad y provincia
    if 'Comunidades y Ciudades Autónomas' in df.columns and 'Provincias' in df.columns:
        df[['Código comunidad', 'Nombre comunidad']] = df['Comunidades y Ciudades Autónomas'].str.split(pat=' ', n=1, expand=True)
        df[['Código provincia', 'Nombre provincia']] = df['Provincias'].str.split(pat=' ', n=1, expand=True)
        df.drop(columns=['Comunidades y Ciudades Autónomas', 'Provincias'], inplace=True)

    # 3. Convertir las columnas 'Código comunidad' y 'Código provincia' a tipo int64 si existen
    for col in ['Código comunidad', 'Código provincia']:
        if col in df.columns:
            df[col] = df[col].astype('int64')
    
    # 4. Reordenar las columnas para que los códigos y nombres aparezcan primero
    columnas_prioritarias = ['Código comunidad', 'Nombre comunidad', 'Código provincia', 'Nombre provincia']
    columnas_ordenadas = columnas_prioritarias + [col for col in df.columns if col not in columnas_prioritarias]
    df = df[columnas_ordenadas]
        
    return df

# Aplicar la función al DataFrame
df_nivel_educativo_provincias = procesar_informacion_provincias(df_nivel_educativo_provincias)

# Mostrar información y primeras filas del DataFrame actualizado
print(df_nivel_educativo_provincias.info())
df_nivel_educativo_provincias.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5148 entries, 0 to 5147
Data columns (total 8 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Código comunidad              5148 non-null   int64 
 1   Nombre comunidad              5148 non-null   object
 2   Código provincia              5148 non-null   int64 
 3   Nombre provincia              5148 non-null   object
 4   Lugar de nacimiento           5148 non-null   object
 5   Nivel de formación alcanzado  5148 non-null   object
 6   Sexo                          5148 non-null   object
 7   Total                         5148 non-null   int64 
dtypes: int64(3), object(5)
memory usage: 321.9+ KB
None


Unnamed: 0,Código comunidad,Nombre comunidad,Código provincia,Nombre provincia,Lugar de nacimiento,Nivel de formación alcanzado,Sexo,Total
0,1,Andalucía,4,Almería,España,Doctorado universitario,Hombres,1673
1,1,Andalucía,4,Almería,España,Doctorado universitario,Mujeres,1354
2,1,Andalucía,4,Almería,España,Doctorado universitario,Total,3027
3,1,Andalucía,4,Almería,España,Educación primaria,Hombres,28248
4,1,Andalucía,4,Almería,España,Educación primaria,Mujeres,29773


Ceuta y Melilla son ciudades autónomas tenemos que decidir que hacer con ellas

In [236]:
"""
# Filtrar el DataFrame eliminando las filas donde el Nombre provincia sea "Ceuta" o "Melilla"
df_nivel_educativo_provincias = df_nivel_educativo_provincias[
    ~df_nivel_educativo_provincias["Nombre provincia"].isin(["Ceuta", "Melilla"])
]

# Redf_nivel_educativo_provinciassetear el índice después de eliminar las filas no deseadas
df_censo_2022_provincial = df_nivel_educativo_provincias.reset_index(drop=True)
"""

'\n# Filtrar el DataFrame eliminando las filas donde el Nombre provincia sea "Ceuta" o "Melilla"\ndf_nivel_educativo_provincias = df_nivel_educativo_provincias[\n    ~df_nivel_educativo_provincias["Nombre provincia"].isin(["Ceuta", "Melilla"])\n]\n\n# Redf_nivel_educativo_provinciassetear el índice después de eliminar las filas no deseadas\ndf_censo_2022_provincial = df_nivel_educativo_provincias.reset_index(drop=True)\n'

In [237]:
# Guardamos el DataFrame en un archivo CSV
df_nivel_educativo_provincias.to_csv("datos_limpiados/provincias/nivel_educativo_provincias_limpio.csv", index=False)

## Limpiamos ahora los datos de nivel educativo alcanzado por comunidades autónomas

In [238]:
df_nivel_educativo_comunidades.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Lugar de nacimiento,Nivel de formación alcanzado,Sexo,Total
0,Total Nacional,01 Andalucía,,España,Doctorado universitario,Hombres,30241
1,Total Nacional,01 Andalucía,,España,Doctorado universitario,Mujeres,23208
2,Total Nacional,01 Andalucía,,España,Doctorado universitario,Total,53449
3,Total Nacional,01 Andalucía,,España,Educación primaria,Hombres,290619
4,Total Nacional,01 Andalucía,,España,Educación primaria,Mujeres,360800


La columna 'Provincias' está vacía así que la eliminaos

In [239]:
# Eliminar la columna 'Provincias'
df_nivel_educativo_comunidades.drop(columns=['Provincias'], inplace=True)

# Mostrar las primeras filas del DataFrame actualizado
df_nivel_educativo_comunidades.head()


Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Lugar de nacimiento,Nivel de formación alcanzado,Sexo,Total
0,Total Nacional,01 Andalucía,España,Doctorado universitario,Hombres,30241
1,Total Nacional,01 Andalucía,España,Doctorado universitario,Mujeres,23208
2,Total Nacional,01 Andalucía,España,Doctorado universitario,Total,53449
3,Total Nacional,01 Andalucía,España,Educación primaria,Hombres,290619
4,Total Nacional,01 Andalucía,España,Educación primaria,Mujeres,360800


Procesamos el Dataframe con la información autonómica.

In [240]:
def procesar_informacion_comunidades(df):
    """
    Realiza el procesamiento de un Dataframe con información a nivel de comunidad autónoma, extraida del INE,
    aplicando las siguientes transformaciones:
    1. Elimina la columna "Total Nacional".
    2. Separa los códigos y nombres de comunidades en columnas distintas.
    3. Convierte la columna 'Código comunidad' a tipo int64.
    4. Reordena las columnas colocando los códigos y nombres de comunidades al inicio.
        
    Parámetros:
        df (pd.DataFrame): DataFrame con la información de nivel educativo por provincias.
    
    Retorna:
        pd.DataFrame: DataFrame transformado con las modificaciones aplicadas.
    """
    df = df.copy()  # Crear una copia para no modificar el original
    
    # 1. Eliminar la columna "Total Nacional"
    if "Total Nacional" in df.columns:
        df.drop(columns=["Total Nacional"], inplace=True)
           
    # 2. Separar código y nombre de comunidad
    if 'Comunidades y Ciudades Autónomas' in df.columns:
        df[['Código comunidad', 'Nombre comunidad']] = df['Comunidades y Ciudades Autónomas'].str.split(pat=' ', n=1, expand=True)
        df.drop(columns=['Comunidades y Ciudades Autónomas'], inplace=True)

    # 3. Convertir la columnas 'Código comunidad' a tipo int64 si existe
    for col in ['Código comunidad']:
        if col in df.columns:
            df[col] = df[col].astype('int64')
    
    # 4. Reordenar las columnas para que el codigo y nombre de comunidad aparezcan primero
    columnas_prioritarias = ['Código comunidad', 'Nombre comunidad']
    columnas_ordenadas = columnas_prioritarias + [col for col in df.columns if col not in columnas_prioritarias]
    df = df[columnas_ordenadas]
        
    return df

# Aplicar la función al DataFrame
df_nivel_educativo_comunidades = procesar_informacion_comunidades(df_nivel_educativo_comunidades)

# Mostrar información y primeras filas del DataFrame actualizado
print(df_nivel_educativo_comunidades.info())
df_nivel_educativo_comunidades.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1881 entries, 0 to 1880
Data columns (total 6 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Código comunidad              1881 non-null   int64 
 1   Nombre comunidad              1881 non-null   object
 2   Lugar de nacimiento           1881 non-null   object
 3   Nivel de formación alcanzado  1881 non-null   object
 4   Sexo                          1881 non-null   object
 5   Total                         1881 non-null   int64 
dtypes: int64(2), object(4)
memory usage: 88.3+ KB
None


Unnamed: 0,Código comunidad,Nombre comunidad,Lugar de nacimiento,Nivel de formación alcanzado,Sexo,Total
0,1,Andalucía,España,Doctorado universitario,Hombres,30241
1,1,Andalucía,España,Doctorado universitario,Mujeres,23208
2,1,Andalucía,España,Doctorado universitario,Total,53449
3,1,Andalucía,España,Educación primaria,Hombres,290619
4,1,Andalucía,España,Educación primaria,Mujeres,360800


In [241]:
# Guardamos el DataFrame en un archivo CSV
df_nivel_educativo_comunidades.to_csv("datos_limpiados/comunidades/nivel_educativo_comunidades_limpio.csv", index=False)

## Limpiamos el dataframe con la información del nivel educativo a nivel nacional

In [242]:
df_nivel_educativo_nacional.head()

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Lugar de nacimiento,Nivel de formación alcanzado,Sexo,Total
0,Total Nacional,,,España,Doctorado universitario,Hombres,197035
1,Total Nacional,,,España,Doctorado universitario,Mujeres,168651
2,Total Nacional,,,España,Doctorado universitario,Total,365686
3,Total Nacional,,,España,Educación primaria,Hombres,1500259
4,Total Nacional,,,España,Educación primaria,Mujeres,2120412


In [243]:
df_nivel_educativo_nacional.sample(20)

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Lugar de nacimiento,Nivel de formación alcanzado,Sexo,Total
19,Total Nacional,,,España,Primera etapa de educación secundaria y similar,Mujeres,5026080
86,Total Nacional,,,Total,Primera etapa de educación secundaria y similar,Total,12346077
40,Total Nacional,,,Extranjera,"Enseñanzas de formación profesional, artes plá...",Mujeres,182164
70,Total Nacional,,,Total,Educación primaria,Mujeres,2758557
58,Total Nacional,,,Extranjera,"Segunda etapa de educación secundaria, con ori...",Mujeres,717845
38,Total Nacional,,,Extranjera,Educación primaria,Total,1232266
93,Total Nacional,,,Total,Sin estudios,Hombres,652934
48,Total Nacional,,,Extranjera,"Másteres, especialidades en Ciencias de la Sal...",Hombres,57373
78,Total Nacional,,,Total,Grados universitarios de más de 240 créditos E...,Hombres,1668772
69,Total Nacional,,,Total,Educación primaria,Hombres,2094380


Limpiamos el dataframe

In [244]:
def procesar_informacion_nacional(df):
    """
    Realiza el procesamiento de un DataFrame con información a nivel nacional, extraída del INE,
    aplicando las siguientes transformaciones:

    1. Elimina las columnas 'Provincias' y 'Comunidades y Ciudades Autónomas'.
    2. Renombra la columna "Total Nacional" a "Nombre del país".
    3. Asigna el valor "España" a todas las filas en la columna "Nombre del país".
        
    Parámetros:
    -----------
        df (pd.DataFrame): DataFrame con la información de nivel educativo a nivel nacional.

    Retorna:
    --------
        pd.DataFrame: DataFrame transformado con las modificaciones aplicadas.
    """
    df = df.copy()  # Crear una copia para no modificar el original
    
    # 1. Eliminar las columnas 'Provincias' y 'Comunidades y Ciudades Autónomas' si existen
    columnas_a_eliminar = ['Comunidades y Ciudades Autónomas', 'Provincias']
    df.drop(columns=[col for col in columnas_a_eliminar if col in df.columns], inplace=True)

    # 2. Renombrar la columna "Total Nacional" a "Nombre del país" si existe
    if "Total Nacional" in df.columns:
        df.rename(columns={"Total Nacional": "Nombre del país"}, inplace=True)

    # 3. Asignar el valor "España" a todas las filas en la columna "Nombre del país"
    if "Nombre del país" in df.columns:
        df["Nombre del país"] = "España"

    return df

# Aplicar la función al DataFrame
df_nivel_educativo_nacional = procesar_informacion_nacional(df_nivel_educativo_nacional)

# Mostrar información y primeras filas del DataFrame actualizado
print(df_nivel_educativo_nacional.info())
df_nivel_educativo_nacional.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99 entries, 0 to 98
Data columns (total 5 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Nombre del país               99 non-null     object
 1   Lugar de nacimiento           99 non-null     object
 2   Nivel de formación alcanzado  99 non-null     object
 3   Sexo                          99 non-null     object
 4   Total                         99 non-null     int64 
dtypes: int64(1), object(4)
memory usage: 4.0+ KB
None


Unnamed: 0,Nombre del país,Lugar de nacimiento,Nivel de formación alcanzado,Sexo,Total
0,España,España,Doctorado universitario,Hombres,197035
1,España,España,Doctorado universitario,Mujeres,168651
2,España,España,Doctorado universitario,Total,365686
3,España,España,Educación primaria,Hombres,1500259
4,España,España,Educación primaria,Mujeres,2120412


In [245]:
df_nivel_educativo_nacional.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99 entries, 0 to 98
Data columns (total 5 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Nombre del país               99 non-null     object
 1   Lugar de nacimiento           99 non-null     object
 2   Nivel de formación alcanzado  99 non-null     object
 3   Sexo                          99 non-null     object
 4   Total                         99 non-null     int64 
dtypes: int64(1), object(4)
memory usage: 4.0+ KB


In [246]:
# Guardamos el DataFrame en un archivo CSV
df_nivel_educativo_nacional.to_csv("datos_limpiados/nacionales/nivel_educativo_nacional_limpio.csv", index=False)