## Comprensión de datos – INE (EPA)

**Fuente:** Instituto Nacional de Estadística (INE)  
**Estadística:** Encuesta de Población Activa (EPA)  

# Datasets utilizados
1. Parados por nivel de formación y comunidad autónoma (valor absoluto en miles de personas)
2. Población activa por nivel de formación y comunidad autónoma (valor absoluto en miles de personas)

# Nota metodológica
El INE no proporciona directamente la tasa de paro desagregada por nivel educativo y comunidad autónoma para todo el periodo.
Por ello, la tasa de paro se calculará como:

Tasa de paro (%) = (Número de parados / Población activa) * 100


In [2]:
import pandas as pd

parados = pd.read_csv("ine_parados_educacion_ccaa_2014_2024.csv", sep = ";", encoding = "latin-1")
activos = pd.read_csv("ine_activos_educacion_ccaa_2014_2024.csv", sep = ";", encoding = "latin-1")

display(parados.head())
display(activos.head())

Unnamed: 0,Sexo,Comunidades y Ciudades Autónomas,Nivel de formación alcanzado,Periodo,Total
0,Ambos sexos,01 Andalucía,Analfabetos,2014,183
1,Ambos sexos,01 Andalucía,Analfabetos,2015,142
2,Ambos sexos,01 Andalucía,Analfabetos,2016,102
3,Ambos sexos,01 Andalucía,Analfabetos,2017,72
4,Ambos sexos,01 Andalucía,Analfabetos,2018,58


Unnamed: 0,Sexo,Comunidades y Ciudades Autónomas,Nivel de formación alcanzado,Periodo,Total
0,Ambos sexos,01 Andalucía,Analfabetos,2014,273
1,Ambos sexos,01 Andalucía,Analfabetos,2015,229
2,Ambos sexos,01 Andalucía,Analfabetos,2016,207
3,Ambos sexos,01 Andalucía,Analfabetos,2017,198
4,Ambos sexos,01 Andalucía,Analfabetos,2018,150


## Estructura de los datasets
Cada fila representa una combinación única de:
- Comunidad autónoma
- Nivel educativo
- Año
- Sexo: solo contiene el valor "Total" (no aporta información)

# Dataset de parados
- Cada fila representa:
  - Comunidad autónoma
  - Nivel educativo (Analfabetos, Estudios primarios incompletos,	Educación primaria,	Primera etapa de Educación Secundaria y similar,	Segunda etapa de educación secundaria con orientación general,	Segunda etapa de educación secundaria con orientación profesional (incluye educación postsecundaria no superior),	Educación superior)
  - Periodo (año 2014 a 2024)
- Variable principal:
  - Número de parados (valor absoluto en miles de personas)

# Dataset de población activa
- Cada fila representa:
  - Comunidad autónoma
  - Nivel educativo (Analfabetos, Estudios primarios incompletos,	Educación primaria,	Primera etapa de Educación Secundaria y similar,	Segunda etapa de educación secundaria con orientación general,	Segunda etapa de educación secundaria con orientación profesional (incluye educación postsecundaria no superior),	Educación superior)
  - Periodo (año 2014 a 2024)
- Variable principal:
  - Población activa (valor absoluto en miles de personas)

# Relación entre datasets
Ambos datasets pueden unirse utilizando:
- Comunidad autónoma
- Nivel educativo
- Periodo

Esta unión permitirá calcular la tasa de paro de forma consistente.


## Decisiones de diseño del dataset analítico

1. Eliminar la variable sexo al no aportar variabilidad.
2. Simplificar las categorías de nivel educativo en seis grupos:
   - Analfabetos
   - Básica (Estudios primarios incompletos, Educación primaria)
   - ESO (Primera etapa de Educación Secundaria y similar)
   - Bachillerato (Segunda etapa de educación secundaria con orientación general)
   - Formación Profesional (Segunda etapa de educación secundaria con orientación profesional)
   - Superior
3. Unir los datasets de parados y activos para calcular la tasa de paro.
4. Mantener el periodo a nivel anual (2014–2024).