# VISUALIZACIÓN DE DATOS: PR2
# Storytelling estudio PISA 2022

#### Alberto Paramio Galisteo
#### Visualización de datos. Q2 2024-2025
#### Universitat Oberta Catalunya

## Índice

- [1. Introducción](#1-Introducción)
- [2. Apertura del dataset](#2-Apertura-del-dataset)
- [3. Limpieza del dataset](#3-Limpieza-del-dataset)
  - [3.1. Eliminación de columnas irrelevantes](#31-Eliminación-de-columnas-irrelevantes)
  - [3.2. Corrección de tipos de datos](#32-Corrección-de-tipos-de-datos)
  - [3.3. Tratamiento de valores nulos o inconsistentes](#33-Tratamiento-de-valores-nulos-o-inconsistentes)
    - [3.3.1 Funciones para imputar valores nulos](#331-Funciones-para-imputar-valores-nulos)
    - [3.3.2 Imputación de valores](#332-Imputación-de-valores)
  - [3.3.3 Evaluación de los resultados de imputación](#333-Evaluación-de-los-resultados-de-imputación)
- [4. Creación de los datasets para las visualizaciones](#4-Creación-de-los-datasets-para-las-visualizaciones)
  - [4.1 VISUALIZACIÓN 1. Rendimiento en matemáticas por país](#41-VISUALIZACIÓN-1-Rendimiento-en-matemáticas-por-país)
  - [4.2 VISUALIZACIÓN 2. Brecha de género en motivación hacia matemáticas](#42-VISUALIZACIÓN-2-Brecha-de-género-en-motivación-hacia-matemáticas)
  - [4.3 VISUALIZACIÓN 3. Correlación entre motivación por la ciencia e indicadores de rendimiento](#43-VISUALIZACIÓN-3-Correlación-entre-motivación-por-la-ciencia-e-indicadores-de-rendimiento)
  - [4.4 VISUALIZACIÓN 4. Relación entre estatus económico y desempeño en ciencia](#44-VISUALIZACIÓN-4-Relación-entre-estatus-económico-y-desempeño-en-ciencia)
  - [4.5 VISUALIZACIÓN 5. Alta motivación vs bajo rendimiento en matemáticas](#45-VISUALIZACIÓN-5-Alta-motivación-vs-bajo-rendimiento-en-matemáticas)
  - [4.6 VISUALIZACIÓN 6. Diferencia de rendimiento entre estudiantes inmigrantes y nativos](#46-VISUALIZACIÓN-6-Diferencia-de-rendimiento-entre-estudiantes-inmigrantes-y-nativos)
  - [4.7 VISUALIZACIÓN 7. Diferencia de rendimiento entre estudiantes inmigrantes y nativos](#47-VISUALIZACIÓN-7-Diferencia-de-rendimiento-entre-estudiantes-inmigrantes-y-nativos)
  - [4.8 VISUALIZACIÓN 8. Proactividad vs rendimiento académico](#48-VISUALIZACIÓN-8-Proactividad-vs-rendimiento-académico)
  - [4.9 VISUALIZACIÓN 9. Rendimiento y repetición escolar](#49-VISUALIZACIÓN-9-Rendimiento-y-repetición-escolar)


## 1. Introducción

El presente notebook tiene como objetivo principal la creación de datasets para **9 visualizaciones** de los datos recogidos en el estudio **PISA 2022** (Programme for International Student Assessment), realizado por la OCDE.

La elaboración de este cuaderno forma parte de una actividad de evaluación en la asignatura de *Visualización de Datos* dentro del Grado en Ciencia de Datos Aplicada de la Universitat Oberta de Catalunya (UOC), correspondiente al segundo trimestre del curso académico 2024-2025. En él, se busca no solo aplicar técnicas de visualización efectivas y narrativas, sino también construir un discurso coherente y fundamentado que permita transmitir hallazgos relevantes derivados de los datos.

Desde un punto de vista metodológico, el trabajo se articula en distintas fases: una primera de apertura y limpieza del dataset, seguida de una etapa de reducción y transformación de variables, y finalmente una sección dedicada a la creación de visualizaciones temáticas con fines explicativos. En el proceso se eliminan columnas irrelevantes, se corrigen tipos de datos, se tratan los valores nulos mediante imputación y se generan subconjuntos de datos adaptados a cada historia visual.

Las visualizaciones desarrolladas permiten identificar patrones de desigualdad en el rendimiento académico asociados a factores como el sexo del estudiante, su estatus socioeconómico, el origen inmigrante o la motivación hacia determinadas áreas del conocimiento. Por ejemplo, se evidencian brechas persistentes entre países en el rendimiento matemático, así como disparidades dentro de los países en función de factores sociales o actitudinales. Estas representaciones no solo ilustran realidades educativas, sino que además invitan a la reflexión y al planteamiento de políticas más inclusivas y eficaces.

Este proyecto se enmarca en la filosofía del *data storytelling*, donde el dato por sí solo no basta: debe ir acompañado de contexto, interpretación y una presentación visual clara que facilite su comprensión por parte de una audiencia diversa. A través de las distintas secciones de este notebook se intenta dar sentido a los datos del informe PISA, resaltando aquellas dimensiones que impactan de manera significativa en el rendimiento y las oportunidades de los estudiantes en el sistema educativo global.


In [1]:
# LIBRERÍAS DE INTERÉS

import os
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns


In [2]:
os.getcwd()

'C:\\Users\\Alberto\\Documents\\ESTUDIO\\CIENCIA DE DATOS\\Q4_24-25_primavera\\M2.859_Visualización de datos\\PR2\\PR2_code'

## 2. Apertura del dataset


In [3]:
# APERTURA DEL DATASET

# Ruta al archivo
ruta_archivo = "data/dataset_pisa_2022.csv"

try:
    # Cargamos el archivo CSV en un DataFrame
    df = pd.read_csv(ruta_archivo)
    print("Archivo cargado exitosamente. El DataFrame tiene", df.shape[1], "columnas.")

except FileNotFoundError:
    print(f"Error: No se encontró el archivo en la ruta '{ruta_archivo}'.")
except Exception as e:
    print(f"Ocurrió un error al intentar leer el archivo: {e}")


Archivo cargado exitosamente. El DataFrame tiene 43 columnas.


In [4]:
# Diccionario de equivalencias entre códigos ISO y y los nombres de los países

codigo_a_pais = {
    'ALB': 'Albania',
    'ARE': 'United Arab Emirates',
    'ARG': 'Argentina',
    'AUS': 'Australia',
    'AUT': 'Austria',
    'AZE': 'Azerbaijan',
    'BEL': 'Belgium',
    'BGR': 'Bulgaria',
    'BRA': 'Brazil',
    'BRN': 'Brunei',
    'CAN': 'Canada',
    'CHE': 'Switzerland',
    'CHL': 'Chile',
    'COL': 'Colombia',
    'CRI': 'Costa Rica',
    'CZE': 'Czech Republic',
    'DEU': 'Germany',
    'DNK': 'Denmark',
    'DOM': 'Dominican Republic',
    'ESP': 'Spain',
    'EST': 'Estonia',
    'FIN': 'Finland',
    'FRA': 'France',
    'GBR': 'United Kingdom',
    'GEO': 'Georgia',
    'GRC': 'Greece',
    'GTM': 'Guatemala',
    'HKG': 'Hong Kong-China',
    'HRV': 'Croatia',
    'HUN': 'Hungary',
    'IDN': 'Indonesia',
    'IRL': 'Ireland',
    'ISL': 'Iceland',
    'ISR': 'Israel',
    'ITA': 'Italy',
    'JAM': 'Jamaica',
    'JOR': 'Jordan',
    'JPN': 'Japan',
    'KAZ': 'Kazakhstan',
    'KGZ': 'Kyrgyzstan',
    'KHM': 'Cambodia',
    'KOR': 'South Korea',
    'KSV': 'Kosovo',
    'LIE': 'Liechtenstein',
    'LTU': 'Lithuania',
    'LUX': 'Luxembourg',
    'LVA': 'Latvia',
    'MAC': 'Macau-China',
    'MAR': 'Morocco',
    'MDA': 'Moldavia',
    'MEX': 'Mexico',
    'MKD': 'North Macedonia',
    'MLT': 'Malta',
    'MNE': 'Montenegro',
    'MNG': 'Mongolia',
    'MYS': 'Malaysia',
    'NLD': 'Netherlands',
    'NOR': 'Norway',
    'NZL': 'New Zealand',
    'PAN': 'Panama',
    'PER': 'Peru',
    'PHL': 'Philippines',
    'POL': 'Poland',
    'PRI': 'Puerto Rico',
    'PRT': 'Portugal',
    'PRY': 'Paraguay',
    'PSE': 'Palestine',
    'QAT': 'Qatar',
    'ROU': 'Romania',
    'RUS': 'Russia',
    'SAU': 'Saudi Arabia',
    'SGP': 'Singapore',
    'SLV': 'El Salvador',
    'SRB': 'Serbia',
    'SVK': 'Slovakia',
    'SVN': 'Slovenia',
    'SWE': 'Sweden',
    'TAP': 'Chinese Taipei',
    'THA': 'Thailand',
    'TUN': 'Tunisia',
    'TUR': 'Turkey',
    'URY': 'Uruguay',
    'USA': 'United States of America',
    'UZB': 'Uzbekistan',
    'VNM': 'Vietnam'
}

# Creamos el DataFrame base
df_paises = pd.DataFrame([
    {"Codigo": code, "Pais": name} for code, name in codigo_a_pais.items()
])

# Diccionario de regiones geopolíticas
region_mapping = {
    'Europe': ['ALB', 'AUT', 'BEL', 'BGR', 'CHE', 'CZE', 'DEU', 'DNK', 'ESP', 'EST', 'FIN', 'FRA',
               'GBR', 'GRC', 'HRV', 'HUN', 'IRL', 'ISL', 'ITA', 'LTU', 'LUX', 'LVA', 'MDA', 'MKD',
               'MLT', 'MNE', 'NLD', 'NOR', 'POL', 'PRT', 'ROU', 'RUS', 'SRB', 'SVK', 'SVN', 'SWE', 'KSV', 'LIE'],
    'Asia': ['ARE', 'AZE', 'HKG', 'IDN', 'ISR', 'JPN', 'JOR', 'KAZ', 'KGZ', 'KHM', 'KOR', 'MAC',
             'MNG', 'MYS', 'PHL', 'QAT', 'SAU', 'SGP', 'THA', 'TAP', 'UZB', 'VNM', 'PSE'],
    'Americas': ['ARG', 'BRA', 'CAN', 'CHL', 'COL', 'CRI', 'DOM', 'GTM', 'JAM', 'MEX', 'PAN', 'PER',
                 'PRI', 'PRY', 'SLV', 'URY', 'USA'],
    'Africa': ['MAR', 'TUN'],
    'Oceania': ['AUS', 'NZL'],
}

# Función para asignar región a cada país
def asignar_region(codigo):
    for region, codigos in region_mapping.items():
        if codigo in codigos:
            return region
    return 'Otro'

# Aplicamos función
df_paises['Region'] = df_paises['Codigo'].apply(asignar_region)

# Mostramos tabla final
print(df_paises)


   Codigo                      Pais    Region
0     ALB                   Albania    Europe
1     ARE      United Arab Emirates      Asia
2     ARG                 Argentina  Americas
3     AUS                 Australia   Oceania
4     AUT                   Austria    Europe
..    ...                       ...       ...
80    TUR                    Turkey      Otro
81    URY                   Uruguay  Americas
82    USA  United States of America  Americas
83    UZB                Uzbekistan      Asia
84    VNM                   Vietnam      Asia

[85 rows x 3 columns]


In [5]:
pais_a_codigo = {v: k for k, v in codigo_a_pais.items()}

## 3. Limpieza del dataset

La limpieza del dataset va a incluir los siguientes pasos:

- Eliminación de columnas irrelevantes
- Corrección de tipos de datos
- Tratamiento de valores nulos o inconsistentes
- Estandarización de formatos
- Validación de rangos y codificaciones

### 3.1. Eliminación de columnas irrelevantes

Se procede a eliminar del DataFrame un conjunto de variables que no aportan valor directo a las visualizaciones planteadas ni a las preguntas de análisis. Estas variables son irrelevantes para el enfoque narrativio. La depuración va a permitir optimizar el dataset manteniendo únicamente la información esencial para el desarrollo del proyecto de visualización, sin comprometer la calidad analítica.

In [6]:
# Lista de columnas que no se utilizarán en las visualizaciones
columnas_prescindibles = [
    "CNTRYID", "STRATUM", "LANGTEST_COG", 
    "ST001D01T", "ST003D03T", "OCOD1",
    "OCOD2", "OCOD3", "AGE",
    "TARDYSD", "MISSSC_SKIPPING", "HOMEPOS",
    "PVxMCCR", "PVxMCUD", "RELATST_BELONG",
    "SCHOOL_RISK", "SENWT", "ICTRES"
]

# Hacemos una copia del dataframe para ser modificada
df_reducido = df.copy()

# Eliminamos las columnas prescindibles del DataFrame
df_reducido.drop(columns=columnas_prescindibles, inplace=True)

# Eliminamos estos países
df_reducido = df_reducido[~df_reducido['CNT'].isin(['QAZ', 'QUR'])]

# Mensaje de Confirmación
print("✅ Columnas eliminadas. El DataFrame ahora tiene", df_reducido.shape[1], "columnas.")


✅ Columnas eliminadas. El DataFrame ahora tiene 25 columnas.


### 3.2. Corrección de tipos de datos

La transformación de determinadas columnas al tipo `category` se realiza para optimizar el uso de memoria, mejorar el rendimiento en operaciones como agrupaciones, filtrado y visualización, y representar de forma más adecuada variables que contienen un número limitado y conocido de valores posibles. Variables como el país (`CNT`), la región (`REGION`), el género (`ST004D01T`), la condición migratoria (`IMMIG`), la repetición de curso (`REPEAT`), la claridad de metas laborales (`SISCO`),  los idiomas (`LANGN`, `LANGTEST_QQQ`) y la variable `HISCED`, que representa el nivel educativo más alto alcanzado por los padres son inherentemente categóricas, por lo que convertirlas al tipo `category` permite a pandas tratarlas de forma más eficiente y lógica, facilitando un análisis más estructurado y robusto.


In [7]:
# Lista de columnas categóricas a convertir
categorical_columns = [
    "CNT",           # Código de país
    "REGION",        # Región geográfica
    "ST004D01T",     # Género
    "IMMIG",         # Condición migratoria
    "REPEAT",        # Repetición de curso
    "SISCO",         # Claridad de metas laborales
    "LANGN",         # Idioma en casa
    "LANGTEST_QQQ",  # Idioma del cuestionario
    "HISCED",        # Mayor nivel educativo de los padres
    "MATHEMATICS"    # Motivación hacia matemáticas
]

# Conversión a tipo 'category'
for col in categorical_columns:
    df_reducido[col] = df_reducido[col].astype("category")

# Confirmación de los tipos actualizados
print("✅ Conversión completada. Tipos actualizados:")
print(df_reducido[categorical_columns].dtypes)



✅ Conversión completada. Tipos actualizados:
CNT             category
REGION          category
ST004D01T       category
IMMIG           category
REPEAT          category
SISCO           category
LANGN           category
LANGTEST_QQQ    category
HISCED          category
MATHEMATICS     category
dtype: object


In [8]:
# Todos los tipos de datos del dataset
df_reducido.info()

<class 'pandas.core.frame.DataFrame'>
Index: 602148 entries, 0 to 613743
Data columns (total 25 columns):
 #   Column        Non-Null Count   Dtype   
---  ------        --------------   -----   
 0   CNT           602148 non-null  category
 1   REGION        602148 non-null  category
 2   OECD          602148 non-null  bool    
 3   LANGTEST_QQQ  591439 non-null  category
 4   ST004D01T     602069 non-null  category
 5   IMMIG         558619 non-null  category
 6   LANGN         602148 non-null  category
 7   REPEAT        568248 non-null  category
 8   MATHEMATICS   602148 non-null  category
 9   SISCO         439328 non-null  category
 10  BULLIED       558545 non-null  float64 
 11  PROACTIVITY   538702 non-null  float64 
 12  HISCED        572964 non-null  category
 13  HISEI         532234 non-null  float64 
 14  ESCS          577180 non-null  float64 
 15  W_FSTUWT      602148 non-null  float64 
 16  PVxMATH       602148 non-null  float64 
 17  PVxREAD       602148 non-null  flo

### 3.3. Tratamiento de valores nulos o inconsistentes

La imputación de valores nulos se realizará de forma controlada, columna por columna, diferenciando entre variables categóricas y numéricas. Para asegurar que los valores imputados respeten las características contextuales de los datos, el proceso se llevará a cabo **por grupos de país** (`CNT`), es decir, cada valor faltante se imputará en función de la distribución de esa variable dentro del mismo país. Además, se considerará que una columna está completa cuando contenga exactamente **613,744 registros no nulos**, que corresponde al total de filas del DataFrame. Esta estrategia permite preservar patrones específicos de cada país, evitando distorsiones globales en el análisis posterior.

#### 3.3.1 Funciones para imputar valores nulos

En este apartado crearemos las siguientes funciones:

1. `imputar_variable_categorica()` --> función para imputar valores nulos de variables categóricas
2. `imputar_variable_numerica()` --> función para imputar valores nulos de variables numéricas
3. `imputar_nulos()` --> función general para imputar valores nulos del dataframe.
4. `evaluar_bondad_imputacion()` --> función para evaluar la calidad de imputación de valores.
5. `mostrar_frecuencias_por_pais()` --> función para mostrar, por país, frecuencias de la variable seleccionada.

In [9]:
# FUNCIÓN PARA IMPUTAR VALORES NULOS DE VARIABLES CATEGÓRICAS

def imputar_variable_categorica(df, variable):
    """
    Imputa valores faltantes en una variable categórica usando la distribución de clases por país (CNT),
    calculada automáticamente a partir de los datos no nulos existentes.

    Parámetros:
        df (pd.DataFrame): El dataframe que contiene la variable a imputar. Debe tener la columna 'CNT'.
        variable (str): El nombre de la variable categórica a imputar.
    """
    imputacion_valor = -1

    # Aseguramos que la variable permita la categoría imputacion_valor si es categórica
    if isinstance(df[variable].dtype, pd.CategoricalDtype):
        if imputacion_valor not in df[variable].cat.categories.tolist():
            df[variable] = df[variable].cat.add_categories([imputacion_valor])

    # Crear tabla cruzada país vs categorías (solo con datos no nulos)
    tabla_cruzada = pd.crosstab(df.loc[df[variable].notnull(), 'CNT'], df.loc[df[variable].notnull(), variable])

    # Calcular porcentaje por fila (por país)
    tabla_porcentajes = tabla_cruzada.div(tabla_cruzada.sum(axis=1), axis=0)

    # Recorremos cada país en el dataframe
    for pais, grupo in df.groupby('CNT', observed=False):
        idx_nulos = grupo[variable].isnull()
        n_nulos = idx_nulos.sum()

        if n_nulos > 0:
            try:
                # Obtener la distribución del país (en forma de probabilidades)
                probs = tabla_porcentajes.loc[pais]
                probs = probs.reindex(sorted(tabla_cruzada.columns), fill_value=0)

                if probs.sum() > 0:
                    imputaciones = np.random.choice(probs.index, size=n_nulos, p=probs.values)
                    df.loc[grupo.index[idx_nulos], variable] = imputaciones
                else:
                    df.loc[grupo.index[idx_nulos], variable] = imputacion_valor
                    print(f"Aviso: El país '{pais}' tiene distribución nula. Se imputó {imputacion_valor}.")
            except KeyError:
                df.loc[grupo.index[idx_nulos], variable] = imputacion_valor
                print(f"Aviso: El país '{pais}' no está en la tabla de porcentajes. Se imputó {imputacion_valor}.")

    # Mensaje final
    print("Imputación realizada correctamente.\n")


In [10]:
# FUNCIÓN PARA IMPUTAR VALORES NULOS DE VARIABLES NUMÉRICAS

def imputar_variable_numerica(df, variable):
    """
    Imputa valores nulos de una variable numérica en un DataFrame, usando
    el promedio por país (columna 'CNT') como valor de imputación.
    Si un país no tiene datos válidos, se imputa con -1.

    Parámetros:
        df (pd.DataFrame): DataFrame que contiene la variable y la columna 'CNT'.
        variable (str): Nombre de la variable numérica a imputar.

    Modifica:
        El DataFrame `df` directamente, imputando los valores nulos en la columna indicada.
    """
    imputacion_valor = -1

    # Asegurar que la variable es numérica (convierte errores a NaN)
    df[variable] = pd.to_numeric(df[variable], errors='coerce')

    # Calcular promedios por país, ignorando nulos
    promedios = df.groupby('CNT', observed=False)[variable].mean()

    # Imputar país por país
    for pais, grupo in df.groupby('CNT', observed=False):
        idx_nulos = grupo[variable].isnull()

        if idx_nulos.any():
            if pais in promedios and not np.isnan(promedios[pais]):
                valor_imputado = promedios[pais]
            else:
                valor_imputado = imputacion_valor  # País sin datos válidos

            df.loc[grupo.index[idx_nulos], variable] = valor_imputado

    # Mensaje final
    print("Imputación realizada correctamente.\n")


In [11]:
# FUNCIÓN PARA IMPUTAR VALORES NULOS DEL DATAFRAME

def imputar_nulos(df):
    """
    Recorre todas las columnas de un DataFrame y, si encuentra nulos,
    invoca la función de imputación correspondiente según el tipo de dato.

    Asume que existen las funciones:
    - imputar_variable_numerica(df, variable)  → para variables float
    - imputar_variable_categorica(df, variable) → para variables categóricas
    """
    for columna in df.columns:
        n_nulos = df[columna].isnull().sum()
        tipo = df[columna].dtype

        if n_nulos > 0:
            print(f"Imputando columna '{columna}' ({tipo}) con {n_nulos} valores nulos...")

            if isinstance(df[columna].dtype, pd.CategoricalDtype):
                imputar_variable_categorica(df, columna)

            elif pd.api.types.is_float_dtype(df[columna]):
                imputar_variable_numerica(df, columna)

            else:
                print(f"Advertencia: La columna '{columna}' tiene nulos pero no es float ni categórica. No se imputó.")

    print("Imputación completa.")


In [12]:
# FUNCIÓN PARA EVALUAR LA CALIDAD DE UNA IMPUTACIÓN DE VALORES

def evaluar_bondad_imputacion(df_original, df_imputado, variable, umbral_bondad=0.05, mostrar_grafico=True):
    """
    Evalúa la bondad de la imputación de una variable categórica comparando las
    frecuencias relativas antes y después de imputar, usando MAD (desviación absoluta media).
    
    También muestra un gráfico de barras opcional y devuelve métricas globales.

    Parámetros:
        df_original (pd.DataFrame): DataFrame antes de la imputación (con valores nulos).
        df_imputado (pd.DataFrame): DataFrame después de imputar (sin nulos).
        variable (str): Nombre de la variable categórica.
        umbral_bondad (float): Umbral de MAD considerado "bueno".
        mostrar_grafico (bool): Mostrar gráfico de barras con MAD por país.

    Retorna:
        resultados_mad (pd.DataFrame): Tabla con MAD por país.
        resumen_global (dict): Métricas globales de evaluación.
    """
    # Frecuencias originales (antes de imputar, excluyendo nulos)
    freqs_orig = pd.crosstab(
        df_original.loc[df_original[variable].notnull(), 'CNT'],
        df_original.loc[df_original[variable].notnull(), variable],
        normalize='index'
    )

    # Frecuencias finales (después de imputar)
    freqs_final = pd.crosstab(
        df_imputado['CNT'],
        df_imputado[variable],
        normalize='index'
    )

    # Alinear ambas tablas por país y clase
    freqs_orig, freqs_final = freqs_orig.align(freqs_final, fill_value=0, join='outer')

    # Calcular desviación absoluta media por país
    mad = (freqs_orig - freqs_final).abs().mean(axis=1)
    resultados_mad = pd.DataFrame({'MAD': mad}).sort_values('MAD')

    # Métricas globales redondeadas correctamente
    resumen_global = {
        'MAD_mean': round(mad.mean(), 4),
        'MAD_median': round(mad.median(), 4),
        'MAD_max': round(mad.max(), 4),
        'MAD_std': round(mad.std(), 4),
        f'porcentaje_paises_MAD_≤_{umbral_bondad}': round((mad <= umbral_bondad).mean() * 100, 2)
    }

    # Mostrar gráfico si se solicita
    if mostrar_grafico:
        plt.figure(figsize=(10, 6))
        resultados_mad.plot(kind='bar', legend=False)
        plt.title(f"MAD por país - Bondad de imputación para '{variable}'")
        plt.ylabel("MAD (desviación absoluta media)")
        plt.xlabel("País (CNT)")
        plt.xticks(rotation=45, ha='right')
        plt.grid(axis='y', linestyle='--', alpha=0.5)
        plt.tight_layout()
        plt.show()

    return resultados_mad, resumen_global


In [13]:
# FUNCIÓN PARA MOSTRAR FRECUENCIAS DE LA VARIABLE SELECCIONADA POR PAIS

def mostrar_frecuencias_por_pais(df, variable, expandido=False):
    """
    Calcula y opcionalmente muestra una tabla de frecuencias relativas (porcentajes) por país
    para una variable categórica.

    Parámetros:
        df (pd.DataFrame): El DataFrame que contiene 'CNT' y la variable categórica.
        variable (str): Nombre de la variable a analizar.
        expandido (bool): Si True, muestra la tabla completa sin compresión.

    Retorna:
        pd.DataFrame: Tabla de porcentajes por país.
    """
    # Calcular la tabla de frecuencias
    tabla_cruzada = pd.crosstab(df['CNT'], df[variable])
    tabla_porcentajes = tabla_cruzada.div(tabla_cruzada.sum(axis=1), axis=0) * 100
    tabla_porcentajes = tabla_porcentajes.round(2)

    # Mostrar si se solicita, controlando compresión
    if expandido:
        with pd.option_context('display.max_rows', None, 'display.max_columns', None, 'display.width', None):
            display(tabla_porcentajes)  # mejor que print para entornos interactivos
    elif expandido is False:
        pass  # no mostrar nada automáticamente

    return tabla_porcentajes


#### 3.3.2 Imputación de valores

In [14]:
df_input = df_reducido.copy()

In [15]:
imputar_nulos(df_input)

Imputando columna 'LANGTEST_QQQ' (category) con 10709 valores nulos...
Imputación realizada correctamente.

Imputando columna 'ST004D01T' (category) con 79 valores nulos...
Imputación realizada correctamente.

Imputando columna 'IMMIG' (category) con 43529 valores nulos...
Aviso: El país 'JPN' no está en la tabla de porcentajes. Se imputó -1.
Imputación realizada correctamente.

Imputando columna 'REPEAT' (category) con 33900 valores nulos...
Aviso: El país 'JPN' no está en la tabla de porcentajes. Se imputó -1.
Aviso: El país 'NOR' no está en la tabla de porcentajes. Se imputó -1.
Imputación realizada correctamente.

Imputando columna 'SISCO' (category) con 162820 valores nulos...
Imputación realizada correctamente.

Imputando columna 'BULLIED' (float64) con 43603 valores nulos...
Imputación realizada correctamente.

Imputando columna 'PROACTIVITY' (float64) con 63446 valores nulos...
Imputación realizada correctamente.

Imputando columna 'HISCED' (category) con 29184 valores nulos...

In [16]:
# Comprobamos que todas las columnas están sin valores nulos
df_input.info()

<class 'pandas.core.frame.DataFrame'>
Index: 602148 entries, 0 to 613743
Data columns (total 25 columns):
 #   Column        Non-Null Count   Dtype   
---  ------        --------------   -----   
 0   CNT           602148 non-null  category
 1   REGION        602148 non-null  category
 2   OECD          602148 non-null  bool    
 3   LANGTEST_QQQ  602148 non-null  category
 4   ST004D01T     602148 non-null  category
 5   IMMIG         602148 non-null  category
 6   LANGN         602148 non-null  category
 7   REPEAT        602148 non-null  category
 8   MATHEMATICS   602148 non-null  category
 9   SISCO         602148 non-null  category
 10  BULLIED       602148 non-null  float64 
 11  PROACTIVITY   602148 non-null  float64 
 12  HISCED        602148 non-null  category
 13  HISEI         602148 non-null  float64 
 14  ESCS          602148 non-null  float64 
 15  W_FSTUWT      602148 non-null  float64 
 16  PVxMATH       602148 non-null  float64 
 17  PVxREAD       602148 non-null  flo

### 3.3.3 Evaluación de los resultados de imputación

In [17]:
campos_con_nulos = df_reducido.columns[df_reducido.isnull().any()].tolist()
print(campos_con_nulos)

['LANGTEST_QQQ', 'ST004D01T', 'IMMIG', 'REPEAT', 'SISCO', 'BULLIED', 'PROACTIVITY', 'HISCED', 'HISEI', 'ESCS', 'PVxMCQN', 'PVxMCSS', 'PVxMPEM', 'PVxMPFS', 'PVxMPIN', 'PVxMPRE']


In [18]:
# A CONTINUACIÓN SE PUEDEN COMPROBAR LOS RESULTADOS DE LAS IMPUTACIONES

# Introducir el nombre de la variable a evaluar
evaluar_bondad_imputacion(df_reducido, df_input, 'IMMIG', umbral_bondad=0.05, mostrar_grafico=False)

(          MAD
 CNT          
 GEO  0.000020
 VNM  0.000021
 ALB  0.000024
 KOR  0.000024
 MNE  0.000033
 ..        ...
 NOR  0.000840
 DEU  0.000933
 HKG  0.000979
 MLT  0.002912
 JPN  0.250000
 
 [78 rows x 1 columns],
 {'MAD_mean': np.float64(0.0035),
  'MAD_median': 0.0002,
  'MAD_max': 0.25,
  'MAD_std': 0.0283,
  'porcentaje_paises_MAD_≤_0.05': np.float64(98.72)})

## 4. Creación de los datasets para las visualizaciones

### 4.1 VISUALIZACIÓN 1. Rendimiento en matemáticas por país

In [19]:
# CREACIÓN DEL DATASET PARA VISUALIZACIÓN 1 (VARIAS VARIABLES)

# Lista de columnas que quieres procesar
variables = [
    'PVxMATH', 'PVxREAD', 'PVxSCIE', 
    'PVxMCQN', 'PVxMCSS', 'PVxMPEM', 'PVxMPFS', 'PVxMPIN', 'PVxMPRE'
]

# Filtramos filas válidas para cada variable y calcular la mediana por país
median_dfs = []

for var in variables:
    df_valid = df_input[
        df_input['CNT'].notnull() &
        df_input[var].notnull() &
        (df_input[var] != -1)
    ].copy()

    df_valid[var] = pd.to_numeric(df_valid[var], errors='coerce')

    df_agg = (
        df_valid
        .groupby('CNT', observed=False)[var]
        .median()
        .reset_index()
        .rename(columns={var: f'MEDIAN_{var}'})
    )

    median_dfs.append(df_agg)

# Unimos todas las medianas por país
from functools import reduce

df_merged = reduce(lambda left, right: pd.merge(left, right, on='CNT', how='outer'), median_dfs)

# Añadimos columna "country" con el nombre del país
df_merged['country'] = df_merged['CNT'].map(codigo_a_pais)

# Exportamos CSV final
df_merged.to_csv("datasets_export/V1_medianas_por_pais_todas_variables.csv", index=False)


In [20]:
#VISUALIZACIÓN DEL RESULTADO

pd.set_option('display.max_rows', None)      # Muestra todas las filas

# Vista previa
#print(df_merged)

pd.reset_option('display.max_rows')

### 4.2 VISUALIZACIÓN 2. Brecha de género en motivación hacia matemáticas

In [21]:
# CREACIÓN DEL DATASET PARA VISUALIZACIÓN 2

# 1. Filtramos registros con datos válidos en ambas columnas
df_clean = df_input[
    df_input['MATHEMATICS'].notnull() &
    df_input['ST004D01T'].notnull()
].copy()

# 2. Aseguramos tipo numérico para MATHEMATICS
df_clean['MATHEMATICS'] = pd.to_numeric(df_clean['MATHEMATICS'], errors='coerce')

# 3. Convertimos ST004D01T a int (por si viene como string o float)
df_clean['ST004D01T'] = df_clean['ST004D01T'].astype(int)

# 4. Reasignamos etiquetas de género
df_clean['Genero'] = df_clean['ST004D01T'].map({1: 'Chico', 2: 'Chica'})

# 5. Seleccionamos solo las columnas necesarias
df_viz2 = df_clean[['Genero', 'MATHEMATICS']].copy()

# Agrupamos por género y categoría de motivación
df_burbujas = (
    df_viz2
    .groupby(['Genero', 'MATHEMATICS'])
    .size()
    .reset_index(name='Frecuencia')
)

# 6. Exportamos a CSV si deseas (opcional)
df_burbujas.to_csv("datasets_export/V2_motivacion_matematicas_genero.csv", index=False)


In [22]:
#VISUALIZACIÓN DEL RESULTADO

#pd.set_option('display.max_rows', None)      # Muestra todas las filas

# Vista previa
print(df_burbujas)

#pd.reset_option('display.max_rows')

  Genero  MATHEMATICS  Frecuencia
0  Chica            0      247926
1  Chica            1       33954
2  Chica            2       15375
3  Chica            3        4732
4  Chico            0      257144
5  Chico            1       27720
6  Chico            2       12116
7  Chico            3        3181


### 4.3 VISUALIZACIÓN 3. Correlación entre motivación por la ciencia e indicadores de rendimiento

In [23]:
# CREACIÓN DEL DATASET PARA VISUALIZACIÓN 3

# --------------------------
# 1. Cargamos y limpiamos datos
# --------------------------

# Filtramos registros con datos válidos en ambas variables (no nulos ni -1)
df_viz3 = df_input[
    (df_input['PVxMPIN'].notnull()) & (df_input['PVxSCIE'].notnull()) &
    (df_input['PVxMPIN'] != -1) & (df_input['PVxSCIE'] != -1)
].copy()

# Convertimos a float por seguridad
df_viz3['PVxMPIN'] = pd.to_numeric(df_viz3['PVxMPIN'], errors='coerce')
df_viz3['PVxSCIE'] = pd.to_numeric(df_viz3['PVxSCIE'], errors='coerce')

# Seleccionamos solo las columnas necesarias
df_viz3 = df_viz3[['PVxMPIN', 'PVxSCIE']]

# --------------------------
# 2. Extraemos muestra reducida
# --------------------------

# Definimos tamaño deseado de la muestra
n_muestra = 1000
n_muestra = min(n_muestra, len(df_viz3))  # Evitar error si hay menos datos disponibles

# Muestreo aleatorio reproducible
df_viz3_sampled = df_viz3.sample(n=n_muestra, random_state=123)

# Calculamos y mostramos la correlación de la muestra
corr_sample = df_viz3_sampled['PVxMPIN'].corr(df_viz3_sampled['PVxSCIE'])
print(f"Correlación en la muestra: {corr_sample:.3f}")

# --------------------------
# 3. Exportamos CSV final
# --------------------------

df_viz3_sampled.to_csv("datasets_export/V3_motivacion_vs_rendimiento_muestra.csv", index=False)


Correlación en la muestra: 0.909


In [24]:
#VISUALIZACIÓN DEL RESULTADO

#pd.set_option('display.max_rows', None)      # Muestra todas las filas

# Vista previa
print(df_viz3_sampled)

#pd.reset_option('display.max_rows')

         PVxMPIN   PVxSCIE
124453  544.1957  586.5169
605627  251.5303  297.5086
559922  508.8841  476.2807
468766  384.1948  459.4299
23712   520.0497  502.8558
...          ...       ...
525734  345.1725  363.0007
546318  405.6880  382.9424
561258  472.7703  516.8294
153964  539.5836  564.5102
70464   454.3769  428.6348

[1000 rows x 2 columns]


### 4.4 VISUALIZACIÓN 4. Relación entre estatus económico y desempeño en ciencia

In [25]:
# Función para asignar región
def asignar_region(codigo):
    for region, codigos in region_mapping.items():
        if codigo in codigos:
            return region
    return 'Otro'

In [26]:
# CREACIÓN DEL DATASET PARA VISUALIZACIÓN 4

# --------------------------
# 1. Cargamos y limpiamos datos
# --------------------------

# Filtrado y transformación
df_viz4 = df_input[
    (df_input['ESCS'] != -1) &
    (df_input['PVxSCIE'] != -1) &
    df_input['CNT'].notnull()
].copy()

df_viz4['ESCS'] = pd.to_numeric(df_viz4['ESCS'], errors='coerce')
df_viz4['PVxSCIE'] = pd.to_numeric(df_viz4['PVxSCIE'], errors='coerce')
df_viz4['REGION'] = df_viz4['CNT'].apply(asignar_region)

df_viz4 = df_viz4[['ESCS', 'PVxSCIE', 'REGION']].dropna()

# --------------------------
# 2. Extraemos muestra reducida
# --------------------------

n_muestra = 5000
n_muestra = min(n_muestra, len(df_viz4))

df_viz4_sampled = df_viz4.sample(n=n_muestra, random_state=123)

# Correlación opcional
corr_sample = df_viz4_sampled['ESCS'].corr(df_viz4_sampled['PVxSCIE'])
print(f"Correlación en la muestra: {corr_sample:.3f}")

# --------------------------
# 3. Exportamos CSV final
# --------------------------

os.makedirs("datasets_export", exist_ok=True)
df_viz4_sampled.to_csv("datasets_export/V4_status_vs_science_muestra.csv", index=False)


Correlación en la muestra: 0.462


In [27]:
#VISUALIZACIÓN DEL RESULTADO

#pd.set_option('display.max_rows', None)

# Vista previa
print(df_viz4_sampled)

#pd.reset_option('display.max_rows')

          ESCS   PVxSCIE    REGION
263802 -1.1778  510.2350    Europe
554098  0.1712  447.7493    Europe
110241 -1.3198  381.4825  Americas
32271  -2.4859  400.1488  Americas
318870 -1.0353  276.9283      Asia
...        ...       ...       ...
188693  0.9462  391.3066    Europe
215498 -0.3979  662.5122    Europe
378046  0.2842  463.4250    Europe
421204 -1.0451  430.4244      Asia
431030 -1.5439  391.4921      Asia

[5000 rows x 3 columns]


### 4.5 VISUALIZACIÓN 5. Alta motivación vs bajo rendimiento en matemáticas

In [28]:
# CREACIÓN DEL DATASET PARA VISUALIZACIÓN 5

# --------------------------
# 1. Cargamos y limpiamos datos
# --------------------------

# Filtramos registros válidos (ni nulos ni -1)
df_valid = df_input[
    df_input['CNT'].notnull() &
    df_input['MATHEMATICS'].notnull() &
    df_input['PVxMATH'].notnull() &
    (df_input['MATHEMATICS'] != -1) &
    (df_input['PVxMATH'] != -1)
].copy()

# Aseguramos tipo numérico
df_valid['MATHEMATICS'] = pd.to_numeric(df_valid['MATHEMATICS'], errors='coerce')
df_valid['PVxMATH'] = pd.to_numeric(df_valid['PVxMATH'], errors='coerce')

# --------------------------
# 2. Agregación por país
# --------------------------

df_viz5 = (
    df_valid
    .groupby('CNT', observed=False)[['MATHEMATICS', 'PVxMATH']]
    .mean()
    .reset_index()
    .rename(columns={
        'MATHEMATICS': 'Mean_Motivation',
        'PVxMATH': 'Mean_Performance'
    })
)

# --------------------------
# 3. Cálculo de medias globales
# --------------------------

global_mean_motivation = df_viz5['Mean_Motivation'].mean()
global_mean_performance = df_viz5['Mean_Performance'].mean()

# Añadir medias globales como columnas (útiles para trazar ejes del gráfico)
df_viz5['Global_Mean_Motivation'] = global_mean_motivation
df_viz5['Global_Mean_Performance'] = global_mean_performance

# --------------------------
# 4. Clasificación por cuadrante (opcional)
# --------------------------

def clasificar_cuadrante(row):
    if row['Mean_Motivation'] >= global_mean_motivation:
        if row['Mean_Performance'] >= global_mean_performance:
            return "Alta motivación / Alto rendimiento"
        else:
            return "Alta motivación / Bajo rendimiento"
    else:
        if row['Mean_Performance'] >= global_mean_performance:
            return "Baja motivación / Alto rendimiento"
        else:
            return "Baja motivación / Bajo rendimiento"

df_viz5['Cuadrante'] = df_viz5.apply(clasificar_cuadrante, axis=1)

# Aplicamos la función para crear la nueva columna
df_viz5['REGION'] = df_viz5['CNT'].apply(asignar_region)

# Reemplazamos ceros por la media global si los hay
df_viz5.loc[df_viz5['Mean_Motivation'] == 0, 'Mean_Motivation'] = global_mean_motivation
df_viz5.loc[df_viz5['Mean_Performance'] == 0, 'Mean_Performance'] = global_mean_performance

# --------------------------
# 5. Exportamos CSV
# --------------------------

df_viz5.to_csv("datasets_export/V5_motivacion_vs_rendimiento_por_pais.csv", index=False, encoding="utf-8")


In [29]:
#VISUALIZACIÓN DEL RESULTADO

#pd.set_option('display.max_rows', None)

# Vista previa
print(df_viz5)

#pd.reset_option('display.max_rows')

    CNT  Mean_Motivation  Mean_Performance  Global_Mean_Motivation  \
0   ALB         0.120411        368.254048                0.231696   
1   ARE         0.198618        433.829856                0.231696   
2   ARG         0.249525        388.548981                0.231696   
3   AUS         0.291211        487.165937                0.231696   
4   AUT         0.282718        490.877020                0.231696   
..  ...              ...               ...                     ...   
73  TUR         0.230483        451.885098                0.231696   
74  URY         0.297069        409.287277                0.231696   
75  USA         0.280316        462.809686                0.231696   
76  UZB         0.170575        363.909466                0.231696   
77  VNM         0.231696        468.833681                0.231696   

    Global_Mean_Performance                           Cuadrante    REGION  
0                439.428418  Baja motivación / Bajo rendimiento    Europe  
1      

### 4.6 VISUALIZACIÓN 6. Diferencia de rendimiento entre estudiantes inmigrantes y nativos

In [30]:
# CREACIÓN DEL DATASET PARA VISUALIZACIÓN 6

# --------------------------
# 1. Limpieza de datos
# --------------------------

df_valid = df_input[
    df_input['CNT'].notnull() &
    df_input['IMMIG'].notnull() &
    df_input['PVxMATH'].notnull() &
    (df_input['IMMIG'] != -1)
].copy()

df_valid['IMMIG'] = pd.to_numeric(df_valid['IMMIG'], errors='coerce', downcast='integer')
df_valid['PVxMATH'] = pd.to_numeric(df_valid['PVxMATH'], errors='coerce')

# --------------------------
# 2. Reasignamos etiquetas de inmigración
# --------------------------

grupo_map = {
    1: 'Nativo',
    2: 'Inmigrante 2da generación',
    3: 'Inmigrante 1ra generación'
}
df_valid = df_valid[df_valid['IMMIG'].isin(grupo_map.keys())].copy()
df_valid['Grupo'] = df_valid['IMMIG'].map(grupo_map)

# --------------------------
# 3. Agregación por país y grupo
# --------------------------

df_viz6 = (
    df_valid
    .groupby(['CNT', 'Grupo'], observed=False)['PVxMATH']
    .mean()
    .reset_index()
    .rename(columns={'PVxMATH': 'Media_Rendimiento'})
)

# --------------------------
# 4. Añadimos columna REGION
# --------------------------

df_viz6['REGION'] = df_viz6['CNT'].apply(asignar_region)

# --------------------------
# 5. Exportamos a CSV
# --------------------------

os.makedirs("datasets_export", exist_ok=True)
df_viz6.to_csv("datasets_export/V6_rendimiento_nativos_vs_inmigrantes_con_region.csv", index=False, encoding="utf-8")


In [31]:
# TRANSPOSICIÓN DE LA TABLA PARA ADECUARLA A LAS NECESIDADES DEL GRÁFICO

# 1. Pivotamos para que cada fila sea un grupo (Nativo / Inmigrante...) y cada columna un país
df_pivot = df_viz6.pivot(index='Grupo', columns='CNT', values='Media_Rendimiento').reset_index()

# 2. Exportamos a CSV
os.makedirs("datasets_export", exist_ok=True)
df_pivot.to_csv("datasets_export/V6_matriz_grupos_vs_paises.csv", index=False, encoding="utf-8")

# 3. Mostramos en pantalla (opcional en Jupyter/entorno interactivo)
print(df_pivot.head())


CNT                      Grupo         ALB         ARE         ARG  \
0    Inmigrante 1ra generación  339.922866  474.845039  374.816171   
1    Inmigrante 2da generación  325.348478  455.937640  381.353791   
2                       Nativo  368.644253  392.741477  389.207920   

CNT         AUS         AUT         BEL         BGR         BRA         BRN  \
0    498.895450  448.570540  444.026559  401.633172  332.267154  497.899225   
1    505.858953  453.709196  454.606758  379.928422  338.717542  471.700334   
2    481.365751  504.047110  505.365116  418.629148  381.348287  436.850076   

CNT  ...         SVK         SVN         SWE         TAP         THA  \
0    ...  460.095155  417.828146  422.869930  438.722067  369.265614   
1    ...  461.982003  431.793822  448.093414  495.008272  369.034237   
2    ...  468.758647  476.948334  494.856343  534.239280  415.499599   

CNT         TUR         URY         USA         UZB         VNM  
0    400.782960  424.064169  440.214519  333.48

### 4.7 VISUALIZACIÓN 7. Diferencia de rendimiento entre estudiantes inmigrantes y nativos

In [32]:
# CREACIÓN DEL DATASET PARA VISUALIZACIÓN 7

# --------------------------
# 1. Limpieza de datos
# --------------------------

df_valid = df_input[
    df_input['CNT'].notnull() &
    df_input['BULLIED'].notnull() &
    (df_input['BULLIED'] != -1)
].copy()

df_valid['BULLIED'] = pd.to_numeric(df_valid['BULLIED'], errors='coerce')
df_valid = df_valid[df_valid['BULLIED'].notnull()]

# --------------------------
# 2. Agregación por país
# --------------------------

df_viz7 = (
    df_valid
    .groupby('CNT', observed=False)['BULLIED']
    .mean()
    .reset_index()
    .rename(columns={'BULLIED': 'Promedio_Bullying'})
)

# Eliminamos países con promedio nulo
df_viz7 = df_viz7[df_viz7['Promedio_Bullying'].notnull()]

# --------------------------
# 3. Escalamos valores al rango [0, 100]
# --------------------------

min_val = df_viz7['Promedio_Bullying'].min()
max_val = df_viz7['Promedio_Bullying'].max()

df_viz7['Bullying_Escalado'] = (
    (df_viz7['Promedio_Bullying'] - min_val) / (max_val - min_val) * 100
)

# Ordenamos de mayor a menor
df_viz7 = df_viz7.sort_values(by='Bullying_Escalado', ascending=False).reset_index(drop=True)

# --------------------------
# 4. Añadimos columna REGION (opcional)
# --------------------------

df_viz7['REGION'] = df_viz7['CNT'].apply(asignar_region)

# --------------------------
# 5. Exportamos a CSV
# --------------------------

df_viz7.to_csv("datasets_export/V7_indices_bullying_por_pais.csv", index=False, encoding="utf-8")


In [33]:
#VISUALIZACIÓN DEL RESULTADO

#pd.set_option('display.max_rows', None)

# Vista previa
print(df_viz7)

#pd.reset_option('display.max_rows')

    CNT  Promedio_Bullying  Bullying_Escalado    REGION
0   PHL           0.568541         100.000000      Asia
1   MAR           0.179451          74.185402    Africa
2   BRN           0.163205          73.107526      Otro
3   JAM           0.101264          68.997979  Americas
4   AUS           0.058355          66.151141   Oceania
..  ...                ...                ...       ...
72  PRT          -0.562094          24.986687    Europe
73  SRB          -0.578416          23.903752    Europe
74  JPN          -0.728941          13.917024      Asia
75  TAP          -0.856142           5.477687      Asia
76  KOR          -0.938704           0.000000      Asia

[77 rows x 4 columns]


### 4.8 VISUALIZACIÓN 8. Proactividad vs rendimiento académico

In [34]:
# CREACIÓN DEL DATASET PARA VISUALIZACIÓN 8

# --------------------------
# 1. Limpieza de datos
# --------------------------

df_valid = df_input[
    df_input['CNT'].notnull() &
    df_input['PROACTIVITY'].notnull() &
    df_input['PVxMATH'].notnull()
].copy()

df_valid['PROACTIVITY'] = pd.to_numeric(df_valid['PROACTIVITY'], errors='coerce')
df_valid['PVxMATH'] = pd.to_numeric(df_valid['PVxMATH'], errors='coerce')

df_valid = df_valid[
    df_valid['PROACTIVITY'].notnull() &
    df_valid['PVxMATH'].notnull()
]

# --------------------------
# 2. Agregación por país
# --------------------------

df_viz8 = (
    df_valid
    .groupby('CNT', observed=False)[['PROACTIVITY', 'PVxMATH']]
    .mean()
    .reset_index()
    .rename(columns={
        'PROACTIVITY': 'Promedio_Proactividad',
        'PVxMATH': 'Promedio_Rendimiento'
    })
)

# --------------------------
# 3. Calculamos medias globales para los cuadrantes
# --------------------------

media_global_proactividad = df_viz8['Promedio_Proactividad'].mean()
media_global_rendimiento = df_viz8['Promedio_Rendimiento'].mean()

print("Media global de PROACTIVITY:", round(media_global_proactividad, 3))
print("Media global de RENDIMIENTO:", round(media_global_rendimiento, 3))

# Guardar como columnas para facilitar visualización si se desea
df_viz8['Media_Global_Proactividad'] = media_global_proactividad
df_viz8['Media_Global_Rendimiento'] = media_global_rendimiento

# --------------------------
# 4. Clasificamos en cuadrantes
# --------------------------

def clasificar_cuadrante(row):
    if row['Promedio_Proactividad'] >= media_global_proactividad:
        if row['Promedio_Rendimiento'] >= media_global_rendimiento:
            return 'Alta Proactividad, Alto Rendimiento'
        else:
            return 'Alta Proactividad, Bajo Rendimiento'
    else:
        if row['Promedio_Rendimiento'] >= media_global_rendimiento:
            return 'Baja Proactividad, Alto Rendimiento'
        else:
            return 'Baja Proactividad, Bajo Rendimiento'

df_viz8['Cuadrante'] = df_viz8.apply(clasificar_cuadrante, axis=1)

# --------------------------
# 5. Añadimos columna REGION (opcional)
# --------------------------

df_viz8['REGION'] = df_viz8['CNT'].apply(asignar_region)

# --------------------------
# 6. Exportamos a CSV
# --------------------------

df_viz8.to_csv("datasets_export/V8_proactividad_vs_rendimiento.csv", index=False, encoding="utf-8")



Media global de PROACTIVITY: -0.019
Media global de RENDIMIENTO: 439.428


In [35]:
#VISUALIZACIÓN DEL RESULTADO

#pd.set_option('display.max_rows', None)

# Vista previa
print(df_viz8)

#pd.reset_option('display.max_rows')

    CNT  Promedio_Proactividad  Promedio_Rendimiento  \
0   ALB              -0.016997            368.254048   
1   ARE               0.145314            433.829856   
2   ARG               0.000046            388.548981   
3   AUS               0.078513            487.165937   
4   AUT              -0.014900            490.877020   
..  ...                    ...                   ...   
73  TUR              -0.079768            451.885098   
74  URY               0.007445            409.287277   
75  USA               0.053066            462.809686   
76  UZB               0.234027            363.909466   
77  VNM              -0.111638            468.833681   

    Media_Global_Proactividad  Media_Global_Rendimiento  \
0                   -0.019159                439.428418   
1                   -0.019159                439.428418   
2                   -0.019159                439.428418   
3                   -0.019159                439.428418   
4                   -0.019159   

### 4.9 VISUALIZACIÓN 9. Rendimiento y repetición escolar

In [36]:
# CREACIÓN DEL DATASET PARA VISUALIZACIÓN 9

# --------------------------
# 1. Limpieza de datos
# --------------------------

df_valid = df_input[
    df_input['CNT'].notnull() &
    df_input['REPEAT'].notnull() &
    df_input['PVxMATH'].notnull()
].copy()

df_valid['REPEAT'] = df_valid['REPEAT'].astype(bool)
df_valid['PVxMATH'] = pd.to_numeric(df_valid['PVxMATH'], errors='coerce')
df_valid = df_valid[df_valid['PVxMATH'].notnull()]

# --------------------------
# 2. Reasignamos etiquetas de repetición
# --------------------------

etiquetas_repeat = {
    True: 'Repetidor',
    False: 'No repetidor'
}
df_valid['Condicion_Repetidor'] = df_valid['REPEAT'].map(etiquetas_repeat)

# --------------------------
# 3. Agrupación por país y condición
# --------------------------

df_grouped = (
    df_valid
    .groupby(['CNT', 'Condicion_Repetidor'], observed=False)['PVxMATH']
    .mean()
    .reset_index()
    .rename(columns={'PVxMATH': 'Promedio_Rendimiento'})
)

# --------------------------
# 4. Pivotamos para tener columnas separadas
# --------------------------

df_viz9 = df_grouped.pivot(index='CNT', columns='Condicion_Repetidor', values='Promedio_Rendimiento').reset_index()

# Renombramos columnas si es necesario
df_viz9 = df_viz9.rename(columns={
    'Repetidor': 'Promedio_Repetidor',
    'No repetidor': 'Promedio_No_Repetidor'
})

# --------------------------
# 5. Clasificación en 10 grupos alfabéticos
# --------------------------

# Ordenamos alfabéticamente por país
df_viz9 = df_viz9.sort_values(by='CNT').reset_index(drop=True)

# --------------------------
# 6. Exportamos a CSV
# --------------------------

df_viz9.to_csv("datasets_export/V9_promedios_por_pais_repetidor_no_repetidor.csv", index=False, encoding="utf-8")


In [37]:
#VISUALIZACIÓN DEL RESULTADO

#pd.set_option('display.max_rows', None)

# Vista previa
print(df_viz9)

#pd.reset_option('display.max_rows')

Condicion_Repetidor  CNT  Promedio_No_Repetidor  Promedio_Repetidor
0                    ALB             371.013249          319.454873
1                    ARE             442.518913          363.205075
2                    ARG             396.023164          329.805290
3                    AUS             489.906664          436.765041
4                    AUT             500.770402          428.497014
..                   ...                    ...                 ...
73                   TUR             453.416740          365.980479
74                   URY             428.865793          342.886618
75                   USA             468.713613          395.684602
76                   UZB             367.271365          312.297541
77                   VNM             472.489147          389.722859

[78 rows x 3 columns]
