In [1]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
from sqlalchemy import text as sql_text

In [None]:
# connection engine using uri
engine = create_engine("postgresql://readonly:npg_qZjndgh5A3rD@ep-dawn-math-a4b8a1d1-pooler.us-east-1.aws.neon.tech/colegiosb?sslmode=require")

# Consulta SQL para obtener la respuesta de cada pregunta de cada estudiante junto con
# el valor de la dimensión (dificultad solamente)
sql_str = """
SELECT 
    s.id AS student_id,
    s.fullname AS student_name,
    s.rut AS student_rut,
    ass.name AS test_type,
    q.id AS question_id,
    a.score AS score,
    dv.value AS dimension_value,
    dv.dimension_id AS dimension_type
FROM answer a
JOIN student s ON s.id = a.student_id
JOIN question q ON q.id = a.question_id
JOIN assessment ass ON ass.id = q.assessment_id
JOIN question_dimensions_values qdv ON qdv.question_id = q.id
JOIN dimension_values dv ON dv.id = qdv.dimension_value_id
WHERE dv.dimension_id = 4;
"""
df = pd.read_sql(sql=sql_text(sql_str), con=engine.connect()) # para versiones mas nuevas de sqlalchemy
df.head()

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1175701 entries, 0 to 1175700
Data columns (total 8 columns):
 #   Column           Non-Null Count    Dtype 
---  ------           --------------    ----- 
 0   student_id       1175701 non-null  int64 
 1   student_name     1175701 non-null  object
 2   student_rut      1175701 non-null  object
 3   test_type        1175701 non-null  object
 4   question_id      1175701 non-null  int64 
 5   score            1175701 non-null  int64 
 6   dimension_value  1175701 non-null  object
 7   dimension_type   1175701 non-null  int64 
dtypes: int64(4), object(4)
memory usage: 71.8+ MB


In [None]:
df['type'] = df['test_type'].apply(lambda x: 1 if 'Len' in x else 0)
df['year'] = df['test_type'].str.extract(r'(\d{4})').astype(int)
# ahora cambiamos la columna type a que incluya el año
df['type'] = df['type'].astype(str) + '-' + df['year'].astype(str)
df.head()

In [41]:
df['type'].unique()

array(['1-2012', '0-2012', '1-2013', '0-2013', '1-2014', '0-2014',
       '1-2015', '0-2015', '1-2016', '0-2016', '1-2017', '0-2017',
       '1-2018', '0-2018', '1-2019', '0-2019', '1-2021', '0-2021',
       '1-2022', '0-2022', '1-2023', '0-2023', '1-2024', '0-2024'],
      dtype=object)

In [None]:
# ahora vamos a calcular el puntaje promedio para cada tipo de dificultad, tanto para la prueba
# de lenguaje como de matemáticas
# es decir, tendremos un DataFrame con el puntaje promedio por cada par (dificultad, tipo prueba)
df_avg = df.groupby(['student_id', 'student_rut', 'dimension_value', 'type']).agg({'score': 'mean'}).reset_index()
df_avg.head(15)

In [43]:
# creamos una columna que combine el tipo de prueba y el valor de la dimensión
df_avg['type'] = df_avg['type'].astype(str) + ' - ' + df_avg['dimension_value'].astype(str)

In [None]:
# ahora realizamos un pivot para obtener una columna por cada par (dificultad, tipo prueba)
df_pivot = df_avg.pivot_table(index=['student_id', 'student_rut'], columns=['type'], values='score').reset_index()
# cambiamos el nombre de student_rut por rut
df_pivot.rename(columns={'student_rut': 'rut', 'student_id': 'id'}, inplace=True)
df_pivot.head(15)

In [45]:
df_pivot.to_csv('Datos/df_avg_diff_scores.csv', index=False)

Ahora vamos a calcular los puntajes promedios por cada par (dificultad, tipo prueba) pero sin considerar el año particular de la prueba.

In [None]:
df['type'] = df['test_type'].apply(lambda x: 1 if 'Len' in x else 0)
df_avg = df.groupby(['student_id', 'student_rut', 'dimension_value', 'type']).agg({'score': 'mean'}).reset_index()
# creamos una columna que combine el tipo de prueba y el valor de la dimensión
df_avg['type'] = df_avg['type'].astype(str) + ' - ' + df_avg['dimension_value'].astype(str)
df_pivot = df_avg.pivot_table(index=['student_id', 'student_rut'], columns=['type'], values='score').reset_index()
# cambiamos el nombre de student_rut por rut y lo mismo para el id
df_pivot.rename(columns={'student_rut': 'rut', 'student_id': 'id'}, inplace=True)
df_pivot.head(15)

In [39]:
df_pivot.to_csv('Datos/df_avg_diff_scores_agg.csv', index=False)