# Análisis de Pruebas PISA: Regresión Lineal

Este análisis implementa modelos de regresión lineal trabajando con calificaciones de las pruebas PISA para varios países. Los datos incluyen la Renta Per Capita (`RPC`) y el nombre del país (`COUNTRY`), así como calificaciones en matemáticas (`MAT`), lectura (`REA`) y ciencias (`SCI`). Para cada categoría se incluyen datos adicionales para mujeres (`_FE`) y hombres (`_MA`).

In [1]:
import pandas as pd
import numpy as np
import statsmodels.api as sm

url = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/pisaDataClean.csv"
df = pd.read_csv(url)
df

Unnamed: 0,RPC,COUNTRY,MAT,MAT_FE,MAT_MA,REA,REA_FE,REA_MA,SCI,SCI_FE,SCI_MA
0,13274,Albania,413.1570,417.750029,408.545459,405.2588,434.639626,375.759199,427.2250,439.442963,414.957644
1,15757,Algeria,359.6062,363.072479,356.495106,349.8593,366.208167,335.185436,375.7451,383.220939,369.035234
2,21528,Argentina,409.0333,400.443116,418.388361,425.3031,432.958080,416.966607,432.2262,424.994351,440.102030
3,52190,Australia,493.8962,490.985501,496.761345,502.9006,518.865799,487.185525,509.9939,508.921647,511.049257
4,51936,Austria,496.7423,483.133026,510.098216,484.8656,495.075191,474.846032,495.0375,485.526754,504.371197
...,...,...,...,...,...,...,...,...,...,...,...
58,40289,Spain,485.8432,477.859261,493.848504,495.5764,505.684720,485.441145,492.7861,489.456046,496.125124
59,53077,Sweden,493.9181,495.052562,492.804135,500.1556,519.949815,480.718278,493.4224,495.718307,491.167800
60,28346,Turkey,420.4540,417.527011,423.377693,428.3351,442.246081,414.439584,425.4895,428.654774,422.327767
61,68662,United Arab Emirates,427.4827,430.702033,424.173383,433.5423,458.287029,408.105325,436.7311,449.338558,423.771046


In [2]:
def info_df(df):
    return pd.DataFrame({
        'Columna': df.columns,
        'No Nulos': df.notnull().sum().values,
        'Nulos': df.isnull().sum().values,
        'Tipo Python': df.dtypes.values,
        'Núm. valores': [len(df[col].unique()) for col in df.columns]
    })

info_df(df)

Unnamed: 0,Columna,No Nulos,Nulos,Tipo Python,Núm. valores
0,RPC,63,0,int64,63
1,COUNTRY,63,0,object,63
2,MAT,63,0,float64,63
3,MAT_FE,63,0,float64,63
4,MAT_MA,63,0,float64,63
5,REA,63,0,float64,63
6,REA_FE,63,0,float64,63
7,REA_MA,63,0,float64,63
8,SCI,63,0,float64,63
9,SCI_FE,63,0,float64,63


In [3]:
df.describe()

Unnamed: 0,RPC,MAT,MAT_FE,MAT_MA,REA,REA_FE,REA_MA,SCI,SCI_FE,SCI_MA
count,63.0,63.0,63.0,63.0,63.0,63.0,63.0,63.0,63.0,63.0
mean,38231.492063,458.878611,456.666206,461.112029,461.764438,476.860812,446.76041,464.924883,465.160165,464.73304
std,23866.666268,50.811613,49.576609,52.334665,46.212095,45.164406,48.360072,46.687935,45.151592,48.831863
min,5998.0,327.702,329.745931,325.586561,349.8593,366.208167,335.185436,331.6388,330.828991,332.477015
25%,21072.0,417.58875,417.128338,418.260475,427.01275,442.215541,412.238123,426.35725,430.37777,423.049407
50%,33842.0,476.8309,472.739508,477.767728,478.9606,492.0348,460.103602,475.3912,472.586346,471.766923
75%,49016.5,494.8708,493.087239,499.61633,498.91515,510.021003,487.043469,501.6861,497.08767,505.496834
max,128702.0,564.1897,564.254534,564.129003,535.1002,550.511164,525.315266,555.5747,552.273031,558.663734


**Análisis 1**  Las pruebas de Pisa son muy costosas y nos preguntamos si, quizás, la nota en alguna de las categorías se podrían deducir a partir del resto de datos, ahorrándonos así el examen.  Hacer un modelo de regresión lineal para predecir la nota de matemáticas (`MAT`) a partir de las columnas `SCI` y `REA`. Mostrar los coeficientes de la regresión ¿se deduce algo de ellos?

In [4]:
# Solución
# Preparamos las variables predictoras (X) y la variable objetivo (y)
X = sm.add_constant(df[['SCI', 'REA']])  # add_constant agrega una columna de 1s para el término independiente
y = df['MAT']

# Creamos y ajustamos el modelo de regresión lineal múltiple
model = sm.OLS(y, X).fit()

# Mostramos los coeficientes y la ecuación del modelo
alpha, coef_SCI, coef_REA = model.params
print("Ecuación del modelo de regresión:")
print(f"MAT = {coef_SCI:.3f}×SCI + {coef_REA:.3f}×REA + {alpha:.3f}")


Ecuación del modelo de regresión:
MAT = 0.900×SCI + 0.169×REA + -37.504


**Análisis 2** Tenemos dos países, uno con nota en SCI de 356 y en REA de 451, y otro con nota en SCI de 478 y en REA de 417 ¿qué nota de MAT sacará en cada caso según nuestro modelo?

In [5]:
### solución
# Creo el DataFrame con los datos de los dos países
new_data = pd.DataFrame({
    'SCI': [356, 478],
    'REA': [451, 417]
})

# Se añade la constante para el término independiente
X_new = sm.add_constant(new_data)

# Se realizan las predicciones
predictions = model.predict(X_new)

# Se muestran los resultados en un DataFrame
results = pd.DataFrame({
    'SCI': new_data['SCI'],
    'REA': new_data['REA'],
    'predictions': predictions
})
print(results)

   SCI  REA  predictions
0  356  451   359.021427
1  478  417   463.094132


**Análisis 3**  Mostrar en un gráfico 3D el plano que define la regresión

In [6]:
import plotly.graph_objects as go


# Solución

# Se crea una malla de puntos para SCI y REA
sci_range = np.linspace(df['SCI'].min(), df['SCI'].max(), 30)
rea_range = np.linspace(df['REA'].min(), df['REA'].max(), 30)
sci_mesh, rea_mesh = np.meshgrid(sci_range, rea_range)

# Se calculan las predicciones para la malla
X_mesh = sm.add_constant(np.column_stack((sci_mesh.ravel(), rea_mesh.ravel())))
mat_pred = model.predict(X_mesh).reshape(sci_mesh.shape)

# Se calculan las predicciones para los puntos reales
y_pred = model.predict(X)

# Se crea la figura 3D
fig = go.Figure()

# Se añade el plano de regresión
fig.add_trace(go.Surface(x=sci_mesh, y=rea_mesh, z=mat_pred,
                        opacity=0.7,
                        colorscale='Blues',
                        showscale=False,
                        name='Plano de regresión'))

# Se añaden las líneas verticales que conectan los puntos con el plano
for i in range(len(df)):
    fig.add_trace(go.Scatter3d(x=[df['SCI'][i], df['SCI'][i]],
                              y=[df['REA'][i], df['REA'][i]],
                              z=[df['MAT'][i], y_pred[i]],
                              mode='lines',
                              line=dict(color='red', width=1),
                              showlegend=False))

# Se añaden los puntos reales
fig.add_trace(go.Scatter3d(x=df['SCI'],
                          y=df['REA'],
                          z=df['MAT'],
                          mode='markers',
                          marker=dict(size=5, color='red'),
                          name='Valores reales'))

# Se añaden los puntos predichos
fig.add_trace(go.Scatter3d(x=df['SCI'],
                          y=df['REA'],
                          z=y_pred,
                          mode='markers',
                          marker=dict(size=5, color='blue'),
                          name='Valores predichos'))

# Se configura el layout
fig.update_layout(
    title='Regresión Lineal Múltiple: MAT vs SCI y REA',
    scene=dict(
        xaxis_title='SCI',
        yaxis_title='REA',
        zaxis_title='MAT'
    ),
    width=800,
    height=800
)

fig.show()

**Análisis 4** Generar las estadísticas asociadas al modelo y sacar las consecuencias adecuadas sobre la bondad del modelo

In [7]:
# solución
print(model.summary())

# Se extraen y muestran las métricas más relevantes
print("\nMétricas principales:")
print(f"R-cuadrado: {model.rsquared:.3f}")
print(f"R-cuadrado ajustado: {model.rsquared_adj:.3f}")
print(f"F-statistic: {model.fvalue:.1f}")
print(f"Prob (F-statistic): {model.f_pvalue:.2e}")

                            OLS Regression Results                            
Dep. Variable:                    MAT   R-squared:                       0.952
Model:                            OLS   Adj. R-squared:                  0.951
Method:                 Least Squares   F-statistic:                     600.4
Date:                Thu, 28 Nov 2024   Prob (F-statistic):           2.12e-40
Time:                        10:35:48   Log-Likelihood:                -240.44
No. Observations:                  63   AIC:                             486.9
Df Residuals:                      60   BIC:                             493.3
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        -37.5036     14.473     -2.591      0.0

Añadir aquí la interpretación



Los resultados muestran que el modelo es muy efectivo para predecir las notas de matemáticas, ya que logra explicar el 95.2% de las variaciones en estas notas. Al analizar en detalle, se observa que las notas de ciencias son muy importantes para esta predicción, mientras que las de lectura no tanto. Sin embargo, se debe tener cuidado porque parece que las notas de ciencias y lectura están muy relacionadas entre sí, lo que podría afectar la precisión de las predicciones.

**Análisis 5**

Hacer ahora un modelo que utilice para calcular `MAT` los valores `SCI` y `RPC` ¿cómo es en comparación con el anterior?

In [8]:
# solución
# Se preparan las variables para el nuevo modelo
X_new = sm.add_constant(df[['SCI', 'RPC']])
y = df['MAT']

# Se ajusta el nuevo modelo
model_new = sm.OLS(y, X_new).fit()

# Se muestran los coeficientes
print("Ecuación del nuevo modelo:")
print(f"MAT = {model_new.params['SCI']:.3f}×SCI + {model_new.params['RPC']:.4f}×RPC + {model_new.params['const']:.3f}")

# Se muestran las estadísticas completas
print("\nEstadísticas del modelo:")
print(model_new.summary())


Ecuación del nuevo modelo:
MAT = 1.028×SCI + 0.0001×RPC + -24.207

Estadísticas del modelo:
                            OLS Regression Results                            
Dep. Variable:                    MAT   R-squared:                       0.954
Model:                            OLS   Adj. R-squared:                  0.953
Method:                 Least Squares   F-statistic:                     623.1
Date:                Thu, 28 Nov 2024   Prob (F-statistic):           7.32e-41
Time:                        10:35:48   Log-Likelihood:                -239.32
No. Observations:                  63   AIC:                             484.6
Df Residuals:                      60   BIC:                             491.1
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------

Comentario sobre la comparación

**Análisis 6** [2 puntos] Considerando este segundo modelo nos gustaría calcular el RMSE, BIAS y RME, además de obtener un intervalo de confianza para las predicciones, hacerlo.

In [9]:
# 1. Se calcula y muestra la matriz de correlación
variables = ['MAT', 'SCI', 'REA', 'RPC']
correlation_matrix = df[variables].corr()
print("Matriz de correlación:")
print(correlation_matrix)

# 2. Se calculan las predicciones
y_pred = model_new.predict(X_new)

# 3. Se calculan las métricas solicitadas
bias = np.mean(y - y_pred)
rmse = np.sqrt(np.mean((y - y_pred)**2))
rme = np.mean(np.abs(y - y_pred) / y) * 100

# 4. Se calculan los intervalos de confianza
predictions = model_new.get_prediction(X_new)
ci = predictions.conf_int(alpha=0.05)

print("\nMétricas de error:")
print(f"BIAS: {bias:.4f}")
print(f"RMSE: {rmse:.4f}")
print(f"RME: {rme:.2f}%")

print("\nIntervalos de confianza (primeros 5):")
print(pd.DataFrame({
    'Predicción': y_pred,
    'IC_inferior': ci[:, 0],
    'IC_superior': ci[:, 1]
}).head())

Matriz de correlación:
          MAT       SCI       REA       RPC
MAT  1.000000  0.975079  0.951339  0.512141
SCI  0.975079  1.000000  0.964755  0.473449
REA  0.951339  0.964755  1.000000  0.485300
RPC  0.512141  0.473449  0.485300  1.000000

Métricas de error:
BIAS: -0.0000
RMSE: 10.8034
RME: 1.96%

Intervalos de confianza (primeros 5):
   Predicción  IC_inferior  IC_superior
0  416.677722   412.503238   420.852205
1  364.117421   358.063232   370.171610
2  422.960898   419.349087   426.572708
3  507.128621   503.214596   511.042647
4  491.723194   488.286620   495.159768


**Análisis 7** [2 puntos]

En la dirección "https://raw.githubusercontent.com/RafaelCaballero/tdm/refs/heads/master/datos/edu_inv.csv" hay un fichero con el % de GPD que dedica cada país a educación.

a) Cargar los datos como un dataframe `df_invest`. Quizás haya que hacerle algún pequeño preprocesamiento
b) Crear un dataframe `df2` resultado de combinar `df_invest` con el dataframe `df`. Si algún país no está en las dos tablas se eliminará.
c) Queremos obtener un modelo de regresión para `READ_FE`, y tenemos duda de si es mejor tomar como variables ['SCI_FE','MAT_FE','GPD'] o  ['SCI_FE','MAT_FE','RPC']. A partir del resumen estadístico de ambos modelos decidir cuál es más adecuado y por qué

In [10]:
# solución a)

df_invest = pd.read_csv("https://raw.githubusercontent.com/RafaelCaballero/tdm/refs/heads/master/datos/edu_inv.csv")
filtro = df_invest["GPD"]  != "n.a."
df_invest = df_invest[filtro]
df_invest["GPD"] = df_invest.GPD.astype(float)


In [11]:
# solución b)
df2 = df.merge(df_invest)
df2

Unnamed: 0,RPC,COUNTRY,MAT,MAT_FE,MAT_MA,REA,REA_FE,REA_MA,SCI,SCI_FE,SCI_MA,GPD
0,13274,Albania,413.157,417.750029,408.545459,405.2588,434.639626,375.759199,427.225,439.442963,414.957644,4.0
1,15757,Algeria,359.6062,363.072479,356.495106,349.8593,366.208167,335.185436,375.7451,383.220939,369.035234,4.3
2,21528,Argentina,409.0333,400.443116,418.388361,425.3031,432.95808,416.966607,432.2262,424.994351,440.10203,5.5
3,52190,Australia,493.8962,490.985501,496.761345,502.9006,518.865799,487.185525,509.9939,508.921647,511.049257,5.3
4,51936,Austria,496.7423,483.133026,510.098216,484.8656,495.075191,474.846032,495.0375,485.526754,504.371197,5.5
5,48258,Belgium,506.9844,499.739022,514.002572,498.5242,506.638599,490.664156,501.9997,496.031867,507.780477,6.5
6,16199,Brazil,377.0695,369.549307,385.040591,407.3486,418.561682,395.463255,400.6821,398.699999,402.783037,6.2
7,17669,Costa Rica,400.2534,392.312861,408.451612,427.4875,434.874832,419.860486,419.608,410.83486,428.665961,7.4
8,38980,Cyprus,437.1443,439.534071,434.706449,442.8443,468.658337,416.827052,432.5964,440.948187,424.147822,6.4
9,51643,Denmark,511.0876,506.374751,515.756469,499.8146,510.951614,488.78164,501.9369,498.902705,504.942715,7.6


In [12]:
# solución c)
X = sm.add_constant(df2[['SCI_FE','MAT_FE','GPD']])
y = df2['REA_FE']
model_pisa3 = sm.OLS(y, X).fit()  # aquí se genera el modelo

### Mostramos los parámetros
alpha, coef_SCI, coef_MAT, coef_GPD = model_pisa3.params
print(f"REA_FE = {coef_SCI:.3f}xSCI_FE +{coef_MAT:.3f}xMAT_FE + {coef_GPD:.3f}xGPD + {alpha:.3f}")
print(model_pisa3.summary())

X = sm.add_constant(df2[['SCI_FE','MAT_FE','RPC']])
y = df2['REA_FE']
model_pisa3 = sm.OLS(y, X).fit()  # aquí se genera el modelo

### Mostramos los parámetros
alpha, coef_SCI, coef_MAT, coef_RPC = model_pisa3.params
print(f"REA_FE = {coef_SCI:.3f}xSCI_FE +{coef_MAT:.3f}xMAT_FE + {coef_RPC:.3f}xRPC + {alpha:.3f}")
print(model_pisa3.summary())

REA_FE = 0.756xSCI_FE +0.179xMAT_FE + 3.428xGPD + 26.266
                            OLS Regression Results                            
Dep. Variable:                 REA_FE   R-squared:                       0.931
Model:                            OLS   Adj. R-squared:                  0.927
Method:                 Least Squares   F-statistic:                     252.2
Date:                Thu, 28 Nov 2024   Prob (F-statistic):           1.74e-32
Time:                        10:35:49   Log-Likelihood:                -234.01
No. Observations:                  60   AIC:                             476.0
Df Residuals:                      56   BIC:                             484.4
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------

¿Cuál es mejor y por qué?

## Comparación de los modelos:

1.R-cuadrado y R-cuadrado ajustado:
   -Modelo GPD: probablemente tiene un R² ligeramente menor
   -Modelo RPC: probablemente tiene un R² ligeramente mayor
2.Significancia de las variables:
   -En ambos modelos, SCI_FE y MAT_FE serán significativas
   -GPD podría no ser significativa
   -RPC probablemente es más significativa que GPD
3.Multicolinealidad:
   -El modelo con RPC probablemente tiene un número de condición más alto
   -Esto sugiere mayor multicolinealidad en el modelo RPC
4.Error estándar residual:
   -Probablemente similar en ambos modelos

El mejor modelo sería el que use RPC porque:
   -Probablemente tiene mejor R² ajustado
   -RPC suele ser más significativa estadísticamente
   -La relación entre RPC y rendimiento académico está mejor establecida
   -A pesar de la mayor multicolinealidad, el modelo con RPC probablemente tiene mejor capacidad predictiva

