In [None]:
# NOMBRE: STELLA ESPARZA TORREGROSA

In [39]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from numpy import linalg as la
import math

Adjunta a esta tarea encontrarás una hoja de datos (Excel) que contiene datos sobre un ranking internacional de Universidades del año 2023. En esta tarea te pedimos que utilices modelos lineales que determinen el valor de la variable ‘Overall Score’ a partir de las variables ‘No student per staff’, ‘Teaching Score’, ‘Research Score’ y ‘Industry Income Score’. Construye los modelos que necesites para poder responder a estas preguntas: 

¿Cuál de las variables es más importante para determinar el Overall Score? 

¿Existe sobreajuste en el modelo que has creado para responder a la pregunta anterior? 

¿Es relevante la variable ‘Industry Income Score’? Crea un modelo con todas las variables anteriores menos esta y realiza un test de significatividad estadística de rendimiento entre este modelo y el modelo con todas las variables.  

A la hora de crear los conjuntos de entrenamiento y validación, ten en cuenta que el conjunto de datos proporcionado se encuentra ordenado por ranking de acuerdo al valor de la variable ‘Overall score’. 

In [42]:
datos = pd.read_excel("./World-University-Rankings-2023_Simplificado.xlsx")
datos.head(10)

Unnamed: 0,University Rank,Name of University,Location,No of student,No of student per staff,International Student,Female:Male Ratio,OverAll Score,Teaching Score,Research Score,Citations Score,Industry Income Score,International Outlook Score
0,1,University of Oxford,United Kingdom,20965,10.6,42%,48:52:00,96.4,92.3,99.7,99.0,74.9,96.2
1,2,Harvard University,United States,21887,9.6,25%,50:50:00,95.2,94.8,99.0,99.3,49.5,80.5
2,3,University of Cambridge,United Kingdom,20185,11.3,39%,47:53:00,94.8,90.9,99.5,97.0,54.2,95.8
3,3,Stanford University,United States,16164,7.1,24%,46:54:00,94.8,94.2,96.7,99.8,65.0,79.8
4,5,Massachusetts Institute of Technology,United States,11415,8.2,33%,40 : 60,94.2,90.7,93.6,99.8,90.9,89.3
5,6,California Institute of Technology,United States,2237,6.2,34%,37 : 63,94.1,90.9,97.0,97.3,89.8,83.6
6,7,Princeton University,United States,8279,8.0,23%,46:54:00,92.4,87.6,95.9,99.1,66.0,80.3
7,8,"University of California, Berkeley",United States,40921,18.4,24%,52:48:00,92.1,86.4,95.8,99.0,76.8,78.4
8,9,Yale University,United States,13482,5.9,21%,52:48:00,91.4,92.6,92.7,97.0,55.0,70.9
9,10,Imperial College London,United Kingdom,18545,11.2,61%,40 : 60,90.4,82.8,90.8,98.3,59.8,97.5


In [44]:
X = datos[['No of student per staff', 'Teaching Score', 'Research Score', 'Industry Income Score']]
y = datos['OverAll Score']

In [46]:
def dividir_datos_ordenados(X, y, proporcion_prueba=0.5):
    n = len(X)
    indices = np.arange(n)
    indices_pares = indices[::2]
    indices_impares = indices[1::2]
    
    X_entrenamiento = X.iloc[indices_pares]
    X_prueba = X.iloc[indices_impares]
    y_entrenamiento = y.iloc[indices_pares]
    y_prueba = y.iloc[indices_impares]
    
    return X_entrenamiento, X_prueba, y_entrenamiento, y_prueba

In [48]:
def estandarizar(X):
    if isinstance(X, pd.DataFrame):
        media = X.mean()
        desviacion_estandar = X.std()
        return (X - media) / desviacion_estandar, media, desviacion_estandar
    else:
        media = np.mean(X, axis=0)
        desviacion_estandar = np.std(X, axis=0)
        return (X - media) / desviacion_estandar, media, desviacion_estandar

Preparamos los datos para trabajar

In [53]:
X_entrenamiento, X_validacion, y_entrenamiento, y_validacion = dividir_datos_ordenados(X, y)
X_entrenamiento_estandarizado, media_entrenamiento, desviacion_entrenamiento = estandarizar(X_entrenamiento)
X_validacion_estandarizado = (X_validacion - media_entrenamiento) / desviacion_entrenamiento

In [55]:
def regresion_lineal(X, y):
    X = np.column_stack((np.ones(len(X)), X))
    coeficientes = la.inv(X.T @ X) @ X.T @ y
    return coeficientes[1:], coeficientes[0]

In [57]:
def predecir(X, coeficientes, termino_independiente):
    return X @ coeficientes + termino_independiente

In [59]:
def error_cuadratico_medio(y_verdadero, y_predicho):
    return np.mean((y_verdadero - y_predicho) ** 2)

In [61]:
def coeficiente_determinacion(y_verdadero, y_predicho):
    ss_total = np.sum((y_verdadero - np.mean(y_verdadero)) ** 2)
    ss_residual = np.sum((y_verdadero - y_predicho) ** 2)
    return 1 - (ss_residual / ss_total)

Implementación de la regresión lineal y evaluación de la importancia de las variables

In [64]:
# Ajustamos el modelo
coeficientes, termino_independiente = regresion_lineal(X_entrenamiento_estandarizado, y_entrenamiento)

nombres_columnas = X.columns
importancia = pd.DataFrame({
    'Variable': nombres_columnas,
    'Coeficiente': coeficientes
})
importancia = importancia.sort_values('Coeficiente', key=abs, ascending=False)
print("Importancia de las variables:")
print(importancia)
print()

Importancia de las variables:
                  Variable  Coeficiente
2           Research Score     7.741428
1           Teaching Score     2.791727
0  No of student per staff    -0.934452
3    Industry Income Score    -0.507108



In [79]:
y_predicho_entrenamiento = predecir(X_entrenamiento_estandarizado, coeficientes, termino_independiente)
y_predicho_validacion = predecir(X_validacion_estandarizado, coeficientes, termino_independiente)

ecm_entrenamiento = error_cuadratico_medio(y_entrenamiento, y_predicho_entrenamiento)
r2_entrenamiento = coeficiente_determinacion(y_entrenamiento, y_predicho_entrenamiento)
ecm_validacion = error_cuadratico_medio(y_validacion, y_predicho_validacion)
r2_validacion = coeficiente_determinacion(y_validacion, y_predicho_validacion)

print("Rendimiento del modelo en entrenamiento:")
print(f"Error Cuadrático Medio: {ecm_entrenamiento:.4f}")
print(f"Coeficiente de Determinación (R2): {r2_entrenamiento:.4f}")
print()
print("Rendimiento del modelo en validación:")
print(f"Error Cuadrático Medio: {ecm_validacion:.4f}")
print(f"Coeficiente de Determinación (R2): {r2_validacion:.4f}")
print()

Rendimiento del modelo en entrenamiento:
Error Cuadrático Medio: 12.5825
Coeficiente de Determinación (R2): 0.8971

Rendimiento del modelo en validación:
Error Cuadrático Medio: 13.6433
Coeficiente de Determinación (R2): 0.8853



In [81]:
def evaluar_sobreajuste(ecm_entrenamiento, ecm_validacion, r2_entrenamiento, r2_validacion, umbral=0.1):
    diff_ecm = abs(ecm_entrenamiento - ecm_validacion) / ecm_entrenamiento
    diff_r2 = abs(r2_entrenamiento - r2_validacion) / r2_entrenamiento
    
    if diff_ecm > umbral or diff_r2 > umbral:
        return f"Posible sobreajuste detectado. Diferencia ECM: {diff_ecm:.2%}, Diferencia R2: {diff_r2:.2%}"
    else:
        return "No se detecta sobreajuste significativo."

print(evaluar_sobreajuste(ecm_entrenamiento, ecm_validacion, r2_entrenamiento, r2_validacion))
print()

No se detecta sobreajuste significativo.



In [83]:
# Modelo reducido
X_reducido = X[['No of student per staff', 'Teaching Score', 'Research Score']]
X_entrenamiento_reducido, X_validacion_reducido, _, _ = dividir_datos_ordenados(X_reducido, y)

X_entrenamiento_reducido_estandarizado, _, _ = estandarizar(X_entrenamiento_reducido)
X_validacion_reducido_estandarizado = (X_validacion_reducido - X_entrenamiento_reducido.mean()) / X_entrenamiento_reducido.std()

coeficientes_reducido, termino_independiente_reducido = regresion_lineal(X_entrenamiento_reducido_estandarizado, y_entrenamiento)

y_predicho_reducido = predecir(X_validacion_reducido_estandarizado, coeficientes_reducido, termino_independiente_reducido)
ecm_reducido = error_cuadratico_medio(y_validacion, y_predicho_reducido)
r2_reducido = coeficiente_determinacion(y_validacion, y_predicho_reducido)

print("Rendimiento del modelo reducido:")
print(f"Error Cuadrático Medio: {ecm_reducido:.4f}")
print(f"Coeficiente de Determinación (R2): {r2_reducido:.4f}")
print()

Rendimiento del modelo reducido:
Error Cuadrático Medio: 14.6282
Coeficiente de Determinación (R2): 0.8770



### 1. ¿Cuál de las variables es más importante para determinar el Overall Score? 

La variable más importante para determinar el Overall Score es "Research Score", con un coeficiente de 7.741428. Esto indica que tiene el mayor impacto positivo en la puntuación general. Le sigue "Teaching Score" con un coeficiente de 2.791727.

### 2. ¿Existe sobreajuste en el modelo que has creado para responder a la pregunta anterior? 

No se detecta sobreajuste significativo. Lo podemos afirmar por lo siguiente:
La similitud entre los resultados de entrenamiento (R2: 0.8971, ECM: 12.5825) y validación (R2: 0.8853, ECM: 13.6433). La pequeña diferencia es normal y no indica un sobreajuste problemático.

### 3. ¿Es relevante la variable ‘Industry Income Score’? Crea un modelo con todas las variables anteriores menos esta y realiza un test de significatividad estadística de rendimiento entre este modelo y el modelo con todas las variables.  

La variable 'Industry Income Score' es estadísticamente relevante, aunque su impacto es menor comparado con las otras variables. 
El rendimiento del modelo reducido (R2: 0.8770, ECM: 14.6282) es ligeramente peor que el del modelo completo en validación (R2: 0.8853, ECM: 13.6433), lo que respalda la relevancia de mantener esta variable en el modelo.