In [1]:
# Cargar librerias

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Composicion de pipelines
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import MinMaxScaler, FunctionTransformer

# Regresion lineal
from sklearn.linear_model import LinearRegression

# Importar/ Exportar modelos
from joblib import dump, load

# Metricas
from sklearn.metrics import mean_squared_error as mse

# q-q plots
import scipy.stats as stats

In [2]:
# Se cargan los datos de entrenamiento

df_original = pd.read_csv('data/university_admission_train.csv', sep=',', encoding = 'utf-8', index_col=0)
df_tracks = df_original.copy()
print(df_tracks.shape)
df_tracks.head(5)

(1569, 9)


Unnamed: 0,Serial No.,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Admission Points
0,479,327,113,4,4.0,2.77,8.88,1,84.47
1,446,301,92,1,1.85,1.5,7.71,0,45.08
2,336,297,100,1,2.41,1.59,7.89,0,47.42
3,20,303,98,3,3.5,3.0,8.5,0,62.0
4,432,320,94,2,1.38,3.5,8.78,1,73.0


In [3]:
# Se cargan los datos de prueba

df_recent = pd.read_csv('data/university_admission_test.csv', sep=',', encoding = 'utf-8')
print(df_recent.shape)
df_recent.head(5)

(175, 8)


Unnamed: 0,Serial No.,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research
0,117,299,102,3,4.0,3.5,8.62,0
1,49,321,110,3,3.5,5.0,8.85,1
2,94,301,97,2,3.0,3.0,7.88,1
3,108,338,117,4,3.5,4.5,9.46,1
4,327,299,100,3,2.0,2.0,8.02,0


In [4]:
# Analizar la duplicidad de los datos

df_recent.duplicated().sum()

15

In [5]:
# Analizar la completitud de los datos

df_recent.isna().sum()

Serial No.           0
GRE Score            0
TOEFL Score          0
University Rating    0
SOP                  0
LOR                  0
CGPA                 0
Research             0
dtype: int64

# Identificación de variables a utlizar

In [6]:
df_num = df_recent.select_dtypes(['number']).copy()
df_num.describe()

NameError: name 'df_tracks_prep' is not defined

In [None]:
# Diagramas de disperción con respecto a la variable objetivo

sns.pairplot(df_tracks_prep, height=3, y_vars = 'Admission Points', x_vars = df_tracks_prep.columns[0:5], kind='scatter')
sns.pairplot(df_tracks_prep, height=3, y_vars = 'Admission Points', x_vars = df_tracks_prep.columns[5:7], kind='scatter')

In [None]:
# Matriz de correlaciones para ver la relación entre variables

f = plt.figure(figsize=(19, 15))
plt.matshow(df_num.corr(), fignum=f.number, cmap = 'seismic')
plt.xticks(range(df_num.select_dtypes(['number']).shape[1]), df_num.select_dtypes(['number']).columns, fontsize=14, rotation=45)
plt.yticks(range(df_num.select_dtypes(['number']).shape[1]), df_num.select_dtypes(['number']).columns, fontsize=14)
cb = plt.colorbar()
_ = cb.ax.tick_params(labelsize=14)

# Preparación de los datos

In [None]:
def square(X):
    for feature in X.columns:
        if feature=='CGPA' or feature=='GRE Score':
            X[feature]=np.sqrt(X[feature])
    return X

def dropNa(X):
     return X.dropna()

# def dropDup(X):
#     return X.drop_duplicates()  

def print1(X):
    print(X)
    return X

In [None]:
#Preparación datos de entrenamiento
selected_cols = ['University Rating','CGPA','Research','GRE Score','Admission Points']

t=[ ("selector", 'passthrough',selected_cols)]

pre_all = [('na', FunctionTransformer(dropNa)), #Se eliminan las filas con puntaje de admisión nulo
           ('initial',ColumnTransformer(transformers = t)), #seleccionar unicamente las columnas que se quieren usar
           ('scaler', MinMaxScaler())] #Escalar los datos de -1 a 1

In [None]:
##Se crea el pipeline de preparación
pipeline1 = Pipeline(pre_all)

In [None]:
# Ejecutamos la preparación y volvemos a poner los datos en un dataframe
d = pipeline1.fit_transform(df_tracks)
d = pd.DataFrame(data=d,columns=['University Rating','CGPA','Research','GRE Score', 'Admission Points'])
d

In [None]:
# Preparación datos para entrenar

selected_cols = ['University Rating','CGPA','Research']

t=[ ("selector", 'passthrough',selected_cols)]

pre = [('square', FunctionTransformer(numpy.square)), #Sacamos la raíz cuadrada de la columna CGPA para que su relación se ajuste más a una recta
       ('initial',ColumnTransformer(transformers = t)), #seleccionar unicamente las columnas que se quieren usar
       ('scaler', MinMaxScaler()), #Escalar los datos de -1 a 1
       ('imputer', SimpleImputer(missing_values=np.nan, strategy='median'))] #Reemplazamos los valores nulos por la mediana de la columna.


# Modelo

In [None]:
# Se genera el modelo

model = [('model', LinearRegression())]

In [None]:
#Se crea el pipeline de entrenamiento
pipeline = Pipeline(pre+model)

In [None]:
# Se extrae las variables explicativas y objetivo para entrenar

X = d[selected_cols]
y = d['Admission Points']

# Se entrena el modelo
pipeline = pipeline.fit(X,y)

In [None]:
# Se visualiza la regresión lineal en cada dimensión

f, axs = plt.subplots(1, len(selected_cols), sharey=True, figsize = (12,4))

for i in range(len(selected_cols)):

    pos_col = i
    col = selected_cols[pos_col]

    # Variable x
    x = X[col]
    # Pendiente
    m = pipeline['model'].coef_[pos_col]
    # Interceto
    b = pipeline['model'].intercept_

    axs[i].plot(x, y, 'o', alpha = 0.1)
    axs[i].plot(x, x*m + b)
    axs[i].set_title(col)

In [None]:
# Usamos la lbreria joblib
filename = 'modelo.joblib'
# Se guarda
dump(pipeline, filename) 

In [None]:
# Se lee
p2 = load(filename)
p2

In [None]:
# Clasificamos los datos recientes
df_recent1=df_recent
df_recent1['Admission Points'] = p2.predict(df_recent1)

In [None]:
#Visualizamos la predicción de puntajes

#sns.histplot(df_recent['Admission Points'])
plt.hist(df_recent['Admission Points'])

In [None]:
#Vemos la importancia de los features con los que entrenamos
pd.DataFrame({'columns':selected_cols, 'coef':pipeline['model'].coef_})

In [None]:
# Extraemos las variables explicativas y objetivo para entrenar

X = d.drop('Admission Points', axis = 1)
y = d['Admission Points']

pipeline = pipeline.fit(X,y)

In [None]:
# Imprimir los coeficientes nuevamente

pd.DataFrame({'columns':selected_cols, 'coef':pipeline['model'].coef_})

# Evaluación cuantitativa

In [None]:
# R²
p2.score(X,y)

In [None]:
#RMSE

y_true = y
y_predicted = p2.predict(X)

# Note que hay que sacarle la raiz al valor
np.sqrt(mse(y_true, y_predicted))

**¿Su equipo recomienda instalar el modelo de estimación en producción o es mejor continuar usando expertos para la tarea?**

El modelo de estimación de nuestro equipo muestra unas metricas buenas, sin embargo aun creemos que no son lo suficientemente adecuados para ser puestos en producción. Una vez las metricas alcancen R^2 > 0.8 y RSME < 0.06, consideramos que el modelo es suficiente para el uso en producción. Por lo tanto, por el momento se recomienta continuar usando expertos para la tarea y seguir ajustando el modelo

**En caso de no recomendar el uso de un modelo de regresión ¿Qué otras posibilidades tiene la empresa? ¿Hacia dónde debe seguir con esta tarea?**

En este caso se podría recomendar en vez de intentar predecir el puntaje de admisión, acordar un puntaje suficientemente bueno para decidir si un candidato es elegible y convertir esto a una tarea de aprendizaje de clasificación. Este tipo de aprendeizaje consideramos que resuelve las necesidades presentadas.

# Evaluación cualitativa

## Validación de supuestos
**¿Qué obtuvieron con el ejercicio de regresión?**

Con el modelo de regresión obtuvimos un sistema cuantitativo para estimar el puntaje de admision de un candidato.

## Interpretación de los coeficientes
**¿Cuáles son las variables más influyentes y que tan confiables son los resultados?**

Nuestros resultados indican que las variables mas influyentes, en orden de influencia son las siguientes:
    - University Rating
    - sqrt(CGPA)
    - Research
    
Los resultados son bastante confiables segun las metricas obtenidas del modelo. Sin embargo, como ya fue expresado previamente, no consideramos que sean aun lo suficientemente confiables para ser usadas en un ambiente de producción.

# Preparación datos de prueba

In [None]:
X1 = df_recent[['Research']]
X1.to_csv("data/pruebas/prueba1.csv")
X1.to_json("data/pruebas/prueba1.json")
X1

In [None]:
"Error"
try:
    p2.predict(X1)
except Exception as err:
    print(err)

In [None]:
X2 = pd.DataFrame(np.ones((len(X1),3)),columns=selected_cols)
X2.to_csv("data/pruebas/prueba2.csv")
X2.to_json("data/pruebas/prueba2.json")
X2

In [None]:
"Resultados sin sentido"
try:
    print(p2.predict(X2))
except Exception as err:
    print(err)

In [None]:
X3 = np.ones((len(X1),3))
X3[:]=np.nan
X3 = pd.DataFrame(X3,columns=selected_cols)
X3.to_csv("data/pruebas/prueba3.csv")
X3.to_json("data/pruebas/prueba3.json")
X3

In [None]:
"Resultados sin sentido"
try:
    res = p2.predict(X3)
    print(res)
except Exception as err:
    print(err)

In [None]:
X4 = df_recent[selected_cols]
X4[selected_cols[0]]-=1
X4[selected_cols[1]]+=np.mean(X4[selected_cols[1]])
X4[selected_cols[2]]=-(X4[selected_cols[2]]-1)
X4.to_csv("data/pruebas/prueba4.csv")
X4.to_json("data/pruebas/prueba4.json")
print(min(X4[selected_cols[0]]))
X4

In [None]:
"Resultados con sentido"
try:
    res = p2.predict(X4)
    print(res)
except Exception as err:
    print(err)

In [None]:
df_recent.to_csv("data/pruebas/prueba5.csv")
df_recent.to_json("data/pruebas/prueba5.json")

In [None]:
"Resultados con sentido"
try:
    res = p2.predict(df_recent)
    print(res)
except Exception as err:
    print(err)