# 1. PREPROCESAMIENTO


In [1]:
import pandas as pd


In [2]:
# Cargamos el dataset. Asegúrate de tener el archivo csv en la carpeta correcta
df = pd.read_csv('datasets/student-mat.csv', sep=';')
print(len(df))
df.head().T

395


Unnamed: 0,0,1,2,3,4
school,GP,GP,GP,GP,GP
sex,F,F,F,F,F
age,18,17,15,15,16
address,U,U,U,U,U
famsize,GT3,GT3,LE3,GT3,GT3
Pstatus,A,T,T,T,T
Medu,4,1,1,4,3
Fedu,4,1,1,2,3
Mjob,at_home,at_home,at_home,health,other
Fjob,teacher,other,other,services,other


In [3]:
df.dtypes

school        object
sex           object
age            int64
address       object
famsize       object
Pstatus       object
Medu           int64
Fedu           int64
Mjob          object
Fjob          object
reason        object
guardian      object
traveltime     int64
studytime      int64
failures       int64
schoolsup     object
famsup        object
paid          object
activities    object
nursery       object
higher        object
internet      object
romantic      object
famrel         int64
freetime       int64
goout          int64
Dalc           int64
Walc           int64
health         int64
absences       int64
G1             int64
G2             int64
G3             int64
dtype: object

In [4]:
# calculamos la columna "passed", de 10 para arriba es aprobado (en este dataset va de 0 a 20).
# G3 es la nota final.
df['passed'] = (df['G3'] >= 10)

# quitamos las notas G1, G2 y G3 una vez definido el aprobado porque son el resultado 
# y no las vamos a usar de dato de entrada (sería trampa).
del df['G1']
del df['G2']
del df['G3']

df.head().T

Unnamed: 0,0,1,2,3,4
school,GP,GP,GP,GP,GP
sex,F,F,F,F,F
age,18,17,15,15,16
address,U,U,U,U,U
famsize,GT3,GT3,LE3,GT3,GT3
Pstatus,A,T,T,T,T
Medu,4,1,1,4,3
Fedu,4,1,1,2,3
Mjob,at_home,at_home,at_home,health,other
Fjob,teacher,other,other,services,other


## 1.1 Normalización de los nombres de los atributos

In [5]:
# Primero limpiamos las columnas para quitar espacios y caracteres especiales para poder trabajar con ellas.
replacer = lambda str: str.lower().str.replace(' ', '_').str.replace('/', '_').str.replace("'",'_')
df.columns = replacer(df.columns.str)

# hace lo mismo que la linea de arriba pero para el interior de las columnas y no para solo los titulos de las columnas
for col in list(df.dtypes[df.dtypes == 'object'].index):
    df[col] = replacer(df[col].str)
df.head().T

Unnamed: 0,0,1,2,3,4
school,gp,gp,gp,gp,gp
sex,f,f,f,f,f
age,18,17,15,15,16
address,u,u,u,u,u
famsize,gt3,gt3,le3,gt3,gt3
pstatus,a,t,t,t,t
medu,4,1,1,4,3
fedu,4,1,1,2,3
mjob,at_home,at_home,at_home,health,other
fjob,teacher,other,other,services,other


In [6]:
df.passed = (df.passed).astype(int) # convierte la columna passed a 0 y 1 y le dice que yes es el true, el resto es false

In [7]:
# Definimos las listas dependiendo de si son cuantitativas o cualitativas, es decir, si son valores numericos o no. 
categorical = ['school', 'sex', 'address', 'famsize', 'pstatus', 'mjob', 'fjob', 'reason', 'guardian', 'schoolsup', 'famsup', 'paid', 'activities', 'nursery', 'higher', 'internet', 'romantic']
numerical = ['age', 'medu', 'fedu', 'traveltime', 'studytime', 'failures', 'famrel', 'freetime', 'goout', 'dalc', 'walc', 'health', 'absences']

df[categorical].nunique()

school        2
sex           2
address       2
famsize       2
pstatus       2
mjob          5
fjob          5
reason        4
guardian      3
schoolsup     2
famsup        2
paid          2
activities    2
nursery       2
higher        2
internet      2
romantic      2
dtype: int64

## 1.2 Limpieza de nulos. 

In [8]:
# buscamos los nulos, y podemos ver que en este caso no hay nulos. 

nulos = df.isnull().sum()
print(nulos[nulos > 0])

Series([], dtype: int64)


In [9]:
# en el caso de valores "unknown" o "?" se podria hacer así, pero como se puede ver mas adelante no hay valores de este tipo en el dataset. 
for col in df.select_dtypes(include=['object']):
    num_unknown = len(df[df[col] == '?']) 
    if num_unknown > 0:
        print(f"La columna {col} tiene {num_unknown} valores 'unknown'")

## 1.3 Separación de datos de entrenamiento


In [10]:
# Separacion de los datos
from sklearn.model_selection import train_test_split

#Dividimos en entrenamiento y test.
df_train_full, df_test = train_test_split(df, test_size=0.2, random_state=1) #es igual que poenr train_size=0.8

#Dividimos a su vez el conjunto df_train_full en entrenamiento y validación

df_train, df_val = train_test_split(df_train_full, test_size=0.33, random_state=1) # normalmente se pone x_train, x_val, x_test

#Guarda las etiquetas de los ejemplos en una variable
y_train = df_train.passed.values
y_val = df_val.passed.values

# elimina la columna de etiquetas del conjunto de datos
del df_train['passed']
del df_val['passed']

In [11]:
print(len(df_train))
print(len(y_train))

211
211


## 2. ANÁLISIS DE LAS PROPIEDADES

In [12]:
global_mean = df_train_full.passed.mean()
round(global_mean, 3)

np.float64(0.665)

In [13]:
# Calcula la media de passed para cada algunas de las categorical para hacernos una idea. 
# Para school
print(df_train_full.groupby('school').passed.mean().round(3))

# Para sex
print(df_train_full.groupby('sex').passed.mean().round(3))

# Para mjob (trabajo madre)
print(df_train_full.groupby('mjob').passed.mean().round(3))

# Para higher (quiere educación superior)
print(df_train_full.groupby('higher').passed.mean().round(3))

school
gp    0.676
ms    0.571
Name: passed, dtype: float64
sex
f    0.627
m    0.707
Name: passed, dtype: float64
mjob
at_home     0.614
health      0.828
other       0.623
services    0.714
teacher     0.622
Name: passed, dtype: float64
higher
no     0.267
yes    0.684
Name: passed, dtype: float64


con estos datos nos podemos hacer una idea de que si pasan alrededor de 66% de los alumnos variables como que la madre trabaje en el sector de la salud
 o si tienen intención de cursar estudios superiores son muy influyentes. 

In [14]:
from sklearn.metrics import mutual_info_score

calculate_mi = lambda col: mutual_info_score(col, df_train_full.passed)

#Con categorical es una lista con los nombres de las columnas categoricas, 
# aplicamos la funcion calculate_mi a cada una de las columnas categoricas
#y nos devuelve una serie con los valores de mi para cada columna, este mi
# nos dice la relacion que tiene cada variable con la variable objetivo passed

df_mi = df_train_full[categorical].apply(calculate_mi)
df_mi = df_mi.sort_values(ascending=False).to_frame(name='MI')
df_mi

Unnamed: 0,MI
higher,0.016517
mjob,0.010384
guardian,0.009977
romantic,0.006039
reason,0.004895
schoolsup,0.003973
paid,0.003627
sex,0.003611
famsup,0.002958
address,0.002942


In [15]:
print(df_train_full[numerical].corrwith(df_train_full.passed))

age          -0.195289
medu          0.111574
fedu          0.094905
traveltime   -0.092451
studytime     0.103798
failures     -0.300776
famrel        0.040809
freetime      0.037061
goout        -0.145614
dalc         -0.025545
walc         -0.007662
health       -0.054127
absences     -0.069449
dtype: float64


# ***Antes de empezar voy a quitar columnas:
> Finalmente se quedan muchisimas variables que para manejar el formulario de Streamlit se hace muy engorroso para mirarlo todo, asi que vamos a dejar como mucho unas 10 o asi.

In [16]:
categorical = ['higher', 'mjob']
numerical = ['failures', 'age', 'goout', 'medu', 'studytime', 'fedu', 'traveltime', 'absences']

## 3. INGENIERÍA DE PROPIEDADES

In [17]:
#orient='records' hace que cada fila del dataframe se convierta en un diccionario
# train_dict = df_train[categorical + numerical].to_dict(orient='records')
train_dict = df_train[categorical + numerical].to_dict(orient='records')
dict(sorted(train_dict[0].items()))

{'absences': 8,
 'age': 16,
 'failures': 0,
 'fedu': 3,
 'goout': 2,
 'higher': 'yes',
 'medu': 3,
 'mjob': 'services',
 'studytime': 1,
 'traveltime': 1}

## 4. ENTRENAMIENTO DE LOS MODELOS

## 4.1 Transformando los datos antes de poder lanzar el entrenamiento de los modelos

Para poder entrenar el modelo previamente los datos tienen que pasarse a un formato numerico y que podamos pasar como una matriz de vectores. 

In [18]:
from sklearn.feature_extraction import DictVectorizer
# crea el objeto DictVectorizer, que convierte listas de diccionarios en matrices numéricas
dv = DictVectorizer(sparse=False)
dv.fit(train_dict)

0,1,2
,dtype,<class 'numpy.float64'>
,separator,'='
,sparse,False
,sort,True


In [19]:
X_train = dv.transform(train_dict)

In [20]:
X_train[0]

array([ 8., 16.,  0.,  3.,  2.,  0.,  1.,  3.,  0.,  0.,  0.,  1.,  0.,
        1.,  1.])

In [21]:
dv.get_feature_names_out()

array(['absences', 'age', 'failures', 'fedu', 'goout', 'higher=no',
       'higher=yes', 'medu', 'mjob=at_home', 'mjob=health', 'mjob=other',
       'mjob=services', 'mjob=teacher', 'studytime', 'traveltime'],
      dtype=object)

### Nota 
>para agilizar más tarde la comprobación en los modelos vamos a crea antes una funcion para calcular la precisión y la accuracy de forma agil.

In [22]:
def calcular_matriz_confusion(y_real, y_pred):
    tp = ((y_pred==1) & (y_real==1)).sum()
    fp = ((y_pred==1) & (y_real==0)).sum()
    tn = ((y_pred==0) & (y_real==0)).sum()
    fn = ((y_pred==0) & (y_real==1)).sum()
    
    precision = tp/(tp+fp)
    accuracy = (tp+tn)/(tp+tn+fp+fn)

    return f"precisión: {round(precision, 3)}", f"accuracy: {round(accuracy, 3)}"

## 4.2 Regresión lineal

In [23]:
from sklearn.linear_model import LogisticRegression
model_regresion = LogisticRegression(solver='liblinear')

model_regresion.fit(X_train, y_train)

0,1,2
,penalty,'l2'
,dual,False
,tol,0.0001
,C,1.0
,fit_intercept,True
,intercept_scaling,1
,class_weight,
,random_state,
,solver,'liblinear'
,max_iter,100


In [24]:
val_dict = df_val[categorical + numerical].to_dict(orient='records')
X_val = dv.transform(val_dict)

In [25]:
# Lanzamos predicciones sobre el conjunto de validación
y_pred = model_regresion.predict_proba(X_val)[:, 1]
passed = y_pred >=0.5
passed

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True, False,  True,  True,  True,  True,  True,
       False,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True, False,  True, False,  True,  True,  True,  True, False,
        True,  True, False,  True,  True, False,  True, False,  True,
        True,  True,  True,  True,  True, False,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True, False,  True,
       False,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True, False, False,  True])

In [26]:
#evaluamos su precisión y accuracy
print(calcular_matriz_confusion(y_val, passed))

('precisión: 0.793', 'accuracy: 0.781')


## 4.3 SVM

In [27]:
from sklearn.svm import SVC

# Inicializamos el modelo SVM. 
# Primero probamos con un kernel lineal
# C=1.0 es el valor de regularización por defecto.
model_svm = SVC(kernel='linear', C=1.0, random_state=1)
model_svm.fit(X_train, y_train)

0,1,2
,C,1.0
,kernel,'linear'
,degree,3
,gamma,'scale'
,coef0,0.0
,shrinking,True
,probability,False
,tol,0.001
,cache_size,200
,class_weight,


In [28]:
# Lanzamos predicciones sobre las validaciones
y_pred_svm = model_svm.predict(X_val)

In [29]:
print(calcular_matriz_confusion(y_val, y_pred_svm))

('precisión: 0.789', 'accuracy: 0.79')


### 4.3.1 Vamos a probar toqueteando los hiperametros, en este caso solo tenemos C vamos a probar un par de veces subiendo y bajando C un poco a ver que ocurre. 

In [30]:
model_svm = SVC(kernel='linear', C=0.1, random_state=1)
model_svm.fit(X_train, y_train)
y_pred_svm = model_svm.predict(X_val)
print(calcular_matriz_confusion(y_val, y_pred_svm))

('precisión: 0.784', 'accuracy: 0.79')


In [None]:
model_svm = SVC(kernel='linear', C=0.3, random_state=1)
model_svm.fit(X_train, y_train)
y_pred_svm = model_svm.predict(X_val)
print(calcular_matriz_confusion(y_val, y_pred_svm))

('precisión: 0.789', 'accuracy: 0.79')


Curiosamente cuando pasamos de 0.3 hasta 10000 da igual siempre mantiene las mismas precisión y accuracy de ('precisión: 0.789', 'accuracy: 0.79')


en principio a mayor C mas posibilidad de overfiting y a menor mas posibilidad de underfiting. 

## 4.4 Arbol de Desisiones

In [32]:
from sklearn.tree import DecisionTreeClassifier

# Aquí vamos a hacer un for directamente para medir los hiperparametros de profundidad del arbol 
for depth in [1, 2, 3, 4, 5, 8, 10, None]:
    dt = DecisionTreeClassifier(max_depth=depth, random_state=1)
    dt.fit(X_train, y_train)
    
    y_pred_temp = dt.predict(X_val)
    
    # Mostramos los resultados para cada profundidad
    metrics = calcular_matriz_confusion(y_val, y_pred_temp)
    print(f"Depth: {depth}:  {metrics}")


Depth: 1:  ('precisión: 0.733', 'accuracy: 0.733')
Depth: 2:  ('precisión: 0.758', 'accuracy: 0.571')
Depth: 3:  ('precisión: 0.756', 'accuracy: 0.686')
Depth: 4:  ('precisión: 0.743', 'accuracy: 0.61')
Depth: 5:  ('precisión: 0.754', 'accuracy: 0.562')
Depth: 8:  ('precisión: 0.789', 'accuracy: 0.657')
Depth: 10:  ('precisión: 0.803', 'accuracy: 0.676')
Depth: None:  ('precisión: 0.795', 'accuracy: 0.676')


Vamos a seleccionar la mejor profundidad, que de una precisión y accuracy mas compensadas. Creo que es mejor Depth 1, ya que aunque 8 10 y ninguna tienen más precisión, está mas equilibrado con la accuracy. 

In [33]:
#usamos depth 1 porque es la que mejores metricas tiene y entrenamos 
model_dt = DecisionTreeClassifier(max_depth=1, random_state=1)
model_dt.fit(X_train, y_train)
y_pred_dt = model_dt.predict(X_val)

print(calcular_matriz_confusion(y_val, y_pred_dt))

('precisión: 0.733', 'accuracy: 0.733')


# 5 Serialización de los modelos

In [34]:
import pickle

# regresion lineal
with open('models/students-model-regresion.pck', 'wb') as f:
    pickle.dump((dv,model_regresion), f)

# SVM
with open('models/students-model-svm.pck', 'wb') as f:
    pickle.dump((dv, model_svm), f)

# Arbol de decision
with open('models/students-model-decision-tree.pck', 'wb') as f:
    pickle.dump((dv, model_dt), f)

### Extra: 
>Como para la segunda parte en Streamlit solo vamos a usar un modelo, vamos a recapitular cual de los modelos nos esta dando mejores resultados y usaremos ese modelo. 

In [35]:
print(f"regresión lineal: {calcular_matriz_confusion(y_val,passed)}")
print(f"SVM: {calcular_matriz_confusion(y_val,y_pred_svm)}")
print(f"Arbol de Decisiones:{calcular_matriz_confusion(y_val,y_pred_dt)}")

regresión lineal: ('precisión: 0.793', 'accuracy: 0.781')
SVM: ('precisión: 0.789', 'accuracy: 0.79')
Arbol de Decisiones:('precisión: 0.733', 'accuracy: 0.733')
