# Preparación del notebook

In [None]:
import warnings

warnings.filterwarnings("ignore")

In [None]:
# Importar librerias necesarias
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression

%matplotlib inline

# Regresión Logística
Consideremos un caso de uso en el que tenemos que predecir los resultados de los exámenes de los estudiantes de un curso universitario, es decir, clasificar los resultados en términos de aprobado (1) o No aprobado (0) en función de las horas de estudio dedicadas por cada estudiante.


Se cuenta un conjunto de datos de estudiantes y su dedicación de estudio en términos de horas. A continuación se detallan las variables disponibles:


*   Pass_or_Fail: etiqueta que tiene dos valores: 1 o 0. Un valor de 1 indica aprobación de examen y un valor de 0 indica No aprobación del examen.
*   Self_Study_Daily: indica cuántas horas el estudiante estudia diariamente en casa para la presentación del examen
*   Tuition_Monthly: indica cuántas horas al mes el estudiante está tomando clases particulares de tutoría.

Documentación del modelo: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

In [None]:
# Lectura de los datos
df_students = pd.read_csv('https://raw.githubusercontent.com/mlondono-oc/LEA2/main/Modulo-2/data/student-pass-fail-data.csv')
df_students.head(3)

## Exploración de los datos

In [None]:
# Tamaño del dataset
df_students.shape

In [None]:
# Información general del dataset
df_students.info()

In [None]:
# Exploración de los datos
df_students.describe()

In [None]:
# Preparación inicial de los datos
df_students = df_students.rename(columns = {'Pass_Or_Fail': 'target', 'Self_Study_Daily': 'self_study', 'Tution_Monthly': 'tution_monthly'})

In [None]:
df_students['target'].value_counts().plot(kind = 'bar')

In [None]:
# Veamos la distribución de los datos por clase
plt.scatter(df_students['self_study'][df_students.target == 0],
            df_students['tution_monthly'][df_students.target == 0],
            marker='o',
            color = 'red',
            label = 'No aprueba'
            )
plt.scatter(df_students['self_study'][df_students.target == 1],
            df_students['tution_monthly'][df_students.target == 1],
            marker='D',
            color = 'blue',
            label = 'Aprueba'
            )
plt.xlabel('Dedicación propía del estudiante')
plt.ylabel('Horas de tutoria')
plt.legend()
plt.show()


## Marco de validación

In [None]:
# Separación de variables
y = df_students.target
x = df_students.drop(['target'], axis=1)

In [None]:
# Separación de los datos de entrenamiento y validación
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=123)

print('Tamaño del conjunto de entrenamiento: ', x_train.shape)
print('Tamaño del conjunto de validación: ', x_test.shape)

## Regresión Logística

In [None]:
from sklearn.metrics import accuracy_score

# Entrenamiento del modelo
modelo = LogisticRegression()

# Ajustar el modelo a los datos
modelo.fit(x_train, y_train)

# Desempeño en el entrenamiento
y_train_pred = modelo.predict(x_train)

print('Exactitud en el entrenamiento: %.3f'  %accuracy_score(y_train, y_train_pred) )

## Evaluación del modelo de regresión logística

In [None]:
y_pred = modelo.predict(x_test)

# Exactitud en el conjunto de validación
print('Exactitud en el entrenamiento: %.3f'  %accuracy_score(y_test, y_pred) )

In [None]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

mc = confusion_matrix(y_test, y_pred)

mc_display = ConfusionMatrixDisplay(confusion_matrix=mc, display_labels=['No aprueba', 'Aprueba'])
mc_display.plot()
plt.show()

In [None]:
mc

In [None]:
tn, fp, fn, tp = mc.ravel()

precision = tp / (tp + fp)
recall = tp / (tp + fn)
especificidad = tn / (fp + tn)
f1_score = 2*(precision*recall)/(precision+recall)

print(f'Precision: {precision}')
print(f'Recall: {recall}')
print(f'Especificidad: {especificidad}')
print(f'F1 score: {f1_score}')

In [None]:
from sklearn.metrics import f1_score
print('f1_score:', f1_score(y_test, y_pred))

In [None]:
prediction_1 = modelo.predict_proba(np.array([10, 45]).reshape(1, -1))

In [None]:
prediction_1

In [None]:
modelo.classes_

# Ejercicio
Gráficar la curva ROC Y cálcular el AUC