# Curso de aprendizaje automatizado
PCIC, UNAM

Machine Learning

Rodrigo S. Cortez Madrigal

<img src="https://pcic.posgrado.unam.mx/wp-content/uploads/Ciencia-e-Ingenieria-de-la-Computacion_color.png" alt="Logo PCIC" width="128" />   

### Tarea 2: Regresión y clasificación lineal

Un club del juego de Go recopiló los resultados de varias partidas entre diferentes jugadores, almacenados en el archivo partidas_entrenamiento.txt, con el objetivo de predecir el resultado de
partidas futuras, ejemplos de las cuales se encuentran en el archivo partidas_prueba.txt. Los archivos partidas_entrenamiento.txt y partidas_prueba.txt contienen 3 columnas: la primera
corresponde al identificador del jugador A, la segunda al identificador del jugador B y la tercera es
el resultado de la partida (1 si ganó el jugador A o 0 si ganó el jugador B). En el club hay un total
de D jugadores, por lo que cada identificador es un número entero entre 1 y D. La predicción del
resultado de un juego se puede plantear como un problema de clasificación: dados 2 jugadores (A y
B) se requiere predecir si A ganó (y = 1) o si fue B (y = 0).

In [1]:
import pandas as pd

from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline
from sklearn.metrics import mean_squared_error, r2_score, roc_curve, roc_auc_score
from sklearn.model_selection import RepeatedKFold, cross_val_score

import plotly.express as px
import plotly.graph_objects as go

from tqdm import tqdm
import numpy as np

import sys
import os

### A

Entrena y evalúa un clasificador bayesiano ingenuo. Al ser un modelo generativo (modela
la probabilidad conjunta P (x, y)), es posible generar partidas artificiales con los parámetros
calculados. Genera nuevas partidas que sigan la distribución modelada

In [2]:
# Read juegos_entrenamiento.txt juegos_validacion.txt

df_train = pd.read_csv('regl_data/juegos_entrenamiento.txt', sep=' ')
df_train.columns = ['A', 'B', 'Win']
df_valid = pd.read_csv('regl_data/juegos_validacion.txt', sep=' ')
df_valid.columns = ['A', 'B', 'Win']

In [3]:
df_train.describe()

Unnamed: 0,A,B,Win
count,318.0,318.0,318.0
mean,61.827044,64.226415,0.522013
std,42.756795,43.591656,0.500302
min,1.0,1.0,0.0
25%,26.0,23.0,0.0
50%,55.0,55.5,1.0
75%,97.0,105.0,1.0
max,142.0,141.0,1.0


In [4]:
df_train

Unnamed: 0,A,B,Win
0,7,8,1
1,40,10,1
2,16,17,1
3,8,18,1
4,112,40,0
...,...,...,...
313,80,97,1
314,81,45,0
315,35,43,1
316,87,23,0


In [5]:
print(df_train.max())
print(df_train.min())
print(df_valid.max())
print(df_valid.min())

# Interesante...

A      142
B      141
Win      1
dtype: int64
A      1
B      1
Win    0
dtype: int64
A      132
B      136
Win      1
dtype: int64
A      4
B      4
Win    0
dtype: int64


In [6]:
# Plot A vs B
fig = px.scatter(df_train, x='A', y='B', color='Win')
fig.update_traces(marker=dict(size=5))
fig.update_layout(title='A vs B', xaxis_title='A', yaxis_title='B')
fig.show()

In [7]:
#Entrena y evalúa un clasificador bayesiano ingenuo. Al ser un modelo generativo (modela
#la probabilidad conjunta P (x, y)), es posible generar partidas artificiales con los parámetros
#calculados. Genera nuevas partidas que sigan la distribución modelada.

# Importar el modelo GaussianNaiveBayes de la Tarea 1
sys.path.append(os.path.abspath('../T1'))
from CustomNB import GaussianNaiveBayes

X_train = df_train[['A', 'B']].to_numpy()
y_train = df_train['Win'].to_numpy()
X_valid = df_valid[['A', 'B']].to_numpy()
y_valid = df_valid['Win'].to_numpy()

model = GaussianNaiveBayes(convariance=False)

model.fit(X_train, y_train)
y_pred = model.predict(X_valid)
accuracy = np.mean(y_pred == y_valid)

print(f'Accuracy: {accuracy:.2f}')

Accuracy: 0.68


In [13]:
fpr, tpr, _ = roc_curve(y_valid,  y_pred)
auc = roc_auc_score(y_valid, y_pred)
print(f'FPR: {fpr}')
print(f'TPR: {tpr}')
print(f'AUC: {auc}')

# Plot ROC curve
fig = go.Figure()
fig.add_trace(go.Scatter(x=fpr, y=tpr, mode='lines', name='ROC Curve'))
fig.update_layout(title='ROC Curve',
                  xaxis_title='False Positive Rate',
                  yaxis_title='True Positive Rate')
fig.show()

FPR: [0. 0. 1.]
TPR: [0.         0.04938272 1.        ]
AUC: 0.5246913580246914


Recordemos que a probabilidad conjunta es una medida en probabilidad que describe la probabilidad de que dos o más eventos ocurran simultáneamente. 

En NaiveBayes, la probabilidad conjunta se refiere a la probabilidad de observar un conjunto de características ( X ) y una clase ( y ), es decir, ( $P(X, y)$ ).

$$[ P(X, y) = P(y) \cdot P(X \mid y) ]$$

Donde:

( P(y) ): Es la probabilidad a priori de la clase ( y ).
( $P(X \mid y)$ ): Es la probabilidad condicional de las características ( X ) dado ( y ). En el caso de Gaussian Naive Bayes, se asume que cada característica sigue una distribución normal (gaussiana) y que las características son independientes entre sí.
El modelo calcula ( P(X, y) ) para cada clase ( y ) y luego utiliza la regla de Bayes para predecir la clase más probable ( y ) para un conjunto de características ( X ):

$$[ P(y \mid X) = \frac{P(X, y)}{P(X)} ]$$

Dado que ( P(X) ) es constante para todas las clases, el modelo simplemente maximiza ( P(X, y) ) para determinar la clase más probable.



In [9]:
def generate_artificial_games(model, n_games=1000):
    """
    Generate artificial games using the trained model.
    """

    means = model.mean  # Array 2D: (n_classes, n_features)
    var = model.var  # Array 3D: (n_classes, n_features, n_features)
    class_priors = model.prior  # Probabilidades a priori de cada clase

    n_classes = len(model.classes)
    n_features = model.features
    samples = np.zeros((n_games, n_features))
    labels = np.zeros(n_games)

    for i in range(n_games):
        class_idx = np.random.choice(n_classes, p=class_priors)
        #random.normal(loc=0.0, scale=1.0, size=None)#
        sample = np.random.normal(loc=means[class_idx], scale=var[class_idx])
        sample = np.clip(sample, X_train.min(), X_train.max())
        #sample = np.maximum(np.random.multivariate_normal(means[class_idx], covariances[class_idx]), 0)
        samples[i] = sample
        labels[i] = class_idx

    samples_df = pd.DataFrame(samples, columns=['A', 'B']).astype(int)
    labels_df = pd.DataFrame(labels, columns=['Win'])
    samples_df = pd.concat([samples_df, labels_df], axis=1)
    samples_df.columns = ['A', 'B', 'Win']
    samples_df['Win'] = samples_df['Win'].astype(int)

    return samples_df

artificial_games = generate_artificial_games(model, n_games=1000)

fig = px.scatter(artificial_games, x='A', y='B', color='Win',
                 title='Artificial Games', labels={'A': 'A', 'B': 'B', 'Win': 'Win'})
fig.update_traces(marker=dict(size=5))
fig.update_layout(title='Artificial Games',
                  xaxis_title='A',
                  yaxis_title='B')
fig.show()

In [10]:
model = GaussianNaiveBayes(convariance=True)

model.fit(X_train, y_train)
y_pred = model.predict(X_valid)
accuracy = np.mean(y_pred == y_valid)

print(f'Accuracy: {accuracy:.2f}')

def generate_artificial_games(model, n_games=1000):
    """
    Generate artificial games using the trained model.
    """

    means = model.mean  # Array 2D: (n_classes, n_features)
    covariances = model.covariances  # Array 3D: (n_classes, n_features, n_features)
    class_priors = model.prior  # Probabilidades a priori de cada clase

    n_classes = len(model.classes)
    n_features = model.features
    samples = np.zeros((n_games, n_features))
    labels = np.zeros(n_games)

    for i in range(n_games):
        class_idx = np.random.choice(n_classes, p=class_priors)
        sample = np.random.multivariate_normal(means[class_idx], covariances[class_idx])
        sample = np.clip(sample, X_train.min(), X_train.max())
        #sample = np.maximum(np.random.multivariate_normal(means[class_idx], covariances[class_idx]), 0)
        samples[i] = sample
        labels[i] = class_idx

    samples_df = pd.DataFrame(samples, columns=['A', 'B']).astype(int)
    labels_df = pd.DataFrame(labels, columns=['Win'])
    samples_df = pd.concat([samples_df, labels_df], axis=1)
    samples_df.columns = ['A', 'B', 'Win']
    samples_df['Win'] = samples_df['Win'].astype(int)

    return samples_df

# Generate 1000 artificial games
artificial_games = generate_artificial_games(model, n_games=1000)

artificial_games = generate_artificial_games(model, n_games=1000)

fig = px.scatter(artificial_games, x='A', y='B', color='Win',
                 title='Artificial Games', labels={'A': 'A', 'B': 'B', 'Win': 'Win'})
fig.update_traces(marker=dict(size=5))
fig.update_layout(title='Artificial Games',
                  xaxis_title='A',
                  yaxis_title='B')
fig.show()

Accuracy: 0.68


## B

Entrena y evalúa un clasificador de regresión logística. Debido a que ambos atributos son
categóricos, es necesario cambiar la codificación. Explica el procedimiento y la lógica de la
codificación que realizaste. Visualiza los valores de los parámetros del modelo de regresión
logística y discute qué interpretación tendrían de acuerdo a la codificación realizada. Grafica
las curvas ROC y de precisión-exhaustividad y reporta sus áreas bajo la curva.

In [11]:
from CustomLR import BinaryLogisticRegression

X_train = df_train[['A', 'B']].to_numpy()
y_train = df_train['Win'].to_numpy()
X_valid = df_valid[['A', 'B']].to_numpy()
y_valid = df_valid['Win'].to_numpy()

model = BinaryLogisticRegression(lr=0.01, epochs=1000)
model.fit(X_train, y_train)
y_pred = model.predict(X_valid)
accuracy = np.mean(y_pred == y_valid)
print(f'Accuracy: {accuracy:.2f}')

Accuracy: 0.32


In [14]:
fpr, tpr, _ = roc_curve(y_valid,  y_pred)
auc = roc_auc_score(y_valid, y_pred)
print(f'FPR: {fpr}')
print(f'TPR: {tpr}')
print(f'AUC: {auc}')

# Plot ROC curve
fig = go.Figure()
fig.add_trace(go.Scatter(x=fpr, y=tpr, mode='lines', name='ROC Curve'))
fig.update_layout(title='ROC Curve',
                  xaxis_title='False Positive Rate',
                  yaxis_title='True Positive Rate')
fig.show()

FPR: [0. 0. 1.]
TPR: [0.         0.04938272 1.        ]
AUC: 0.5246913580246914


## C

Compara el clasificador bayesiano ingenuo y regresión logística en este problema. ¿Qué ven-
tajas y desventajas tienen los modelos entrenados? ¿Qué pasaría si se entrena el clasificador
bayesiano ingenuo con los vectores recodificados o si se entrena un modelo de regresión logís-
tica usando los vectores de entrada originales? ¿Consideras que las presuposiciones de cada
clasificador son apropiadas para los datos del problema? ¿Para este tipo de problemas cuál de
los dos recomendarías y por qué?

$$\hat{y} = \text{sigm}(\theta^T x) = \frac{1}{1 + e^{-\theta^T x}}$$
 y 
$$E(\theta) = \frac{1}{2} \sum_{i=1}^{n} \left( \hat{y}^{(i)} - y^{(i)} \right)^2$$