# Tarea 2: Regresión Logística con Softmax
- Martínez Ostoa Néstor Iván
- Aprendizaje de Máquina
- IIMAS, UNAM

---


**Descripción:** 

En este notebook trabajaremos con el conjunto de datos de créditos bancarios de un banco alemán (disponible [aquí](https://archive.ics.uci.edu/ml/datasets/Statlog+%28German+Credit+Data%29)) para implementar regresión logística con softmax (*softmax regression*) para clasificar a las personas del dataset como candidatas o no para un crédito bancario. 

**Actividades:**

1. Carga de datos
2. Selección de los conjuntos de datos: entrenamiento, prueba y validación
3. Implementación del modelo de *softmax regression* (tanto de forma analítica como con gradiente descendente)
4. *5-fold crossvalidation* sobre el conjunto de entrenamiento y prueba para determinar el valor del coeficiente de regularización $\delta$
5. Prueba sobre el conjunto de validación con la mejor $\delta$ encontrada en el paso 4

In [12]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import torch
import torch.nn as nn
from torch import optim
from torch.utils.data import Dataset, DataLoader
from torchvision import transforms, utils

from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler
from sklearn.model_selection import train_test_split

## 1. Data Loading

**Descripción del dataset:**

- ```A1```: status del valor existente en la cuenta de cheques
- ```A2```: duración en meses
- ```A3```: historial crediticio 
- ```A4```: objetivo del crédito
- ```A5```: monto del crédito
- ```A6```: cuenta de ahorro
- ```A7```: empleado desde (rango de años)
- ```A8```: porcentaje de instalación
- ```A9```: status personal y sexo
- ```A10```: otros deudores
- ```A11```: residencia permanente desde
- ```A12```: propiedad
- ```A13```: edad en años
- ```A14```: otros planes de instalación
- ```A15```: status de la casa
- ```A16```: número de créditos existentes en este banco
- ```A17```: status del trabajo
- ```A18```: número de personas dependientes económicamente
- ```A19```: status del teléfono registrado
- ```A20```: status de extranjero
- ```A21```: indica si una personoa es apta o no para el crédito <- **variable a predecir**

In [13]:
df = pd.read_csv('german.data', sep='\s+')
print(f'Num rows: {df.shape[0]}\nNum cols: {df.shape[1]}')
df.head()

Num rows: 1000
Num cols: 21


Unnamed: 0,A1,A2,A3,A4,A5,A6,A7,A8,A9,A10,...,A12,A13,A14,A15,A16,A17,A18,A19,A20,A21
0,A11,6,A34,A43,1169,A65,A75,4,A93,A101,...,A121,67,A143,A152,2,A173,1,A192,A201,1
1,A12,48,A32,A43,5951,A61,A73,2,A92,A101,...,A121,22,A143,A152,1,A173,1,A191,A201,2
2,A14,12,A34,A46,2096,A61,A74,2,A93,A101,...,A121,49,A143,A152,1,A172,2,A191,A201,1
3,A11,42,A32,A42,7882,A61,A74,2,A93,A103,...,A122,45,A143,A153,1,A173,2,A191,A201,1
4,A11,24,A33,A40,4870,A61,A73,3,A93,A101,...,A124,53,A143,A153,2,A173,2,A191,A201,2


El dataset actual cuenta con **13** variables categóricas y **7** numéricas por lo que tenemos que aplicar una codificación a las variables categóricas para poder utilizarlas en nuestro modelo. Antes de realizar la codificación, tenemos que identificar la distribución de variables categóricas en ordinales y no ordinales:

**Variables categóricas ordinales:**: ```A1```, ```A6```, ```A7```

**Variables categóricas no ordinales:** ```A3```, ```A4```, ```A9```, ```A10```, ```A12```, ```A14```, ```A15```, ```A17```, ```A19```, ```A20```

Para las variables categóricas ordinales realizaremos una codificación por etiqueta (*Label Encoding*) y para las variables categóricas no ordinales realizaremos una codificación *one-hot*. A continuación se muestra el código para esto: 

In [14]:
# Label Encoding
df['A1'] = LabelEncoder().fit_transform(df['A1'])
df['A6'] = LabelEncoder().fit_transform(df['A6'])
df['A7'] = LabelEncoder().fit_transform(df['A7'])

# One Hot Encoding
df = pd.get_dummies(df)

# New Dataframe dimensions
print(f'Num rows: {df.shape[0]}\nNum cols: {df.shape[1]}')
df.head()

Num rows: 1000
Num cols: 51


Unnamed: 0,A1,A2,A5,A6,A7,A8,A11,A13,A16,A18,...,A15_A152,A15_A153,A17_A171,A17_A172,A17_A173,A17_A174,A19_A191,A19_A192,A20_A201,A20_A202
0,0,6,1169,4,4,4,4,67,2,1,...,1,0,0,0,1,0,0,1,1,0
1,1,48,5951,0,2,2,2,22,1,1,...,1,0,0,0,1,0,1,0,1,0
2,3,12,2096,0,3,2,3,49,1,2,...,1,0,0,1,0,0,1,0,1,0
3,0,42,7882,0,3,2,4,45,1,2,...,0,1,0,0,1,0,1,0,1,0
4,0,24,4870,0,2,3,4,53,2,2,...,0,1,0,0,1,0,1,0,1,0


In [15]:
# Escritura en disco del dataset principal
df.to_csv('data.csv', index=False)

## 2. Segmentación de conjuntos

En esta sección dividiremos el conjunto principal de **1000** renglones en dos conjuntos: 1) Entrenamiento y 2) Validación. Donde el conjunto de entrenamiento tendrá el **80%** de los datos mientras que el de validación tendrá el **20%** restante. Posteriormente, en la sección donde aplicaremos *5-fold cross validation* para encontrar el valor de $\delta$, subdividiremos el conjunto de entrenamiento en: 1) entrenamiento y 2) prueba

In [16]:
# Lectura del dataset
df = pd.read_csv('data.csv')

# Train validation dataset splitting
train_dataset, validation_dataset = train_test_split(df, train_size=0.8, random_state=1)
print(f'Train dataset dimensions: {train_dataset.shape}')
print(f'Validation dataset dimensions: {validation_dataset.shape}')

# Escritura de archivos
train_dataset.to_csv('train.csv', index=False)
validation_dataset.to_csv('validation.csv', index=False)

Train dataset dimensions: (800, 51)
Validation dataset dimensions: (200, 51)


## 3. Implementación del modelo

Para esta tarea implementaremos la regresión logística con *softmax*, la cual es una generalización de la regresión logística para $K$ clases distintas. En la regresión *softmax* la variable a predecir $Y$ pertenece a una de las $K$ clases: $$y_i \in \{1,2,\ldots,K\}$$

La hipótesis está dada por la función *softmax*: $$h_{\theta}(x) = \frac{e^{\theta_j^Tx}}{\sum_{j=1}^{K}\exp(\theta_j^Tx)}$$ y es una matriz de $N\times K$ dimensiones donde $N$ es la cantidad de renglones de entrada y $K$ la cantidad de clases a clasificar. 

De igual forma, la función costo está definida de la siguiente forma: $$J(\theta)=\sum_{i=1}^m\sum_{k=1}^K\mathbf{1}\{y_i=k\}\log \frac{\exp{\theta_k^Tx_i}}{\sum_{j=i}^k\exp{\theta_j^Tx_i}}$$ donde $\mathbf{1}$ es la función indicadora cuyo valor será $1$ si la expresión a evaluar es verdadera, y $0$ de lo contrario.

### 3.1 PyTorch

Para realizar la regresión logística con softmax en PyTorch necesitaremos definir los siguientes elementos: 
1. ```Data```: clase que hereda de ```Dataset``` en la cual leeremos los datos; principalmente la matriz $X$ de dimensiones $N\times 50$ y el vector $y$ de dimensiones $N\times 1$
2. ```Softmax```: modelo softmax el cual definirá el tipo de red neuronal (arquitectura) y la definición de la función ```forward```
3. Función de costo: ésta función puede ser tanto ```nn.CrossEntropy``` como ```nn.NLL```
4. Optimizador: define el algoritmo a emplear para optimizar los parámetros del modelo

--- 
Empezaremos definiendo la clase ```Data```

In [20]:
class Data(Dataset):
    def __init__(self, csv_file, y_name):
        """
            csv_file: string con la ruta al archivo csv
            y_name: string con el nombre de la columna a predecir
        """
        
        # Lectura del dataframe
        df = pd.read_csv(csv_file)

        # Construcción de 'X' e 'y'
        self.X = torch.tensor(df.loc[:, df.columns != y_name].values, dtype=torch.float32)
        self.y = torch.tensor(df.loc[:, y_name].values, dtype=torch.float32)
        self.y = self.y.type(torch.LongTensor)
        
        self.len = self.X.shape[0]
    
    def __len__(self):
        return self.len
    
    def __getitem__(self, idx):
        return self.X[idx], self.y[idx]
        

Ahora, definimos el modelo ```Softmax``` 

In [21]:
class Softmax(nn.Module):
    def __init__(self, in_size, out_size):
        """
            in_size: número de variables de entrada
            out_size: número de clases K
        """
        super(Softmax, self).__init__()
        self.linear = nn.Linear(in_size, out_size)
        
    def forward(self, X):
        out = self.linear(X)
        return out

Finalmente, dos funciones, una para entrenar y otra para validación

In [35]:
def train(dataloader, model, loss_function, optimizer):
    for x, y in dataloader:
        
        # Cálculo del error de predicción
        yhat = model(x)
        loss = loss_function(yhat, y)
        
        # Backpropagation: reajustando parámetros
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        
        
def test(dataloader, model, loss_function, optimizer, verbose=False):
    correct = 0
    accuracy_list = []
    N_test = len(dataloader)
    
    for x, y in dataloader:
        yhat = model(x)
        _, yhat = torch.max(yhat.data, 1)
        correct += (yhat == y).sum().item()
        
    accuracy = correct / N_test
    accuracy_list.append(accuracy)

Veamos un ejemplo de la implementación del modelo:

In [30]:
# Datos de entrenamiento
training_data = Data('train.csv', 'A21')
training_loader = DataLoader(training_data, batch_size=5)

# Datos de validación
validation_data = Data('validation.csv', 'A21')
validation_loader = DataLoader(validation_data, batch_size=5)

# Modelo
num_input = 50
num_output = 3
model = Softmax(num_input, num_output)

# Función de pérdida
criterion = nn.CrossEntropyLoss()

# Optimizador
learning_rate = 0.01
optimizer = optim.SGD(model.parameters(), lr=learning_rate)

# Entrenamiento y validación
epochs = 10

