# Logistic Regression - NumPy

El objetivo de éste ejercicio es que implementen paso a paso los building blocks del modelo de regresión logística, para finalmente crear una clase del modelo.

## Cargamos las Librerías

In [1]:
import numpy as np
import time
import matplotlib.pyplot as plt

## Implementación de Building Blocks del Modelo

A continuación, se deberán implementar paso a paso los distintos bloques de código que conforman el modelo, junto con algunas funciones auxiliares.

### Función Sigmoid

Implementar la función: $g(z) = \frac{1}{1 + e^{-z}}$ en NumPy

In [2]:
def sigmoid_fuction(z):
    return 1/(1+np.exp(-z))

### Binary Cross Entropy

Implementar la función de costo: $J(w) = \frac{1}{n}\sum_{i=1}^{n}L\left ( \hat{y},y \right )= \frac{-1}{n}\sum_{i=1}^{n}\left [y^{(i)}log(\hat{y}^{(i)})+ (1-y^{(i)})log(1-\hat{y}^{(i)}) \right ]$

In [3]:
def costf_lr(y, y_hat):
    return (-1)*np.mean(y*np.log(y_hat)+(1-y)*np.log(1-y_hat))

### Gradiente

Implementar el gradiente de la función costo respecto de los parámetros: $\frac{\partial J(w)}{\partial w} = \frac{2}{n}\sum_{i=1}^{n}\left ( \hat{y}^{i}-y^{i}\right )\bar{x}^i$

In [4]:
def gradient_lr(y, y_hat, x):
    # y* = (y_hat-y) dimensiones nx1
    # x dimensiones nxm
    # np.dot(y*.T,x) = y*1 . x1 + ... + y*n . xn 
    return np.mean((y_hat-y).T.dot(x)) * 2

### Normalización

Implementar normalización Z-score de las features de entrada

In [5]:
def norm(x):
    # centro el dataset
    x_cent = x.copy()
    return (x_cent - np.mean(x, axis=0))/np.std(x, axis=0)

### Métricas (Precision, Recall y Accuracy)

Implementar las métricas en NumPy

In [6]:
def metric_pra(truth, pred):
    # Calculo el valor True Positive
    true_positive = sum(np.logical_and(truth, pred))

    # Calculo el valor True Negative
    true_negative = sum(np.logical_and(np.logical_not(truth), np.logical_not(pred)))

    # Calculo el valor False Negative
    false_negative = sum(np.logical_and(truth, np.logical_not(pred)))

    # Calculo el valor False Positive
    false_positive = sum(np.logical_and(np.logical_not(truth), pred))

    # Metricas
    precision = true_positive / (true_positive + false_positive)
    recall = true_positive / (true_positive + false_negative)
    accuracy = (true_positive + true_negative) / (true_positive + true_negative + false_positive + false_negative)

    return true_positive, true_negative, false_negative, false_positive, precision, recall, accuracy

### Implementar función fit

Utilizas los bloques anteriores, junto con la implementación en NumPy del algoritmo Mini-Batch gradient descent, para crear la función fit de nuestro modelo de regresión logística. Cada un determinado número de epochs calculen el loss, almacénenlo en una lista y hagan un log de los valores. La función debe devolver los parámetros ajustados.

In [7]:
# TODO
def fit(self, x, y, lr, b, epochs, bias=True):
    
    cost = []
    
    if bias:
        x = np.hstack((np.ones((x.shape[0], 1)), x))
    
    w = np.random.randn(m).reshape(x.shape[1], 1)
    
    for epoch in epochs:
        
        batch = int(x.shape[0]/b)
        
        for i in range(b):
            x_batch = x[(batch*i):(batch*(1+i))]
            y_batch = y[(batch*i):(batch*(1+i))]
            
            y_hat = sigmoid_fuction(p.sum(np.transpose(w) * batch_x, axis=1))
            
            w = w - lr * gradient_lr(y_batch, y_hat, x_batch)
    
        cost_ep = costf_lr(y, sigmoid_fuction(p.sum(np.transpose(w) * x, axis=1)))
        cost.append(cost_ep)
        
        print(f"Epoch: {epoch}, Loss: {cost_ep}")
        
    return w, cost

### Implementar función predict

Implementar la función predict usando los parámetros calculados y la función sigmoid. Prestar atención a las transformaciones de los datos de entrada. Asimismo, se debe tomar una decisión respecto de los valores de salida como: $p\geq 0.5 \to 1, p<0.5 \to 0$

In [8]:
# TODO
def predict(x, p):
    return (sigmoid_fuction(x) > p)

x = np.random.rand(50)-0.5
print(x)
print(sigmoid_fuction(x))
print(predict(x, 0.5))

[ 0.23442129  0.11236617  0.43918425 -0.38727535  0.21859714  0.23440551
 -0.12281028 -0.07421201  0.46689663  0.34488607 -0.11298151  0.41958222
  0.46858392  0.29397831 -0.22571511  0.13012009 -0.05463674  0.38732071
  0.13218981 -0.41459311  0.35955672 -0.0925815   0.31537811  0.04549787
 -0.24903804  0.19418298 -0.25087478  0.33530689  0.35987127 -0.16917897
 -0.05047436 -0.020338   -0.49508386 -0.09897548 -0.26688851 -0.0747939
 -0.33334849  0.29253698  0.00595834  0.33826269 -0.206502   -0.26537595
 -0.18497652  0.47193408  0.22473657 -0.11457495  0.42425106  0.39256133
 -0.28562999  0.17135769]
[0.55833841 0.52806202 0.60806464 0.40437338 0.5544327  0.55833452
 0.46933596 0.48145551 0.61464897 0.58537692 0.47178463 0.60338328
 0.61504853 0.57296981 0.44380958 0.5324842  0.48634421 0.59563755
 0.53299941 0.39781129 0.58893312 0.47687114 0.57819745 0.51137251
 0.43806028 0.54839378 0.4376082  0.58305006 0.58900927 0.45780585
 0.48738409 0.49491567 0.37869667 0.47527631 0.43367112 

## Armar una clase LogisticRegression

Armar una clase LogisticRegression que herede de BaseModel y tenga la siguiente estructura:

In [9]:
class LogisticRegression(BaseModel):
    
    def sigmoid(self, x):
        return NotImplemented

    def fit(self, X, y, lr, b, epochs, bias=True):
        #self.model = W
        return NotImplemented
        
    def predict(self, X):
        return NotImplemented

NameError: name 'BaseModel' is not defined

## Testear con Datasets sintéticos

La librería Scikit-Learn tiene una función make_classification que nos permite armar datasets de prueba para problemas de clasificación. Prueben con datasets que tengan varios clusters por clase, que tengan menor o mayor separación y calculen las métricas en cada caso.

In [None]:
from sklearn.datasets import make_classification
# X, y = make_classification(n_features=2, n_redundant=0, n_informative=2, random_state=1, n_clusters_per_class=1)