# FUNCTIONS FOR LOGISTIC REGRESSION

## 1. Load libraries and data

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

In [9]:
data        = pd.read_csv( 'subset_1000.csv' )
dummies     = pd.get_dummies( data[ 'lexeme' ], prefix = 'cat', dtype=float )
dummies_col = dummies.columns.to_list()
df          = pd.concat( [ data, dummies ], axis = 1 )

pred_vars = [ 'right', 'wrong', 'bias' ]
dummies_  = dummies_col + pred_vars

X_train, X_test, Y_train, Y_test = train_test_split( df[ dummies_ ], 
                                                     df[ 'p' ], 
                                                     test_size    = 0.30,
                                                     random_state = 2023 )

X_train = X_train.values
Y_train = Y_train.values
X_test = X_test.values
Y_test = Y_test.values

X_train = X_train.T
Y_train = Y_train.reshape( 1, X_train.shape[ 1 ] )

X_test = X_test.T
Y_test = Y_test.reshape( 1, X_test.shape[ 1 ] )

## 2. Define functions

In [3]:
def sigmoid( x ):
    
    '''
    Objetivo:
    
        - Pasar la combinación lineal de características
          ponderadas (x) a través de la función sigmoide
          para obtener una predicción probabilística.
          
    Input:
    
        - x: combinación lineal de características ponderadas
        
    Output:
    
        - Predicción probabilística
    '''
    
    a = 1 / ( 1 + np.exp( -x ) )
    
    return a

In [4]:
def lr_cost_function( m, a, y_train ):
    
    '''
    Objetivo:
    
        - Se trata de la función de costo de la una 
          regresión logística.
          
    Input:
    
        - m       : número de filas de la la matriz 
                    x_train
        - a       : predicción probabilística resultado
                    de la función sigmoide
        - y_train : array con los valores target para el
                    conjunto de entrenamiento
    
    Output:
    
        Valor de costo de una regresión logística
    '''
    
    cost = -( 1 / m ) * np.sum( y_train * np.log( a ) + ( 1 - y_train ) * np.log( 1 - a ) )
    
    return cost

In [5]:
def gradient_descent( m, a, b, w, x_train, y_train, learning_rate ):
    
    '''
    Objetivo:
    
        - Se trata de la función para implementar el 
          descenso del gradiente
          
    Input:
    
        - m            : número de filas de la la matriz 
                         x_train
        - a            : predicción probabilística resultado
                         de la función sigmoide
        - b            : valor del bias (intercepto)
        - w            : valor de los weights (coeficientes)
        - x_train      : array con los valores de conjunto de
                         entrenamiento
        - y_train      : array con los valores target para el
                         conjunto de entrenamiento
        -learning_rate : velocidad de convergencia (tamaño de 
                         pasos) para gradient descent
                    
    Output:
    
        - Valores actualizados para el bias (b) y los weights
          (w) después de cada iteración
    '''
    
    dw = ( 1/m ) * np.dot( a - y_train, x_train.T )
    db = ( 1/m ) * np.sum( a - y_train )

    w = w - learning_rate * dw.T
    b = b - learning_rate * db     
    
    return w, b

In [6]:
def lr_model( x_train, y_train, learning_rate, tol = 1e-7, n_iter = 100 ):
    
    '''
    Objetivo:
    
        - Implementar un modelo de regresión logística
        
    Input:
    
        - x_train       : predictores conjunto de entrenamiento
        - y_train       : target del conjunto de entrenamiento
        - learning_rate : velocidad de convergencia (tamaño de 
                          pasos) para gradient descent
        - tol           : diferencia mínima tolerable entre los
                          valores de costo para considerar que el
                          modelo ha convergido
        - n_iter        : cada cuántas iteraciones se imprime el
                          valor de costo
                          
    Output: 
    
        - Valor final para el bias (b) y los weights (w) después
          de la última iteración. Además, la lista con todos los 
          valores de costo.
    '''
    
    m = x_train.shape[ 1 ]   # n_rows
    n = x_train.shape[ 0 ]   # n_columns
    w = np.zeros( ( n, 1 ) ) # weights: matriz vacía. Coeficientes. 
    b = 0                    # bias. Intercepto
    
    cost_list = []
    prev_cost = float( 'inf' )
    iteration = 0
    
    while True:
        
        z = np.dot( w.T, x_train ) + b
        a = sigmoid( z )   
        
        # Cost function
        cost = lr_cost_function( m, a, y_train )
        
        # Gradient descent
        w, b = gradient_descent( m, a, b, w, x_train, y_train, learning_rate ) 
        
        # cost_list
        cost_list.append( cost )
        
        if iteration % n_iter == 0:
            print( f'En la iteración { iteration } el costo es { cost }' )
            
        if abs( prev_cost - cost ) < tol:
            print( f'Convergencia alcanzada en la iteración { iteration }. Costo: { cost }' )
            break

        prev_cost = cost
        iteration += 1
    
    return w, b, cost_list

In [7]:
# def accuracy( x_test, y_test, w, b ):
    
#     '''
#     Objetivo: 
#         - Evaluar el desempeño del modelo con la métrica
#           Accuracy.
          
#     Input:
#         - x_test : predictores del conjunto de entrenamiento
#         - y_test : predictores del conjunto de prueba
#         - w      : weights resultantes del modelo entrenado
#         - b      : bias resultante del modelo entrenado
        
#     Output:
#         - Métrica Accuracy
#     '''
    
#     z   = np.dot( w.T, x_test ) + b
#     a   = sigmoid( z )
#     a   = a > 0.5
#     a   = np.array( a, dtype = 'int64' )
#     acc = ( 1 - np.sum( np.absolute( a - y_test ) ) / y_test.shape[ 1 ] ) * 100
    
#     return acc

## 3. Test model

In [8]:
learning_rate   = 0.0005
n_iter          = 10000
W, B, cost_list = lr_model( X_train, Y_train, learning_rate = learning_rate, n_iter = n_iter )

En la iteración 0 el costo es 0.6931471805599454
En la iteración 10000 el costo es 0.342945228952292
En la iteración 20000 el costo es 0.3330561260373781
En la iteración 30000 el costo es 0.3252557314511962
En la iteración 40000 el costo es 0.3191136862168527
En la iteración 50000 el costo es 0.3142606542179178
En la iteración 60000 el costo es 0.3104032002859797
En la iteración 70000 el costo es 0.307322875884503
En la iteración 80000 el costo es 0.30486123333537
En la iteración 90000 el costo es 0.3028965720595452
En la iteración 100000 el costo es 0.3013248617427829
En la iteración 110000 el costo es 0.30005361478599096
Convergencia alcanzada en la iteración 117580. Costo: 0.29924164787838653


In [9]:
accuracy = accuracy(X_test, Y_test, W, B)
print( f'Accuracy of Logistic Regression Model is { accuracy }' )

Accuracy of Logistic Regression Model is 88.28942545333334
