# <font color=blue> Regresión logística vs clasificador bayesiano ingenuo </font>
Compara los métodos de regresión logística y el clasificador bayesiano ingenuo en las siguientes
tareas:

Discute qué modelo seleccionarías y por qué. Todos los modelos deberán ser evaluados con 10
repeticiones de validación cruzada estratificada de 5 particiones.

* Clasificación de spam

In [1]:
#Importamos librerias utiles
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.naive_bayes import CategoricalNB
from sklearn import metrics
from sklearn.metrics import accuracy_score

#Leemos nuestros datos
spam = pd.read_csv('spam.csv',header=None,sep='\s+')
#Renombramos la ultima columna del dataframe
spam.rename(columns={2000:'Spam?'}, inplace=True)
#imprimimos la info del dataframe para ver si hay datos faltantes
spam.info()
#imprimimos las primeras 5 filas
spam

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5172 entries, 0 to 5171
Columns: 2001 entries, 0 to Spam?
dtypes: int64(2001)
memory usage: 79.0 MB


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,1991,1992,1993,1994,1995,1996,1997,1998,1999,Spam?
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
1,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,1
2,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
3,0,0,0,0,0,0,0,0,0,0,...,0,1,0,0,0,0,0,0,0,1
4,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5167,0,0,0,0,0,0,0,0,4,0,...,0,0,0,0,0,0,0,0,0,0
5168,0,0,0,0,3,4,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5169,0,0,0,0,1,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
5170,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


Vemos que todas las columnas son del tipo int64, por lo que suponemos que no hay datos faltantes.

In [2]:
#buscamos si hay valores en cada fila de la columna Spam? un numero mayor que 1, ya que eso lo consideramos como un
#error en los datos, ya que este df solo toma en cuenta 1 si el correo es spam o 0 si
#no lo es. Para ello primero pasamos la calumna Spam? del df a una matriz numpy.
spm = (spam['Spam?']).to_numpy()
print(np.where(spm > 1))
#vemos que es un array vacio por lo que consideramos que los datos estan limpios.

(array([], dtype=int64),)


Para implementar la validacion cruzada estratificada de 5 particiones debemos asegurarnos que las clases estan desbalanceadas, es decir la cantidad de correos spam y no spam no son iguales. Para ello:

In [3]:
esSpam = np.where(spm == 1)
print('Hay %d correos Spam'%esSpam[0].shape)
noSpam = np.where(spm == 0)
print('Hay %d correos que no son Spam'%noSpam[0].shape)

Hay 1500 correos Spam
Hay 3672 correos que no son Spam


In [4]:
def particionesEstratificadas(particion,y,semilla):
    #definimos un array ordenados_y que contendra los indices de y tales que y queda ordenada de menor a mayor
    #por ejemplo si y es [4,3,2] ordenados_y sera [2,1,0] si lo interpretamos como los indices de y tal que y queda
    #ordenada tenemos que [2,3,4]
    ordenados_y = np.argsort(y)
    #creamos un array no inicializado de la longitud de y
    particiones = np.empty(len(y), dtype=np.int32)
    
    #Para reproducibilidad ajustamos la semilla
    np.random.seed(semilla)
    #iteramos desde cero hasta el tamaño de ordenados_y con paso "particion" (va a ser 5) definido por el usuario
    for i in range(0, ordenados_y.shape[0], particion):
        #define una nueva matriz particion_idx que contendra los valores de ordenados_y (indices de y) desde
        #el paso i hasta i+particion
        particion_idx = ordenados_y[i:i+particion]
        #haz un suffle a los valordes de particion_idx
        #np.random.shuffle(particion_idx)
        #guarda en el array particiones en la posicion dada por los valores de particion_idx un arange hasta la longitud
        #de particion_idx en el momento actual
        particiones[particion_idx] = np.arange(len(particion_idx))
                    
    return particiones

In [5]:
#creamos las particiones estratificadas en el array particiones
particiones = particionesEstratificadas(5,spm,42)
particiones

array([1, 3, 4, ..., 2, 3, 0])

In [6]:
#definimos a como el array que contiene los indices de particiones tales que son igual a 1 (pertenecen a la
#primera particion) (hay 5 del cero a l 4).
a = np.where(particiones ==1)[0]
a

array([   0,    4,    9, ..., 5155, 5160, 5165], dtype=int64)

In [7]:
#Vemos el tamaño de spm en los indices recien calculados
spm[a].shape

(1035,)

In [8]:
#Imprimimos cuantos correos son spam de acuerdo a la particion 1
print('En la particion 1 hay %d correos spam'%np.count_nonzero(spm[a] == 1))
#Imprimimos cuantos correos son spam de acuerdo a la particion 1
print('En la particion 1 hay %d correos no spam'%np.count_nonzero(spm[a] == 0))

En la particion 1 hay 300 correos spam
En la particion 1 hay 735 correos no spam


In [9]:
#Hagamos un ciclo for para comprobar todas las particiones
for fold in range(5):
    a = np.where(particiones == fold)[0]
    #Imprimimos cuantos correos son spam de acuerdo a la particion fold
    print('En la particion %d'  %fold + ' hay %d correos spam' %np.count_nonzero(spm[a] == 1))
    #Imprimimos cuantos correos son spam de acuerdo a la particion 1
    print('En la particion %d' %fold + ' hay %d correos no spam' %np.count_nonzero(spm[a] == 0))

En la particion 0 hay 300 correos spam
En la particion 0 hay 735 correos no spam
En la particion 1 hay 300 correos spam
En la particion 1 hay 735 correos no spam
En la particion 2 hay 300 correos spam
En la particion 2 hay 734 correos no spam
En la particion 3 hay 300 correos spam
En la particion 3 hay 734 correos no spam
En la particion 4 hay 300 correos spam
En la particion 4 hay 734 correos no spam


Vemos que con la particion estratificada, las 5 particiones quedan balanceadas con respecto a las dos clases. Esto es, justo la definicion de k particiones estratificadas. Comprobemos que realmente el balance se hace correctamente, esta comprobacion se va a hacer con la funcion de Scikit-learn ya implementada y vamos a imprimir la cantidad de correos spam y no spam en las particiones.

In [10]:
#definimos nuestras variables independientes
X = (spam.drop(columns='Spam?')).to_numpy()
X.shape

(5172, 2000)

In [11]:
#importa la libreria StratifiedKfold de scikit, para hacer particiones estratificadas
from sklearn.model_selection import StratifiedKFold, KFold
#define 5 particiones con suffle activado y una semilla
kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
for train_ix, test_ix in kfold.split(X, spm):
    # selescciona las filas para train y test
    train_X, test_X = X[train_ix], X[test_ix]
    train_y, test_y = spm[train_ix], spm[test_ix]
    # cuenta las longitudes de train y test, divididas segun su clase
    train_0, train_1 = len(train_y[train_y==0]), len(train_y[train_y==1])
    test_0, test_1 = len(test_y[test_y==0]), len(test_y[test_y==1])
    print('>Train: 0=%d, 1=%d, Test: 0=%d, 1=%d' % (train_0, train_1, test_0, test_1))

>Train: 0=2937, 1=1200, Test: 0=735, 1=300
>Train: 0=2937, 1=1200, Test: 0=735, 1=300
>Train: 0=2938, 1=1200, Test: 0=734, 1=300
>Train: 0=2938, 1=1200, Test: 0=734, 1=300
>Train: 0=2938, 1=1200, Test: 0=734, 1=300


El resultado es bastante similar. Para el caso de Test los numeros coinciden para una sola particion y para train vemos que son cuatro particiones unidas. Por lo que debemos hacer que una vez pasada la funcion definir quien sera train y quien sera test. Esto se hace junto con la implementacion de las repeticiones.

In [66]:
def validacionEstratificada(x,y,repeticiones,particiones):
    #iteramos sobre las repeticiones
    for i in range(repeticiones):
        #calculamos las particiones con semilla i para procurar que en cada iteracion la variable particion
        #no sea igual a la anterior
        particion = particionesEstratificadas(particiones,y,i)
        #dado que debemos pegar 4 particiones para entrenamiento y 1 para validacion tenemos que itrerar
        #sobre las cuatro particiones
        for fold in range(particiones):
            #Creamos una variable auxiliar (array) que nos va a elegir quienes seran para Train y quienes para test
            z = np.arange(5)
            #aplicamos un suffle a z
            np.random.shuffle(z)
            #creamos arrays auxiliares para evitar hacer el codigo ilegible, en estas arrays vamos a almacenar los
            #indices del array particion tal que pertenecen a una particion determinada
            uno = np.where(particion==z[0])
            dos = np.where(particion==z[1])
            tres = np.where(particion==z[2])
            cuatro = np.where(particion==z[3])
            cinco = np.where(particion==z[4])
            #definimos el conjunto de train al pegar o concatenar a las 4 particiones, mientras que las
            #de test sera unicamente el indice que no quedo dentro de los primeros folds del shuffle
            xTrain = np.concatenate((x[uno],x[dos],x[tres],x[cuatro]),axis=0)
            xTest = x[cinco]
            yTrain = np.concatenate((y[uno],y[dos],y[tres],y[cuatro]),axis=0)
            yTest = y[cinco]
            #pegamos una columna de unos para calcular el parametro theta_0
            unos = np.ones((xTrain.shape[0],1),dtype=float)
            xTrain = np.append(unos,xTrain,axis=1)
            unos = np.ones((xTest.shape[0],1),dtype=float)
            xTest = np.append(unos,xTest,axis=1)
            yield xTrain, yTrain, xTest, yTest        

Para entrenar regresion logistica debemos usar descenso del gradiente. Para ello reutilizaremos el codigo escrito en la libreta Go.ipynb.

In [13]:
#definimos una funcion llamada sigmoide que no es exactamente la sigmoide original pero si la resta entre
#el valor real y menos sigmoide(vector_theta_Transpuesto por vector_x) y nos va a regresar dicha resta
def sigmoide(x,y,theta):
    sigma = y - ((1)/(1+np.exp(-(theta.T@x))))
    return sigma

In [14]:
#definimos nuestra funcion de perdida que es el negativo de la verosimilitud logaritmica
#definido en las slides de la clase, archivo 3a_regresion_clasificacion_lineal.pdf slide 43
#esta funcion nos regresa un valor de error
def loss(x,y,theta):
    error = (y*np.log((1/(1+np.exp(-(theta.T@x))))))+((1-y)*np.log(1-((1/(1+np.exp(-(theta.T@x)))))))
    return error

In [54]:
#definimos nuestra funcion de entrenamiento para determinar el vector de Theta que minimiza el error
#con ayuda del descenso del gradiente. Esta funcion come vectores x, vectores y e un entero iteraciones
def entrena(x,y,iteraciones):
    #definimos una lista que contendra los errores para cada iteracion (distintos valores de theta)
    historicoLoss = []
    #definimos nuestro vector de Thetas (theta_0,theta_1,theta_2) todos se inicializan en cero
    theta = np.zeros((2001,1),dtype=np.float32)
    #iteramos sobre las iteraciones definidas por el usuario
    for pasos in range(iteraciones):
        #Reseteamos/seteamos el gradiente como un vector de ceros (cada entrada sera el gradiente para cada variable)
        gradiente = np.zeros((2001,1),dtype=np.float32)
        #Reseteamos/seteamos la perdida para cada iteracion en las filas de x en cero
        perdidaiter = 0
        #para cada fila del vector de entrada x
        for u in range(x.shape[0]):
            #para cada fila del vector theta
            for r in range(theta.shape[0]):
                #para una fila dada de theta, suma iterativamente el gradiente + x en la fila u, columna r
                #por la funcion sigmoide que definimos antes con entradas el vector x en la fila, el valor
                #real y en la fila u y el parametro theta
                #Todo esto es la definicion del gradiente o derivada de la funcion error
                gradiente[r] = gradiente[r] + x[u][r]*sigmoide(x[u],y[u],theta)
            #una vez que terminas de calcular el gradiente en una fila dada, suma iterativamente
            #la perdida en cada iteracion hasta terminar las filas de x
            perdidaiter += loss(x[u],y[u],theta)
        #una vez que termines de calcular el gradiente y la perdida de cada fila, actualiza el valor del vector
        #theta haciendo uso de el paso definido como 0.01 y el gradiente calculado, repite con este nuevo vector
        #theta hasta acabar las iteraciones
        theta += 0.01*gradiente
        #en la lista de perdidas agrega la perdida que calculaste
        historicoLoss.append(-1*perdidaiter[0])
    #regresa el ultimo valor de theta y la lista de perdidas
    return theta,historicoLoss

In [16]:
#Definimos la funcion sigmoide original y la llamamos predice
def predice(x,theta):
    #funcion sigmoide original calculada con los vectores de entrada theta y x
    sigma = ((1)/(1+np.exp(-(theta.T@x))))
    #regresa el valor de sigma
    return sigma

In [117]:
Theta = np.zeros((2000,1), dtype=float)
Loss = np.zeros((50,800),dtype=float)
i=0

In [80]:
for xTrain, yTrain, xTest, yTest in validacionEstratificada(X, spm,2,2):
    Theta[i],Loss[i] =  entrena(xTrain,yTrain,50)
    i+=1

  """
  """
  after removing the cwd from sys.path.
  """


KeyboardInterrupt: 

In [237]:
def train(x, y_true, alpha=0.01, steps=50):
    # ejemplos, atributos
    m, n = x.shape
    # inicialización de parámetros
    Theta = np.random.normal(0, 1, n)
    # histórico de pérdidas
    loss_hist = []
    # ciclio de entrenamiento
    for i in range(steps):
        # computo de la hipótesis
        y_pred = ((1)/(1+np.exp(-(Theta.T@x.T))))
        # computo de la pérdida
        loss = np.sum((-y_true.T*np.log(y_pred) - (1-y_true)*np.log((1-y_pred)))) / (m)
        # computo del gradiente
        grad = (x.T @ ((((1)/(1+np.exp(-(x@Theta)))) - y_true))) / m
        # actualización de parámetros
        Theta = Theta - alpha * grad
        # histórico de pérdida
        loss_hist.append(loss)
    return Theta, loss_hist

In [236]:
def Reescalado(X):
    xReg=np.zeros((X.shape[0],X.shape[1]),dtype=float)
    for i in range(X.shape[1]):
        maximo = np.amax(X[:,i])
        minimo = np.amin(X[:,i])
        for j in range (X.shape[0]):
            xReg[j,i] = (X[j,i]-minimo)/(maximo-minimo)
    return xReg

In [235]:
def Estandarizacion(x):
    xReg=np.zeros((X.shape[0],X.shape[1]),dtype=float)
    for i in range(X.shape[1]):
        media = np.mean(X[:,i])
        desviacion = np.std(X[:,i])
        for j in range (X.shape[0]):
            xReg[j,i] = (X[j,i]-media)/(desviacion)
    return xReg

In [238]:
xReescalado = Reescalado(X)

In [264]:
Thetha = np.zeros((50,2001),dtype=float)
Lossi = np.zeros((50,50),dtype=float)
i=0

In [265]:
for xTrain, yTrain, xTest, yTest in validacionEstratificada(xReescalado, spm,10,5):
    Thetha[i],Lossi[i] =  train(xTrain,yTrain)
    i+=1

In [266]:
Thetha

array([[ 0.7946838 ,  2.24110849,  1.86763735, ..., -1.5328873 ,
        -1.71140907,  0.04631729],
       [-0.96355442, -0.07999602, -0.7037211 , ...,  1.84394926,
         0.27148511,  1.13665831],
       [-1.28804495,  1.33931483,  1.28748182, ..., -0.01297721,
         0.08395298, -0.05659989],
       ...,
       [ 1.6569366 , -0.94001309,  0.64061652, ..., -1.08684371,
         2.2044682 , -0.22494648],
       [-0.43330761, -2.02780266,  0.06432138, ..., -0.81528087,
        -1.12684031,  1.10269541],
       [-0.77731457, -0.225553  ,  0.46327803, ..., -0.02633685,
         1.08864975,  0.44222022]])