 # regresión logística -- Aprendizaje supervisado
 
 La primera técnica de aprendizaje supervisado que se desarrolla generalmente es la regresión logística debido a su sencillez.
 
 La regresión logística consiste en la maximización de la función de verosimilitud ($P(y = 1, y = 0 | \mathbf{x}, \mathbf{W})$) o en la minimización del error cuadrático medio entre la etiquetas de entrenamiento ($\mathbf{t}$) y la función sigmoide (respuesta del sistema), $\phi
 

## implementación

Con el fin de probar la implementación del algoritmo, utilizaremos la base de datos *iris*, que consta de tres clases(*Iris setosa*,*Iris versicolor*,*Iris virgencia*), 50 observaciones por clase y 4 características por observación: ancho y largo del petalo, ancho y largo del sépalo.


In [3]:
# primero importamos las librerias que necesitamos
import numpy as np
from sklearn.linear_model import LogisticRegression #Librería para regresión logística
#logística
#Librería para la partición de la base de datos
from sklearn.model_selection import train_test_split
#librería para cargar la base de datos iris
from sklearn import datasets
#librería para el procesamiento
from sklearn import preprocessing

In [9]:
#Primero cargamos la base de datos iris
iris = datasets.load_iris()
X = iris.data # en X guardamos la matriz de observaciones
y = iris.target # guardamos las etiquetas

print(np.unique(y))

[0 1 2]


In [11]:
#particionamos la base de datos en entrenaminto y validacion
X_train,X_test,y_train,y_test = train_test_split(X, y, test_size = 0.3, random_state = 0)
print(X_train.shape, X_test.shape)
print(y_train.shape, y_test.shape)


(105, 4) (45, 4)
(105,) (45,)


## Preprocesamiento
**Ejercicio 1**
Aplica la función de preprocesamiento requerida para normalizar los datos sobre la media y desviación estandar, i.e. $\mu = 0$,
$\test{std} = 1$. Debes usar los códigos implementados en clase.

In [None]:
def remocion(X_train, X_test):
    media = X_train.mean(axis = 0) #calcula un vector de medias por columna
    #o sea por caracteristicas. Debe ser de tamaño p
    X_train = X_train - media #hace la operación para cada fila
    desviacion = X_train.std(axis = 0) #calcula la desviación estándar
    X_train = X_train/desviacion #hacemos la división sobre la desviación
    #realizamos la misma operación sobre el X_test con los datos del x_train
    return X_train, X_test #retornamos las dos matrices preprocesadas

In [25]:
X_train_prepro, X_test_prepro = remocion(X_train, X_test)
print(X_train_prepro.mean(axis = 0))
print(X_train_prepro.std(axis = 0))

[ 2.47844073e-15 -4.61006894e-16 -6.89395631e-16  1.05735526e-17]
[0.87268242 0.43925932 1.79595918 0.77637684]


In [26]:
#entrenamos el clasificador primero instanciamos el clasificador
clasificador = LogisticRegression(C = 1000.0, random_state = 0)
#Donde C es un parámetro regularización
#entrenamos el clasificador
clasificador.fit(X_train_prepro, y_train)




LogisticRegression(C=1000.0, class_weight=None, dual=False,
          fit_intercept=True, intercept_scaling=1, max_iter=100,
          multi_class='warn', n_jobs=None, penalty='l2', random_state=0,
          solver='warn', tol=0.0001, verbose=0, warm_start=False)

In [23]:
#realizamos el test o validación
y_pred = clasificador.predict(X_test_prepro)
# En el y_pred obtengo las etiquetas que el clasificador encontró
print(y_pred)


[2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2 1 1 2 0 2 0 0]


**Ejercicio 3**

Realizar el procedimiento anterior para el procesamiento denominado *escalamiento*, comparar el porcentaje de acierto del clasificador par ambos preprocesamientos

In [27]:
def escalamiento(X_train, X_test):
    maximo = X_train.max(axis = 0) #Calculamos el máximo del train
    minimo = X_train.min(axis = 0) #Calculamos el mínimo del train
    X_train_prepro = (X_train - minimo)/(maximo - minimo) # aplicamos la fórmula
    X_test_prepro = (X_test - minimo)/(maximo - minimo) #Sobre ambos conjuntos
    return X_train_prepro, X_test_prepro #devolvemos los conjuntos procesados


In [28]:
X_train_prepro, X_test_prepro = escalamiento(X_train, X_test)
print(X_train_prepro.mean(axis = 0))
print(X_train_prepro.std(axis = 0))
clasificador.fit(X_train_prepro, y_train)


[0.44259259 0.43531746 0.47044335 0.46984127]
[0.24241178 0.18302472 0.30964814 0.32349035]




LogisticRegression(C=1000.0, class_weight=None, dual=False,
          fit_intercept=True, intercept_scaling=1, max_iter=100,
          multi_class='warn', n_jobs=None, penalty='l2', random_state=0,
          solver='warn', tol=0.0001, verbose=0, warm_start=False)

In [29]:
#realizamos el test o validación
y_pred = clasificador.predict(X_test_prepro)
# En el y_pred obtengo las etiquetas que el clasificador encontró
print(y_pred)


[2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2 1 1 2 0 2 0 0]


In [34]:
error = np.mean(y_test != y_pred)
print(y_pred)
print(error*100)
acierto = np.mean(y_test == y_pred)
print(acierto*100)

[2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2 1 1 2 0 2 0 0]
2.2222222222222223
97.77777777777777
