# Práctica: clasificación con Regresión Logística

En esta primera parte se trabaja con el dataset `smarket.csv`, cuya descripción (en el libro ISLR) es la siguiente:

**Los datos del mercado de valores**

Comenzaremos examinando algunos resúmenes numéricos y gráficos de los datos de Smarket. Este conjunto de datos consta de rendimientos porcentuales para el índice bursátil S&P 500 durante 1250 días, desde principios de 2001 hasta finales de 2005. Para cada fecha, hemos registrado los rendimientos porcentuales para cada uno de los cinco días de negociación anteriores, Lag1 a Lag5. También hemos registrado `Volume` (el número de acciones negociadas el día anterior, en miles de millones), `Today` (el porcentaje de rendimiento en la fecha en cuestión) y `Direction` (si el mercado estaba al alza o a la baja en esta fecha).

In [None]:
# Importaremos la mayoria de modulos que se utilizaran a lo largo de la práctica

# Modulos basicos
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use('seaborn-darkgrid')

# Modulos de scikit-learn
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, classification_report, precision_score, accuracy_score 
from sklearn import preprocessing

from sklearn.model_selection import train_test_split

# Statmodels
import statsmodels.formula.api as smf


#### Importando el dataset de stock market 

In [None]:
smarket = pd.read_csv('smarket.csv')
smarket.tail()

#### Matriz de correlación

In [None]:
f,ax = plt.subplots(figsize=(8,7))
sns.heatmap(smarket.corr(),cmap = 'ocean_r', annot=True, cbar=False )
ax.set_title('Correlation matrix')
plt.show()

Se aprecia una gran correlación entre `Year` y `Volume`. De hecho, al graficar `Volume` se puede ver una tendencia a incrementarse con el tiempo:

In [None]:
# Mejor graficar con programacion orientada a objetos (POO)
# como arriba [estoy muy acostumbrado a Matlab ;) ]
plt.plot(smarket['Volume'])
plt.title('Volume')
plt.xlabel('Time (days)')
plt.show()

## Regresión logística

Se realizará un modelo de regresión logística para predecir `Direction` usando `Lag1`, ..., `Lag5`, y `Volume`.

### Usando `statmodels` (análisis)

In [None]:
# Codifica la variable de salida categorica "Direction": # Up -> 1, Down -> 0.
# Esto se hace para statmodels, con scikit-learn no es necesario
# codificar la variable de salidad, pero si los predictores categoricos.
smarket['Up'] =  np.where(smarket['Direction'] == 'Up', 1, 0)

lrmodel = smf.logit('Up ~ Lag1 + Lag2 + Lag3 + Lag4 + Lag5 + Volume', data=smarket)
results = lrmodel.fit()
results.summary().tables[1]

El valor-p menor esta asociado con `Lag1`. El coeficiente negativo para este predictor sugiere que si el mercado tuvo un retorno positivo ayer, entonces es menos probable que suba hoy. Sin embargo, un valor-p de 0.15 es aún relativamente grande, por lo que no hay una clara evidencia de que exista una asociación real entre `Lag1` y `Direction`.

### Ahora con scikit-learn (predicción)
Para realizar una predicción se tomará los años anteriores a 2005 como training y el 2005 para test. Es decir, se hará la predicción del año 2005 basado en los años anteriores.

In [None]:
X = smarket.loc[:,'Lag1':'Volume']
y = smarket['Up']

# Dividiendo en training y test
idx_train = smarket['Year'].values < 2005
X_train = X[idx_train]
X_test = X[~idx_train]
y_train = y[idx_train]
y_test = y[~idx_train]

In [None]:
lrmodel = LogisticRegression(solver='lbfgs')
lrmodel.fit(X_train,y_train)

In [None]:
# Matriz de confusion sobre el test
y_pred = lrmodel.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
cm_df = pd.DataFrame(cm, index=['Down','Up'], columns=['Down','Up'])
cm_df.index.name = 'True'; cm_df.columns.name = 'Predicted'
cm_df

Para no llamar cada vez el código de la matriz de confusión, he creado una función:

In [None]:
# Funcion para calcular la matriz de confusion 
def miCM(ytrue, ypred, clases=None, normalize = False):
    """ Funcion para calcular la matriz de confusion en forma de dataframe"""
    
    from sklearn.metrics import confusion_matrix
    CM = confusion_matrix(ytrue,ypred)
    
    #Normaliza la matriz de confusion dividiendo cada fila por el total de verdaderos
    if normalize:
        CM = 100*CM / CM.sum(axis=1).reshape(-1,1) #Aprovechando el Broadcasting!
    if clases == None:
        clases = list(set(ytrue))    
    df = pd.DataFrame(CM, index=clases, columns=clases)
    df.index.name = 'True'; df.columns.name = 'Predicted'
    
    return df
    

In [None]:
miCM(y_test,y_pred, ['Down','Up'], normalize=True)

### Preprocesamiento

En muchas ocasiones es importante **preprocesar** los predictores. Por ejemplo, realizando una estandarización (restar la media y dividir por la desviación estándar). En scikit-learn se puede llamar mediante `sklearn.preprocessing.StandardScaler()`. En la documentación de [preprocessing](http://scikit-learn.org/stable/modules/preprocessing.h) se encuentran otros tipos de preprocesamiento y más información al respecto. A continuación se verá que sucede al escalar los predictores:

In [None]:
# Se instancia al objeto StandarScaler para realizar el ajuste
# Esto es muy adecuado para preprocesar de la misma forma al test
scaler = preprocessing.StandardScaler().fit(X_train)

# Regresion logistica como antes pero escalando los predictores
lrmodel = LogisticRegression(solver='lbfgs')
lrmodel.fit( scaler.transform(X_train),y_train )

# Prediccion pero escalando los predictores
y_pred = lrmodel.predict( scaler.transform(X_test) )

# matriz de confusion sin normalizacion
miCM(y_test,y_pred, ['Down','Up'])



El error del test se puede calcular como $1 - accuracy$. Para el que desee saber más acerca de como imprimir valores en python puede ir a [este excelente tutorial](https://pyformat.info/).

In [None]:
# Test error
print("El accuracy del test es: {:.2f}".format( accuracy_score(y_test,y_pred) ))
test_error = 1-accuracy_score(y_test,y_pred)
print("El error del test es: {:.2f}".format( test_error ) )

¿Qué sucede si se realiza el ajuste considerando sólo los predictores con valor-p más alto, es decir, `Lag1` y `Lag2`?

In [None]:
# Tomando de nuevo los datos
X = smarket[['Lag1','Lag2']]
y = smarket['Direction'] # No es necesario para sklearn codificar la variable de salida

# Dividiendo en training y test
idx_train = smarket['Year'].values < 2005
X_train = X[idx_train]
X_test = X[~idx_train]
y_train = y[idx_train]
y_test = y[~idx_train]

# Creacion del modelo y prediccion con preprocesamiento
scaler = preprocessing.StandardScaler().fit(X_train)
lrmodel = LogisticRegression(solver='lbfgs')
lrmodel.fit( scaler.transform(X_train),y_train )
y_pred = lrmodel.predict( scaler.transform(X_test) )

# matriz de confusion sin normalizacion
miCM(y_test,y_pred)


Se nota una mejora, que se puede verificar con el accuracy:

In [None]:
print("El accuracy del test es: {:.2f}".format( accuracy_score(y_test,y_pred) ))

## Ejercicios

[1] Esta pregunta debe responderse utilizando el dataset ``Weekly``. Esta información es similar a los datos de ``Smarket`` del anterior notebook, excepto que contiene 1,089 declaraciones semanales durante 21 años, desde el comienzo de 1990 hasta el final de 2010.

(a) Produzca algún resumen numérico y algunos gráficos de ``Weekly``. ¿Hay algún patrón?

(b) Utilice el conjunto de datos completo para realizar una regresión logística con ``Direction`` como respuesta y las cinco variables ``lag`` más ``Volume`` como predictores. Use la función ``summary`` (de statmodels) para imprimir los resultados. ¿Alguno de los predictores parece ser estadísticamente significativo? ¿De ser asi, cuales?

(c) Calcule la matriz de confusión y la fracción general de las predicciones correctas. Explique qué le está diciendo la matriz de confusión sobre los tipos de errores cometidos por la regresión logística.

(d) Ahora ajuste el modelo de regresión logística utilizando un período de datos de capacitación de 1990 a 2008, con ``Lag2`` como el único predictor. Calcule la matriz de confusión y la fracción general de las predicciones correctas para los datos retenidos (es decir, los datos de 2009 y 2010).

(e) Repetir (d) usando KNN con K = 1.

(h) ¿Cuál de estos métodos parece proporcionar los mejores resultados en estos datos?

(i) Experimentar con diferentes combinaciones de predictores, incluidas posibles transformaciones e interacciones, para cada uno de los métodos. Realice un informe sobre las variables, el método y la matriz de confusión correspondiente, que parecen proporcionar los mejores resultados. Tenga en cuenta que también debe experimentar con valores para K en el clasificador KNN.