
# Módulo 6 -   Regresión Logística y SVM 

## Introducción

En este lab descubriremos cómo aplicar Regresión Logística y Support Vector Machines cuando estamos ante un problema de clasificación

## 1 Regresión Lógistica

### 1.a Construyendo un clasificador con scikit-learn
Construiremos un clasificador usando el dataset de RRHH

- Leer los datos con Pandas.
- Comprobar si hay valores vacíos
- Encodear todos los atributos categóricos como booleanos usando `pd.get_dummies`
- Encodear las etiquetas usando `LabelEncoder`
- Dividir X e y con train_test_split así:
        train_test_split(X, y, test_size=0.3, random_state=42)
- Instanciar el clasificador
- Entrenar el clasificador
- Realizar predicciones

In [1]:
import pandas as pd
import seaborn as sns
import numpy as np

from sklearn.model_selection import cross_val_score
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split

import warnings
warnings.filterwarnings("ignore")

Para ello trabajaremos tratando de predecir la probabilidad de que un empleado deje la empresa. Para ello se dispone de un dataset 

Los campos incluidos son:

1. Última evaluación
2. Cantidad de proyectos en los que trabajó
3. Promedio de horas mensuales trabajadas
4. Tiempo en la compañía
5. Sufrió un accidente de trabajo
6. Tuvo una promoción en el último año
7. Nivel salarial

El objetivo, entonces, es predecir la probabilidad de que $P(left=1 | X)$ 

In [2]:
df = pd.read_csv('HR_comma_sep.csv')
df.head(10)

Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,Work_accident,left,promotion_last_5years,sales,salary
0,0.38,0.53,2,157,3,0,1,0,sales,low
1,0.8,0.86,5,262,6,0,1,0,sales,medium
2,0.11,0.88,7,272,4,0,1,0,sales,medium
3,0.72,0.87,5,223,5,0,1,0,sales,low
4,0.37,0.52,2,159,3,0,1,0,sales,low
5,0.41,0.5,2,153,3,0,1,0,sales,low
6,0.1,0.77,6,247,4,0,1,0,sales,low
7,0.92,0.85,5,259,5,0,1,0,sales,low
8,0.89,1.0,5,224,5,0,1,0,sales,low
9,0.42,0.53,2,142,3,0,1,0,sales,low


Uno de los primeros pasos que debemos tener en cuenta al entrenar un modelo de Machine Learning es definir nuestro conjunto de features, al cual llamaremos "X", y nuestro target, al cual llamaremos "y". 

Las columnas que poseen datos categoricos los transformaremos en columnas dummies. Ref: https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html

In [3]:
# Encodear todos los atributos categóricos como booleanos usando pd.get_dummies
X_dummies = pd.get_dummies(df[['sales', 'salary']])
# Generar un dataset con las dummies y el resto de las columnas numericas
# Es importante no incuir el target dentro de las features
X = pd.concat([X_dummies, df.drop(['sales', 'salary','left'], axis=1)], axis=1)

# Seleccionamos la columna target
y = df['left']

Para poder testear que tan bien funciona nuestro modelo es necesario dividir el conjunto de datos, en datos de entrenamiento (X_train e y_train) y datos de testeo (X_test e y_test). Lo haremos utilizando la función: 
https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [4]:
# Dividir X e y con train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [5]:
from sklearn.linear_model import LogisticRegression

In [6]:
# Asignamos a una variable el objeto LogisticRegression
lr = LogisticRegression()
# Entrenamos el modelo utilizando el método fit
lr.fit(X_train, y_train)

0,1,2
,penalty,'l2'
,dual,False
,tol,0.0001
,C,1.0
,fit_intercept,True
,intercept_scaling,1
,class_weight,
,random_state,
,solver,'lbfgs'
,max_iter,100


Una vez que el modelo ha se entrenó, ha sido capaz de ajustar los parámetros de la regresión logistica en base a los datos de entrada. 

Es el momento de validar que tan preciso es el modelo utilizando los datos de testeo. 

In [7]:
# Se realizan las predicciones utilizando el método predict
preds = lr.predict(X_test)

In [8]:
from sklearn.metrics import accuracy_score

In [9]:
accuracy_score(y_test, preds)

0.7875555555555556

Conseguimos un valor de accuracy de 0.785, es decir que 78 de cada 100 predicciones que realiza nuestro modelo son correctas.

## 2 Support Vector Machines

Realizamos el mismo proceso pero ahora con el algoritmo Support Vector Machines

In [10]:
from sklearn.svm import SVC

In [11]:
svm = SVC()
svm.fit(X_train, y_train)
preds = svm.predict(X_test)
accuracy_score(y_test, preds)

0.7808888888888889

Obtuvimos una performance de 0.78, muy similar a la performance que obtuvimos utilizando Regresión Logistica
Sin embargo, podemos ver cual es el resultado si modificamos hiperparámetros. En SVM los principales hiperparámetros son "C" (refiere a la regularización) y el kernel. 

In [16]:
# svm = SVC(C=100, gamma=0.1)
svm = SVC(C=40)
svm.fit(X_train, y_train)
preds = svm.predict(X_test)
accuracy_score(y_test, preds)

0.8513333333333334

Obtuvimos un 0.85 de accuracy lo cual es una considerable mejora de utilizar un C=1 (valor por defecto). ¿Qué pasa si modificamos el valor del kernel?

# 3. Tiempo de entrenamiento

Veamos cual es el tiempo que tarda en entrenar cada uno de los algoritmos

In [None]:
import time

In [None]:
# Tiempo entrenamiento Regresión Logistica
start_time = time.time()
lr = LogisticRegression()
lr.fit(X_train, y_train)
reg_time = (time.time() - start_time)

# Tiempo entrenamiento SVM
start_time = time.time()
svm = SVC(C=40)
svm.fit(X_train, y_train)
svm_time = (time.time() - start_time)

In [None]:
print(f'El tiempo de entrenamiento de la Regresión logistica es de {reg_time} segundos')
print(f'El tiempo de entrenamiento de SVM es de {svm_time} segundos')

Podemos verificar que para un mismo volumen de datos de entrenamiento el algoritmo SVM es computacionalmente más costoso