# Regresión Logística

## ¿Qué es?
La Regresión Logística es un **Algoritmo Supervisado** para **clasificación**.

Se cuenta con datos históricos en donde ya conocemos el tipo de clasificación que tiene.

Enseguida se desea crear un modelo que permita clasificar datos aun sin clasificar, en uno de varios posibles estados. 

Si la respuesta de la clasificación, por ejemplo es  “SI/NO”, este es un caso de  **clasificación binaria** 

Si la respuesta tiene mas posibilidades de clasificación, este es un caso de **clasificación múltiple**

Algunos ejemplos de Regresión Logística son:

- Clasificar si el correo que llega es Spam o No es Spam
- Dados unos resultados clínicos de un tumor, clasificar en “Benigno” o “Maligno”.
- El texto de un artículo a analizar es: Entretenimiento, Deportes, Política ó Ciencia
- A partir de historial bancario conceder un crédito o no

## ¿Cómo funciona?
Es una técnica multivariante de dependencia ya que trata de estimar la probabilidad de que ocurra un suceso en función de la dependencia de otras variables.

Si tenemos un conjunto de variables independientes $$ X_1
, X_2
,...,X_p $$
que nos clasifican a los *n* sujetos trataremos de saber a cual de las dos categorías de 
la variable *Y* pertenece. La probabilidad de  que un sujeto *«i»* pertenezca a una de ellas será la  combinación lineal 
$$ Z= b_1x_1
+b_2x_2+...+b_px_p
+ b_0$$
y será igual a:
$$p_i=\frac{e^z}{1+e^z}=\frac{1}{1+e^{-z}}$$

Si la probabilidad *p* de que el sujeto este encuadrado en esa categoría es **mayor que 0,5** se le asigna, si es menor se le asignará la otra categoría.

## Ejercicio

Para este ejercicio se ha creado un archivo cvs con datos de entrada a modo de ejemplo para clasificar si el usuario que visita un sitio web usa como sistema operativo Windows, Macintosh o Linux.

Nuestra información de entrada son 4 características que tomadas de una web que utiliza Google Analytics y son:

   - Duración de la visita en Segundos
   - Cantidad de Páginas Vistas durante la Sesión
   - Cantidad de Acciones del usuario (click, scroll, uso de checkbox, sliders,etc)
   - Suma del Valor de las acciones (cada acción lleva asociada una valoración de importancia)


In [None]:
#Importamos bibliotecas necesarias
import pandas as pd
import numpy as np
from sklearn import linear_model
from sklearn import model_selection
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
import seaborn as sb
%matplotlib inline

## Cargamos los datos de entrada del archivo csv

In [None]:
#Cargamos los datos de entrada y visualizamos una muesta de su cotenido
dataframe = pd.read_csv("usuarios_win_mac_lin.csv")
dataframe

In [None]:
#Mostramos información estadística básica de nuestro dataframe
dataframe.describe()

In [None]:
#Agrupamos por clase
print(dataframe.groupby('clase').size())

## Visualizar frecuencias de datos por campo

Primero visualizamos en formato de historial los cuatro Features de entrada con nombres “duración”, “páginas”,”acciones” y “valor” 

Analizamos gráficamente valores mínimos y máximos, asi como intervalos donde se concentran la mayor densidad de registros.

In [None]:
dataframe.drop(['clase'],1).hist()

plt.show()

## Creamos el modelo

In [None]:
#Separamos los datos en dos conjuntos
## Conjunto: entradas 
## Conjunto: etiquetas y lo guardamos en dos arreglos diferentes
X = np.array(dataframe.drop(['clase'],1))
X

In [None]:
y = np.array(dataframe['clase'])
y

In [None]:
#Calculamos la dimensión de X
X.shape

In [None]:
#Aplicamos el modelo 
model = linear_model.LogisticRegression()
model.fit(X,y)

In [None]:
#imprimimos las predicciones del modelo (en este caso coinciden con los valores reales)
predictions = model.predict(X)
X[0:5]

In [None]:
y[0:5]

In [None]:
print(predictions[0:5])

In [None]:
#model.score() que nos devuelve la precisión media de las predicciones
model.score(X,y)

# Validación del Modelo

In [None]:
#Subdividimos nuestros datos de entrada en forma aleatoria utilizando 80% de registros 
#para entrenamiento y 20% para validar.
validation_size = 0.20
seed = 7
X_train, X_validation, Y_train, Y_validation = model_selection.train_test_split(X, y, test_size=validation_size, random_state=seed)

In [None]:
# Calculamos la eficiencia del modelo usando cross validation
name='Regresión logística'
kfold = model_selection.KFold(n_splits=10, random_state=seed)
cv_results = model_selection.cross_val_score(model, X_train, Y_train, cv=kfold, scoring='accuracy')
msg = "%s: %f " % (name, cv_results.mean())
print(msg)

In [None]:
Y_validation

In [None]:
#Se calcula la precisión haciendo uso del conjundo de validación
predictions = model.predict(X_validation)
print(accuracy_score(Y_validation, predictions))

## Reporte de Resultados

In [None]:
#Mostramos la matriz de confusión
#En este caso predijo 3 usuarios que eran Mac como usuarios de Windows 
#y predijo a 2 usuarios Linux que realmente eran de Windows. 
print(confusion_matrix(Y_validation, predictions))



# Matriz de Confusión

||Windows|Linux|Mac|
|------|------|---------|------:|
|Windows|Verdadero|Falso|Falso|
|Linux|Falso|Verdadero|Falso|
|Mac|Falso|Falso|Verdadero|

# Clasificación de nuevos registros

In [None]:
# con el modelo ya entrenado clasificamos a un usuario con las siguientes características:
X_new = pd.DataFrame({'duracion': [2], 'paginas': [10], 'acciones': [1], 'valor': [8]})
model.predict(X_new)