## Modelo de Regresion Logistica

In [1]:
import pandas as pd
import numpy as np

### Preprocesamiento de los datos

In [2]:
file_url = 'https://raw.githubusercontent.com/PacktWorkshops/The-Data-Science-Workshop/master/Chapter03/bank-full.csv'

In [4]:
bankData = pd.read_csv(file_url, sep=';')

In [5]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

In [6]:
bankData.dtypes

age           int64
job          object
marital      object
education    object
default      object
balance       int64
housing      object
loan         object
contact      object
day           int64
month        object
duration      int64
campaign      int64
pdays         int64
previous      int64
poutcome     object
y            object
dtype: object

Como se puede ver tenemos 2 tipos de datos, datos numericos y datos ordinales*, los algoritmos de machine learning necesitan representaciones numericas de los datos, entonces es necesario convertir estos datos ordinales en una forma numerica creando variables dummy. Esta variables dummy tendran valores de 1 y 0 dependiendo si la categoria esta presente o no.

La funcion que podemos utilizar para convertir datos ordinales en numericos es `pd.get_dummies()`, esta funcion convierte la estructura de los datos en una forma larga o una forma horizontal, habran 3 nuevas variables creadas como variables ficticias (dummy) correspondientes a cada categoria


*Los datos ordinales son un tipo estadístico de datos cuantitativos en los que existen variables en categorías ordenadas que se producen de forma natural.

In [7]:
# Converting all the categorical variables to dummy variables
bankCat = pd.get_dummies(bankData[['job','marital','education','default','housing','loan','contact','month','poutcome']])
bankCat.shape

(45211, 44)

In [8]:
bankCat.head()

Unnamed: 0,job_admin.,job_blue-collar,job_entrepreneur,job_housemaid,job_management,job_retired,job_self-employed,job_services,job_student,job_technician,...,month_jun,month_mar,month_may,month_nov,month_oct,month_sep,poutcome_failure,poutcome_other,poutcome_success,poutcome_unknown
0,0,0,0,0,1,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,1
1,0,0,0,0,0,0,0,0,0,1,...,0,0,1,0,0,0,0,0,0,1
2,0,0,1,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,1
3,0,1,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,1
4,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,1


Con esto ahoratenemos un subset de los datos correspondientes a los datos categoricos que convertimos en una forma numerica.

Tambien tenemos algunas variables numericas en el dataset original que no necesitan transformacion, estos deben ser unicos para tener todas las caracteristicas originales.

Para combinarlos primero debemos extraer los datos numericos del dataFrame original.

In [9]:
bankNum = bankData[['age','balance','day','duration','campaign','pdays','previous']]
bankNum.shape

(45211, 7)

In [10]:
bankNum.head()

Unnamed: 0,age,balance,day,duration,campaign,pdays,previous
0,58,2143,5,261,1,-1,0
1,44,29,5,151,1,-1,0
2,33,2,5,76,1,-1,0
3,47,1506,5,92,1,-1,0
4,33,1,5,198,1,-1,0


In [13]:
# Preparing the X variables
X = pd.concat([bankCat, bankNum], axis=1) #Los datos numericos y categoricos en X
print(X.shape)
# Preparing the Y variable
Y = bankData['y'] #Este es nuetro target o label
print(Y.shape)
X.head()

(45211, 51)
(45211,)


Unnamed: 0,job_admin.,job_blue-collar,job_entrepreneur,job_housemaid,job_management,job_retired,job_self-employed,job_services,job_student,job_technician,...,poutcome_other,poutcome_success,poutcome_unknown,age,balance,day,duration,campaign,pdays,previous
0,0,0,0,0,1,0,0,0,0,0,...,0,0,1,58,2143,5,261,1,-1,0
1,0,0,0,0,0,0,0,0,0,1,...,0,0,1,44,29,5,151,1,-1,0
2,0,0,1,0,0,0,0,0,0,0,...,0,0,1,33,2,5,76,1,-1,0
3,0,1,0,0,0,0,0,0,0,0,...,0,0,1,47,1506,5,92,1,-1,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,1,33,1,5,198,1,-1,0


In [14]:
Y.head()

0    no
1    no
2    no
3    no
4    no
Name: y, dtype: object

In [15]:
#Teniendo el dataFrame listo, ahora procedemos a separar nuestro dataset en el set de entramiento y el de prueba
# Splitting the data into train and test sets
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.3, random_state=123)

### Entrenamiento del modelo

In [16]:
# bankModel = LogisticRegression(max_iter=10000)
bankModel = LogisticRegression() #Instanciamos al modelo
bankModel.fit(X_train, y_train)  #Ajustamos los datos de entranemiento al modelo 

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

In [17]:
#Teniendo el modelo, procedemos a predecir los valores para el set de test
#y comparamos los valores predecidos con los que tenian que salir y obtenemos una puntuacion
pred = bankModel.predict(X_test)
print('Accuracy of Logistic regression model prediction on test set: {:.2f}'.format(bankModel.score(X_test, y_test)))

Accuracy of Logistic regression model prediction on test set: 0.89


Con este resultado del 89% de precision de nuestro modelo, da la impresion que es un buen modelo, pero siempre es importante generar las metricas del modelo para evaluarlo, en este caso usaremos la matriz de confusion y el reporte de clasificacion correspondiente.

### Prediccion, analisis y metricas del modelo

In [23]:
# Confusion Matrix for the model
from sklearn.metrics import confusion_matrix
confusionMatrix = confusion_matrix(y_test, pred) #Comparamos los valores esperados con los predecidos por el modelo
print(confusionMatrix)

[[11754   244]
 [ 1242   324]]


La salida de la matriz de la confusion es de la siguiente forma :

Thus in binary classification, the count of true negatives is C00, false negatives is C10, true positives is C11 and false positives is C01

Entonces tenemos que:
- TN = 11754
- FN = 1242
- TP = 324
- FP = 244

In [19]:
tn, fp, fn, tp = confusion_matrix(y_test, pred).ravel()

In [21]:
print(tn, fp, fn, tp)

11754 244 1242 324


In [22]:
#Ahora para generar el reporte de clasificacion
from sklearn.metrics import classification_report
print(classification_report(y_test, pred))

              precision    recall  f1-score   support

          no       0.90      0.98      0.94     11998
         yes       0.57      0.21      0.30      1566

    accuracy                           0.89     13564
   macro avg       0.74      0.59      0.62     13564
weighted avg       0.87      0.89      0.87     13564



Con estos resultados 
**Para el caso de no:**

- podemos ver que 11,998  eran 'No', de los cuales 11,754 fueron clasificados correctamente como no y 244 fueron clasificados erroneamente como 'si'.Esto nos da un recall de 11,754/11,998 de aproximadamente 98%.

- Desde una perspectiva de la precision de los 12996 que fueron clasificados como 'no', solo 11,754 fueron realmente 'no', es decir 11754/12996=0.90 , un 90% aproximandamente.

**Para el caso de si:**

- Del total de los 1566 caso de 'yes', solo 324 fueron correctamente clasificados como 'yes'. Dando un recall de 324/1566=0.206 21% aproximadamente.

- En cuanto a la precision, tenemos que (244+324)=568 casos que debian ser 'yes', una precion de 324/568=0.57 del 57%

En general la exactiud de este modelo seria calculado de los ejemplos clasificados correctamente entre el total de ejemplos

(tn + tp)/(tn+fp+tp+fn) = (11754+324)+(13564) = 0.89, 89%


**En conclusion**

Con la simple metrica de la exactitud podemos ver que nuextro es 90% exacto, pero viendo ya el desempeño en cuanto a clasificacion podemos ver que hace un mal desempeño para clasificar aquellos valores que corresponden a 'Yes', que desde una perspectiva de negocio estos son los que nos importan, entonces nuestro modelo no es util para el objetivo de nuestro negocio.

Esto podemos mejorar con feature engineering, generando nuevas caracteristicas que nos permitan identificar de mejor manera a los 'Yes'
