In [18]:
#Habilitar intellisense
%config IPCompleter.greedy = True

## Regresión logística

Es un algoritmo para obtener un clasificador binario. 

La regresión logística es bastante efectiva en situaciones en las que la relación entre la **probabilidad** de lograr una meta/objetivo (Y) está vinculada a los recursos necesarios (X) de manera no lineal donde una disminución/aumento de cierto recurso más allá de cierto umbral disminuye/aumenta drásticamente la probabilidad de lograr el objetivo.


<img src="logistica\01-lineal-vs-logistica_.png" style="width:600px"/>


<img src="logistica\02-regresion-logistica_.png" style="width:600px"/>


Los clasificadores binaros basados en regresión logística clasifican las observaciones de acuerdo a un umbral típicamente 0.5 (50%).

Hay dos técnicas comunmente empleadas para obtener los coeficientes de regresión:
- __[MLE](https://es.wikipedia.org/wiki/M%C3%A1xima_verosimilitud)__  
- __[Mínimos cuadrados](https://es.wikipedia.org/wiki/M%C3%ADnimos_cuadrados)__ (luego de convertir la relación establecida por la curva "S" a una relación lineal)


__[Scikit Learn - Regresión logística](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)__

In [1]:
import pandas as pd
import numpy as np
import os

In [3]:
df_entrenamiento = pd.read_csv(os.path.join("procesado", "train.csv"), index_col='PassengerId')

In [4]:
df_entrenamiento.head()

Unnamed: 0_level_0,Survived,Age,Fare,FamilySize,IsMother,IsMale,Deck_A,Deck_B,Deck_C,Deck_D,...,Title_Sir,Fare_Bin_very_low,Fare_Bin_low,Fare_Bin_high,Fare_Bin_very_high,Embarked_C,Embarked_Q,Embarked_S,AgeState_Adult,AgeState_Child
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,0,22.0,7.25,2,0,1,0.0,0.0,0.0,0.0,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0
2,1,38.0,71.2833,2,0,0,0.0,0.0,1.0,0.0,...,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,1.0,0.0
3,1,26.0,7.925,1,0,0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0
4,1,35.0,53.1,2,0,0,0.0,0.0,1.0,0.0,...,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0
5,0,35.0,8.05,1,0,1,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0


In [5]:
df_entrenamiento.shape

(891, 33)

In [8]:
X = df_entrenamiento.loc[:,'Age':].to_numpy().astype('float')
y = df_entrenamiento['Survived'].ravel() 

In [9]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

(712, 32) (712,)
(179, 32) (179,)


In [13]:
from sklearn.linear_model import LogisticRegression

In [14]:
# crear el clasificador
clasificador_reg_log = LogisticRegression(random_state=0, solver='liblinear')

In [15]:
# entrenar el clasificador
clasificador_reg_log.fit(X_train,y_train)

In [16]:
print('accuracy del clasificador - version 1 : {0:.2f}'.format(clasificador_reg_log.score(X_test, y_test)))

accuracy del clasificador - version 1 : 0.83


### El hiperparámetro 'penalty'
__[L1 Norms versus L2 Norms](https://www.kaggle.com/residentmario/l1-norms-versus-l2-norms)__

__[L1 and L2 Regularization Methods](https://towardsdatascience.com/l1-and-l2-regularization-methods-ce25e7fc831c)__

__[The difference between L1 and L2 regularization](https://explained.ai/regularization/L1vsL2.html)__

In [2]:
#evaluar el desempeño
from sklearn.metrics import accuracy_score, confusion_matrix, precision_score, recall_score, f1_score

In [19]:
# accuracy
print('accuracy del clasificador - version 1 : {0:.2f}'.format(accuracy_score(y_test, clasificador_reg_log.predict(X_test))))
# confusion matrix
print('matriz de confusión del clasificador - version 1: \n {0}'.format(confusion_matrix(y_test, clasificador_reg_log.predict(X_test))))
# precision 
print('precision del clasificador - version 1 : {0:.2f}'.format(precision_score(y_test, clasificador_reg_log.predict(X_test))))
# recall 
print('recall del clasificador - version 1 : {0:.2f}'.format(recall_score(y_test, clasificador_reg_log.predict(X_test))))
# f1
print('f1 del clasificador - version 1 : {0:.2f}'.format(f1_score(y_test, clasificador_reg_log.predict(X_test))))

accuracy del clasificador - version 1 : 0.83
matriz de confusión del clasificador - version 1: 
 [[95 15]
 [15 54]]
precision del clasificador - version 1 : 0.78
recall del clasificador - version 1 : 0.78
f1 del clasificador - version 1 : 0.78


In [33]:
# coeficientes del modelo
clasificador_reg_log.coef_

array([[-0.02840734,  0.00455631, -0.50017004,  0.61922838, -0.81414743,
         0.12823264, -0.17253859, -0.39355488,  0.52215008,  1.09939125,
         0.40346551, -0.18369316, -0.30021028,  0.96558544,  0.48281794,
        -0.3451608 ,  0.28258585,  1.21850069,  0.56334183, -1.44612507,
         1.07146232, -0.11345497, -0.47306807,  0.16297326,  0.24746349,
         0.27998252,  0.4128233 ,  0.49202884,  0.46214499,  0.14906873,
         0.37253571,  0.73070686]])

In [34]:
df_entrenamiento.loc[:,'Age':].columns

Index(['Age', 'Fare', 'FamilySize', 'IsMother', 'IsMale', 'Deck_A', 'Deck_B',
       'Deck_C', 'Deck_D', 'Deck_E', 'Deck_F', 'Deck_G', 'Deck_Z', 'Pclass_1',
       'Pclass_2', 'Pclass_3', 'Title_Lady', 'Title_Master', 'Title_Miss',
       'Title_Mr', 'Title_Mrs', 'Title_Officer', 'Title_Sir',
       'Fare_Bin_very_low', 'Fare_Bin_low', 'Fare_Bin_high',
       'Fare_Bin_very_high', 'Embarked_C', 'Embarked_Q', 'Embarked_S',
       'AgeState_Adult', 'AgeState_Child'],
      dtype='object')

In [35]:
list(zip(df_entrenamiento.loc[:,'Age':].columns, clasificador_reg_log.coef_[0]))

[('Age', -0.028407337097427984),
 ('Fare', 0.004556311933598024),
 ('FamilySize', -0.5001700443196179),
 ('IsMother', 0.6192283817250241),
 ('IsMale', -0.8141474271549188),
 ('Deck_A', 0.12823264145506164),
 ('Deck_B', -0.17253859381202133),
 ('Deck_C', -0.39355488439161285),
 ('Deck_D', 0.5221500810621986),
 ('Deck_E', 1.099391251831757),
 ('Deck_F', 0.403465513968498),
 ('Deck_G', -0.18369316305027036),
 ('Deck_Z', -0.3002102773455057),
 ('Pclass_1', 0.965585436279503),
 ('Pclass_2', 0.48281793789728056),
 ('Pclass_3', -0.3451608044586626),
 ('Title_Lady', 0.2825858490784899),
 ('Title_Master', 1.2185006862908279),
 ('Title_Miss', 0.5633418258150429),
 ('Title_Mr', -1.446125074480859),
 ('Title_Mrs', 1.0714623219795012),
 ('Title_Officer', -0.11345496801997268),
 ('Title_Sir', -0.4730680709449341),
 ('Fare_Bin_very_low', 0.16297326018403457),
 ('Fare_Bin_low', 0.2474634881001418),
 ('Fare_Bin_high', 0.2799825230984857),
 ('Fare_Bin_very_high', 0.4128232983353723),
 ('Embarked_C', 0.4

## Consideraciones

- En este ejemplo, los datos ya han sido preparados para poder emplearse como entrada para entrenar un modelo predictivo (clasificador binario). En la mayoría de los casos es muy difícil encontrar datos en tal estado y es necesario desarrollar una aplicación de datos para realizar la extracción y preparación de los datos

- El clasificador debe ser evaluado y cuando el desempeño sea el adecuado se despliega en producción (usualmente como un servicio REST que acepta nuevos casos y retorna la clasificación) 

- El proceso de entrenamiento y despliegue del clasificador también puede ser incluido en una aplicación de datos.

## Ejercicio clasificación
Crear un clasificador basado en el algoritmo de regresión logistica para predecir si el valor de la vivienda supera la media

entrada: housing.csv

Procedimiento:
- Cargar los datos los datos a un DataFrame y explorar brevemente
- Eliminar las observaciones que tengan algun dato faltante
- Eliminar las observaciones con el valor atípico (max) para la variable 'expected_house_value'
- Crear una nueva variable boolean 'above_median'
- Quitar 'expected_house_value'
- Aplicar los pasos train-test-split para poder entrenar y evaluar un clasificador basado en regresión logística

Cuáles los valores para accuracy, matriz de confusion, precision, recall y f1 del clasificador?

In [3]:
import pandas as pd
import numpy as np
import os

In [4]:
df_housing = pd.read_csv(os.path.join("housing.csv"))
df_housing.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,expected_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


In [None]:
#evaluar el desempeño
from sklearn.metrics import accuracy_score, confusion_matrix, precision_score, recall_score, f1_score