In [1]:
#Habilitar intellisense
%config IPCompleter.greedy = True

## Regresión logística

Es un algoritmo para obtener un clasificador binario. 

La regresión logística es bastante efectiva en situaciones en las que la relación entre la **probabilidad** de lograr una meta/objetivo (Y) está vinculada a los recursos necesarios (X) de manera no lineal donde una disminución/aumento de cierto recurso más allá de cierto umbral disminuye/aumenta drásticamente la probabilidad de lograr el objetivo.


<img src="logistica\01-lineal-vs-logistica.png" style="width:600px"/>


<img src="logistica\02-regresion-logistica.png" style="width:600px"/>


Los clasificadores binaros basados en regresión logística clasifican las observaciones de acuerdo a un umbral típicamente 0.5 (50%).

Hay dos técnicas comunmente empleadas para obtener los coeficientes de regresión. __[MLE](https://es.wikipedia.org/wiki/M%C3%A1xima_verosimilitud)__ y __[mínimos cuadrados](https://es.wikipedia.org/wiki/M%C3%ADnimos_cuadrados)__ (luego de convertir la relación establecida por la curva "S" a una relación lineal)


__[Scikit Learn - Regresión logística](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)__

In [2]:
import pandas as pd
import numpy as np
import os

In [3]:
df_entrenamiento = pd.read_csv(os.path.join("procesado", "train.csv"), index_col='PassengerId')

FileNotFoundError: [Errno 2] File procesado/train.csv does not exist: 'procesado/train.csv'

In [None]:
df_entrenamiento.head()

In [36]:
X = df_entrenamiento.loc[:,'Age':].to_numpy().astype('float')
y = df_entrenamiento['Survived'].ravel() 

In [37]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

(712, 32) (712,)
(179, 32) (179,)


In [13]:
from sklearn.linear_model import LogisticRegression

In [14]:
# crear el clasificador
clasificador_reg_log = LogisticRegression(random_state=0, solver='liblinear')

In [15]:
# entrenar el clasificador
clasificador_reg_log.fit(X_train,y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=0, solver='liblinear', tol=0.0001, verbose=0,
                   warm_start=False)

In [16]:
print('accuracy del clasificador - version 1 : {0:.2f}'.format(clasificador_reg_log.score(X_test, y_test)))

accuracy del clasificador - version 1 : 0.83


### El hiperparámetro 'penalty'
__[L1 Norms versus L2 Norms](https://www.kaggle.com/residentmario/l1-norms-versus-l2-norms)__

__[L1 and L2 Regularization Methods](https://towardsdatascience.com/l1-and-l2-regularization-methods-ce25e7fc831c)__

In [38]:
#evaluar el desempeño
from sklearn.metrics import accuracy_score, confusion_matrix, precision_score, recall_score, f1_score

In [39]:
# accuracy
print('accuracy del clasificador - version 1 : {0:.2f}'.format(accuracy_score(y_test, clasificador_reg_log.predict(X_test))))
# confusion matrix
print('matriz de confusión del clasificador - version 1: \n {0}'.format(confusion_matrix(y_test, clasificador_reg_log.predict(X_test))))
# precision 
print('precision del clasificador - version 1 : {0:.2f}'.format(precision_score(y_test, clasificador_reg_log.predict(X_test))))
# recall 
print('recall del clasificador - version 1 : {0:.2f}'.format(recall_score(y_test, clasificador_reg_log.predict(X_test))))
# f1
print('f1 del clasificador - version 1 : {0:.2f}'.format(f1_score(y_test, clasificador_reg_log.predict(X_test))))

accuracy del clasificador - version 1 : 0.83
matriz de confusión del clasificador - version 1: 
 [[95 15]
 [15 54]]
precision del clasificador - version 1 : 0.78
recall del clasificador - version 1 : 0.78
f1 del clasificador - version 1 : 0.78


In [40]:
# coeficientes del modelo
clasificador_reg_log.coef_

array([[-0.02842273,  0.00455452, -0.50009091,  0.61781315, -0.8139233 ,
         0.12845079, -0.1728179 , -0.39317833,  0.52159976,  1.09941224,
         0.40341217, -0.18345051, -0.30036041,  0.96533486,  0.48256743,
        -0.34483447,  0.28089591,  1.21761326,  0.56363966, -1.44586303,
         1.07245555, -0.11273706, -0.47293647,  0.16255645,  0.24716927,
         0.28009442,  0.41324768,  0.49183529,  0.46198829,  0.14924424,
         0.37283517,  0.73023265]])

In [41]:
df_entrenamiento.loc[:,'Age':].columns

Index(['Age', 'Fare', 'FamilySize', 'IsMother', 'IsMale', 'Deck_A', 'Deck_B',
       'Deck_C', 'Deck_D', 'Deck_E', 'Deck_F', 'Deck_G', 'Deck_Z', 'Pclass_1',
       'Pclass_2', 'Pclass_3', 'Title_Lady', 'Title_Master', 'Title_Miss',
       'Title_Mr', 'Title_Mrs', 'Title_Officer', 'Title_Sir',
       'Fare_Bin_very_low', 'Fare_Bin_low', 'Fare_Bin_high',
       'Fare_Bin_very_high', 'Embarked_C', 'Embarked_Q', 'Embarked_S',
       'AgeState_Adult', 'AgeState_Child'],
      dtype='object')

In [42]:
list(zip(df_entrenamiento.loc[:,'Age':].columns, clasificador_reg_log.coef_[0]))

[('Age', -0.028422726564420273),
 ('Fare', 0.004554523974050998),
 ('FamilySize', -0.5000909114842238),
 ('IsMother', 0.6178131477722333),
 ('IsMale', -0.8139232978160288),
 ('Deck_A', 0.12845079389574532),
 ('Deck_B', -0.17281789663788488),
 ('Deck_C', -0.3931783275109615),
 ('Deck_D', 0.5215997574180827),
 ('Deck_E', 1.0994122410892673),
 ('Deck_F', 0.4034121712434868),
 ('Deck_G', -0.18345050886017333),
 ('Deck_Z', -0.30036041139298975),
 ('Pclass_1', 0.9653348567750513),
 ('Pclass_2', 0.4825674289314244),
 ('Pclass_3', -0.3448344664619141),
 ('Title_Lady', 0.2808959117074467),
 ('Title_Master', 1.2176132639375994),
 ('Title_Miss', 0.5636396593752866),
 ('Title_Mr', -1.4458630298762787),
 ('Title_Mrs', 1.0724555459778482),
 ('Title_Officer', -0.11273705719065921),
 ('Title_Sir', -0.47293647468667127),
 ('Fare_Bin_very_low', 0.16255644812259543),
 ('Fare_Bin_low', 0.24716927159731517),
 ('Fare_Bin_high', 0.2800944188052781),
 ('Fare_Bin_very_high', 0.41324768071939194),
 ('Embarked_C

## Ejercicio clasificación
Crear un clasificador basado en el algoritmo de regresión logistica para predecir si el valor de la vivienda supera la media

entrada: housing.csv

Procedimiento:
- Cargar los datos los datos a un DataFrame y explorar brevemente
- Eliminar las observaciones que tengan algun dato faltante
- Eliminar las observaciones con el valor atípico (max) para la variable 'median_house_value'
- Aplicar one hot encoding a la variable 'ocean_proximity'
- Crear una nueva variable boolean 'above_median'
- Aplicar los pasos train-test-split para poder entrenar y evaluar el clasificador

Cuáles los valores para accuracy, matriz de confusion, precision, recall y f1 del clasificador?