### Regresion Logistica

### 1. Importar librerias

In [24]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.special as special
from scipy.optimize import curve_fit
import seaborn as sns
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, precision_score, accuracy_score, recall_score, f1_score

### 2. Leer archivo

In [2]:
df = sns.load_dataset(name='titanic')
display(df.head(2))

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False


### 3. Preprocesamiento

In [3]:
# Rellenamos los nulos
df = df.fillna(method='bfill')
df = df.fillna(method='ffill')

In [4]:
# Declaramos variables dependendientes e independientes para la regresion logistica
vars_indep = df[['pclass', 'age', 'fare']]
var_dep = df['alive']

In [5]:
# Redefinimos las variables
x = vars_indep
y = var_dep

### 3. Armar modelo

In [6]:
# Dividimos el conjunto de los datos en la parte de entrenamiento y prueba
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = None)

In [7]:
# Se escalan todos los datos
escalar = StandardScaler()

In [8]:
# Para realizar el escalamiento de las variables 'x' tanto de entrenamiento como de prueba, util
# Solo las x, porque la y ya es binaria
x_train = escalar.fit_transform(x_train)
x_test = escalar.fit_transform(x_test)

In [10]:
# Definimos algoritmo a utilizar
algoritmo = LogisticRegression()

In [11]:
# Entrenamos el modelo
algoritmo.fit(x_train, y_train)

In [12]:
# Realizamos una prediccion
y_pred = algoritmo.predict(x_test)
print(y_pred)

['no' 'no' 'no' 'no' 'no' 'no' 'yes' 'no' 'yes' 'no' 'yes' 'yes' 'no' 'no'
 'no' 'yes' 'no' 'yes' 'no' 'no' 'yes' 'yes' 'no' 'no' 'no' 'no' 'no' 'no'
 'no' 'no' 'yes' 'yes' 'no' 'no' 'no' 'no' 'no' 'no' 'no' 'yes' 'no' 'no'
 'yes' 'yes' 'yes' 'no' 'no' 'yes' 'no' 'no' 'no' 'no' 'yes' 'no' 'no'
 'no' 'no' 'yes' 'no' 'no' 'yes' 'no' 'no' 'no' 'no' 'no' 'no' 'no' 'no'
 'no' 'no' 'no' 'no' 'no' 'yes' 'no' 'no' 'no' 'no' 'no' 'no' 'yes' 'no'
 'no' 'no' 'yes' 'no' 'no' 'no' 'no' 'no' 'no' 'yes' 'no' 'no' 'no' 'no'
 'yes' 'yes' 'no' 'yes' 'no' 'yes' 'no' 'no' 'yes' 'no' 'yes' 'no' 'no'
 'no' 'no' 'no' 'no' 'no' 'no' 'yes' 'no' 'yes' 'no' 'no' 'no' 'no' 'no'
 'yes' 'no' 'no' 'no' 'no' 'no' 'no' 'yes' 'yes' 'yes' 'no' 'yes' 'no'
 'yes' 'no' 'no' 'no' 'no' 'yes' 'no' 'no' 'yes' 'no' 'no' 'no' 'yes' 'no'
 'no' 'no' 'no' 'no' 'no' 'no' 'no' 'no' 'yes' 'no' 'no' 'no' 'yes' 'yes'
 'no' 'no' 'yes' 'yes' 'yes' 'yes' 'no' 'no' 'no' 'no' 'no' 'no' 'no'
 'yes' 'yes' 'no' 'no' 'yes' 'no' 'yes' 'no' 'yes' 

In [15]:
# Verifica matriz de confusion
matriz = confusion_matrix(y_test, y_pred)
print(f'Matriz de confusion:\n{matriz}')

Matriz de confusion:
[[139  27]
 [ 56  46]]


In [19]:
# Precision del modelo
precision = precision_score(y_test, y_pred, average='binary', pos_label='no')
print(f'Precision del modelo: {precision}')

Precision del modelo: 0.7128205128205128


In [21]:
# Exactitud del modelo
exactitud = accuracy_score(y_test, y_pred)
print(f'Exactitud del modelo: {exactitud}')

Exactitud del modelo: 0.6902985074626866


In [23]:
# Sensibilidad del modelo
sensibilidad = recall_score(y_test, y_pred, average='binary', pos_label='yes')
print(f'Sensibilidad del modelo: {sensibilidad}')

Sensibilidad del modelo: 0.45098039215686275


In [25]:
# Puntaje f1
puntajef1 = f1_score(y_test, y_pred, average='binary', pos_label='yes')
print(f'F1 del modelo: {puntajef1}')

F1 del modelo: 0.5257142857142857


### 4. Reemplazar valores

In [26]:
# Verificar los valores sin repetirse de una columna
unico = np.unique(df['class'])
print(unico)

['First' 'Second' 'Third']


In [29]:
# Convertir una variable a dicotomica
df['class'] = df['class'].replace(['Second', 'Third'], 'No First')
display(df['class'])

0      No First
1         First
2      No First
3         First
4      No First
         ...   
886    No First
887       First
888    No First
889       First
890    No First
Name: class, Length: 891, dtype: category
Categories (2, object): ['First', 'No First']