# Regresión Logística

La regresión logística es un tipo de modelo de aprendizaje automático supervisado que se utiliza para predecir la probabilidad de que un evento ocurra. La regreión logística se basa en la función logística, que es una función sigmoide que toma un valor entre 0 y 1. Aunque se llama *regresión*, se utiliza comúnmente para problemas de clasificación binaria (dos clases), aunque también se puede utilizar para clasificación multiclase.

La regresión logística se puede utilizar en los siguientes casos:

- **Cuando la variable dependiente es categórica**. La regresión logística se utiliza para predecir variables dependientes que pueden tomar un número limitado de valores.
- **Probabilidad de eventos**. Cuando se desea modelar la probabilidad de un evento en función de variables predictoras.

![Regresión logística](https://d1.awsstatic.com/S-curve.36de3c694cafe97ef4e391ed26a5cb0b357f6316.png)

#### Ventajas y desventajas

**Ventajas**

1. **Interpretación probabilística**: Proporciona probabilidades directas de pertenencia a una clase, lo que facilita la interpretación.
2. **Eficiente para clasificación binaria**.
3. **No requiere linealidad**: No asume linealidad en la relación entre las variables predictoras y la probabilidad de pertenencia a una categoría.

**Desventajas**

1. **Sensibilidad a características irrelevantes**.
2. **No es adecuada para modelar relaciones no lineales complejas**.

In [None]:
import pandas as pd
import numpy as np

In [None]:
data = pd.read_csv('/content/sample_data/Social_Network_Ads.csv')
data.head()

Unnamed: 0,User ID,Gender,Age,EstimatedSalary,Purchased
0,15624510,Male,19,19000,0
1,15810944,Male,35,20000,0
2,15668575,Female,26,43000,0
3,15603246,Female,27,57000,0
4,15804002,Male,19,76000,0


In [None]:
X = data.iloc[:, [2, 3]]
y = data.iloc[:, -1].values

In [None]:
gender = data[['Gender']]

In [None]:
# Transformación de las variables categóricas
from sklearn.preprocessing import OneHotEncoder
cat_encoder = OneHotEncoder()
data_cat_1hot = cat_encoder.fit_transform(gender)

In [None]:
cat_encoder.categories_

[array(['Female', 'Male'], dtype=object)]

In [None]:
data_cat_1hot
data_cat_1hot.toarray()[:3]

array([[0., 1.],
       [0., 1.],
       [1., 0.]])

In [None]:
encoded_df = pd.DataFrame(data_cat_1hot.toarray(), columns = cat_encoder.get_feature_names_out())
encoded_df.head()

Unnamed: 0,Gender_Female,Gender_Male
0,0.0,1.0
1,0.0,1.0
2,1.0,0.0
3,1.0,0.0
4,0.0,1.0


In [None]:
data1 = pd.concat([X, encoded_df], axis=1)
data1.head()

Unnamed: 0,Age,EstimatedSalary,Gender_Female,Gender_Male
0,19,19000,0.0,1.0
1,35,20000,0.0,1.0
2,26,43000,1.0,0.0
3,27,57000,1.0,0.0
4,19,76000,0.0,1.0


In [None]:
data1.shape

(400, 4)

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data1, y, test_size=0.2, random_state=0)

In [None]:
print(X_train.shape)
print(X_test.shape)


(320, 4)
(80, 4)


In [None]:
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)

In [None]:
from sklearn.linear_model import LogisticRegression
log_reg = LogisticRegression(random_state=0)
log_reg.fit(X_train, y_train)

In [None]:
y_pred = log_reg.predict(X_test)

In [None]:
print('Reales:', y_test[:10], 'Predicción:', y_pred[:10])

Reales: [0 0 0 0 0 0 0 1 0 0] Predicción: [0 0 0 0 0 0 0 1 0 1]


|||
|--|--|
|TN|FP|
|FN|TP|

In [None]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, y_pred)

array([[56,  2],
       [ 5, 17]])

In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score
print('Precisión:', precision_score(y_test, y_pred))
print('Memoria:', recall_score(y_test, y_pred))
print('F1_score:', f1_score(y_test, y_pred))

Precisión: 0.8947368421052632
Memoria: 0.7727272727272727
F1_score: 0.8292682926829269
