In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


## Regresión logística

Es utilizada para modelar la probabilidad de ocurrencia de una variable binaria cualitativa (0 o 1), en función de una o más variables independientes.

- Al ajustar una recta mediante regresión lineal, se pueden obtener valores predichos distintos de 0 y 1, lo que entra en contradicción con la definición de la variable respuesta binaria.

- Si se quiere interpretar las predicciones del modelo como probabilidades de pertenencia a cada clase, no se cumpliría la condición de que toda probabilidad ha de estar dentro del intervalo (0,1), ya que podrían obtenerse valores fuera de este.

Para evitar estos problemas, la regresión logística transforma el valor devuelto por la regresión lineal con una función cuyo resultado siempre está comprendido entre 0 y 1. Existen varias funciones que cumplen esta descripción, una de las más utilizadas es la función logística (también conocida como función sigmoide). Aplicando esta transformación, la función de probabilidad \(P(Y=1)\) queda expresada como:

$
\ln \left( \frac{P(Y=1)}{1-P(Y=1)}\right)=\beta_0+\beta_1 X
$

$
\rightarrow P(Y=1)=p= \frac{1}{1+e^{-(\beta_0+\beta_1 X)}}
$

Para ajustar el modelo logístico que permite predecir $P(Y=1)$, es necesario entonces encontrar los valores de los parámetros $\beta_0$ y $\beta_1$, a partir de los valores observados de $p$.


In [2]:
# Generamos un dataset de ejemplo
np.random.seed(42)  # Para reproducibilidad

# Generamos datos aleatorios
n_samples = 100
ages = np.random.randint(18, 70, n_samples)
salaries = np.random.randint(20000, 150000, n_samples)
previous_purchases = np.random.choice([0, 1], n_samples)
purchase_probability = 1 / (1 + np.exp(-(0.1*ages + 0.00005*salaries + 0.5*previous_purchases - 15)))
purchases = (purchase_probability > np.random.rand(n_samples)).astype(int)

# Creamos el DataFrame
df = pd.DataFrame({
    'Age': ages,
    'Annual Salary': salaries,
    'Previous Purchase': previous_purchases,
    'Purchase': purchases
})

# Mostramos el DataFrame
print(df.head())

# Guardamos el dataset en un archivo CSV
df.to_csv('purchase_data.csv', index=False)


   Age  Annual Salary  Previous Purchase  Purchase
0   56          81228                  1         0
1   69         134752                  1         0
2   46          68984                  1         0
3   32          60774                  0         0
4   60          22568                  1         0


In [3]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [4]:
# Cargar el dataset
df = pd.read_csv('purchase_data.csv')

# Definir las características (X) y la variable objetivo (y)
X = df[['Age', 'Annual Salary', 'Previous Purchase']]
y = df['Purchase']

# Dividir el dataset en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Crear y entrenar el modelo de regresión logística
model = LogisticRegression()
model.fit(X_train, y_train)

# Hacer predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar el modelo
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred))

Accuracy: 1.0
Confusion Matrix:
 [[30]]
Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        30

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30



