In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score

# set de datos
data = {
    'edad': [25, 45, 35, 50, 23, 60, 33, 48, 28, 52, 40, 27, 55, 30, 47, 22, 38, 44, 29, 53, 41, 32, 56, 26, 49, 31, 42, 24, 57, 34],
    'salario': [30000, 50000, 40000, 60000, 25000, 70000, 45000, 55000, 32000, 58000, 42000, 31000, 63000, 35000, 54000, 27000, 46000, 51000, 33000, 59000, 43000, 34000, 64000, 29000, 56000, 36000, 47000, 28000, 65000, 38000],
    'años_en_empresa': [1, 20, 10, 25, 2, 30, 8, 22, 3, 26, 12, 4, 28, 5, 24, 1, 15, 18, 3, 27, 13, 7, 29, 2, 23, 6, 16, 1, 31, 9],
    'churn': [1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1]  
}
# el churn es nuestra validación, 1: debería marcharse, 0: debería quedarse

df = pd.DataFrame(data)

    # separar características (X) y etiquetas (y)
X = df[['edad', 'salario', 'años_en_empresa']]
y = df['churn']

    # escalar las características para normalizar los datos
scaler = StandardScaler()
    # X_scaled es una matriz numpy que contiene las características escaladas de nuestro conjunto de datos. 
    # Después de aplicar StandardScaler, todas las características (edad, salario, años_en_empresa) están normalizadas.
X_scaled = scaler.fit_transform(X)

    # Aumentar el peso de la edad duplicando sus valores en el conjunto de datos escalado
    # Aquí multiplicamos la columna de edad por 2 para aumentar su influencia
    
    # La notación ' : ' indica que estamos seleccionando todas las filas.
    # El 0 indica que estamos seleccionando la primera columna.
X_scaled[:, 0] *= 2  # Multiplicamos la columna de edad por 2
X_scaled[:, 2] *= 1.5  # Multiplicamos la columna de años en la empresa por 1.5

# Dividir los datos en conjuntos de entrenamiento y prueba

    # train_test_split: Función de scikit-learn que divide los datos en conjuntos de entrenamiento y prueba.
    # X_scaled: Características escaladas del conjunto de datos.
    # y: Etiquetas del conjunto de datos.
    # test_size=0.2: Reserva el 20% de los datos para prueba y el 80% para entrenamiento.
    # random_state=42: Asegura que la división de los datos sea reproducible.
    
    # Resultado:
    
    # X_train: Características para entrenamiento.
    # X_test: Características para prueba.
    # y_train: Etiquetas para entrenamiento.
    # y_test: Etiquetas para prueba.

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

    # Crear y entrenar el modelo de regresión logística
model = LogisticRegression()
model.fit(X_train, y_train)

In [2]:
# Ejemplo de predicción para una nueva persona
nueva_persona = pd.DataFrame({'edad': [58], 'salario': [32000], 'años_en_empresa': [3]})

# Escalar las características de la nueva persona utilizando el mismo escalador
nueva_persona_scaled = scaler.transform(nueva_persona)

# Aplicar el mismo ajuste de peso (sesgo) a la edad de la nueva persona
nueva_persona_scaled[:, 0] *= 2  # Multiplicamos la columna de edad por 2
nueva_persona_scaled[:, 2] *= 1.5  # Multiplicamos la columna de años en la empresa por 1.5

# Obtener las probabilidades de cada clase (quedarse o marcharse)
prediccion_proba = model.predict_proba(nueva_persona_scaled)

    # Extraer la probabilidad de que la persona debería marcharse (clase 1)
    # En el contexto de regresión logística binaria, las columnas representan las probabilidades de las dos clases:
    # La primera columna ([0]) representa la probabilidad de la clase 0 (debería quedarse).
    # La segunda columna ([1]) representa la probabilidad de la clase 1 (debería marcharse).
probabilidad_marcharse = prediccion_proba[0][1]

# Imprimir la probabilidad de que la nueva persona debería marcharse
print(f'Probabilidad de que la nueva persona debería marcharse de la empresa: {probabilidad_marcharse * 100:.2f}%')

Probabilidad de que la nueva persona debería marcharse de la empresa: 37.81%
