# Análisis de Clasificación con Random Forest y SMOTE
Este notebook corrige errores comunes al trabajar con PCA y modelos de clasificación binaria usando la variable 'Attrition'.

In [None]:
# 1. Importación de librerías
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import RobustScaler
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report
from imblearn.over_sampling import SMOTE
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# 2. Cargar los datos
df = pd.read_excel('HombresNum.xlsx')
df['Attrition'] = df['Attrition'].map({'Yes': 1, 'No': 0})

In [None]:
# 3. Separar características y etiqueta
X = df.drop('Attrition', axis=1)
y = df['Attrition']

In [None]:
# 4. Estandarización
scaler = RobustScaler()
X_scaled = scaler.fit_transform(X)

In [None]:
# 5. Aplicar PCA (opcional)
from sklearn.decomposition import PCA
pca = PCA(n_components=4)
X_pca = pca.fit_transform(X_scaled)

In [None]:
# 6. División de datos
X_train, X_test, y_train, y_test = train_test_split(X_pca, y, stratify=y, test_size=0.3, random_state=42)

In [None]:
# 7. Aplicar SMOTE
smote = SMOTE(random_state=42)
X_train_res, y_train_res = smote.fit_resample(X_train, y_train)

In [None]:
# 8. Entrenamiento del modelo
modelo = RandomForestClassifier(n_estimators=100, class_weight='balanced', random_state=42)
modelo.fit(X_train_res, y_train_res)

In [None]:
# 9. Predicción y evaluación
y_pred = modelo.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
matriz = confusion_matrix(y_test, y_pred)

print("Resultados del modelo:")
print(f"Accuracy: {accuracy:.4f}")
print(f"Precision: {precision:.4f}")
print(f"Recall: {recall:.4f}")
print(f"F1 Score: {f1:.4f}")
print("\nMatriz de Confusión:")
print(matriz)
print("\nReporte de Clasificación:")
print(classification_report(y_test, y_pred))

In [None]:
# 10. Visualización de la matriz de confusión
plt.figure(figsize=(6,4))
sns.heatmap(matriz, annot=True, fmt='d', cmap='Blues')
plt.title("Matriz de Confusión")
plt.xlabel("Predicción")
plt.ylabel("Valor Real")
plt.tight_layout()
plt.show()