# üß† Pr√°ctica Integrada de Clasificaci√≥n  
**Curso:** Aprendizaje Supervisado (Clases 1‚Äì13)  
**Dataset:** `FraudeCanastas.csv`  

### üéØ Objetivo
Aplicar el flujo completo de un problema de **clasificaci√≥n supervisada** con los modelos vistos en clase.  

**Fases:**
1Ô∏è‚É£ Lectura del dataset  
2Ô∏è‚É£ EDA (Exploraci√≥n de Datos)  
3Ô∏è‚É£ Preparaci√≥n de Datos  
4Ô∏è‚É£ Elecci√≥n de Modelo  
5Ô∏è‚É£ Entrenamiento y Prueba  
6Ô∏è‚É£ Evaluaci√≥n del Modelo  

---

## üß© Paso 1. Lectura del Dataset

In [None]:
import pandas as pd

# Ruta del archivo
DATA_PATH = '/mnt/data/FraudeCanastas.csv'

# Lectura y vista general
df = pd.read_csv(DATA_PATH)
print("Dimensiones del dataset:", df.shape)
df.head()

## üîç Paso 2. EDA (Exploraci√≥n de Datos)

In [None]:
# Informaci√≥n general
df.info()

# Estad√≠sticas b√°sicas
df.describe(include='all').T.head(10)

In [None]:
# Distribuci√≥n de clases
import seaborn as sns
import matplotlib.pyplot as plt

target_col = 'fraud_flag'
sns.countplot(x=target_col, data=df)
plt.title('Distribuci√≥n de clases (fraude vs no fraude)')
plt.show()

# Revisi√≥n de nulos
df.isnull().sum().sort_values(ascending=False).head(10)

## üß∞ Paso 3. Preparaci√≥n de Datos

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer

id_col = 'ID'
target_col = 'fraud_flag'

# Separar features y target
X = df.drop(columns=[target_col, id_col])
y = df[target_col]

# Divisi√≥n en entrenamiento y prueba (estratificada)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=42
)

# Identificaci√≥n de tipos de variables
cat_cols = [c for c in X_train.columns if X_train[c].dtype == 'object']
num_cols = [c for c in X_train.columns if X_train[c].dtype != 'object']

print(f"Variables categ√≥ricas: {len(cat_cols)} | Variables num√©ricas: {len(num_cols)}")

# Preprocesador
preprocessor = ColumnTransformer([
    ('cat', OneHotEncoder(handle_unknown='ignore', min_frequency=10), cat_cols),
    ('num', StandardScaler(), num_cols)
])


## ‚öôÔ∏è Paso 4. Elecci√≥n del Modelo


Selecciona **uno de los modelos vistos en clase** y justifica tu elecci√≥n:

- **Perceptr√≥n:** separador lineal (Clases 2‚Äì4).  
- **√Årbol de Decisi√≥n:** reglas tipo *if‚Äìelse*, basado en entrop√≠a o Gini (Clases 6‚Äì8).  
- **Regresi√≥n Log√≠stica:** clasificaci√≥n probabil√≠stica con regularizaci√≥n (Clases 10‚Äì13).  


In [None]:
from sklearn.linear_model import Perceptron, LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.pipeline import Pipeline

# Selecci√≥n del modelo
modelo = 'logistica'  # opciones: 'perceptron', 'arbol', 'logistica'

if modelo == 'perceptron':
    clf = Perceptron(class_weight='balanced', max_iter=1000, random_state=42)
elif modelo == 'arbol':
    clf = DecisionTreeClassifier(criterion='entropy', class_weight='balanced',
                                 min_samples_leaf=50, random_state=42)
else:
    clf = LogisticRegression(class_weight='balanced', max_iter=3000, solver='liblinear', random_state=42)

pipe = Pipeline([('prep', preprocessor), ('model', clf)])
pipe

## üßÆ Paso 5. Entrenamiento y Prueba

In [None]:
# Entrenamiento
pipe.fit(X_train, y_train)

# Predicciones
y_pred = pipe.predict(X_test)

# Probabilidades (si aplica)
if hasattr(pipe, 'predict_proba'):
    y_proba = pipe.predict_proba(X_test)[:, 1]
else:
    y_proba = None

print("Entrenamiento y predicci√≥n completados.")

## üìä Paso 6. Evaluaci√≥n del Modelo

In [None]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay, classification_report, roc_auc_score, roc_curve

# Matriz de confusi√≥n
cm = confusion_matrix(y_test, y_pred)
ConfusionMatrixDisplay(cm).plot(cmap='Blues')
plt.title('Matriz de Confusi√≥n')
plt.show()

# M√©tricas principales
print(classification_report(y_test, y_pred))

# ROC-AUC
if y_proba is not None:
    auc = roc_auc_score(y_test, y_proba)
    fpr, tpr, _ = roc_curve(y_test, y_proba)
    plt.plot(fpr, tpr, label=f'AUC = {auc:.3f}')
    plt.plot([0,1],[0,1],'--', color='gray')
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.legend()
    plt.title('Curva ROC')
    plt.show()
else:
    print("El modelo no genera probabilidades.")

## üßæ Conclusi√≥n Final


- ¬øQu√© modelo elegiste y por qu√©?  
- ¬øQu√© m√©tricas fueron las m√°s relevantes?  
- ¬øCu√°l fue el principal tipo de error (FP/FN)?  
- ¬øC√≥mo podr√≠as mejorar el desempe√±o del modelo?  
