# 🚀 Quick Start - Inicio Rápido

Este notebook te permite empezar rápidamente con el proyecto.
Es una versión simplificada para probar el flujo completo.

## 1. Importar Librerías

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Scikit-learn
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

import warnings
warnings.filterwarnings('ignore')

%matplotlib inline
print("✓ Librerías importadas correctamente")

## 2. Cargar Datos

In [None]:
# Cargar dataset
df = pd.read_csv('../datasets/train.csv')

print(f"Dataset cargado: {df.shape}")
print(f"\nPrimeras filas:")
df.head()

In [None]:
# Información del dataset
print("Información del dataset:")
print(f"- Registros: {len(df):,}")
print(f"- Características: {df.shape[1] - 2}")  # -2 por 'id' y 'target'
print(f"\nDistribución de clases:")
print(df['target'].value_counts())

## 3. Preprocesamiento Rápido

In [None]:
# Separar features y target
X = df.drop(['id', 'target'], axis=1)
y = df['target']

print(f"Features: {X.shape}")
print(f"Target: {y.shape}")

In [None]:
# Codificar target
label_encoder = LabelEncoder()
y_encoded = label_encoder.fit_transform(y)

print("Clases codificadas:")
for i, class_name in enumerate(label_encoder.classes_):
    print(f"  {class_name} -> {i}")

In [None]:
# División train/test
X_train, X_test, y_train, y_test = train_test_split(
    X, y_encoded, 
    test_size=0.2, 
    random_state=42, 
    stratify=y_encoded
)

print(f"Train: {X_train.shape}")
print(f"Test: {X_test.shape}")

In [None]:
# Escalar datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("✓ Datos escalados")

## 4. Entrenar Modelo Simple

In [None]:
# Crear y entrenar modelo
print("Entrenando Random Forest...")
model = RandomForestClassifier(
    n_estimators=100, 
    max_depth=10, 
    random_state=42,
    n_jobs=-1
)

model.fit(X_train_scaled, y_train)
print("✓ Modelo entrenado")

## 5. Evaluar Modelo

In [None]:
# Predicciones
y_pred = model.predict(X_test_scaled)

# Accuracy
accuracy = accuracy_score(y_test, y_pred)
print(f"\n{'='*60}")
print(f"ACCURACY: {accuracy:.4f} ({accuracy*100:.2f}%)")
print(f"{'='*60}")

In [None]:
# Classification Report
print("\nClassification Report:")
print(classification_report(y_test, y_pred, target_names=label_encoder.classes_))

In [None]:
# Matriz de Confusión
cm = confusion_matrix(y_test, y_pred)

plt.figure(figsize=(10, 8))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=label_encoder.classes_, 
            yticklabels=label_encoder.classes_)
plt.title('Matriz de Confusión', fontsize=14, fontweight='bold')
plt.ylabel('Clase Real')
plt.xlabel('Clase Predicha')
plt.tight_layout()
plt.show()

## 6. Feature Importance

In [None]:
# Importancia de características
feature_importance = pd.DataFrame({
    'feature': X.columns,
    'importance': model.feature_importances_
}).sort_values('importance', ascending=False).head(20)

plt.figure(figsize=(12, 6))
plt.barh(feature_importance['feature'], feature_importance['importance'], color='steelblue')
plt.xlabel('Importancia')
plt.title('Top 20 Características Más Importantes', fontsize=14, fontweight='bold')
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()

## 7. Ejemplo de Predicción

In [None]:
# Tomar 5 muestras del test set
sample_indices = np.random.choice(len(X_test), 5, replace=False)
X_sample = X_test.iloc[sample_indices]
X_sample_scaled = scaler.transform(X_sample)
y_sample = y_test[sample_indices]

# Predecir
predictions = model.predict(X_sample_scaled)

# Decodificar
predictions_decoded = label_encoder.inverse_transform(predictions)
actual_decoded = label_encoder.inverse_transform(y_sample)

print("\nEjemplo de Predicciones:")
print("="*50)
for i in range(5):
    status = "✓" if predictions[i] == y_sample[i] else "✗"
    print(f"{status} Muestra {i+1}:")
    print(f"   Predicho: {predictions_decoded[i]}")
    print(f"   Real:     {actual_decoded[i]}")
    print()

## 🎯 Conclusión

¡Has completado el flujo básico!

### Próximos pasos:
1. Ejecutar los notebooks completos para análisis más profundo
2. Probar diferentes modelos (XGBoost, LightGBM, etc.)
3. Optimizar hiperparámetros
4. Aplicar técnicas de ensemble

### Notebooks disponibles:
- `01_exploratory_data_analysis.ipynb` - EDA completo
- `02_preprocessing.ipynb` - Preprocesamiento avanzado
- `03_baseline_models.ipynb` - Modelos base
- `04_ensemble_models.ipynb` - Modelos ensemble

**¡Feliz modelado!** 🚀