# Modelado Predictivo en *Machine Learning*

## Introducción a Modelos en Machine Learning

### Definición de Modelo
Un **modelo** es una representación simplificada de la realidad creada para un propósito específico. En ciencia de datos, distinguimos:

- **Modelos predictivos**: Conjuntos de fórmulas o reglas que permiten estimar valores desconocidos (ej: predecir ventas futuras).
- **Modelos descriptivos**: Ayudan a descubrir patrones subyacentes en los datos (ej: segmentación de clientes).

### Proceso de Aprendizaje Automático
El proceso típico incluye:
1. **Preparación de datos**: Carga, limpieza, transformación y división
2. **Selección de técnica**: Elección del tipo de tarea (clasificación, regresión, clustering)
3. **Ajuste de hiperparámetros**: Configuraciones no aprendidas de los datos
4. **Evaluación del modelo**: Validación con métricas apropiadas


## Ejemplo Práctico: Clasificación con SVM

### Planteamiento del Problema
**Objetivo**: Clasificar la población de hongos según sus características.

**Tipo de problema**:
- **Aprendizaje supervisado** (tenemos etiquetas conocidas)
- **Clasificación multiclase** (6 categorías de población)

### Ejemplo

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score

# Crear dataset sintético para demostración (simulando datos categóricos)
np.random.seed(42)
n_samples = 1000

# Características simuladas (todas categóricas)
data = {
    'clase': np.random.choice(['e', 'p'], n_samples),
    'forma_sombrero': np.random.choice(['c', 'x', 'f', 'k', 's'], n_samples),
    'olor': np.random.choice(['a', 'l', 'c', 'y', 'f'], n_samples),
    'color_tallo': np.random.choice(['w', 'p', 'g', 'e', 'n'], n_samples),
    'poblacion': np.random.choice(['a', 'c', 'n', 's', 'v', 'y'], n_samples)
}

df = pd.DataFrame(data)