# Preparación de datos para modelos de Machine Learning

Aprender los pasos para la preparación de datos para modelos de **Machine Learning (ML)** es fundamental para construir modelos eficaces. Aquí tienes una guía estructurada sobre cómo hacerlo:

---

### **1. Entiende los fundamentos de Machine Learning y datos**
Antes de preparar los datos, es esencial tener un conocimiento básico de:
- Tipos de datos: Numéricos, categóricos, ordinales, texto, imágenes, etc.
- Tipos de problemas: Clasificación, regresión, clustering, etc.
- Conocer librerías útiles como **pandas**, **NumPy**, **scikit-learn** y **matplotlib**.

---

### **2. Obtén y explora los datos**
#### **Pasos:**
1. **Recopila los datos**:
   - Desde archivos (CSV, Excel, JSON, SQL).
   - APIs o web scraping.
   - Datasets públicos como Kaggle o UCI Machine Learning Repository.

2. **Carga los datos**:
   Utiliza librerías como pandas:


```python
   import pandas as pd
   data = pd.read_csv("dataset.csv")
```


4. **Explora los datos**:
   - **Inspecciona las primeras filas**: `data.head()`
   - **Dimensiones**: `data.shape`
   - **Tipos de datos**: `data.info()`
   - **Valores estadísticos**: `data.describe()`
   - **Valores únicos**: `data['column'].unique()`

---

### **3. Limpieza de datos**
La limpieza es esencial para eliminar ruido y asegurar la calidad de los datos.
#### **Tareas comunes**:
1. **Eliminar duplicados**:
   ```python
   data = data.drop_duplicates()
   ```

2. **Tratar valores faltantes**:
   - Eliminar filas/columnas con valores faltantes:
     ```python
     data = data.dropna()
     ```
   - Imputar valores:
     ```python
     data['column'].fillna(data['column'].mean(), inplace=True)
     ```

3. **Corregir errores**:
   - Normaliza nombres de columnas.
   - Corrige datos inconsistentes o mal etiquetados.

---

### **4. Transformación de datos**
#### **Tareas clave**:
1. **Codificación de variables categóricas**:
   - Codificación ordinal:
     ```python
     from sklearn.preprocessing import LabelEncoder
     le = LabelEncoder()
     data['category'] = le.fit_transform(data['category'])
     ```
   - One-hot encoding:
     ```python
     data = pd.get_dummies(data, columns=['category'])
     ```

2. **Escalado de datos**:
   Normaliza o estandariza datos numéricos:
   ```python
   from sklearn.preprocessing import StandardScaler
   scaler = StandardScaler()
   data[['col1', 'col2']] = scaler.fit_transform(data[['col1', 'col2']])
   ```

3. **Manejo de outliers**:
   - Visualiza con boxplots.
   - Usa técnicas como winsorización o eliminación.

4. **Creación de nuevas características**:
   - Combina columnas o crea derivadas de las existentes.
   - Usa técnicas como **PCA** para reducir dimensionalidad.

---

### **5. Dividir datos en conjuntos de entrenamiento y prueba**
Divide los datos en entrenamiento, validación y prueba:
```python
from sklearn.model_selection import train_test_split
X = data.drop('target', axis=1)
y = data['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```

---

### **6. Visualización de datos**
Entender tus datos es clave. Utiliza gráficos para identificar patrones:
- **Distribuciones**:
  ```python
  import matplotlib.pyplot as plt
  data['column'].hist()
  plt.show()
  ```
- **Relaciones entre variables**:
  ```python
  import seaborn as sns
  sns.pairplot(data)
  ```

---

### **7. Automatización del preprocesamiento**
Para simplificar la preparación de datos en proyectos reales, puedes usar herramientas como:
- **scikit-learn Pipelines**:
  ```python
  from sklearn.pipeline import Pipeline
  from sklearn.impute import SimpleImputer
  from sklearn.preprocessing import StandardScaler

  pipeline = Pipeline([
      ('imputer', SimpleImputer(strategy='mean')),
      ('scaler', StandardScaler())
  ])
  X_preprocessed = pipeline.fit_transform(X)
  ```

- **Librerías avanzadas**:
  - **Feature-engine**.
  - **Dask** (para grandes volúmenes de datos).

---

### **Recursos para aprender más**
- **Cursos**:
  - [Coursera: Machine Learning by Andrew Ng](https://www.coursera.org/learn/machine-learning)
  - [Kaggle: Data Cleaning Challenges](https://www.kaggle.com/learn/data-cleaning)
  - [Kaggle: Data Cleaning Challenge: Handling missing values](https://www.kaggle.com/code/rtatman/data-cleaning-challenge-handling-missing-values/notebook)

- **Libros**:
  - "Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow" - Aurélien Géron.
  - "Data Science for Business" - Provost y Fawcett.

- **Práctica**:
  - Trabaja con datasets de **Kaggle** o **Google Colab**.

