# Combinar múltiples datasets para ML 

Para muchos casos de uso, la combinación de información de diferentes datasets puede ser interesante para mejorar el rendimiento de un modelo, especialmente cuando el número de muestras de al menos uno de los conjuntos de datos es pequeño.

Un desafío adicional en tales casos es que las características de estos conjuntos de datos no son idénticas, a pesar de que hay algunas características comúnmente compartidas entre los conjuntos de datos.

## **Proceso de combinación**

### **1. Limpieza de datos**
Antes de pensar en combinar datasets, es **crucial limpiarlos** individualmente. 
- La limpieza de datos implica eliminar o corregir imprecisiones, manejar valores faltantes y estandarizar los formatos de datos. 
- Por ejemplo, se puede usar `fillna()` de Pandas para abordar los valores nulos. 
- Asegurar que cada conjunto de datos esté limpio y consistente es la base para una integración exitosa. 
- Es como preparar ingredientes antes de combinarlos en una comida: cada uno debe estar fresco y listo para contribuir al sabor general.


### **2. Matching de esquemas**
Cuando los datasets provienen de diferentes fuentes, a menudo tienen esquemas o estructuras dispares. 
- El matching de esquemas es el proceso de encontrar correspondencias entre elementos de datos que representan el mismo concepto en todos los datasets. 
- Es posible que se deba cambiar el nombre de columnas o reformatear los tipos de datos para alinearlas. 
- Por ejemplo, si un conjunto de datos tiene una columna llamada "Fecha de nacimiento" y otra tiene "DOB" (Date of Birth), se cambiará el nombre de estas columnas para que coincidan antes de fusionar.


### **3. Feature Engineering**
La ingeniería de características es el arte de transformar datos sin procesar en características que representan mejor el problema subyacente a los modelos predictivos. 
- Al combinar datasets, es posible que se deban crear nuevas características o modificar las existentes para que sean compatibles en los datasets. 
- Por ejemplo, si un conjunto de datos tiene la temperatura en Celsius y otro en Fahrenheit, se podría crear una nueva característica en una escala unificada o convertir las mediciones para que coincida la una con la otra.


### **4. Fusión de datos**
La fusión de datos es el proceso real de integrar múltiples datasets en un conjunto de datos único, consistente y comprehensivo. 
- Aquí se utilizan técnicas como la concatenación, donde se apilan los datasets verticalmente u horizontalmente, o métodos más complejos como joins. 
- Por ejemplo, puede usar `pd.concat()` para un apilamiento sencillo, o `p.merge()` para mezclar datasets basados ​​en claves comunes.

### **5. Gestión de duplicados**
Después de fusionar datasets, se pueden encontrar entradas duplicadas. 
- Los duplicados pueden sesgar el análisis y conducir a conclusiones erroneas. 
- Es esencial identificar y eliminar estos duplicados para mantener la integridad de sus datos. 
- Esto se puede hacer utilizando funciones como `drop_dupplicates()`, que permite especificar el subconjunto de columnas a considerar para identificar duplicados.

### **6. Verificación de consistencia**
Una vez que se combinan los datasets, se deben realizar verificaciones de consistencia para garantizar que los datos tengan sentido. 
- Buscar anomalías que puedan indicar problemas con la fusión, como tipos de datos no coincidentes o valores ilógicos que no se alineen con el resto de su conjunto de datos. 
- Este paso es similar a la revisión de un documento después de fusionar contenidos de diferentes fuentes. Se trata de identificar y corregir errores para garantizar una narración perfecta.

## **Fusión de datos**
Combinar dos datasets con características distintas, pero con 2 características en común, requiere elegir una estrategia que preserve la información relevante y evite problemas como la pérdida de datos o la creación de redundancias innecesarias. Aquí tienes algunas estrategias a considerar para preparar los datos antes de entrenar un modelo en **Scikit-Learn**:


### **1. Unión basada en las características comunes (Join/Merge)**
#### **1.1. Unión por clave común (Join)**
Si las dos características comunes pueden actuar como **claves únicas**, podemos unir los datasets de varias maneras:
- **Inner Join**: Mantiene solo las filas que tienen coincidencia en ambas tablas.  
- **Outer Join**: Mantiene todas las filas de ambos datasets y completa con valores `NaN` cuando falta información.  
- **Left/Right Join**: Mantiene todas las filas de un dataset y solo las coincidentes del otro.  

**Ejemplo**:
```python
df_merged = df1.merge(df2, on=['feature1', 'feature2'], how='inner')  # 'outer', 'left', 'right'
```

**Cuándo usarlo**:  
- Si los datasets tienen información complementaria sobre las mismas observaciones.  
- Si las características comunes identifican la misma entidad en ambos datasets.  


### **2. Concatenación de datasets (Stacking)**
Si los datasets representan observaciones similares pero con distintas características, se pueden **concatenar verticalmente** (aumentando el número de filas) o **horizontalmente** (aumentando el número de columnas).

#### **2.1. Concatenación horizontal (Column-wise)**
Si los datos comparten el mismo orden y cada fila representa la misma entidad en ambos datasets:
```python
df_combined = pd.concat([df1, df2.drop(columns=['feature1', 'feature2'])], axis=1)
```

**Cuándo usarlo**:  
- Si cada fila en ambos datasets representa la misma entidad y están alineadas en el mismo orden.  

#### **2.2. Concatenación vertical (Row-wise)**
Si los datasets contienen **observaciones similares pero con diferentes muestras**:
```python
df_combined = pd.concat([df1, df2], axis=0, ignore_index=True)
```
**Cuándo usarlo**:  
- Si los datasets contienen las mismas variables pero diferentes ejemplos.  


### **3. Creación de nuevas características a partir de los datasets**
Si ambos datasets contienen información complementaria, podemos usar técnicas como:
- **Feature Engineering**: Crear nuevas características a partir de la información de ambos datasets.  
- **Agregaciones y Estadísticas**: Si un dataset contiene datos agrupados (ej. transacciones de usuarios), podemos agregar la información y unirla al otro dataset.  
```python
df_grouped = df2.groupby(['feature1', 'feature2']).agg({'some_feature': 'mean'}).reset_index()
df_combined = df1.merge(df_grouped, on=['feature1', 'feature2'], how='left')
```

**Cuándo usarlo**:  
- Si un dataset tiene información granular y el otro información agregada.  


### **4. Imputación y tratamiento de valores faltantes**
Después de combinar datasets, es posible que haya valores faltantes (`NaN`). Algunas estrategias para tratarlos incluyen:
- **Eliminar filas con valores faltantes**: `df.dropna()`
- **Rellenar con la media/mediana/moda**: `df.fillna(df.mean())`
- **Usar un imputador de `scikit-learn`**:
```python
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy='mean')  # O 'median', 'most_frequent'
df_imputed = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
```

**Cuándo usarlo**:  
- Si el join o la concatenación dejan valores nulos y no queremos perder información.  


### **5. Reducción de Dimensionalidad**
Si al combinar los datasets obtenemos muchas características irrelevantes, podemos reducirlas mediante:
- **PCA (Análisis de Componentes Principales)**  
- **Selección de características basada en correlación o importancia**  

**Ejemplo usando `PCA`:**
```python
from sklearn.decomposition import PCA
pca = PCA(n_components=10)  # Reducir a 10 dimensiones
X_reduced = pca.fit_transform(df_combined)
```

**Cuándo usarlo**:  
- Si la combinación genera muchas características redundantes o altamente correlacionadas.  


### **Conclusiones**
- **Si los datasets representan las mismas entidades y tienen información complementaria** → Usa **Merge/Join**  
- **Si los datasets tienen estructuras similares pero distintas muestras** → Usa **Concatenación vertical**  
- **Si un dataset tiene datos agregados** → Usa **Agregación y Feature Engineering**  
- **Si la combinación genera muchas características irrelevantes** → Usa **Reducción de dimensionalidad**  

> **Tip:** Probar distintas estrategias y evaluar el rendimiento con validación cruzada puede ayudar a encontrar la mejor forma de combinar los datasets. 🚀