# **COMBINACIONES**

La **combinación** nos permite **unificar distintos DataFrames** en uno solo, centralizando la información en un único DataFrame.  

Para lograr esto, es necesario que los **DataFrames** tengan las **mismas filas y columnas** o que sigan una estructura compatible.

---

## **Conceptos Clave**

- **Concatenación**  
  Permite unir DataFrames en filas o columnas.

- **Mezclar**  
  Combina DataFrames con base en columnas o índices clave.

---

### Nota Importante:
Al elegir el método de combinación, debemos asegurarnos de que los DataFrames sean **compatibles** para evitar errores o resultados inconsistentes.

In [10]:
import pandas as pd

## Combinación por filas 

La **combinación por filas** permite unir varios **DataFrames** cuando tienen las **mismas columnas**. Esto se realiza mediante la **concatenación** utilizando la función `pd.concat()` de Pandas. 

---

### Concepto de Concatenación

La concatenación es un proceso que permite **combinar varios DataFrames** en uno solo.  
Es **importante** tener en cuenta que los **DataFrames** a combinar deben tener las **mismas columnas** para que la unión sea exitosa.
 

In [27]:
data_frame_ingenieria = pd.DataFrame({
    "nombre": ["Juan", "María", "Carlos", "Sofía", "Lucía"],
    "apellidos": ["Pérez", "González", "Ramírez", "Fernández", "López"],
    "edad": [30, 25, 35, 28, 22],
    "profesion": ["Ingenieria Sistemas", "Ingenieria Civil", "Ingenieria Software", "ingenieria Software", "Ingenieria de Datos"],
    "fecha_nacimiento": ["1993-05-15", "1998-11-20", "1988-08-12", "1995-03-04", "2001-07-25"]
})
data_frame_ingenieria

Unnamed: 0,nombre,apellidos,edad,profesion,fecha_nacimiento
0,Juan,Pérez,30,Ingenieria Sistemas,1993-05-15
1,María,González,25,Ingenieria Civil,1998-11-20
2,Carlos,Ramírez,35,Ingenieria Software,1988-08-12
3,Sofía,Fernández,28,ingenieria Software,1995-03-04
4,Lucía,López,22,Ingenieria de Datos,2001-07-25


In [28]:
data__frame_humanidades = pd.DataFrame( {
    "nombre": ["Ana", "Miguel", "Laura", "José", "Carmen"],
    "apellidos": ["Sánchez", "Torres", "Morales", "Vargas", "Ortega"],
    "edad": [27, 32, 24, 29, 26],
    "profesion": ["Historiador", "Filólogo", "Psicólogo", "Filósofo", "Antropóloga"],
    "fecha_nacimiento": ["1996-04-10", "1991-12-25", "1999-06-15", "1994-09-05", "1997-03-20"]
})
data__frame_humanidades

Unnamed: 0,nombre,apellidos,edad,profesion,fecha_nacimiento
0,Ana,Sánchez,27,Historiador,1996-04-10
1,Miguel,Torres,32,Filólogo,1991-12-25
2,Laura,Morales,24,Psicólogo,1999-06-15
3,José,Vargas,29,Filósofo,1994-09-05
4,Carmen,Ortega,26,Antropóloga,1997-03-20


Para **la concatenación** usaremos la funcion `pd.concat()` y dentro entre `[]` agregamos las dataframes

In [29]:
data_frame_general = pd.concat([data_frame_ingenieria, data__frame_humanidades])
data_frame_general

Unnamed: 0,nombre,apellidos,edad,profesion,fecha_nacimiento
0,Juan,Pérez,30,Ingenieria Sistemas,1993-05-15
1,María,González,25,Ingenieria Civil,1998-11-20
2,Carlos,Ramírez,35,Ingenieria Software,1988-08-12
3,Sofía,Fernández,28,ingenieria Software,1995-03-04
4,Lucía,López,22,Ingenieria de Datos,2001-07-25
0,Ana,Sánchez,27,Historiador,1996-04-10
1,Miguel,Torres,32,Filólogo,1991-12-25
2,Laura,Morales,24,Psicólogo,1999-06-15
3,José,Vargas,29,Filósofo,1994-09-05
4,Carmen,Ortega,26,Antropóloga,1997-03-20


## Problema al concatenar DataFrames

Hasta el momento, al ejecutar la función de **concatenar** con `pd.concat()` nos devuelve un **nuevo DataFrame**, pero vemos algo curioso:  
el **índice** se vuelve a **repetir** con la indexación original de cada DataFrame.

---

### ¿Cómo corregimos esto?

Para corregir el problema de los índices repetidos:  
Dentro de la función `concat`, después de agregar los DataFrames, usamos un **nuevo argumento** llamado **`ignore_index=True`**.  

Con esto:
- Se **ignoran los índices originales** de cada DataFrame.
- Se **genera un nuevo índice secuencial** en el DataFrame resultante.

---

### Implementación en código

A continuación el ejemplo:

In [15]:
data_frame_general = pd.concat([data_frame_ingenieria, data__frame_humanidades], ignore_index=True)
data_frame_general

Unnamed: 0,nombre,apellidos,edad,profesion,fecha_nacimiento
0,Juan,Pérez,30,Ingenieria Sistemas,1993-05-15
1,María,González,25,Ingenieria Civil,1998-11-20
2,Carlos,Ramírez,35,Ingenieria Software,1988-08-12
3,Sofía,Fernández,28,ingenieria Software,1995-03-04
4,Lucía,López,22,Ingenieria de Datos,2001-07-25
5,Ana,Sánchez,27,Historiador,1996-04-10
6,Miguel,Torres,32,Filólogo,1991-12-25
7,Laura,Morales,24,Psicólogo,1999-06-15
8,José,Vargas,29,Filósofo,1994-09-05
9,Carmen,Ortega,26,Antropóloga,1997-03-20


## Combinación por Columna

La **combinación por columna** permite unir varios **DataFrames** cuando tienen el **mismo indice de columnas**. Esto se realiza mediante la **concatenación** utilizando la función `pd.concat()` de Pandas y un metodo adicional que seria `axis = 1`.


 

In [19]:
# Primer DataFrame: moto, modelo
data_frame_motos = pd.DataFrame({
    "moto": ["Yamaha", "Honda", "Suzuki", "Ducati", "Kawasaki"],
    "modelo": ["YZF-R3", "CBR500R", "GSX-R600", "Panigale V4", "Ninja ZX-6R"]
})
 
# Mostrar los DataFrames
data_frame_motos 

Unnamed: 0,moto,modelo
0,Yamaha,YZF-R3
1,Honda,CBR500R
2,Suzuki,GSX-R600
3,Ducati,Panigale V4
4,Kawasaki,Ninja ZX-6R


In [21]:
# Segundo DataFrame: moto, fecha_modelo
# Repetimos las mismas motos del primer DataFrame
data_frame_modelos = pd.DataFrame({
    "moto":  ["Yamaha", "Honda", "Suzuki", "Ducati", "Kawasaki"],
    "fecha_modelo": ["2020", "2021", "2019", "2022", "2023"]
})
data_frame_modelos

Unnamed: 0,moto,fecha_modelo
0,Yamaha,2020
1,Honda,2021
2,Suzuki,2019
3,Ducati,2022
4,Kawasaki,2023


`axis = 1` Nos permite identificar las columnas para poder trabajar en este caso, es por eso que debemos defenirlo para poder trabajar.  


Ahora te preguntarás porque no agregamos axis en la combinación de filas.  
En este caso no se hizo referencia a `axis = 0` porque esto ya viene por defecto.  



Entonces procedemos a agregar lo explicado:

In [23]:
data_frame_fila = pd.concat([data_frame_motos, data_frame_modelos], axis=1)
data_frame_fila

Unnamed: 0,moto,modelo,moto.1,fecha_modelo
0,Yamaha,YZF-R3,Yamaha,2020
1,Honda,CBR500R,Honda,2021
2,Suzuki,GSX-R600,Suzuki,2019
3,Ducati,Panigale V4,Ducati,2022
4,Kawasaki,Ninja ZX-6R,Kawasaki,2023


## Merge o Mezclar

Nos permite **integrar las filas** de  **2 DataFrames** que contienen información en común en una o varias columnas mediante una clave.

---


In [30]:

data_motos_modelos = pd.DataFrame({
    "moto": ["Yamaha", "Honda", "Suzuki", "Ducati", "Kawasaki"],
    "modelo": ["YZF-R3", "CBR500R", "GSX-R600", "Panigale V4", "Ninja ZX-6R"]
})
 
# Mostrar los DataFrames
data_motos_modelos 

Unnamed: 0,moto,modelo
0,Yamaha,YZF-R3
1,Honda,CBR500R
2,Suzuki,GSX-R600
3,Ducati,Panigale V4
4,Kawasaki,Ninja ZX-6R


In [31]:
data_motos_fabricacion = pd.DataFrame({
    "moto":  ["Yamaha", "Honda", "Suzuki", "Ducati", "Kawasaki"],
    "fecha_modelo": ["2020", "2021", "2019", "2022", "2023"]
})
data_motos_fabricacion

Unnamed: 0,moto,fecha_modelo
0,Yamaha,2020
1,Honda,2021
2,Suzuki,2019
3,Ducati,2022
4,Kawasaki,2023


In [33]:
dataframe_final = pd.merge(data_motos_modelos, data_motos_fabricacion)
dataframe_final

Unnamed: 0,moto,modelo,fecha_modelo
0,Yamaha,YZF-R3,2020
1,Honda,CBR500R,2021
2,Suzuki,GSX-R600,2019
3,Ducati,Panigale V4,2022
4,Kawasaki,Ninja ZX-6R,2023
