# Clase 08

## Concatenación de Arrays en NumPy

**Objetivos para hoy:**
- Entender qué es **NumPy** y qué es un **array (ndarray)**.
- Repasar conceptos base: **dimensión (`ndim`)**, **forma (`shape`)**, **tamaño (`size`)**, **tipo de dato (`dtype`)** y **ejes (`axis`)**.
- Preparar el terreno para **concatenar arrays** de forma correcta.

**¿Para que lo necesitamos?**  
En análisis de datos solemos **unificar información**: unir mediciones, apilar registros de meses distintos, o combinar resultados de simulaciones. En `NumPy` esto se hace **concatenando arrays**, y para hacerlo bien necesitamos manejar las nociones de forma, ejes y tipos de datos.


## ¿Qué es NumPy?

`NumPy` es la biblioteca base de Python para **cálculo numérico**. Entre otras cosas, ofrece:

- El **ndarray**: un contenedor eficiente para datos numéricos en **memoria contigua**.
- Operaciones **vectorizadas** (evitan bucles explícitos en Python).
- Herramientas para álgebra lineal, números aleatorios, transformaciones, etc.
- Internamente usa implementaciones en C, por eso es **rápido** y **consistente**.


## ¿Qué es un array (ndarray)?
Un **ndarray** es una estructura **N-dimensional** y **homogénea** (todas las celdas comparten el mismo `dtype`, p. ej. `float64`, `int32`).

## Algunos conceptos clave:
- **Dimensión (`ndim`)**: cuántos ejes tiene el array (1D, 2D, 3D…).
- **Forma (`shape`)**: tupla con el tamaño en cada eje.  
  - Ej.: en un vector de 3 elementos, `shape == (3,)`.  
  - Ej.: en una matriz 2x3,  `shape == (2, 3)`.
- **Tamaño (`size`)**: cantidad total de elementos.
- **Tipo de dato (`dtype`)**: define cómo se representan los valores en memoria (precisión, signo, etc.).
- **Ejes (`axis`)**: direcciones a lo largo de las cuales operan muchas funciones (ej. sumar por filas vs. por columnas).

## Diferencias con las listas de Python:
- Las listas admiten tipos mezclados y tamaños irregulares; el ndarray es **rectangular y homogéneo**.
- Las operaciones matemáticas sobre arrays son **vectorizadas** y mucho más rápidas.
- El tamaño de un ndarray no se "expande" libremente: se **crea otro array** si cambiamos longitud.

> **Enlace con la concatenación:** Para apilar/pegar arrays, sus **formas** deben ser compatibles en todos los ejes **salvo** en el eje donde concatenamos. De ahí la importancia de `shape` y `axis`.


## Función `np.concatenate()`

Para **combinar** (o "apilar", o "pegar") **vectores o matrices** en **NumPy** usamos `np.concatenate()`.

**Sintaxis básica**
```python
np.concatenate((a1, a2, ...), axis=0)
```


* El primer argumento es una **tupla o lista** de arrays a unir: `(a1, a2, ...)`.
* `axis` indica **a lo largo de qué eje** se pegan:

  * `axis=0`: **por filas** (primer eje). Es el **predeterminado**.
  * `axis=1`: **por columnas** (segundo eje, solo para 2D o más).
  * `axis=None`: **aplana** todos los arrays y devuelve **un vector 1D**.

> **Regla de compatibilidad:** Todas las dimensiones deben coincidir **salvo** la del eje donde concatenamos.
> Ej.: para matrices 2D con `axis=0`, las **columnas** deben ser iguales; con `axis=1`, las **filas** deben coincidir.

**Notas**

* Los arrays deben tener el **mismo `dtype`** o NumPy hará *upcasting* (p. ej., de `int32` a `float64` si mezcla enteros y floats).
* `concatenate` solo **pega**, no crea dimensiones nuevas.


In [4]:
import numpy as np
np.set_printoptions(precision=2, suppress=True)

a = np.array([[1,4], [2, 3], [1,1]], dtype=np.int32)
b = np.array([[5,6], [9, 3], [1,1]], dtype=np.int32)

print("\n","-"*60)
print("Array a: \n")
print(a)
print("\nshape a:", a.shape)

print("\n","-"*60)
print("Array b: \n")
print(b)
print("\nshape b:", b.shape)

# 1) Concatenación por axis=0
#  vector + vector =  vector más largo
c0 = np.concatenate((a, b), axis=0)
print("\n","-"*60)
print("Array resultante de np.concatenate((a, b), axis=0) \n")
print(c0)
print("\nshape resultado:", c0.shape)


 ------------------------------------------------------------
Array a: 

[[1 4]
 [2 3]
 [1 1]]

shape a: (3, 2)

 ------------------------------------------------------------
Array b: 

[[5 6]
 [9 3]
 [1 1]]

shape b: (3, 2)

 ------------------------------------------------------------
Array resultante de np.concatenate((a, b), axis=0) 

[[1 4]
 [2 3]
 [1 1]
 [5 6]
 [9 3]
 [1 1]]

shape resultado: (6, 2)


In [5]:
# 2) Concatenación por axis=1
#  vector + vector =  vector más ancho
c0 = np.concatenate((a, b), axis=1)


print("\n","-"*60)
print("Array a: \n")
print(a)
print("\nshape a:", a.shape)

print("\n","-"*60)
print("Array b: \n")
print(b)
print("\nshape b:", b.shape)

print("\n","-"*60)
print("Array resultante de np.concatenate((a, b), axis=0) \n")
print(c0)
print("\nshape resultado:", c0.shape)


 ------------------------------------------------------------
Array a: 

[[1 4]
 [2 3]
 [1 1]]

shape a: (3, 2)

 ------------------------------------------------------------
Array b: 

[[5 6]
 [9 3]
 [1 1]]

shape b: (3, 2)

 ------------------------------------------------------------
Array resultante de np.concatenate((a, b), axis=0) 

[[1 4 5 6]
 [2 3 9 3]
 [1 1 1 1]]

shape resultado: (3, 4)


In [6]:
print("\n","-"*60)
print("Array a: \n")
print(a)
print("\nshape a:", a.shape)

print("\n","-"*60)
print("Array b: \n")
print(b)
print("\nshape b:", b.shape)

# 3) axis=None: "Aplana" todo a 1D
c_none = np.concatenate((a, b), axis=None)

print("\n","-"*60)
print("Array resultante de c_none = np.concatenate((a, b), axis=None) \n")
print(c_none)
print("\nshape resultado:", c_none.shape)


 ------------------------------------------------------------
Array a: 

[[1 4]
 [2 3]
 [1 1]]

shape a: (3, 2)

 ------------------------------------------------------------
Array b: 

[[5 6]
 [9 3]
 [1 1]]

shape b: (3, 2)

 ------------------------------------------------------------
Array resultante de c_none = np.concatenate((a, b), axis=None) 

[1 4 2 3 1 1 5 6 9 3 1 1]

shape resultado: (12,)


# Concatenación de DataFrames en Pandas
## Concatenación vertical de DataFrames en Pandas

En análisis de datos es común tener **información separada en distintas fuentes**:  por ejemplo, registros de distintos meses, sucursales o departamentos.

* En Pandas podemos **combinar esos conjuntos de datos** utilizando la función:

```python
pd.concat([df1, df2], axis=0)
````

Esto se conoce como **concatenación vertical** o **apilado por filas**, porque:

* Cada nuevo DataFrame se coloca **debajo del anterior**.
* Se mantiene la **estructura de columnas**.
* Si las columnas no coinciden, Pandas completa con **valores NaN** en los lugares faltantes.

> Es equivalente a "unir archivos uno debajo del otro" siempre que representen el mismo tipo de información (con el mismo formato de columnas, o al menos parcialmente coincidentes).


Desarrollemos un ejemplo paso a paso.


In [7]:
# Importamos Pandas:
import pandas as pd

# Creamos el DataFrame 1
df1 = pd.DataFrame({
    'Nombre': ['John', 'Jack', 'Steve', 'Sarah'],
    'Edad': [24, 32, 19, 29],
    'Género': ['M', 'M', 'M', 'F']
})

# Creamos el DataFrame 2
df2 = pd.DataFrame({
    'Departamento': ['Marketing', 'Ventas', 'Recursos Humanos'],
    'Empleados': [15, 12, 10]
})

print("DataFrame 1")
print("\n", df1, "\n")
print("\n","-"*60)
print("\nDataFrame 2")
print("\n", df2, "\n")

DataFrame 1

   Nombre  Edad Género
0   John    24      M
1   Jack    32      M
2  Steve    19      M
3  Sarah    29      F 


 ------------------------------------------------------------

DataFrame 2

        Departamento  Empleados
0         Marketing         15
1            Ventas         12
2  Recursos Humanos         10 



### Concatenación "Vertical"

#### Ejemplo con columnas diferentes.

In [9]:
# Concatenamos verticalmente
df3 = pd.concat([df1, df2], axis=0)
print("\n","-"*60)
print("Resultado de la concatenación (axis=0)")
print("-"*60)
print("\n", df3, "\n")



 ------------------------------------------------------------
Resultado de la concatenación (axis=0)
------------------------------------------------------------

   Nombre  Edad Género      Departamento  Empleados
0   John  24.0      M               NaN        NaN
1   Jack  32.0      M               NaN        NaN
2  Steve  19.0      M               NaN        NaN
3  Sarah  29.0      F               NaN        NaN
0    NaN   NaN    NaN         Marketing       15.0
1    NaN   NaN    NaN            Ventas       12.0
2    NaN   NaN    NaN  Recursos Humanos       10.0 



### Interpretación del resultado

- Al concatenar con `axis=0`, Pandas coloca **las filas de `df2` debajo de `df1`**.
- Como las **columnas no coinciden**, el resultado incluye todas las columnas de ambos DataFrames.
- Los valores **ausentes** se completan con `NaN`.
- cada fila conserva su información original y el conjunto final combina ambas estructuras.

**IMPORTANTE:** Pandas alinea los datos **por nombre de columna**, no por posición.

> *En la práctica, usamos esto para unificar datasets que representan la misma clase de información, aunque tengan algunas diferencias menores en las columnas.*


### Concatenación "Vertical"

#### Ejemplo con columnas coincidentes.

In [13]:
# Supongamos que tenemos datos del mismo tipo
# (o sea, con el mismo esquema de columnas)

ventas_enero = pd.DataFrame({
    'Producto': ['A', 'B', 'C'],
    'Ventas': [100, 150, 90]
})

ventas_febrero = pd.DataFrame({
    'Producto': ['A', 'B', 'C'],
    'Ventas': [120, 130, 110]
})

# Concatenamos verticalmente
ventas_total = pd.concat([ventas_enero, ventas_febrero], axis=1)

#----------------------------------------------
# Mostramos resultados
print("\n","-"*60)
print("Ventas Enero: \n")
print(ventas_enero)

print("\n","-"*60)
print("Ventas Febrero: \n")
print(ventas_febrero)

print("\n","-"*60)
print("Ventas combinadas (enero + febrero) \n")
print(ventas_total)



 ------------------------------------------------------------
Ventas Enero: 

  Producto  Ventas
0        A     100
1        B     150
2        C      90

 ------------------------------------------------------------
Ventas Febrero: 

  Producto  Ventas
0        A     120
1        B     130
2        C     110

 ------------------------------------------------------------
Ventas combinadas (enero + febrero) 

  Producto  Ventas Producto  Ventas
0        A     100        A     120
1        B     150        B     130
2        C      90        C     110


## Concatenación horizontal de DataFrames en Pandas

La **concatenación horizontal** une DataFrames **lado a lado** (por **columnas**), usando:
```python
pd.concat([df1, df2], axis=1)
````

**Claves:**

* La alineación se hace por el **índice**.
* Si los índices **no coinciden**, se generan **NaN** donde falten filas.
* Podemos controlar la coincidencia de índices con el parámetro `join`:

  * `join='outer'` (default): conserva **todas** las filas.
  * `join='inner'`: conserva **solo las filas comunes**.

> Es útil cuando queremos "pegar" **atributos distintos de la misma entidad** (mismas filas/índices), p. ej., métricas calculadas por separado para las **mismas fechas** o **los mismos clientes**.




In [11]:
# --------------------------------------------------
# Ejemplo basico, con índices coincidentes
# --------------------------------------------------

import pandas as pd

# Índices coincidentes (no deberiamos tener filas NaN)

perfil = pd.DataFrame({
    'nombre': ['Ana', 'Luis', 'Mara'],
    'edad': [28, 34, 22]
}, index=[101, 102, 103])  # id_persona

contacto = pd.DataFrame({
    'email': ['ana@ej.com', 'luis@ej.com', 'mara@ej.com'],
    'telefono': ['11-1234', '11-5678', '11-8765']
}, index=[101, 102, 103])  # mismo índice

h_concat = pd.concat([perfil, contacto], axis=1)

#----------------------------------------------
# Mostramos resultados
print("\n","-"*60)
print("Dataframe 'perfil': \n")
print(perfil)

print("\n","-"*60)
print("Dataframe 'contacto': \n")
print(contacto)

print("\n","-"*60)
print("Concatenación horizontal (índices coincidentes)\n")
print(h_concat)


 ------------------------------------------------------------
Dataframe 'perfil': 

    nombre  edad
101    Ana    28
102   Luis    34
103   Mara    22

 ------------------------------------------------------------
Dataframe 'contacto': 

           email telefono
101   ana@ej.com  11-1234
102  luis@ej.com  11-5678
103  mara@ej.com  11-8765

 ------------------------------------------------------------
Concatenación horizontal (índices coincidentes)

    nombre  edad        email telefono
101    Ana    28   ana@ej.com  11-1234
102   Luis    34  luis@ej.com  11-5678
103   Mara    22  mara@ej.com  11-8765


In [12]:
# --------------------------------------------------
# Ejemplo basico, con índices NO coincidentes
# --------------------------------------------------

ventas = pd.DataFrame({
    'importe': [100, 150, 120],
}, index=['2025-01-01', '2025-01-02', '2025-01-03'])

costos = pd.DataFrame({
    'costo': [60, 70, 90],
}, index=['2025-01-02', '2025-01-03', '2025-01-04'])

#----------------------------------------------
# Mostramos los dataframes
print("\n","-"*60)
print("Dataframe 'ventas': \n")
print(ventas)
print("\n","-"*60)
print("Dataframe 'costos': \n")
print(costos)

# Outer (default):  NaN donde no coincide el indice
lado_a_lado_outer = pd.concat([ventas, costos], axis=1, join='outer')

# Inner: solo filas con mismo indice (no hay NaN)
lado_a_lado_inner = pd.concat([ventas, costos], axis=1, join='inner')

#----------------------------------------------
# Mostramos resultados
print("\n","-"*60)
print("join='outer': \n")
print(lado_a_lado_outer)

print("\n","-"*60)
print("join='inner': \n")
print(lado_a_lado_inner)


 ------------------------------------------------------------
Dataframe 'ventas': 

            importe
2025-01-01      100
2025-01-02      150
2025-01-03      120

 ------------------------------------------------------------
Dataframe 'costos': 

            costo
2025-01-02     60
2025-01-03     70
2025-01-04     90

 ------------------------------------------------------------
join='outer': 

            importe  costo
2025-01-01    100.0    NaN
2025-01-02    150.0   60.0
2025-01-03    120.0   70.0
2025-01-04      NaN   90.0

 ------------------------------------------------------------
join='inner': 

            importe  costo
2025-01-02      150     60
2025-01-03      120     70


### Tips para concatenar por columnas
- **Asegurar el mismo índice** cuando los DataFrames describen la **misma entidad** (p. ej., misma fecha o mismo id).  
  - Se puede usar `set_index(...)`, `reset_index()`, `sort_index()`.
- Si aparecen `NaN`, revisamos:
  - ¿Coinciden exactamente los **índices** (tipos, formato de fecha, ceros a la izquierda, espacios)?  
  - ¿Va mejor un **inner** en lugar de un **outer**?
- Si tenemos una **clave de columna** (p. ej., `id_cliente`) y no tenemos un índice, lo típico es hacer:
  1) `set_index('id_cliente')` en ambos;
  2) Y luego el `pd.concat(..., axis=1)`.


Veamoslo en funcionamiento:

In [15]:
# --------------------------------------------------
# Ejemplo, creando los índices a partir de alguna
# columna que aparece en ambos dataframes.
# --------------------------------------------------

clientes = pd.DataFrame({
    'id_cliente': [1, 2, 3],
    'nombre': ['Acuña', 'Benítez', 'Castro']
})

saldos = pd.DataFrame({
    'id_cliente': [2, 3, 4],
    'saldo': [2500, 1800, 900]
})

#----------------------------------------------
# Mostramos los dataframes
print("\n","-"*60)
print("Dataframe 'clientes': \n")
print(clientes)
print("\n","-"*60)
print("Dataframe 'saldos': \n")
print(saldos)


 ------------------------------------------------------------
Dataframe 'clientes': 

   id_cliente   nombre
0           1    Acuña
1           2  Benítez
2           3   Castro

 ------------------------------------------------------------
Dataframe 'saldos': 

   id_cliente  saldo
0           2   2500
1           3   1800
2           4    900


In [16]:
# Alineamos por clave convirtiéndola en índice
c_idx = clientes.set_index('id_cliente')
s_idx = saldos.set_index('id_cliente')

#----------------------------------------------
# Mostramos los dataframes modificados
print("\n","-"*60)
print("Dataframe 'clientes c_idx': \n")
print(c_idx)
print("\n","-"*60)
print("Dataframe 'saldos s_idx': \n")
print(s_idx)


 ------------------------------------------------------------
Dataframe 'clientes c_idx': 

             nombre
id_cliente         
1             Acuña
2           Benítez
3            Castro

 ------------------------------------------------------------
Dataframe 'saldos s_idx': 

            saldo
id_cliente       
2            2500
3            1800
4             900


In [None]:
# Outer: conserva todos los ids presentes en cualquiera de los dos
client_saldo_outer = pd.concat([c_idx, s_idx], axis=1, join='outer')

# Inner: solo ids comunes (2 y 3)
client_saldo_inner = pd.concat([c_idx, s_idx], axis=1, join='inner')

#----------------------------------------------
# Mostramos los dos resultados
print("\n","-"*60)
print("Por clave como índice (outer): \n")
print(client_saldo_outer)
print("\n","-"*60)
print("Por clave como índice (inner): \n")
print(client_saldo_inner)


 ------------------------------------------------------------
Por clave como índice (outer): 

             nombre   saldo
id_cliente                 
1             Acuña     NaN
2           Benítez  2500.0
3            Castro  1800.0
4               NaN   900.0

 ------------------------------------------------------------
Por clave como índice (inner): 

             nombre  saldo
id_cliente                
2           Benítez   2500
3            Castro   1800


# Integración de Datos con `merge()`

El método **`merge()`** de Pandas permite **combinar DataFrames basándose en claves** (columnas o índices comunes), de forma similar a un **JOIN** en SQL.

Su sintaxis general es:

```python
pd.merge(df1, df2, on='columna_clave', how='inner')
````

Donde:

* `on` indica la **columna** (o lista de columnas) que funciona como **clave**.
* `how`  define el **tipo de combinación**:

| Tipo de Join | Descripción                                                                                    |
| ------------ | ---------------------------------------------------------------------------------------------- |
| `'inner'`    | Mantiene **solo las filas coincidentes** en ambas tablas.                                      |
| `'outer'`    | Mantiene **todas las filas**, completando con `NaN` donde falten datos.                        |
| `'left'`     | Mantiene **todas las filas del DataFrame izquierdo**, y agrega solo coincidencias del derecho. |
| `'right'`    | Mantiene **todas las filas del DataFrame derecho**, y agrega solo coincidencias del izquierdo. |



In [17]:
# --------------------------------------------------
# Ejemplo basico, con una clave común
# --------------------------------------------------
import pandas as pd

# DataFrames con una clave común 'key'
df1 = pd.DataFrame({
    'key': ['A', 'B', 'C'],
    'value1': [1, 2, 3]
})

df2 = pd.DataFrame({
    'key': ['B', 'C', 'D'],
    'value2': [4, 5, 6]
})

# --------------------------------------------------
# Mostramos los dataframes
print("\n","-"*60)
print("Dataframe 'df1': \n")
print(df1)
print("\n","-"*60)
print("Dataframe 'df2': \n")
print(df2)

# --------------------------------------------------
# Combinación tipo INNER JOIN
resultado = pd.merge(df1, df2, on='key', how='inner')


# --------------------------------------------------
# Mostramos el resultado
print("\n","-"*60)
print("Dataframe 'resultado' con INNER JOIN \n")
print(resultado)


 ------------------------------------------------------------
Dataframe 'df1': 

  key  value1
0   A       1
1   B       2
2   C       3

 ------------------------------------------------------------
Dataframe 'df2': 

  key  value2
0   B       4
1   C       5
2   D       6

 ------------------------------------------------------------
Dataframe 'resultado' con INNER JOIN 

  key  value1  value2
0   B       2       4
1   C       3       5


- La columna **`key`** funciona como **clave de unión**.
- Con `how='inner'`, Pandas conserva **solo las claves presentes en ambos DataFrames**.
- En este caso, las claves comunes son **'B'** y **'C'**, por eso se obtienen solo esas filas.

Obviamente, hay otros tipos de `join`. Veamoslos:

In [None]:
# Outer Join: todas las claves (B, C, A, D)
outer = pd.merge(df1, df2, on='key', how='outer')

# Left Join: todas las filas de df1, más coincidencias de df2
left = pd.merge(df1, df2, on='key', how='left')

# Right Join: todas las filas de df2, más coincidencias de df1
right = pd.merge(df1, df2, on='key', how='right')

# --------------------------------------------------
# Mostramos el resultado
print("\n","-"*60)
print("Dataframe resultado con OUTER JOIN \n")
print(outer)

print("\n","-"*60)
print("Dataframe resultado con LEFT JOIN \n")
print(left)

print("\n","-"*60)
print("Dataframe resultado con RIGHT JOIN \n")
print(right)


 ------------------------------------------------------------
Dataframe 'resultado' con OUTER JOIN 

  key  value1  value2
0   A     1.0     NaN
1   B     2.0     4.0
2   C     3.0     5.0
3   D     NaN     6.0

 ------------------------------------------------------------
Dataframe 'resultado' con LEFT JOIN 

  key  value1  value2
0   A       1     NaN
1   B       2     4.0
2   C       3     5.0

 ------------------------------------------------------------
Dataframe 'resultado' con RIGHT JOIN 

  key  value1  value2
0   B     2.0       4
1   C     3.0       5
2   D     NaN       6


### Tipos de combinaciones (`how`)

| Tipo | Descripción | Incluye claves |
|------|--------------|----------------|
| `'inner'` | Solo coincidencias entre ambos DataFrames | comunes |
| `'outer'` | Todas las claves (rellena con `NaN`) | todas |
| `'left'` | Todo el DataFrame de la izquierda (`df1`) | izquierda + comunes |
| `'right'` | Todo el DataFrame de la derecha (`df2`) | derecha + comunes |

> **TIP:** Usá `'inner'` cuando quieras comparar datos coincidentes, y `'outer'` cuando necesites una visión global aunque falten datos.


### Detalle / Extra /mas data!

* **`left_on` / `right_on`** : permiten unir cuando las columnas clave tienen **nombres distintos**:

  ```python
  pd.merge(df1, df2, left_on='id_cliente', right_on='cliente_id')
  ```

* **Claves múltiples** : se puede usar **más de una columna** como clave de unión:

  ```python
  pd.merge(df1, df2, on=['producto','mes'])
  ```

* **Colisiones de nombres** : si ambas tablas tienen una misma columna (no clave), Pandas las renombra automáticamente con los sufijos dados en `suffixes=('_x', '_y')`, para que no se pierda información:

  ```python
  pd.merge(df1, df2, on='id', suffixes=('_ventas', '_marketing'))
  ```


# CIERRE: `pd.concat()` vs `pd.merge()`

## ¿Cuándo usar cada uno?

### Idea fuerza
- **`concat`**: **pegar** DataFrames ya compatibles por **estructura** (apilar filas o poner columnas lado a lado).  
- **`merge`**: **unir por claves** (como un JOIN de SQL) para traer columnas desde otra tabla.

### Cuándo usar...
- **`pd.concat([...], axis=0)`** para unificar **registros del mismo tipo** (meses, sucursales, archivos partidos).  
- **`pd.concat([...], axis=1)`** para pegar **atributos calculados por separado** para las **mismas filas** (mismo índice).  
- **`pd.merge(df1, df2, on='id', how=...)`** para integrar **tablas relacionadas** por una o más **claves** (cliente, producto, fecha_id).

### Ventajas principales
- **concat**
  - Simple y rápido para **apilar** datasets homogéneos.
  - Conserva y/o reindexa con `ignore_index=True` (solo `axis=0`).
  - Soporta muchas entradas a la vez.
- **merge**
  - Tipos de join: **inner/left/right/outer**.
  - Une por **claves distintas** (`left_on`/`right_on`) o por **índice**.
  - Maneja **claves múltiples** y resuelve **colisiones de nombres** con `suffixes=('_x','_y')`.

### Errores (o pifiadas épicas) comunes
- **concat**
  - `axis=0`: columnas que **no coinciden** y aparecen **NaN** (esperado).  
  - `axis=1`: se **alinea por índice**; si no coinciden los índices, aparecen **NaN**.  
  - Intentar “unir por clave” con `concat` y obtener un resultado incorrecto (usá `merge`).
- **merge**
  - Clave mal elegida o con **nulos/duplicados**, aparecen **duplicaciones** inesperadas (producto cartesiano parcial).  
  - Claves con **tipos diferentes** (str vs int, fechas mal parseadas), tendremos filas que no matchean.  
  - Olvidar `how=`: el default es **inner** (se pierden filas no coincidentes).  


## Algunas reglas prácticas
- **¿Mismo "tipo" de filas, distinto período/origen?** usamos `concat(axis=0)`.  
- **¿Mismas filas (mismo índice), más columnas?** usamos `concat(axis=1)` (o un `merge`, por índice).  
- **¿Necesitamos "buscar por id/clave" y traer columnas relacionadas?** Usamos un `merge`.

> Tip final: después de integrar, siempre verificar **filas esperadas**, **cantidad de nulos**, **duplicados de clave** y **rangos**.
