# Uniendo Datos

## .concat()

se utiliza para unir (concatenar) varios DataFrames o Series, ya sea de forma vertical (uno debajo del otro) o horizontal (uno al lado del otro).
- **axis=0 (por defecto)**: concatena filas (verticalmente).
- **axis=1**: concatena columnas (horizontalmente).
- **ignore_index=True**: reinicia el índice en el DataFrame resultante.
- **join**: Controla qué columnas o índices se incluyen al unir varios DataFrames:
    - **join='outer' (por defecto)**: Incluye todas las columnas o índices de todos los DataFrames. Si alguna columna no existe en algún DataFrame, se rellena con NaN.
    - **join='inner'**: Solo incluye las columnas o índices que están presentes en todos los DataFrames (la intersección).
- **verify_integrity**: Sirve para comprobar si el índice del DataFrame resultante tiene valores duplicados después de la concatenación. Si se establece en True y hay duplicados en el índice, se lanzará un error:
    - **verify_integrity=False (por defecto)**: No verifica si hay duplicados en el índice.
    - **verify_integrity=True**: Lanza un error si el índice resultante tiene duplicados.

In [None]:
import pandas as pd

# Crear DataFrames de ejemplo
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})

# Concatenar verticalmente, axis=0
result = pd.concat([df1, df2])
print(result)

# Concatenar horizontalmente, axis=1
result = pd.concat([df1, df2], axis=1)
print(result)

## .merge()
Para hacer el merge de dos DataFrames. Similar al inner join de sql. Por defecto retorna solo las filas que hacen match

- **on**: Define el campo o column por la que se hace el match, si las columnas se llaman igual en ambos datasets.
- **suffixes**: Define los sufijos para las columnas que se repiten en ambos DataFrames.
- **left_on & right_on**: Se usan cuando las columnas a unir tienen nombres diferentes en cada DataFrame.

El parámetro how en la función .merge() de pandas define el tipo de unión que se realiza entre los DataFrames, similar a los joins en SQL:

- **how='inner'**: Solo incluye las filas con claves que existen en ambos DataFrames (por defecto).
- **how='left'**: Incluye todas las filas del DataFrame izquierdo y los datos coincidentes del derecho. Si no hay coincidencia, rellena con NaN.
- **how='right'**: Incluye todas las filas del DataFrame derecho y los datos coincidentes del izquierdo.
- **how='outer'**: Incluye todas las filas de ambos DataFrames, rellenando con NaN donde no haya coincidencia.

El argumento validate en .merge() de pandas sirve para verificar el tipo de relación entre las claves de los DataFrames que se están uniendo. Permite asegurarse de que la combinación cumple ciertas condiciones, y si no, lanza un error:

- **validate='one_to_one'**: Cada clave aparece solo una vez en ambos DataFrames.
- **validate='one_to_many'**: Cada clave aparece solo una vez en el DataFrame izquierdo, pero puede repetirse en el derecho.
- **validate='many_to_one'**: Cada clave aparece solo una vez en el DataFrame derecho, pero puede repetirse en el izquierdo.
- **validate='many_to_many'**: Las claves pueden repetirse en ambos DataFrames (no hay restricción).


In [None]:
import pandas as pd

# Crear DataFrames de ejemplo
df1 = pd.DataFrame({
    'id': [1, 2, 3],
    'nombre': ['Juan', 'Ana', 'Luis'],
    'edad': [25, 30, 22]
})

df2 = pd.DataFrame({
    'id': [2, 3, 4],
    'edad': [25, 30, 22]
})

result = df1.merge(df2, on='id', suffixes=('_df1', '_df2'))
print(result)

## .merge_ordered()
Se utiliza para combinar dos DataFrames de manera ordenada, es decir, mantiene el orden de las claves de unión. Es útil para combinar series temporales o datos que deben conservar un orden específico.

- **on**: Especifica la(s) columna(s) por las que se realiza la unión.
- **how**: Tipo de unión (`'outer'`, `'inner'`, `'left'`, `'right'`). Por defecto es `'outer'`.
- **fill_method**: Permite rellenar valores faltantes usando métodos como:
    - `'ffill'`: Forward fill. Propagates the last valid value forward.
    - `'bfill'`: Backward fill. Propagates the next valid value backward.
    - `None`: No filling (default).
- **suffixes**: Sufijos para las columnas que se repiten.

In [None]:
import pandas as pd

df1 = pd.DataFrame({'fecha': ['2023-01-01', '2023-01-03'], 'valor1': [10, 30]})
df2 = pd.DataFrame({'fecha': ['2023-01-02', '2023-01-03'], 'valor2': [20, 40]})

resultado = pd.merge_ordered(df1, df2, on='fecha')
print(resultado)

## `.merge_asof()`

`.merge_asof()` se utiliza para hacer una unión aproximada entre dos DataFrames, generalmente sobre datos ordenados temporalmente. Busca la fila más cercana (anterior o igual) en el DataFrame derecho para cada fila del DataFrame izquierdo según una clave ordenada (por ejemplo, fechas o tiempos).

- **on**: Columna por la que se realiza la unión (debe estar ordenada).
- **by**: Columnas adicionales para agrupar antes de hacer la unión.
- **direction**: Controla la dirección de la búsqueda:
    - `'backward'` (por defecto): Busca la coincidencia más cercana hacia atrás.
    - `'forward'`: Busca la coincidencia más cercana hacia adelante.
    - `'nearest'`: Busca la coincidencia más cercana en cualquier dirección.
- **tolerance**: Límite máximo de diferencia permitido para considerar una coincidencia.

In [2]:
import pandas as pd

izq = pd.DataFrame({'tiempo': [1, 2, 3, 4], 'valor_izq': ['a', 'b', 'c', 'd']})
der = pd.DataFrame({'tiempo': [2, 3], 'valor_der': ['x', 'y']})

resultado = pd.merge_asof(izq, der, on='tiempo')
print(resultado)

   tiempo valor_izq valor_der
0       1         a       NaN
1       2         b         x
2       3         c         y
3       4         d         y


## .isin()
Se usa para verificar si los valores de una columna (o DataFrame) están presentes en una lista, conjunto u otra Serie. Devuelve una Serie booleana del mismo tamaño, donde True indica que el valor está en la colección dada.

In [None]:
import pandas as pd

df = pd.DataFrame({
    'nombre': ['Juan', 'Ana', 'Luis', 'Maria'],
    'edad': [25, 30, 22, 28]
})

# Verifica si 'nombre' está en la lista ['Ana', 'Luis']
mascara = df['nombre'].isin(['Ana', 'Luis'])
print(mascara)
# Resultado: [False, True, True, False]

# Filtra las filas donde 'nombre' es 'Ana' o 'Luis'
filtrado = df[df['nombre'].isin(['Ana', 'Luis'])]
print(filtrado)