# Verificación de la Integridad de los Datos

En este notebook vamos a **verificar la integridad de los datos** al combinar tablas. Tanto el método de **fusión** (`merge`) como el de **concatenación** (`concat`) en Pandas tienen características que nos ayudan a asegurarnos de que la estructura de nuestros datos sea la correcta.

## Consideraciones al Fusionar Tablas

Al fusionar dos tablas, normalmente esperamos que exista una **relación uno a uno** entre las columnas clave. Sin embargo, si alguna de las columnas utilizadas para la fusión contiene valores duplicados, la relación se convierte en **uno a muchos** o incluso **muchos a muchos**.

## Consideraciones al Concatenar Tablas

Al concatenar tablas verticalmente, podemos **crear registros duplicados** de manera involuntaria si el mismo registro existe en ambas tablas.

## Verificación con los Métodos `merge` y `concat`

Los argumentos de los métodos `merge` y `concat` nos permiten verificar la integridad de los datos durante estas operaciones.

### Método `merge`

El método `merge` cuenta con el argumento `validate`, que nos permite especificar el tipo de relación esperada entre las tablas. Si la relación no se cumple, Pandas generará un error, facilitando la detección de problemas estructurales.

```python
df_merged = pd.merge(tabla_izquierda, tabla_derecha,
                    on='columna_clave',
                    validate='one_to_one')
```

Algunas opciones para el argumento `validate` son:

- `'one_to_one'`: cada fila de ambas tablas coincide con una única fila de la otra tabla.
- `'one_to_many'`: cada fila de la tabla izquierda coincide con una o más filas de la tabla derecha.
- `'many_to_one'`: varias filas de la tabla izquierda pueden coincidir con una sola fila de la tabla derecha.
- `'many_to_many'`: varias filas de ambas tablas pueden coincidir entre sí.

---

¿Te gustaría agregar ejemplos de uso o explicación para `concat`? Si es así, dime cómo deseas enfocarlos.

In [8]:
import pandas as pd

# Cargar los datos
cli = pd.read_csv('../../data/clientes.csv')
ped = pd.read_csv('../../data/pedidos.csv')

try:
 cli.merge(ped,on='id_cliente',validate='one_to_one')
except ValueError as e:
    print(f"Error: {e}")

Error: Merge keys are not unique in right dataset; not a one-to-one merge


## Verificación de integridad con el método `concat`

Ahora utilizaremos el método `concat` de Pandas, que cuenta con el argumento `verify_integrity` para ayudarnos a verificar si existen duplicados en los índices de los registros concatenados. Por defecto, este argumento está establecido en `False`:

```python
pd.concat([df1, df2], verify_integrity=False)
```

Si establecemos `verify_integrity=True`, el método verificará si hay valores duplicados en los **índices** de los DataFrames combinados y lanzará un error si encuentra duplicados.
> **Nota:** Esta verificación **solo aplica a los valores de los índices**, no a los valores de las columnas.

Esto es útil para asegurarnos de que, al concatenar, no estamos generando índices duplicados de manera involuntaria.

In [11]:
try:
    pd.concat([cli, ped], verify_integrity=True)
except ValueError as e:
    print(f"Error: {e}")

Error: Indexes have overlapping values: Index([0, 1, 2, 3], dtype='int64')
