In [3]:
import pandas as pd
from typing import Tuple

Esta función compara los registros de dos datasets A y B basándonos en columnas clave como `artist_name`, `song_name` o `recording_id`. Luego elimina del dataset A los registros que ya existen en B. 

Es útil por ejemplo para limpiar registros que ya hemos procesado de datasets de los que vamos a continuar buscando información para no volver a hacer requests sobre datos que ya tenemos, ahorrar tiempo y prevenir duplicados.

In [4]:
d1 = pd.read_csv('../data/processed/new_not_found_ids.csv.temp')
d2 = pd.read_csv('../data/processed/new_songs_with_ids.csv.temp')

# Ejemplo de uso de la función para eliminar de un dataset A los datos que ya existen en un dataset B

Llamamos a los datasets que vamos a comparar
`dataset_a = pd.read_csv('ruta_a_dataset_a.csv')` 
`dataset_b = pd.read_csv('ruta_a_dataset_b.csv')`

Añadimos al array las columnas en las que queremos basar la comparación
`key_columns = ['song_name', 'artist_name']` 

Ejecutamos la función de esta manera
`updated_dataset_a, removed_count = remove_existing_records(dataset_a, dataset_b, key_columns)` 

`removed_count` Será el número de columnas eliminadas de A

`updated_dataset_a` Será el resultado del dataset_a con los registros actualizados. Podemos guardarlo con `updated_dataset_a.tocsv('ruta_del_csv.csv')`

# Función para eliminar de un dataset A los datos que ya existen en un dataset B

In [7]:
def remove_existing_records(dataset_a: pd.DataFrame, dataset_b: pd.DataFrame, key_columns: list) -> Tuple[pd.DataFrame, int]:
    if not all(column in dataset_a.columns for column in key_columns):
        raise ValueError("Algunas columnas clave no están presentes en dataset_a.")
    if not all(column in dataset_b.columns for column in key_columns):
        raise ValueError("Algunas columnas clave no están presentes en dataset_b.")

    # Crear un DataFrame de comparación solo con las columnas clave
    b_subset = dataset_b[key_columns]

    # Crear una máscara para identificar registros en A que también están en B
    is_in_b = dataset_a[key_columns].apply(tuple, axis=1).isin(b_subset.apply(tuple, axis=1))

    # Contar el número de registros eliminados
    num_removed = is_in_b.sum()

    # Filtrar dataset_a para eliminar registros que están en B
    updated_dataset_a = dataset_a[~is_in_b]

    return updated_dataset_a, num_removed

# Comparar datasets

In [None]:
df_A = pd.read_csv('ruta_dataset_a.csv')
df_B = pd.read_csv('ruta_dataset_b.csv')
key_columns = ['song_name', 'artist_name'] # Podemos cambiarlo por key_columns = ['recording_id'] si ambos datasets que queremos comparar lo tienen, ya que será más fiable

In [10]:
updated_dataset_a, removed_count = remove_existing_records(df_A, df_B, key_columns)

In [11]:
print(f"Columnas eliminadas: {removed_count}")

Columnas eliminadas: 15570


In [None]:
updated_dataset_a

In [17]:
# Podemos guardar el dataset actualizado o reemplazar el anterior dataset A con él poniendo la misma ruta
updated_dataset_a.to_csv('ruta_a_tu_dataset.csv')