# Eliminar valores repetidos en archivo genres

In [1]:
# Importar librerías
import pandas as pd
import numpy as np
import ast

In [2]:
# Lee el archivo CSV "movie_details.csv" donde se encuentran las columnas
df = pd.read_csv("../movie_genres.csv")

In [3]:
# Dimenciones del dataSet
df.shape

(45436, 3)

In [4]:
df.head(6)

Unnamed: 0,id,id_genres,genero
0,862,"[16, 35, 10751]","['Animation', 'Comedy', 'Family']"
1,8844,"[12, 14, 10751]","['Adventure', 'Fantasy', 'Family']"
2,15602,"[10749, 35]","['Romance', 'Comedy']"
3,31357,"[35, 18, 10749]","['Comedy', 'Drama', 'Romance']"
4,11862,[35],['Comedy']
5,949,"[28, 80, 18, 53]","['Action', 'Crime', 'Drama', 'Thriller']"


In [5]:
df_sin_duplicados = df.drop_duplicates()

In [6]:
# Dimenciones del dataSet
df.shape

(45436, 3)

In [7]:
# Contar el número de filas duplicadas en el DataFrame
num_filas_duplicadas = df.duplicated().sum()

# Imprimir el resultado
print("Número de filas duplicadas:", num_filas_duplicadas)

Número de filas duplicadas: 0


In [8]:
df_sin_duplicados = df.drop_duplicates(subset=['id'])

In [9]:
# Contar el número de filas duplicadas en el DataFrame
num_filas_duplicadas = df.duplicated().sum()

# Imprimir el resultado
print("Número de filas duplicadas:", num_filas_duplicadas)

Número de filas duplicadas: 0


In [10]:
#  Lista con id duplicados
duplicados = df[df.duplicated()]
ids_duplicados = duplicados["id"].tolist()
print(ids_duplicados)


[]


In [11]:
def eliminar_duplicados_por_id(df, lista_ids):
    """
    Elimina filas duplicadas en un DataFrame basado en una lista de IDs.

    Args:
        df (pandas.DataFrame): DataFrame en el que se eliminarán los duplicados.
        lista_ids (list): Lista de IDs que se utilizarán como referencia para eliminar los duplicados.

    Returns:
        pandas.DataFrame: DataFrame resultante sin duplicados.

    """
    for id in lista_ids:
        df = df.drop_duplicates(subset='id', keep='first')
    return df


In [12]:
lista_ids = ids_duplicados # Reemplaza con los números de id que desees eliminar duplicados

df = eliminar_duplicados_por_id(df, lista_ids)

In [13]:
# Encuentra las filas duplicadas en el DataFrame
duplicados = df[df.duplicated()]

# Calcula la cantidad de veces que se repiten las filas duplicadas
cantidad_duplicados = duplicados.shape[0]

# Imprime la cantidad de filas duplicadas
print("Cantidad de filas duplicadas:", cantidad_duplicados)

Cantidad de filas duplicadas: 0


In [14]:
id_fila = 42495  # Reemplaza 123 con el ID de la fila que deseas ver

fila = df[df["id"] == id_fila]
fila

Unnamed: 0,id,id_genres,genero


In [15]:
# # Mostrar las primeras filas del DataFrame
df.head(6)

Unnamed: 0,id,id_genres,genero
0,862,"[16, 35, 10751]","['Animation', 'Comedy', 'Family']"
1,8844,"[12, 14, 10751]","['Adventure', 'Fantasy', 'Family']"
2,15602,"[10749, 35]","['Romance', 'Comedy']"
3,31357,"[35, 18, 10749]","['Comedy', 'Drama', 'Romance']"
4,11862,[35],['Comedy']
5,949,"[28, 80, 18, 53]","['Action', 'Crime', 'Drama', 'Thriller']"


In [16]:
# Dimenciones del dataSet
df.shape

(45436, 3)

In [17]:
def extract_data_with_genre_ids(df):
    """
    Extrae los datos del dataframe original y crea un nuevo dataframe con tres columnas: "id", "genero" e "id_genres".
    La columna "genero" contiene un diccionario con los nombres de los géneros de la película,
    mientras que la columna "id_genres" contiene un diccionario con los IDs de los géneros.

    Args:
        df (pandas.DataFrame): El dataframe original con las columnas "id" y "genres".

    Returns:
        pandas.DataFrame: El nuevo dataframe con las columnas "id", "genero" e "id_genres".
    """
    new_df = pd.DataFrame(columns=['id', 'genero', 'id_genres'])

    # Asignar los valores de la columna 'id' del dataframe original al nuevo dataframe
    new_df['id'] = df['id']

    # Convertir la columna 'genres' del dataframe original de string a lista de diccionarios
    # y obtener los nombres de los géneros
    new_df['genero'] = df['genres'].apply(lambda x: [genre['name'] for genre in ast.literal_eval(x)])

    # Convertir la columna 'genres' del dataframe original de string a lista de diccionarios
    # y obtener los IDs de los géneros
    new_df['id_genres'] = df['genres'].apply(lambda x: [genre['id'] for genre in ast.literal_eval(x)])

    return new_df

In [None]:
# Llamar a la función para extraer los datos
df = extract_data_with_genre_ids(df)

# Imprimir el nuevo dataframe
df.head()

In [19]:
# Reorganizar el dataframe
df = df.reindex(columns=['id', 'id_genres', 'genero'])

# Imprimir el nuevo dataframe organizado
df.head()


Unnamed: 0,id,id_genres,genero
0,862,"[16, 35, 10751]","['Animation', 'Comedy', 'Family']"
1,8844,"[12, 14, 10751]","['Adventure', 'Fantasy', 'Family']"
2,15602,"[10749, 35]","['Romance', 'Comedy']"
3,31357,"[35, 18, 10749]","['Comedy', 'Drama', 'Romance']"
4,11862,[35],['Comedy']


In [20]:
# Reemplazar los diccionarios vacíos por valores nulos (null)
df['genero'] = df['genero'].apply(lambda x: x if x else np.nan)
df['id_genres'] = df['id_genres'].apply(lambda x: x if x else np.nan)

# Imprimir el nuevo dataframe con los valores nulos
df.head()

Unnamed: 0,id,id_genres,genero
0,862,"[16, 35, 10751]","['Animation', 'Comedy', 'Family']"
1,8844,"[12, 14, 10751]","['Adventure', 'Fantasy', 'Family']"
2,15602,"[10749, 35]","['Romance', 'Comedy']"
3,31357,"[35, 18, 10749]","['Comedy', 'Drama', 'Romance']"
4,11862,[35],['Comedy']


In [None]:
# # Guardar los cambios en el archivo CSV
# ruta_archivo = "../movie_genres.csv"
# df.to_csv(ruta_archivo, index=False)