#### Eliminar duplicados

Otra circunstancia común cuando trabajemos con datos es que aparezca información duplicada. En ocasiones serán registros completos, pero otras veces pueden ser solo valores o medidas múltiples que comparten el resto de variables.

In [None]:
# Cargamos datos de reparto de actores por película
reparto = pd.read_csv("../U09_datasets/sample_movie_cast.csv", sep=";")

reparto.head()

Unnamed: 0,movie_title,actor_name,actor_fb_likes
0,Snatch,Jason Statham,26000.0
1,Snatch,Brad Pitt,11000.0
2,Snatch,Jason Flemyng,1000.0
3,Alice in Wonderland,Johnny Depp,40000.0
4,Alice in Wonderland,Alan Rickman,25000.0


El DataFrame de ejemplo contiene algunos de los actores que han protagonizado cada película. Ahora nos gustaría quedarnos simplemente con una lista de actores.

In [None]:
# Extraemos solo los actores
actores = reparto[["actor_name","actor_fb_likes"]].copy()
actores.head()

Unnamed: 0,actor_name,actor_fb_likes
0,Jason Statham,26000.0
1,Brad Pitt,11000.0
2,Jason Flemyng,1000.0
3,Johnny Depp,40000.0
4,Alan Rickman,25000.0


Pero probablemente vamos a tener actores repetidos porque hayan aparecido en varias de las películas de nuestra lista. Empleamos el método `duplicated()` para averiguarlo.

In [None]:
actores.duplicated(["actor_name"]).any()

True

Por defecto, `duplicated()` tiene en cuenta todas las columnas de un DataFrame para decidir si una fila está repetida o no. Como alternativa, se puede especificar un subconjunto de las columnas (como en este ejemplo).

El método `duplicated()` devuelve una serie con tantos valores booleanos como elementos. La primera vez que aparece un elemento devuelve `False`, y las siguientes ocurrencias las marca con `True`.

> **+ info** Por cierto, ¿te fijaste en ese `any()`? Para facilitar el trabajo con conjuntos de valores booleanos, Pandas incluye las funciones auxiliares `any()` (que devuelve `True` si algún valor del conjunto es `True`) y `all()` (que devuelve `True` si _todos_ los elementos del conjunto son `True`).

Ahora podemos eliminar las filas duplicadas con `drop_duplicates()`.

In [None]:
actores.drop_duplicates(["actor_name"], inplace=True)
actores.duplicated(["actor_name"]).any()

False