## How do i remove duplicate rows in pandas?

In [1]:
import pandas as pd

In [5]:
# read a dataset of movie reviewers (modifying the default parameter values for read_table)
user_cols = ['user_id', 'age', 'gender', 'occupation', 'zip_code']
users = pd.read_table('http://bit.ly/movieusers', sep='|', header=None, names=user_cols, index_col='user_id')
users.head()

Unnamed: 0_level_0,age,gender,occupation,zip_code
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,24,M,technician,85711
2,53,F,other,94043
3,23,M,writer,32067
4,24,M,technician,43537
5,33,F,other,15213


In [7]:
users.shape

(943, 4)

- Supongamos que queremos obtener los duplicados de los zip_code:

In [9]:
users.zip_code.duplicated()

user_id
1      False
2      False
3      False
4      False
5      False
       ...  
939    False
940     True
941    False
942    False
943    False
Name: zip_code, Length: 943, dtype: bool

In [10]:
#saber cuantos de los codigos estan duplicados
users.zip_code.duplicated().sum()

148

In [12]:
users.duplicated().sum()

7

- Sabemos que cada registro tiene un user_id unico pero como usamo este id como index podemos obeter filas duplicadas con los mismos datos.


- Podemos usar el metodo duplicated para obtener directamente los duplicados y por defecto conserva la primer fila duplicada y los demas los descarta.


- Si usamos la opcion keep dentro de duplicated podemos determinar que dato es el que queremos conservar; el primero que se repite o el segundo que se repite. o hacer keep = False, lo que significa que va a agrupar a todos los datos que se repitan.

In [13]:
users.loc[users.duplicated(),:]

Unnamed: 0_level_0,age,gender,occupation,zip_code
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
496,21,F,student,55414
572,51,M,educator,20003
621,17,M,student,60402
684,28,M,student,55414
733,44,F,other,60630
805,27,F,other,20009
890,32,M,student,97301


In [18]:
users.loc[users.duplicated(keep='first'),:]

Unnamed: 0_level_0,age,gender,occupation,zip_code
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
496,21,F,student,55414
572,51,M,educator,20003
621,17,M,student,60402
684,28,M,student,55414
733,44,F,other,60630
805,27,F,other,20009
890,32,M,student,97301


- Asumiendo que ya sabemos que queremos conservar los primeros duplicados y eliminar el resto, podemos usar el metodo drop:

In [19]:
users.drop_duplicates(keep='first').shape

(936, 4)

- Ahora podemos notar que despues de que han sido removidas las filas duplicadas nos quedan 936 filas de las 943 iniciales

#### Quitar duplicados de filas pero solo en funcion de alguna(s) columna(s):

In [20]:
#Supongamos que queremos obtener los duplicados que existen de edad y zip_code
users.duplicated(subset=['age', 'zip_code']).sum()

16

In [24]:
#Notamos que hay 16 filas que tienen una edad y codigo postal identico, para quitarlas usamos drop:
users.drop_duplicates(subset=['age', 'zip_code']).shape

(927, 4)