<a href="https://colab.research.google.com/github/francomanca93/analisis-de-datos/blob/aplicaciones/3-Aplicando-pandas/15_Datos_duplicados_DataFrames.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Cómo lidiar con datos duplicados en Pandas 

Es muy usual que los registros de una base de datos aparezcan más de una vez, así que veamos cómo pandas puede ayudarnos a lidiar con estos casos. Para comenzar, importemos pandas y creemos un DataFrame con dos columnas y algunos datos repetidos.

In [1]:
import pandas as pd

In [2]:
df = pd.DataFrame({'a': ['w'] * 4 + ['x'] * 3 + ['y'] * 2 + ['z']+['v'], 
                   'b': [1, 1, 1, 1, 2, 2, 2, 3, 3, 4,5]})
df

Unnamed: 0,a,b
0,w,1
1,w,1
2,w,1
3,w,1
4,x,2
5,x,2
6,x,2
7,y,3
8,y,3
9,z,4


Para encontrar los registros duplicados usamos **duplicated** , que marca con **True** aquellos casos de filas duplicadas:

In [3]:
df.duplicated()

0     False
1      True
2      True
3      True
4     False
5      True
6      True
7     False
8      True
9     False
10    False
dtype: bool

Podemos usar **keep='first'** para marcar solo la primera ocurrencia o **keep='last'** para marcar la última:

In [4]:
df.duplicated(keep='first')

0     False
1      True
2      True
3      True
4     False
5      True
6      True
7     False
8      True
9     False
10    False
dtype: bool

In [5]:
df.duplicated(keep='last')

0      True
1      True
2      True
3     False
4      True
5      True
6     False
7      True
8     False
9     False
10    False
dtype: bool

Identificados los casos duplicados, podemos usar este resultado para filtrar y seleccionar aquellos que no tienen un registro duplicado:

In [10]:
df[~ df.duplicated()]  # por defecto toma el parametro keep='first' para duplicated

Unnamed: 0,a,b
0,w,1
4,x,2
7,y,3
9,z,4
10,v,5


Si quisieras dejar el primer registro de los duplicados o el último, recuerda usar **keep='first'** o **keep='last'**. Remarco el hecho de que usé negación **'~'** para ver los registros no duplicados.

Y si me interesara ver cuáles son los registros duplicados, podemos usar **keep=False**:

In [13]:
df.duplicated(keep=False)

0      True
1      True
2      True
3      True
4      True
5      True
6      True
7      True
8      True
9     False
10    False
dtype: bool

In [14]:
df[df.duplicated(keep=False)]

Unnamed: 0,a,b
0,w,1
1,w,1
2,w,1
3,w,1
4,x,2
5,x,2
6,x,2
7,y,3
8,y,3


Por último, puedes usar el comando **'drop_duplicates'** para eliminar los duplicados. Por defecto, la función guarda el primer resultado **keep='first'**:

In [15]:
df.drop_duplicates()

Unnamed: 0,a,b
0,w,1
4,x,2
7,y,3
9,z,4
10,v,5


Y si quieres solo borrar duplicados teniendo en cuenta una sola columna, lo puedes hacer mediante una lista nombrando las columnas donde vas a eliminar los duplicados, en este caso, **['a']**:

In [16]:
df.drop_duplicates(['a'],keep='last')

Unnamed: 0,a,b
3,w,1
6,x,2
8,y,3
9,z,4
10,v,5
