# Capitulo 11: Datos duplicados.

### Ejemplos.

##### Seleccion de duplicados.

Si es necesario, establezca el valor 0 en la columna B, donde en la columna A hay datos duplicados, primero cree la máscara por `Series.duplicated` y luego use `DataFrame.ix` o `Series.mask`:


In [11]:
import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, 3, 3, 2],
    'B': [1, 7, 3, 0, 8],
})

mask = df.A.duplicated(keep=False)
mask

0    False
1     True
2     True
3     True
4     True
Name: A, dtype: bool

In [12]:
df.loc[mask, 'B'] = 0
df['C'] = df.A.mask(mask, 0)
df

Unnamed: 0,A,B,C
0,1,1,1
1,2,0,0
2,3,0,0
3,3,0,0
4,2,0,0


Si necesitas invertir la mascara use ~:

In [13]:
df['C'] = df.A.mask(~mask, 0)
df

Unnamed: 0,A,B,C
0,1,1,0
1,2,0,2
2,3,0,3
3,3,0,3
4,2,0,2


##### Eliminar Duplicados.

Use `drop_duplicates`:

In [14]:
df = pd.DataFrame({
    'A': [1, 2, 3, 3, 2],
    'B': [1, 7, 3, 0, 8],
})

df

Unnamed: 0,A,B
0,1,1
1,2,7
2,3,3
3,3,0
4,2,8


In [15]:
# Mantener solamente el ultimo valor

df.drop_duplicates(subset=['A'], keep='last')

Unnamed: 0,A,B
0,1,1
3,3,0
4,2,8


In [16]:
# Mantener solo el primer valor, valor por defecto

df.drop_duplicates(subset=['A'], keep='first')

Unnamed: 0,A,B
0,1,1
1,2,7
2,3,3


In [17]:
# Eliminar todos los valores dulicados

df.drop_duplicates(subset=['A'], keep=False)

Unnamed: 0,A,B
0,1,1


Cuando usted no quiere obtener una copia de un data frame, pero modificará el existente

In [18]:
df = pd.DataFrame({
    'A': [1, 2, 3, 3, 2],
    'B': [1, 7, 3, 0, 8],
})
df.drop_duplicates(subset=['A'], inplace=True)
df

Unnamed: 0,A,B
0,1,1
1,2,7
2,3,3


##### Contando y obteniendo valores únicos.

Número de elementos únicos en una serie:

In [21]:
id_numbers = pd.Series([111,112,112,114,115,118,114,118,112])
id_numbers.nunique()

5

Obtener los elementos unicos de una serie:

In [22]:
id_numbers.unique()

array([111, 112, 114, 115, 118])

In [24]:
df = pd.DataFrame({
    'Group': list('ABAABABAAB'),
    'ID': [1,1,2,3,3,2,1,2,1,3]
})
df

Unnamed: 0,Group,ID
0,A,1
1,B,1
2,A,2
3,A,3
4,B,3
5,A,2
6,B,1
7,A,2
8,A,1
9,B,3


Numero de elementos únicos en cada grupo:

In [25]:
df.groupby('Group')['ID'].nunique()

Group
A    3
B    2
Name: ID, dtype: int64

Obtener los elemenntos únicos de cadda grupo:

In [26]:
df.groupby('Group')['ID'].unique()

Group
A    [1, 2, 3]
B       [1, 3]
Name: ID, dtype: object

##### Obtener valores únicos desde una columna.

In [35]:
df = pd.DataFrame({
    'A': [1,1,2,3,1,1],
    'B': [5,4,3,4,6,7]
})
df

Unnamed: 0,A,B
0,1,5
1,1,4
2,2,3
3,3,4
4,1,6
5,1,7


Para obtener valores en la columna A y B

In [28]:
df['A'].unique()

array([1, 2, 3])

In [29]:
df['B'].unique()

array([5, 4, 3, 6, 7])

Para obtener valores únicos en la columna A como una lista.
> nota: Fijese que `unique()` puede usarse en dos opciones ligeramente.

In [30]:
pd.unique(df['A']).tolist()

[1, 2, 3]

Aquí hay un ejemplo mas complejo. Digamos ue queremos encontrar los valores únicos ddesde la columna 'B' donde 'A' is igual a 1.

Primero, vamos a introducir un duplicado para que pueda ver como funciona. Vamos a reemplazar el 6 en la columna 4, columna B con un 4:

In [36]:
df.loc[4, 'B'] = 4
df

Unnamed: 0,A,B
0,1,5
1,1,4
2,2,3
3,3,4
4,1,4
5,1,7


Ahora seleccione los datos:

In [37]:
pd.unique(df[df['A'] == 1]['B']).tolist()

[5, 4, 7]

Esto se puede descomponer pensando primero en el DataFrame interno:

`df['A'] == 1`

Esto encuentra valores en la columna A que son iguales a 1 y les aplica Verdadero o Falso. entonces podemos usar esto para seleccionar valores de la columna 'B' del DataFrame (la selección externa del DataFrame)

A modo de comparación, aquí está la lista si no usamos único. Recupera todos los valores de la columna 'B' donde la columna 'A' es 1

In [39]:
df[df['A'] == 1]['B'].tolist()

[5, 4, 4, 7]

Read Duplicated data [online](https://riptutorial.com/pandas/topic/2082/duplicated-data):