# Capítulo 11: Dados duplicados

[Referência](https://riptutorial.com/pandas)

### Exemplos

### Selecione duplicado

Se necessário, defina o valor 0 para a coluna B, onde na coluna A estão os dados duplicados, primeiro crie a máscara por **Series.duplicated** e, em seguida, use **DataFrame.ix** ou **Series.mask**:

In [1]:
import pandas as pd

In [11]:
df = pd.DataFrame({'A':[1,2,3,3,2],
                   'B':[1,7,3,0,8]})

df

Unnamed: 0,A,B
0,1,1
1,2,7
2,3,3
3,3,0
4,2,8


In [12]:
mask = df.A.duplicated(keep=False)

mask

0    False
1     True
2     True
3     True
4     True
Name: A, dtype: bool

In [13]:
df.loc[mask, 'B'] = 0

In [14]:
df

Unnamed: 0,A,B
0,1,1
1,2,0
2,3,0
3,3,0
4,2,0


In [15]:
df['C'] = df.A.mask(mask, 0)

In [16]:
df

Unnamed: 0,A,B,C
0,1,1,1
1,2,0,0
2,3,0,0
3,3,0,0
4,2,0,0


Se necessário, inverta a máscara, use **~**:

In [17]:
df['C'] = df.A.mask(~mask, 0)

In [18]:
df

Unnamed: 0,A,B,C
0,1,1,0
1,2,0,2
2,3,0,3
3,3,0,3
4,2,0,2


### Drop duplicada

Use drop_duplicates:

In [19]:
df = pd.DataFrame({'A':[1,2,3,3,2],
                   'B':[1,7,3,0,8]})

df

Unnamed: 0,A,B
0,1,1
1,2,7
2,3,3
3,3,0
4,2,8


In [20]:
# mantenha apenas o último valor
df.drop_duplicates(subset=['A'], keep='last')

Unnamed: 0,A,B
0,1,1
3,3,0
4,2,8


In [22]:
# mantenha apenas o primeiro valor, valor padrão
df.drop_duplicates(subset=['A'], keep='first')

Unnamed: 0,A,B
0,1,1
1,2,7
2,3,3


In [23]:
# elimine todos os valores duplicados
df.drop_duplicates(subset=['A'], keep=False)

Unnamed: 0,A,B
0,1,1


Quando você não deseja obter uma cópia de um quadro de dados, mas modificar o existente:

In [24]:
df = pd.DataFrame({'A':[1,2,3,3,2],
                   'B':[1,7,3,0,8]})

df

Unnamed: 0,A,B
0,1,1
1,2,7
2,3,3
3,3,0
4,2,8


### Contando e obtendo elementos únicos

Número de elementos únicos em uma série:

In [26]:
id_numbers = pd.Series([111, 112, 112, 114, 115, 118, 114, 118, 112])

id_numbers.nunique()

5

Obtenha elementos únicos em uma série:

In [27]:
id_numbers.unique()

array([111, 112, 114, 115, 118], dtype=int64)

In [28]:
df = pd.DataFrame({'Group': list('ABAABABAAB'),
                   'ID': [1, 1, 2, 3, 3, 2, 1, 2, 1, 3]})

df

Unnamed: 0,Group,ID
0,A,1
1,B,1
2,A,2
3,A,3
4,B,3
5,A,2
6,B,1
7,A,2
8,A,1
9,B,3


Número de elementos únicos em cada grupo:

In [30]:
df.groupby('Group')['ID'].nunique()

Group
A    3
B    2
Name: ID, dtype: int64

Obtenha elementos únicos em cada grupo:

In [31]:
df.groupby('Group')['ID'].unique()

Group
A    [1, 2, 3]
B       [1, 3]
Name: ID, dtype: object

### Obtenha valores exclusivos de uma coluna.

In [33]:
df = pd.DataFrame({"A":[1,1,2,3,1,1],
                   "B":[5,4,3,4,6,7]})

df

Unnamed: 0,A,B
0,1,5
1,1,4
2,2,3
3,3,4
4,1,6
5,1,7


Para obter valores únicos nas colunas A e B.

In [34]:
df['A'].unique()

array([1, 2, 3], dtype=int64)

In [35]:
df['B'].unique()

array([5, 4, 3, 6, 7], dtype=int64)

Para obter os valores únicos na coluna A como uma lista (observe que **unique()** pode ser usado de duas maneiras ligeiramente diferentes)

In [36]:
pd.unique(df['A']).tolist()

[1, 2, 3]

Aqui está um exemplo mais complexo. Digamos que queremos encontrar os valores únicos da coluna 'B', onde 'A' é igual a 1.

Primeiro, vamos apresentar uma duplicata para que você possa ver como funciona. Vamos substituir o 6 na linha '4', coluna 'B' por um 4:

In [38]:
df.loc['4', 'B'] = 4

df

Unnamed: 0,A,B
0,1.0,5.0
1,1.0,4.0
2,2.0,3.0
3,3.0,4.0
4,1.0,6.0
5,1.0,7.0
4,,4.0


Agora selecione os dados:

In [39]:
pd.unique(df[df['A'] == 1 ]['B']).tolist()

[5.0, 4.0, 6.0, 7.0]

Isso pode ser dividido pensando primeiro no DataFrame interno:

In [40]:
df['A'] == 1

0     True
1     True
2    False
3    False
4     True
5     True
4    False
Name: A, dtype: bool

Isso encontra valores na coluna A que são iguais a 1 e aplica Verdadeiro ou Falso a eles. Podemos então usar isso para selecionar valores da coluna 'B' do DataFrame (a seleção externa do DataFrame)

Para efeito de comparação, aqui está a lista, se não usarmos o exclusivo. Ele recupera todos os valores na coluna 'B' onde a coluna 'A' é 1

In [41]:
df[df['A'] == 1]['B'].tolist()

[5.0, 4.0, 6.0, 7.0]

Leia [dados duplicados](https://riptutorial.com/pandas/topic/2082/duplicated-data)  online