In [1]:
import pandas as pd

# Filtragem de dados
- Agora vamos abordar sobre como filtrar dados de interesse no pandas
- Porém, primeiro vamos carregar e organizar nossos dados de trabalho no momento

## Organizando e otimizando os dados
- Já fizemos um pouco de otimização antes. Agora vamos continuar
- Os dados que vamos trabalhar agora será:

In [2]:
employees = pd.read_csv("../data/employees.csv")
employees.head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,8/6/1993,12:42 PM,97308,6.945,True,Marketing
1,Thomas,Male,3/31/1996,6:53 AM,61933,4.17,True,
2,Maria,Female,4/23/1993,11:17 AM,130590,11.858,False,Finance
3,Jerry,Male,3/4/2005,1:00 PM,138705,9.34,True,Finance
4,Larry,Male,1/24/1998,4:47 PM,101004,1.389,True,Client Services


In [3]:
employees.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   First Name         933 non-null    object 
 1   Gender             855 non-null    object 
 2   Start Date         1000 non-null   object 
 3   Last Login Time    1000 non-null   object 
 4   Salary             1000 non-null   int64  
 5   Bonus %            1000 non-null   float64
 6   Senior Management  933 non-null    object 
 7   Team               957 non-null    object 
dtypes: float64(1), int64(1), object(6)
memory usage: 62.6+ KB


- Vamos organizar os tipos dos dados como fizemos antes

In [4]:
employees["Gender"] = employees["Gender"].astype("category")
employees["Senior Management"] = employees["Senior Management"].astype(bool)
employees.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype   
---  ------             --------------  -----   
 0   First Name         933 non-null    object  
 1   Gender             855 non-null    category
 2   Start Date         1000 non-null   object  
 3   Last Login Time    1000 non-null   object  
 4   Salary             1000 non-null   int64   
 5   Bonus %            1000 non-null   float64 
 6   Senior Management  1000 non-null   bool    
 7   Team               957 non-null    object  
dtypes: bool(1), category(1), float64(1), int64(1), object(4)
memory usage: 49.1+ KB


## Lidando com datas
- Lidar com datas algo corriqueiro ao processar dados
- Quando carregamos a data ela vem como string (lembre-se que o nome object é como o pandas chama a string)
- Podemos converter a coluna `Start Date` para o tipo `DateTime` usando o método `to_datetime()`:

In [5]:
employees["Start Date"] = pd.to_datetime(employees["Start Date"])
employees["Start Date"].head()

0   1993-08-06
1   1996-03-31
2   1993-04-23
3   2005-03-04
4   1998-01-24
Name: Start Date, dtype: datetime64[ns]

- O mesmo deve ser feito para `Last Login Time`:

In [9]:
employees["Last Login Time"] = pd.to_datetime(employees["Last Login Time"])
employees["Last Login Time"].head()

0   2024-04-24 12:42:00
1   2024-04-24 06:53:00
2   2024-04-24 11:17:00
3   2024-04-24 13:00:00
4   2024-04-24 16:47:00
Name: Last Login Time, dtype: datetime64[ns]

- Observe que neste caso ele preencheu o DateTime inteiro colocando a data de hoje. É porque o objeto DateTime exige dia, mes e ano
- Mas excelente, conseguimos converter de maneira adequada. Se checarmos os info vamos ver que até reduzimos o tamanho dos dados (ja falamos disso):

In [10]:
employees.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   First Name         933 non-null    object        
 1   Gender             855 non-null    category      
 2   Start Date         1000 non-null   datetime64[ns]
 3   Last Login Time    1000 non-null   datetime64[ns]
 4   Salary             1000 non-null   int64         
 5   Bonus %            1000 non-null   float64       
 6   Senior Management  1000 non-null   bool          
 7   Team               957 non-null    object        
dtypes: bool(1), category(1), datetime64[ns](2), float64(1), int64(1), object(2)
memory usage: 49.1+ KB


- Existe uma maneira ainda mais fácil de converter datas para datetime e ele é feito na leitura do csv
- Ora, como é tão corriqueiro, nada mais justo do que ja ter implementado no método:

In [11]:
employees = pd.read_csv("../data/employees.csv", parse_dates=["Start Date", "Last Login Time"])
employees.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   First Name         933 non-null    object        
 1   Gender             855 non-null    object        
 2   Start Date         1000 non-null   datetime64[ns]
 3   Last Login Time    1000 non-null   datetime64[ns]
 4   Salary             1000 non-null   int64         
 5   Bonus %            1000 non-null   float64       
 6   Senior Management  933 non-null    object        
 7   Team               957 non-null    object        
dtypes: datetime64[ns](2), float64(1), int64(1), object(4)
memory usage: 62.6+ KB


  employees = pd.read_csv("../data/employees.csv", parse_dates=["Start Date", "Last Login Time"])


- Como carregamos de novo, vamos ter que reconverter os tipos que já fizemos antes:

In [12]:
employees["Start Date"] = pd.to_datetime(employees["Start Date"])
employees["Last Login Time"] = pd.to_datetime(employees["Last Login Time"])

- Vamos também remover alguns dados faltantes

In [13]:
employees.dropna(subset=["Senior Management", "Bonus %", "Salary"], inplace=True)

- Excelente. Agora estamos prontos para prosseguir com a filtragem

## Filtrando dados usando condições
- Pandas permite executar a filtragem de dados de maneira bem simples
- Quando comparamos uma série com alguma "coisa" ela nos retorna uma outra série, mas de booleans:

In [14]:
employees["Gender"] == "Male"

0       True
1       True
2      False
3       True
4       True
       ...  
995    False
996     True
997     True
998     True
999     True
Name: Gender, Length: 933, dtype: bool

- O resultado dessa comparação é usado como uma mascára para selecionar as linhas de interesse no dataframe
- **Obs:** muito cuidado para não fazer uma atribuição do tipo `employees["Gender"] = "Male"`. O resultado dessa operação é fazer com que a coluna `Gender` seja toda `Male`

In [15]:
employees[employees["Gender"] == "Male"].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,1993-08-06,2024-04-24 12:42:00,97308,6.945,True,Marketing
1,Thomas,Male,1996-03-31,2024-04-24 06:53:00,61933,4.17,True,
3,Jerry,Male,2005-03-04,2024-04-24 13:00:00,138705,9.34,True,Finance
4,Larry,Male,1998-01-24,2024-04-24 16:47:00,101004,1.389,True,Client Services
5,Dennis,Male,1987-04-18,2024-04-24 01:35:00,115163,10.125,False,Legal


- Perceba que só foi selecionado o gênero masculino
- Se quisermos melhorar um pouco a sintaxe (e tambem a modularização), podemos fazer:

In [16]:
mask_gender = employees["Gender"] == "Male"
employees_male = employees[mask_gender]
employees_male.head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,1993-08-06,2024-04-24 12:42:00,97308,6.945,True,Marketing
1,Thomas,Male,1996-03-31,2024-04-24 06:53:00,61933,4.17,True,
3,Jerry,Male,2005-03-04,2024-04-24 13:00:00,138705,9.34,True,Finance
4,Larry,Male,1998-01-24,2024-04-24 16:47:00,101004,1.389,True,Client Services
5,Dennis,Male,1987-04-18,2024-04-24 01:35:00,115163,10.125,False,Legal


### Mais exemplos de seleção

1. **Selecionar todos os empregrados em quem o time (team) é o de finanças (Finance)**

In [17]:
employees[employees["Team"] == "Finance"].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
2,Maria,Female,1993-04-23,2024-04-24 11:17:00,130590,11.858,False,Finance
3,Jerry,Male,2005-03-04,2024-04-24 13:00:00,138705,9.34,True,Finance
14,Kimberly,Female,1999-01-14,2024-04-24 07:13:00,41426,14.543,True,Finance
46,Bruce,Male,2009-11-28,2024-04-24 22:47:00,114796,6.796,False,Finance
53,Alan,,2014-03-03,2024-04-24 13:28:00,40341,17.578,True,Finance


2. **Selecionar todos os empregrados que são seniors (Senior Management)**
    - Observe que nesse caso a coluna já é boolean, então nao precisamos criar a mascara, só passar a seleção da coluna já é suficiente

In [18]:
employees[employees["Senior Management"]].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,1993-08-06,2024-04-24 12:42:00,97308,6.945,True,Marketing
1,Thomas,Male,1996-03-31,2024-04-24 06:53:00,61933,4.17,True,
3,Jerry,Male,2005-03-04,2024-04-24 13:00:00,138705,9.34,True,Finance
4,Larry,Male,1998-01-24,2024-04-24 16:47:00,101004,1.389,True,Client Services
6,Ruby,Female,1987-08-17,2024-04-24 16:20:00,65476,10.012,True,Product


3. **Selecionar todos os empregados que não são do time (team) de marketing**
    - Assim como podemos selecionar via o que queremos, podemos obter objetivo com algo que a gente nao quer
    - Usei a mascara apenas para exemplificar

In [19]:
mask_not_marketing = employees["Team"] != "Marketing"
employees[mask_not_marketing].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
1,Thomas,Male,1996-03-31,2024-04-24 06:53:00,61933,4.17,True,
2,Maria,Female,1993-04-23,2024-04-24 11:17:00,130590,11.858,False,Finance
3,Jerry,Male,2005-03-04,2024-04-24 13:00:00,138705,9.34,True,Finance
4,Larry,Male,1998-01-24,2024-04-24 16:47:00,101004,1.389,True,Client Services
5,Dennis,Male,1987-04-18,2024-04-24 01:35:00,115163,10.125,False,Legal


4. **Selecionar todos em que o salário é maior que 100000**
    - Nesse caso, podemos usar comparações numericas normalmente

In [21]:
employees[employees["Salary"] > 100000].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
2,Maria,Female,1993-04-23,2024-04-24 11:17:00,130590,11.858,False,Finance
3,Jerry,Male,2005-03-04,2024-04-24 13:00:00,138705,9.34,True,Finance
4,Larry,Male,1998-01-24,2024-04-24 16:47:00,101004,1.389,True,Client Services
5,Dennis,Male,1987-04-18,2024-04-24 01:35:00,115163,10.125,False,Legal
9,Frances,Female,2002-08-08,2024-04-24 06:51:00,139852,7.524,True,Business Development


5. **Selecionar todos os funcionarios que começaram a trabalhar depois de 1 de janeiro de 2000**
    - Esse exemplo é pra mostrar que podemos fazer comparações com datas passando as mesmas como uma string

In [22]:
employees[employees["Start Date"] > "2000-01-01"].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
3,Jerry,Male,2005-03-04,2024-04-24 13:00:00,138705,9.34,True,Finance
8,Angela,Female,2005-11-22,2024-04-24 06:29:00,95570,18.523,True,Engineering
9,Frances,Female,2002-08-08,2024-04-24 06:51:00,139852,7.524,True,Business Development
13,Gary,Male,2008-01-27,2024-04-24 23:40:00,109831,5.831,False,Sales
15,Lillian,Female,2016-06-05,2024-04-24 06:09:00,59414,1.256,False,Product


## Filtrando dados com multiplas condições
- Imagine que queremos selecionar funcionarios homens (exemplo 1) com salario acima de 100000 (exemplo 5)
- Uma maneira seria salvar os resultados e aplicar as duas consultas:

In [23]:
mask_gender = employees["Gender"] == "Male"
employees_male = employees[mask_gender]
employees_male[employees_male["Salary"] > 100000].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
3,Jerry,Male,2005-03-04,2024-04-24 13:00:00,138705,9.34,True,Finance
4,Larry,Male,1998-01-24,2024-04-24 16:47:00,101004,1.389,True,Client Services
5,Dennis,Male,1987-04-18,2024-04-24 01:35:00,115163,10.125,False,Legal
12,Brandon,Male,1980-12-01,2024-04-24 01:08:00,112807,17.492,True,Human Resources
13,Gary,Male,2008-01-27,2024-04-24 23:40:00,109831,5.831,False,Sales


- Isso funciona, mas fica muito verboso se tivermos mais filtros
- Podemos obter esses resultados usando condicionais, como AND e OR
- No pandas:
    - AND = `&`
    - OR = `|`
- Sendo assim, podemos obter a consulta anterior da seguinte maneira:

In [24]:
mask_gender = employees["Gender"] == "Male"
mask_100k = employees["Salary"] > 100000
employees[mask_gender & mask_100k].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
3,Jerry,Male,2005-03-04,2024-04-24 13:00:00,138705,9.34,True,Finance
4,Larry,Male,1998-01-24,2024-04-24 16:47:00,101004,1.389,True,Client Services
5,Dennis,Male,1987-04-18,2024-04-24 01:35:00,115163,10.125,False,Legal
12,Brandon,Male,1980-12-01,2024-04-24 01:08:00,112807,17.492,True,Human Resources
13,Gary,Male,2008-01-27,2024-04-24 23:40:00,109831,5.831,False,Sales


- De maneira similar, podemos usar o OR para escolher quem tem salario acima de 100k ou teve um bonus acima de 10%:

In [25]:
mask_bonus = employees["Bonus %"] > 10
employees[mask_100k | mask_bonus].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
2,Maria,Female,1993-04-23,2024-04-24 11:17:00,130590,11.858,False,Finance
3,Jerry,Male,2005-03-04,2024-04-24 13:00:00,138705,9.34,True,Finance
4,Larry,Male,1998-01-24,2024-04-24 16:47:00,101004,1.389,True,Client Services
5,Dennis,Male,1987-04-18,2024-04-24 01:35:00,115163,10.125,False,Legal
6,Ruby,Female,1987-08-17,2024-04-24 16:20:00,65476,10.012,True,Product


- Obviamente podemos combinar ORs e ANDs para consultas
- Por exemplo, queremos saber quem recebe mais de 100k ou teve mais de 10% de bonus e iniciou na empresa depois de 1 de janeiro de 2000
    - Observe que nesse caso temos que usar parenteses para dar prioridade nas operações

In [26]:
mask_2000 = employees["Start Date"] > "2000-01-01"
employees[(mask_100k | mask_bonus) & mask_2000].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
3,Jerry,Male,2005-03-04,2024-04-24 13:00:00,138705,9.34,True,Finance
8,Angela,Female,2005-11-22,2024-04-24 06:29:00,95570,18.523,True,Engineering
9,Frances,Female,2002-08-08,2024-04-24 06:51:00,139852,7.524,True,Business Development
13,Gary,Male,2008-01-27,2024-04-24 23:40:00,109831,5.831,False,Sales
22,Joshua,,2012-03-08,2024-04-24 01:58:00,90816,18.816,True,Client Services


- Agora é só exercitar a imaginação para treinar consultas diferentes

### Procurando multiplos matches em uma coluna
- Imagine que queremos selecionar os empregrados que fazem parte dos times (team) de Finance, Sales e Client Services
- Poderiamos fazer uma mascara para cada filtro e usar o operador `|`
- Porém, isso é muito verboso. No caso de 3 até vai, mas imagina 20 times
- Para isso, podemos usar a função `isin()`
    - Vamos passar uma lista de interesse e ela retorna a mascara pra gente

In [27]:
mask_teams = employees["Team"].isin(["Finance", "Sales", "Client Services"])
employees[mask_teams].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
2,Maria,Female,1993-04-23,2024-04-24 11:17:00,130590,11.858,False,Finance
3,Jerry,Male,2005-03-04,2024-04-24 13:00:00,138705,9.34,True,Finance
4,Larry,Male,1998-01-24,2024-04-24 16:47:00,101004,1.389,True,Client Services
13,Gary,Male,2008-01-27,2024-04-24 23:40:00,109831,5.831,False,Sales
14,Kimberly,Female,1999-01-14,2024-04-24 07:13:00,41426,14.543,True,Finance


### Procurando por valores que sejam nulos
- Vamos supor que queremos selecionar aqueles empregados que estão sem time
- Nesse caso, seria representado por um `NaN`
- Vamos selecionar usando o método `isnull()`

In [28]:
mask_no_team = employees["Team"].isnull()
employees[mask_no_team].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
1,Thomas,Male,1996-03-31,2024-04-24 06:53:00,61933,4.17,True,
10,Louise,Female,1980-08-12,2024-04-24 09:01:00,63241,15.132,True,
91,James,,2005-01-26,2024-04-24 23:00:00,128771,8.309,False,
109,Christopher,Male,2000-04-22,2024-04-24 10:15:00,37919,11.449,False,
199,Jonathan,Male,2009-07-17,2024-04-24 08:15:00,130581,16.736,True,


- Também podemos procurar por aqueles que possui um time
- Em outras palavras, todos que não são nulos
- Para isso, vamos usar o método `notnull()`

In [29]:
mask_have_team = employees["Team"].notnull()
employees[mask_have_team].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,1993-08-06,2024-04-24 12:42:00,97308,6.945,True,Marketing
2,Maria,Female,1993-04-23,2024-04-24 11:17:00,130590,11.858,False,Finance
3,Jerry,Male,2005-03-04,2024-04-24 13:00:00,138705,9.34,True,Finance
4,Larry,Male,1998-01-24,2024-04-24 16:47:00,101004,1.389,True,Client Services
5,Dennis,Male,1987-04-18,2024-04-24 01:35:00,115163,10.125,False,Legal


### Procurando por valores dentro de um intervalo
- Imagine que desejamos selecionar salários que estejam no intervalo de 100000 até 120000
- Poderiamos fazer duas mascaras e usar o `|`
- Mas novamente, isso é trabalhoso
- Podemos usar o método `between()`

In [30]:
mask_btw = employees["Salary"].between(100000, 120000)
employees[mask_btw].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
4,Larry,Male,1998-01-24,2024-04-24 16:47:00,101004,1.389,True,Client Services
5,Dennis,Male,1987-04-18,2024-04-24 01:35:00,115163,10.125,False,Legal
11,Julie,Female,1997-10-26,2024-04-24 15:19:00,102508,12.637,True,Legal
12,Brandon,Male,1980-12-01,2024-04-24 01:08:00,112807,17.492,True,Human Resources
13,Gary,Male,2008-01-27,2024-04-24 23:40:00,109831,5.831,False,Sales


- É interessante destacar que o método também funciona para `datetime` o/
- Vamos supor que desejamos encontrar empregados que começaram a trabalhar em 1 de jan de 1995 até 1 de agosto de 2000:

In [31]:
mask_btw_date = employees["Start Date"].between("1995-01-01", "2000-08-01")
employees[mask_btw_date].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
1,Thomas,Male,1996-03-31,2024-04-24 06:53:00,61933,4.17,True,
4,Larry,Male,1998-01-24,2024-04-24 16:47:00,101004,1.389,True,Client Services
11,Julie,Female,1997-10-26,2024-04-24 15:19:00,102508,12.637,True,Legal
14,Kimberly,Female,1999-01-14,2024-04-24 07:13:00,41426,14.543,True,Finance
20,Lois,,1995-04-22,2024-04-24 19:18:00,64714,4.934,True,Legal


- Outro exemplo é econtrar um login que ocorreu entre 16h e 17h
    - Importante: eu carreguei esses dados no dia 2022-04-12, pra você vai aparecer a data de hoje, entao teria que trocar

In [34]:
mask_btw_login = employees["Last Login Time"].between("2024-04-24 16:00:00", "2024-04-24 17:00:00")
employees[mask_btw_login].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
4,Larry,Male,1998-01-24,2024-04-24 16:47:00,101004,1.389,True,Client Services
6,Ruby,Female,1987-08-17,2024-04-24 16:20:00,65476,10.012,True,Product
69,Irene,,2015-07-14,2024-04-24 16:31:00,100863,4.382,True,Finance
71,Johnny,Male,2009-11-06,2024-04-24 16:23:00,118172,16.194,True,Sales
73,Frances,Female,1999-04-04,2024-04-24 16:19:00,90582,4.709,True,Sales


## Filtrando dados com o método `where()`
- Podemos usar o `where` para filtramos dados 
- Funciona de maneira similar, porém, ele retorna `NaN` para as linhas que não dão match
    - Observe que até o momento, a gente descarta tudo que não da match na busca

In [35]:
employees.where(mask_btw_login)

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,,,NaT,NaT,,,,
1,,,NaT,NaT,,,,
2,,,NaT,NaT,,,,
3,,,NaT,NaT,,,,
4,Larry,Male,1998-01-24,2024-04-24 16:47:00,101004.0,1.389,True,Client Services
...,...,...,...,...,...,...,...,...
995,,,NaT,NaT,,,,
996,,,NaT,NaT,,,,
997,,,NaT,NaT,,,,
998,Larry,Male,2013-04-20,2024-04-24 16:45:00,60500.0,11.985,False,Business Development


- Observe que foi retornado `NaN` e `NaT` para todas as linhas que não dão match na busca
- Obviamente, também podemos usar a maneira raw, sem gerar a mascara:

In [36]:
employees.where(employees["Bonus %"] > 12.0)

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,,,NaT,NaT,,,,
1,,,NaT,NaT,,,,
2,,,NaT,NaT,,,,
3,,,NaT,NaT,,,,
4,,,NaT,NaT,,,,
...,...,...,...,...,...,...,...,...
995,Henry,,2014-11-23,2024-04-24 06:09:00,132483.0,16.655,False,Distribution
996,Phillip,Male,1984-01-31,2024-04-24 06:30:00,42392.0,19.675,False,Finance
997,,,NaT,NaT,,,,
998,,,NaT,NaT,,,,


- Não vou colocar aqui, mas também podemos usar `&`, `|`, etc

## Filtrado dados usando o método `query()`
- Uma outra maneira de filtrar os dados do DF é usando o `query`
- Em resumo, a query é passada como string 
- Para funcionar, as colunas devem ter nomes validos de variavel, ou seja, nao pode ter espaço e nem caracter especial

In [37]:
employees.query("Gender == 'Male'").head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,1993-08-06,2024-04-24 12:42:00,97308,6.945,True,Marketing
1,Thomas,Male,1996-03-31,2024-04-24 06:53:00,61933,4.17,True,
3,Jerry,Male,2005-03-04,2024-04-24 13:00:00,138705,9.34,True,Finance
4,Larry,Male,1998-01-24,2024-04-24 16:47:00,101004,1.389,True,Client Services
5,Dennis,Male,1987-04-18,2024-04-24 01:35:00,115163,10.125,False,Legal


In [38]:
employees.query("Gender == 'Male' and Team == 'Marketing'").head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,1993-08-06,2024-04-24 12:42:00,97308,6.945,True,Marketing
21,Matthew,Male,1995-09-05,2024-04-24 02:12:00,100612,13.645,False,Marketing
26,Craig,Male,2000-02-27,2024-04-24 07:45:00,37598,7.757,True,Marketing
74,Thomas,Male,1995-06-04,2024-04-24 14:24:00,62096,17.029,False,Marketing
77,Charles,Male,2004-09-14,2024-04-24 20:13:00,107391,1.26,True,Marketing


In [39]:
employees.query("Gender == 'Male' and (Team == 'Marketing' or Salary > 60000)").head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,1993-08-06,2024-04-24 12:42:00,97308,6.945,True,Marketing
1,Thomas,Male,1996-03-31,2024-04-24 06:53:00,61933,4.17,True,
3,Jerry,Male,2005-03-04,2024-04-24 13:00:00,138705,9.34,True,Finance
4,Larry,Male,1998-01-24,2024-04-24 16:47:00,101004,1.389,True,Client Services
5,Dennis,Male,1987-04-18,2024-04-24 01:35:00,115163,10.125,False,Legal


In [40]:
employees.query("Team in ['Marketing', 'Product', 'Distribution']").head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,1993-08-06,2024-04-24 12:42:00,97308,6.945,True,Marketing
6,Ruby,Female,1987-08-17,2024-04-24 16:20:00,65476,10.012,True,Product
15,Lillian,Female,2016-06-05,2024-04-24 06:09:00,59414,1.256,False,Product
17,Shawn,Male,1986-12-07,2024-04-24 19:45:00,111737,6.414,False,Product
19,Donna,Female,2010-07-22,2024-04-24 03:48:00,81014,1.894,False,Product


## Procurando por dados duplicados
- Se observarmos na coluna `First Name` teremos dados duplicados
- Vamos ordernar apenas para averiguação

In [41]:
employees.sort_values(by="First Name", inplace=True)
employees.head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
101,Aaron,Male,2012-02-17,2024-04-24 10:20:00,61602,11.849,True,Marketing
327,Aaron,Male,1994-01-29,2024-04-24 18:48:00,58755,5.097,True,Marketing
440,Aaron,Male,1990-07-22,2024-04-24 14:53:00,52119,11.343,True,Client Services
937,Aaron,,1986-01-22,2024-04-24 19:39:00,63126,18.424,False,Client Services
137,Adam,Male,2011-05-21,2024-04-24 01:45:00,95327,15.12,False,Distribution


- Uma maneira de identificar os dados duplicados de uma série é usado o método `duplicated()`
    - Retorna uma outra série na qual a primeira ocorrencia é False e as demais True porque sao duplicadas

In [42]:
employees["First Name"].duplicated(keep="first")

101    False
327     True
440     True
937     True
137    False
       ...  
450    False
112     True
175     True
204     True
652     True
Name: First Name, Length: 933, dtype: bool

- Pordemos trocar o parametro `keep` para `last`, fazendo com que retorne false apenas para o último

In [43]:
employees["First Name"].duplicated(keep="last")

101     True
327     True
440     True
937    False
137     True
       ...  
450     True
112     True
175     True
204     True
652    False
Name: First Name, Length: 933, dtype: bool

- Se quisermos identificar qualquer dado duplicado, temos que usar o `keep = False`

In [44]:
employees["First Name"].duplicated(keep=False)

101    True
327    True
440    True
937    True
137    True
       ... 
450    True
112    True
175    True
204    True
652    True
Name: First Name, Length: 933, dtype: bool

- Podemos criar mascaras com essas séries, mas normalmente precisamos negar o resultado pois ele retorna `True` para duplicated e normalmente estamos interessados no `False`
para nao ser selecionado no dataframe
    - Para isso usamos o `~` antes da mascara ja criada, exemplo:

In [45]:
~employees["First Name"].duplicated(keep=False)

101    False
327    False
440    False
937    False
137    False
       ...  
450    False
112    False
175    False
204    False
652    False
Name: First Name, Length: 933, dtype: bool

- Dessa maneira, se quisermos selecionar apenas a primeira ocorrencia de dados duplicados, podemos fazer:

In [46]:
mask_dup = ~employees["First Name"].duplicated(keep="first")
employees[mask_dup].head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
101,Aaron,Male,2012-02-17,2024-04-24 10:20:00,61602,11.849,True,Marketing
137,Adam,Male,2011-05-21,2024-04-24 01:45:00,95327,15.12,False,Distribution
300,Alan,Male,1988-06-26,2024-04-24 03:54:00,111786,3.592,True,Engineering
372,Albert,Male,1997-02-01,2024-04-24 16:20:00,67827,19.717,True,Engineering
988,Alice,Female,2004-10-05,2024-04-24 09:34:00,47638,11.209,False,Human Resources


### Removendo dados duplicados com o `drop_duplicates()`
- Com esse método podemos obter o mesmo resultado anterior, mas escrevendo um pouco menos
- Porém, se chamarmos ele sem definir os parametros, ele vai tentar remover duplicações apenas se a **linha inteira for repetida**

In [47]:
employees.drop_duplicates().head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
101,Aaron,Male,2012-02-17,2024-04-24 10:20:00,61602,11.849,True,Marketing
327,Aaron,Male,1994-01-29,2024-04-24 18:48:00,58755,5.097,True,Marketing
440,Aaron,Male,1990-07-22,2024-04-24 14:53:00,52119,11.343,True,Client Services
937,Aaron,,1986-01-22,2024-04-24 19:39:00,63126,18.424,False,Client Services
137,Adam,Male,2011-05-21,2024-04-24 01:45:00,95327,15.12,False,Distribution


- Perceba que não removeu as duplicações como Aaron
- Para obtermos resultados como os anteriores, temos que especificar os parametros
    - A sintaxe é bem parecido com as que já vimos até então

In [48]:
employees.drop_duplicates(subset=["First Name"], keep="first").head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
101,Aaron,Male,2012-02-17,2024-04-24 10:20:00,61602,11.849,True,Marketing
137,Adam,Male,2011-05-21,2024-04-24 01:45:00,95327,15.12,False,Distribution
300,Alan,Male,1988-06-26,2024-04-24 03:54:00,111786,3.592,True,Engineering
372,Albert,Male,1997-02-01,2024-04-24 16:20:00,67827,19.717,True,Engineering
988,Alice,Female,2004-10-05,2024-04-24 09:34:00,47638,11.209,False,Human Resources


- Agora sim, as duplicações em `First Name` foram removidas
- Porém, temos que tomar cuidado. Se aplicarmos essa função (assim como a `duplicated()`) para dados que necessitam de duplicação, nao vamos obter um resultado desejado
- Por exemplo, a coluna `team` tem duplicatas, mas é necessário ter. Se tentarmos remover, não vai sobrar nada:

In [49]:
employees.drop_duplicates(subset=["Team"], keep=False).head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team


- Agora, se passarmos duas colunas para subset, ele só remove os dois valores forem iguais em linhas diferentes. Por exemplo:

In [50]:
employees.drop_duplicates(subset=["First Name", "Team"], keep="first").head()

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
101,Aaron,Male,2012-02-17,2024-04-24 10:20:00,61602,11.849,True,Marketing
440,Aaron,Male,1990-07-22,2024-04-24 14:53:00,52119,11.343,True,Client Services
137,Adam,Male,2011-05-21,2024-04-24 01:45:00,95327,15.12,False,Distribution
141,Adam,Male,1990-12-24,2024-04-24 20:57:00,110194,14.727,True,Product
302,Adam,Male,2007-07-05,2024-04-24 11:59:00,71276,5.027,True,Human Resources


- Todos os `Aarons` são mantidos porque eles são de times diferentes, o que não configura uma duplicação

### Encontrando os valores únicos de uma coluna
- Para encontrar quais e quantos são os valores únicos de uma série, podemos usar os métodos `unique()` e `nunique()`

In [51]:
employees["Team"].unique()

array(['Marketing', 'Client Services', 'Distribution', 'Product',
       'Human Resources', 'Engineering', 'Finance',
       'Business Development', 'Sales', nan, 'Legal'], dtype=object)

In [52]:
len(employees["Team"].unique())

11

In [53]:
employees["Team"].nunique()

10

- Observe que deu uma diferença nos valores
- Isso ocorre porque o `len` conta o `NaN` que é um elemento da lista, enquanto, por padrão, o `nunique()` remove, uma vez que não é uma entrada válida
- Porém, podemos alterar esse padrão:

In [54]:
employees["Team"].nunique(dropna=False)

11