# 7 - Filtragem de dados
Filtragem de dados é uma tarefa importantíssima na vida de qualquer cientista de dados. Nessa seção, veremos como criar filtros em um conjunto de dados utilizando o Pandas.

## Operadores booleanos

### and

Criando uma expressão booleana usando o operador booleano and, a qual retorna True, pois 12 é maior que 5 e também é menor que 15 (ou seja, as duas condições são verdadeiras)

In [1]:
x = 12

In [2]:
x > 5 and x < 15

True

Criando uma expressão booleana usando o operador booleano or, a qual retorna True, pois 5 é menor que 7(ou seja, pelo menos uma das condições é verdadeira)

### or

In [4]:
y = 5

In [5]:
y < 7 or y > 13

True

### not

O operador booleano not reverte valores booleanos

Dessa forma, True se torna False e False se torna True

In [9]:
not True

False

In [10]:
not False

True

### Numpy

Criando os arrays 'np_height' e 'np_weight' e usando eles para calcular o IMC, salvando os resultados no array 'bmi'

In [17]:
import numpy as np

np_height = np.array([1.73, 1.68, 1.71, 1.89, 1.79])
np_weight = np.array([65.4, 59.2, 63.6, 88.4, 68.7])
bmi = np_weight / np_height ** 2

bmi

array([21.85171573, 20.97505669, 21.75028214, 24.7473475 , 21.44127836])

Usando um array em uma expressão booleana, temos como resultado um array que contém True ou False como seus elementos, dependendo se o elemento daquele índice no array original atende a condição especificada ou não

In [13]:
bmi > 21

array([ True, False,  True,  True,  True])

Não podemos usar o operador booleano and com arrays com mais de um elemento, pois eles contêm um conjunto de valores verdade, o que torna a operação ambígua (já que o operador and retorna apenas True ou False e não um array)

In [20]:
bmi > 21 and bmi < 22

ValueError: ignored

Usando o método logical_and, é possível retornar um array cujos elementos são valores booleanos, dependendo se o elemento daquele determinado índice no array original atende a ambas as condições

In [21]:
np.logical_and(bmi > 21, bmi < 22)

array([ True, False,  True, False,  True])

Usando o array de valores booleanos obtido com o método logical_and, é possível obter um novo array apenas com os elementos do array original que atendem a ambas as condições

Para isso, basta passar o array de valores booleanos entre [ ] para o array original

In [24]:
bmi[np.logical_and(bmi > 21, bmi < 22)]

array([21.85171573, 21.75028214, 21.44127836])

## Filtrando um DataFrame Pandas

Criando um DataFrame 'brics' a partir de um arquivo csv usando o método read_csv

O argumento 'index_col = 0' indica que os rótulos das linhas estão contidos na coluna 0 do arquivo csv

In [25]:
import pandas as pd
brics = pd.read_csv('brics.csv', index_col=0)
brics

Unnamed: 0,country,capital,area,population
BR,Brazil,Brasilia,8.516,200.4
RU,Russia,Moscow,17.1,143.5
IN,India,New Delhi,3.286,1252.0
CH,China,Beijing,9.597,1357.0
SA,South Africa,Pretoria,1.221,52.98


**Objetivo**: selecionar os países com área maior do que 8 milhões de km2

3 passos:
- Selecionar a coluna "area"
- Fazer uma comparação na coluna "area"
- Usar o resultado para selecionar os países

Selecionando apenas a coluna 'area' do DataFrame 'brics'

In [26]:
# Selecionar a coluna "area"
brics['area']

BR     8.516
RU    17.100
IN     3.286
CH     9.597
SA     1.221
Name: area, dtype: float64

Usando a coluna 'area' do DataFrame em uma expressão booleana, podemos obter como resultado uma coluna com valores True or False, dependendo se o valor original daquela determinada linha (na coluna 'area') atende a condição ou não 

In [27]:
# Fazer uma comparação na coluna "area"
brics['area'] > 8
is_huge = brics['area'] > 8
is_huge

BR     True
RU     True
IN    False
CH     True
SA    False
Name: area, dtype: bool

Por fim, passando o resultado da operação anterior(a coluna com valores booleanos) para o DataFrame 'brics' entre [ ], conseguimos selecionar apenas os países que têm área superior a 8 milhões de km²

In [28]:
# Usar o resultado para selecionar os países
brics[is_huge]

Unnamed: 0,country,capital,area,population
BR,Brazil,Brasilia,8.516,200.4
RU,Russia,Moscow,17.1,143.5
CH,China,Beijing,9.597,1357.0


Criando um DataFrame 'cars' a partir de um arquivo csv usando o método read_csv

O argumento 'index_col = 0' indica que os rótulos das linhas estão contidos na coluna 0 do arquivo csv

In [29]:
# Importando dataset de carros
import pandas as pd
cars = pd.read_csv('cars.csv', index_col = 0)
cars

Unnamed: 0,cars_per_cap,country,drives_right
US,809,United States,True
AUS,731,Australia,False
JAP,588,Japan,False
IN,18,India,False
RU,200,Russia,True
MOR,70,Morocco,True
EG,45,Egypt,True


Usando a coluna 'drives_right' do DataFrame 'cars', conseguimos selecionar apenas as linhas do DataFrame cujo valor nessa coluna é True

Para isso, basta passar a coluna 'drives_right' entre [ ] para o DataFrame 'cars'

In [30]:
# Extraia a coluna 'drives_right' do DataFrame 'cars' e atribua a variável 'dr'
dr = cars['drives_right']

# Use a variável 'dr' para criar um subconjunto de dados chamado 'sel'
sel = cars[dr]

# Imprima a variável 'sel'
print(sel)

     cars_per_cap        country  drives_right
US            809  United States          True
RU            200         Russia          True
MOR            70        Morocco          True
EG             45          Egypt          True


Usando a coluna 'cars_per_cap' do DataFrame 'cars', conseguimos selecionar apenas as linhas do DataFrame que possuem valor acima de 500 nessa coluna

Para isso, selecionamos a coluna 'cars_per_cap' usando a variável 'cpc' e a usamos na expressão cpc > 500, a qual retorna uma coluna com valores booleanos(True se o valor daquela linha for maior que 500 e False caso contrário), a qual passamos para o DataFrame 'cars' entre [ ], filtrando o DataFrame

In [31]:
# Crie uma variável car_maniac: linhas que possuem 'cars_per_cap' maiores do que 500
cpc = cars['cars_per_cap']
many_cars = cpc > 500
car_maniac = cars[many_cars]

# Imprima 'car_maniac'
print(car_maniac)

     cars_per_cap        country  drives_right
US            809  United States          True
AUS           731      Australia         False
JAP           588          Japan         False


A célula abaixo faz a mesma coisa que a anterior, a diferença é que a condição é diferente

Agora, queremos as linhas do DataFrame 'cars' cujo valor na coluna 'cars_per_cap' está entre 100 e 500

Portanto, agora precisamos usar o método logical_and, uma vez que duas condições precisam ser cumpridas ao mesmo tempo

O resto é análogo a célula anterior

In [32]:
# Importe o conjunto de dados 'cars.csv', bem como as bibliotecas 'pandas' e 'numpy'
import pandas as pd
import numpy as np
cars = pd.read_csv('cars.csv', index_col = 0)

# Crie a variável 'medium': linhas que possuem 'cars_per_cap' entre 100 e 500
cpc = cars['cars_per_cap']
between = np.logical_and(cpc > 100, cpc < 500)
medium = cars[between]

# Imprima 'medium'
print(medium)

    cars_per_cap country  drives_right
RU           200  Russia          True
