# 7 - Filtragem de dados
Filtragem de dados é uma tarefa importantíssima na vida de qualquer cientista de dados. Nessa seção, veremos como criar filtros em um conjunto de dados utilizando o Pandas.

## Operadores booleanos

### and
Realiza uma condição and com o valor x

In [None]:
x = 12

In [None]:
x > 5 and x < 15

True

### or
Realiza uma condição and com o valor x

In [None]:
y = 5

In [None]:
y < 7 or y > 13

True

### not
Mostra como funcina a negação not, como inversor do valor booleano

In [None]:
not True

False

In [None]:
not False

True

### Numpy
Cria arrays numpy para altura, peso e bmi 

In [1]:
import numpy as np

np_height = np.array([1.73, 1.68, 1.71, 1.89, 1.79])
np_weight = np.array([65.4, 59.2, 63.6, 88.4, 68.7])
bmi = np_weight / np_height ** 2

bmi

array([21.85171573, 20.97505669, 21.75028214, 24.7473475 , 21.44127836])

Retorna um array com os valores booleanos da condição imposta

In [None]:
bmi > 21

array([ True, False,  True,  True,  True])

Erro, como não fazer

In [5]:
((bmi > 21) and (bmi < 22))

ValueError: ignored

Maneira correta de utilizar o operador and com arrays np

In [None]:
np.logical_and(bmi > 21, bmi < 22)

array([ True, False,  True, False,  True])

Filtra um array na qual os elementos tiveram como resultado True do bmi

In [None]:
bmi[np.logical_and(bmi > 21, bmi < 22)]

array([21.85171573, 21.75028214, 21.44127836])

## Filtrando um DataFrame Pandas

Salva os dados em brics 

In [6]:
import pandas as pd
brics = pd.read_csv('brics.csv', index_col=0)
brics

Unnamed: 0,country,capital,area,population
BR,Brazil,Brasilia,8.516,200.4
RU,Russia,Moscow,17.1,143.5
IN,India,New Delhi,3.286,1252.0
CH,China,Beijing,9.597,1357.0
SA,South Africa,Pretoria,1.221,52.98


**Objetivo**: selecionar os países com área maior do que 8 milhões de km2

3 passos:
- Selecionar a coluna "area"
- Fazer uma comparação na coluna "area"
- Usar o resultado para selecionar os países

Isso é feito utilizando os condicionais, realizando que a condição seja maior que 8.

In [None]:
# Selecionar a coluna "area"
brics['area']

BR     8.516
RU    17.100
IN     3.286
CH     9.597
SA     1.221
Name: area, dtype: float64

In [None]:
# Fazer uma comparação na coluna "area"
brics['area'] > 8
is_huge = brics['area'] > 8
is_huge

BR     True
RU     True
IN    False
CH     True
SA    False
Name: area, dtype: bool

In [None]:
# Usar o resultado para selecionar os países
brics[is_huge]

Unnamed: 0,country,capital,area,population
BR,Brazil,Brasilia,8.516,200.4
RU,Russia,Moscow,17.1,143.5
CH,China,Beijing,9.597,1357.0


Importando o dataset de carros do arquivo cars.csv

In [7]:
# Importando dataset de carros
import pandas as pd
cars = pd.read_csv('cars.csv', index_col = 0)
cars

Unnamed: 0,cars_per_cap,country,drives_right
US,809,United States,True
AUS,731,Australia,False
JAP,588,Japan,False
IN,18,India,False
RU,200,Russia,True
MOR,70,Morocco,True
EG,45,Egypt,True


Selecionando a coluna drives right de df e guardando em dr. Com isso podemos verificar quais paises dirigem pela direita passando cars[dr] pois vai retornar somente os paises que dirigem no lado direito

In [None]:
# Extraia a coluna 'drives_right' do DataFrame 'cars' e atribua a variável 'dr'
dr = cars['drives_right']

# Use a variável 'dr' para criar um subconjunto de dados chamado 'sel'
sel = cars[dr]

# Imprima a variável 'sel'
print(sel)

     cars_per_cap        country  drives_right
US            809  United States          True
RU            200         Russia          True
MOR            70        Morocco          True
EG             45          Egypt          True


Realiza a filtragem baseado nos paises que possuem cars_per_cap maiores que 500. Criando uma variavel cpc para receber os dados da primeira coluna e em seguida verificando quais possuem mais de 500 e assim obtendo o dataframe resultante da filtragem (car_maniac).

In [None]:
# Crie uma variável car_maniac: linhas que possuem 'cars_per_cap' maiores do que 500
cpc = cars['cars_per_cap']
many_cars = cpc > 500
car_maniac = cars[many_cars]

# Imprima 'car_maniac'
print(car_maniac)

     cars_per_cap        country  drives_right
US            809  United States          True
AUS           731      Australia         False
JAP           588          Japan         False


Realiza o mesmo processo só que com a condição diferente utilizando um operador booleano and para saber quais paises estão no intervalo de 100 e 500

In [None]:
# Importe o conjunto de dados 'cars.csv', bem como as bibliotecas 'pandas' e 'numpy'
import pandas as pd
import numpy as np
cars = pd.read_csv('cars.csv', index_col = 0)

# Crie a variável 'medium': linhas que possuem 'cars_per_cap' entre 100 e 500
cpc = cars['cars_per_cap']
between = np.logical_and(cpc > 100, cpc < 500)
medium = cars[between]

# Imprima 'medium'
print(medium)

    cars_per_cap country  drives_right
RU           200  Russia          True
