# 7 - Filtragem de dados
Filtragem de dados é uma tarefa importantíssima na vida de qualquer cientista de dados. Nessa seção, veremos como criar filtros em um conjunto de dados utilizando o Pandas.

## Operadores booleanos

### and

In [None]:
x = 12

In [None]:
x > 5 and x < 15

True

### or

In [None]:
y = 5

In [None]:
y < 7 or y > 13

True

### not

In [None]:
not True

False

In [None]:
not False

True

### Numpy

In [None]:
import numpy as np

np_height = np.array([1.73, 1.68, 1.71, 1.89, 1.79])
np_weight = np.array([65.4, 59.2, 63.6, 88.4, 68.7])
bmi = np_weight / np_height ** 2

bmi

array([21.85171573, 20.97505669, 21.75028214, 24.7473475 , 21.44127836])

In [None]:
bmi > 21

array([ True, False,  True,  True,  True])

Exemplo de erro seguido da forma correta de se fazer uma seleção com and

In [None]:
bmi > 21 and bmi < 22

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [None]:
np.logical_and(bmi > 21, bmi < 22)

array([ True, False,  True, False,  True])

Onde o indice de bmi onde tem True é mostrado, e onde não tem, não é.

In [None]:
bmi[np.logical_and(bmi > 21, bmi < 22)]

array([21.85171573, 21.75028214, 21.44127836])

## Filtrando um DataFrame Pandas

In [None]:
import pandas as pd
brics = pd.read_csv('brics.csv', index_col=0)
brics

Unnamed: 0,country,capital,area,population
BR,Brazil,Brasilia,8.516,200.4
RU,Russia,Moscow,17.1,143.5
IN,India,New Delhi,3.286,1252.0
CH,China,Beijing,9.597,1357.0
SA,South Africa,Pretoria,1.221,52.98


**Objetivo**: selecionar os países com área maior do que 8 milhões de km2

3 passos:
- Selecionar a coluna "area"
- Fazer uma comparação na coluna "area"
- Usar o resultado para selecionar os países

In [None]:
# Selecionar a coluna "area"
brics['area']

BR     8.516
RU    17.100
IN     3.286
CH     9.597
SA     1.221
Name: area, dtype: float64

In [None]:
# Fazer uma comparação na coluna "area"
brics['area'] > 8
is_huge = brics['area'] > 8
is_huge

BR     True
RU     True
IN    False
CH     True
SA    False
Name: area, dtype: bool

In [None]:
# Usar o resultado para selecionar os países
brics[is_huge]

Unnamed: 0,country,capital,area,population
BR,Brazil,Brasilia,8.516,200.4
RU,Russia,Moscow,17.1,143.5
CH,China,Beijing,9.597,1357.0


In [None]:
# Importando dataset de carros
import pandas as pd
cars = pd.read_csv('cars.csv', index_col = 0)
cars

Unnamed: 0,cars_per_cap,country,drives_right
US,809,United States,True
AUS,731,Australia,False
JAP,588,Japan,False
IN,18,India,False
RU,200,Russia,True
MOR,70,Morocco,True
EG,45,Egypt,True


In [None]:
# Extraia a coluna 'drives_right' do DataFrame 'cars' e atribua a variável 'dr'
dr = cars['drives_right']

# Use a variável 'dr' para criar um subconjunto de dados chamado 'sel'
sel = cars[dr]

# Imprima a variável 'sel'
print(sel)

     cars_per_cap        country  drives_right
US            809  United States          True
RU            200         Russia          True
MOR            70        Morocco          True
EG             45          Egypt          True


cpc é a seleção da coluna cars_per_cap.


many_cars é um array de true ou false usado para selecionar os paises com cpc > 500.

In [None]:
# Crie uma variável car_maniac: linhas que possuem 'cars_per_cap' maiores do que 500
cpc = cars['cars_per_cap']
many_cars = cpc > 500
car_maniac = cars[many_cars]

# Imprima 'car_maniac'
print(car_maniac)

     cars_per_cap        country  drives_right
US            809  United States          True
AUS           731      Australia         False
JAP           588          Japan         False


In [None]:
# Importe o conjunto de dados 'cars.csv', bem como as bibliotecas 'pandas' e 'numpy'
import pandas as pd
import numpy as np
cars = pd.read_csv('cars.csv', index_col = 0)

# Crie a variável 'medium': linhas que possuem 'cars_per_cap' entre 100 e 500
cpc = cars['cars_per_cap']
between = np.logical_and(cpc > 100, cpc < 500)
medium = cars[between]

# Imprima 'medium'
print(medium)

    cars_per_cap country  drives_right
RU           200  Russia          True
