# 7 - Filtragem de dados
Filtragem de dados é uma tarefa importantíssima na vida de qualquer cientista de dados. Nessa seção, veremos como criar filtros em um conjunto de dados utilizando o Pandas.

## Operadores booleanos

### and

In [None]:
x = 12

In [None]:
x > 5 and x < 15

True

**Comentário 01** O operador lógico `and` é utilizado para analisar duas ou mais sentenças booleanas que, no geral, retorna `True` se todas as sentenças são verdadeiras (retorna `False` caso contrário). 

### or

In [None]:
y = 5

In [None]:
y < 7 or y > 13

True

**Comentário 02:** O operador lógico `or` é utilizado para analisar duas ou mais sentenças booleanas que, no geral, retorna `True` se ao menos uma sentença for verdadeira (retorna `False` caso contrário).

### not

In [None]:
not True

False

In [None]:
not False

True

**Comentário 03:** O operador lógico de negação `not` retorna o valor booleano inverso da sentença, ou seja, retorna `True` se a sentença negada retornar `False`, e retorna `False` se a sentença negada retornar `True`.

### Numpy

In [None]:
import numpy as np

np_height = np.array([1.73, 1.68, 1.71, 1.89, 1.79])
np_weight = np.array([65.4, 59.2, 63.6, 88.4, 68.7])
bmi = np_weight / np_height ** 2

bmi

array([21.85171573, 20.97505669, 21.75028214, 24.7473475 , 21.44127836])

**Comentário 04:** Temos a importação da biblioteca `numpy` com o aliás 'np' e a criação de dois numpy array's (`np_height` e `np_weight`) a partir do método `np.array`. Na sequência, `bmi` recebe por atribuição o array resultante da operação `np_weight / np_height ** 2`.

In [None]:
bmi > 21

array([ True, False,  True,  True,  True])

**Comentário 05:** Retorna um array com `True` na posição do elemento de `bmi` se esse elemento for maior que 21, ou `False` caso contrário.

In [None]:
bmi > 21 and bmi < 22

ValueError: ignored

**Comentário 06:** O código acima está inválido. Pela minha interpretação, o que deveria ser feito era retornar `True` se todos os elementos forem maiores que 21 e menores que 22. Dessa forma, podemos substituir o comando acima por esse: `np.all(bmi > 21) and np.all(bmi < 22)`. 

In [None]:
np.logical_and(bmi > 21, bmi < 22)

array([ True, False,  True, False,  True])

**Comentário 07:** `np.logical_and(bmi > 21, bmi < 22)` retorna um array com `True` na posição do elemento de `bmi` se esse elemento for maior que 21 e menor que 22, ou `False` caso contrário.

In [None]:
bmi[np.logical_and(bmi > 21, bmi < 22)]

array([21.85171573, 21.75028214, 21.44127836])

**Comentário 08:** `bmi[np.logical_and(bmi > 21, bmi < 22)]` retorna um array apenas com os elementos que retornam `True` em `np.logical_and(bmi > 21, bmi < 22)`.

## Filtrando um DataFrame Pandas

In [None]:
import pandas as pd
brics = pd.read_csv('brics.csv', index_col=0)
brics

FileNotFoundError: ignored

**Comentário 09:** A célula de código acima faz a importação da biblioteca `pandas` com o aliás 'pd' e cria um dataframe `brics` com `pd.read_csv('brics.csv', index_col=0)`.

**Objetivo**: selecionar os países com área maior do que 8 milhões de km2

3 passos:
- Selecionar a coluna "area"
- Fazer uma comparação na coluna "area"
- Usar o resultado para selecionar os países

In [None]:
# Selecionar a coluna "area"
brics['area']

NameError: ignored

**Comentário 10:** O comando `brics['area']` selecione apenas a coluna 'area' do dataframe.

In [None]:
# Fazer uma comparação na coluna "area"
brics['area'] > 8
is_huge = brics['area'] > 8
is_huge

BR     True
RU     True
IN    False
CH     True
SA    False
Name: area, dtype: bool

**Comentário 11:** `is_huge` recebe os valores `True` ou `False` de acordo com o resultado do teste lógico `brics['area'] > 8`; 

In [None]:
# Usar o resultado para selecionar os países
brics[is_huge]

Unnamed: 0,country,capital,area,population
BR,Brazil,Brasilia,8.516,200.4
RU,Russia,Moscow,17.1,143.5
CH,China,Beijing,9.597,1357.0


**Comentário 12:** `is_huge` é utilizado para filtrar os dados do dataframe em que o valor na coluna 'area' seja maior do que 8.

In [None]:
# Importando dataset de carros
import pandas as pd
cars = pd.read_csv('cars.csv', index_col = 0)
cars

Unnamed: 0,cars_per_cap,country,drives_right
US,809,United States,True
AUS,731,Australia,False
JAP,588,Japan,False
IN,18,India,False
RU,200,Russia,True
MOR,70,Morocco,True
EG,45,Egypt,True


**Comentário 13:** Na célula de código acima temos a importação da biblioteca `pandas` com o aliás 'pd' e a importação de um dataset para `cars` por meio do comando `pd.read_csv('cars.csv', index_col = 0)`.

In [None]:
# Extraia a coluna 'drives_right' do DataFrame 'cars' e atribua a variável 'dr'
dr = cars['drives_right']

# Use a variável 'dr' para criar um subconjunto de dados chamado 'sel'
sel = cars[dr]

# Imprima a variável 'sel'
print(sel)

     cars_per_cap        country  drives_right
US            809  United States          True
RU            200         Russia          True
MOR            70        Morocco          True
EG             45          Egypt          True


**Comentário 14:** `dr` recebe a coluna 'drives_right' do dataframe `cars`. Em seguida, `sel` recebe um subconjunto de dados de `cars` a partir da filtragem com os dados `True` de `dr`. 

In [None]:
# Crie uma variável car_maniac: linhas que possuem 'cars_per_cap' maiores do que 500
cpc = cars['cars_per_cap']
many_cars = cpc > 500
car_maniac = cars[many_cars]

# Imprima 'car_maniac'
print(car_maniac)

     cars_per_cap        country  drives_right
US            809  United States          True
AUS           731      Australia         False
JAP           588          Japan         False


**Comentário 15:** `cpc` recebe a coluna `cars_per_cap` do dataframe `cars`. Em seguida, `many_cars` recebe um array de valores booleanos correspondentes ao resultado do teste para os elementos de `cpc` (`cpc > 500`). Por fim, `car_maniac` recebe um subconjunto de dados filtrados de `cars` a partir dos dados de `many_cars`.

In [None]:
# Importe o conjunto de dados 'cars.csv', bem como as bibliotecas 'pandas' e 'numpy'
import pandas as pd
import numpy as np
cars = pd.read_csv('cars.csv', index_col = 0)

# Crie a variável 'medium': linhas que possuem 'cars_per_cap' entre 100 e 500
cpc = cars['cars_per_cap']
between = np.logical_and(cpc > 100, cpc < 500)
medium = cars[between]

# Imprima 'medium'
print(medium)

    cars_per_cap country  drives_right
RU           200  Russia          True


**Comentário 16:** Na célula de código acima temos a importação da biblioteca `pandas` com o aliás 'pd' e da biblioteca `numpy` com o aliás 'np'. Em seguida, `cars` recebe a importação de um dataset a partir do comando `pd.read_csv('cars.csv', index_col = 0)` e `cpc` recebe os dados da coluna `cars_per_cap` de `cars`. Após isso, `np.logical_and(cpc > 100, cpc < 500)` filtra os dados de `cpc` que estão entre 100 e 500 e armazena o resultado da filtragem em `between`. Por fim, `between` é utilizado para filtrar um subconjunto de dados de `cars` que, por sua vez, é armazenado em `medium`.