# 7 - Filtragem de dados
Filtragem de dados é uma tarefa importantíssima na vida de qualquer cientista de dados. Nessa seção, veremos como criar filtros em um conjunto de dados utilizando o Pandas.

## Operadores booleanos

### and

In [1]:
# Declara e inicialiiza a variável x
x = 12

In [2]:
# Condicional com a variável x
x > 5 and x < 15

True

### or

In [4]:
# Declara e inicialiiza a variável y
y = 5

In [5]:
# Condicional com a variável y
y < 7 or y > 13

True

### not

In [6]:
# Negando o true
not True

False

In [7]:
# Negando o false
not False

True

### Numpy

In [9]:
# Importando o numpy
import numpy as np

# Criando um array de alturas
np_height = np.array([1.73, 1.68, 1.71, 1.89, 1.79])
# Criando um array de pesos
np_weight = np.array([65.4, 59.2, 63.6, 88.4, 68.7])
# Calculando o IMC de cada correspondência
bmi = np_weight / np_height ** 2
# Mostrando IMC
bmi

array([21.85171573, 20.97505669, 21.75028214, 24.7473475 , 21.44127836])

In [13]:
# Retorna um array mapeado com a condição
bmi > 21

array([ True, False,  True,  True,  True])

In [17]:
# Error
bmi > 21 and bmi < 22

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [18]:
# Forma certa de comparar arrays com condicionais and em numpy
np.logical_and(bmi > 21, bmi < 22)

array([ True, False,  True, False,  True])

In [19]:
# Retorna apenas os valores em bmi que passam na condição
bmi[np.logical_and(bmi > 21, bmi < 22)]

array([21.85171573, 21.75028214, 21.44127836])

## Filtrando um DataFrame Pandas

In [21]:
# Importantdo pandas
import pandas as pd
# Criando dataframe a partir de csv
brics = pd.read_csv('brics.csv', index_col=0)
# Mostrando dataframe
brics

Unnamed: 0,country,capital,area,population
BR,Brazil,Brasilia,8.516,200.4
RU,Russia,Moscow,17.1,143.5
IN,India,New Delhi,3.286,1252.0
CH,China,Beijing,9.597,1357.0
SA,South Africa,Pretoria,1.221,52.98


**Objetivo**: selecionar os países com área maior do que 8 milhões de km2

3 passos:
- Selecionar a coluna "area"
- Fazer uma comparação na coluna "area"
- Usar o resultado para selecionar os países

In [22]:
# Selecionar a coluna "area"
brics['area']

BR     8.516
RU    17.100
IN     3.286
CH     9.597
SA     1.221
Name: area, dtype: float64

In [25]:
# Fazer uma comparação na coluna "area"
brics['area'] > 8
# Cria uma serie onde o indice são os países e os valores são booleans que indicam a passagem na condição ou não.
is_huge = brics['area'] > 8
# Mostra a serie
is_huge

BR     True
RU     True
IN    False
CH     True
SA    False
Name: area, dtype: bool

In [26]:
# Cria o dataframe pegando a linhas cujas areas passaram no teste em is_huge
brics[is_huge]

Unnamed: 0,country,capital,area,population
BR,Brazil,Brasilia,8.516,200.4
RU,Russia,Moscow,17.1,143.5
CH,China,Beijing,9.597,1357.0


In [29]:
# Importando dataset de carros
import pandas as pd
# Criando dataframe a partir de um csv
cars = pd.read_csv('cars.csv', index_col = 0)
# Mostrando dataframe
cars

Unnamed: 0,cars_per_cap,country,drives_right
US,809,United States,True
AUS,731,Australia,False
JAP,588,Japan,False
IN,18,India,False
RU,200,Russia,True
MOR,70,Morocco,True
EG,45,Egypt,True


In [30]:
# Extraindo a coluna 'drives_right' do DataFrame 'cars' e atribuindo a variável 'dr'
dr = cars['drives_right']

# Usando a variável 'dr' para criar um subconjunto de dados chamado 'sel'
sel = cars[dr]

# Imprimindoa variável 'sel'
print(sel)

     cars_per_cap        country  drives_right
US            809  United States          True
RU            200         Russia          True
MOR            70        Morocco          True
EG             45          Egypt          True


In [33]:
# Crie uma variável car_maniac: linhas que possuem 'cars_per_cap' maiores do que 500

# Selecionado a coluna cars_per_cap
cpc = cars['cars_per_cap']
# Fazendo teste lógico e atribuindo a many_cars
many_cars = cpc > 500
# Pegando apenas os que passaram no teste
car_maniac = cars[many_cars]

# Imprimindo 'car_maniac'
print(car_maniac)

     cars_per_cap        country  drives_right
US            809  United States          True
AUS           731      Australia         False
JAP           588          Japan         False


In [35]:
# Importando pandas e numpy
import pandas as pd
import numpy as np
# Criando um dataframe a partir de um csv
cars = pd.read_csv('cars.csv', index_col = 0)

# Crie a variável 'medium': linhas que possuem 'cars_per_cap' entre 100 e 500

# Selecionando a coluna cars_per_cap
cpc = cars['cars_per_cap']

# Utilizando o operador lógico and nos valores e colocando os resultados em between 
between = np.logical_and(cpc > 100, cpc < 500)
# Pegando apenas os dados que passam no teste lógico e colocando em medium
medium = cars[between]

# Imprimindo 'medium'
print(medium)

    cars_per_cap country  drives_right
RU           200  Russia          True
