# Filtragem de dados 
***

A filtragem de dados é uma das tarefas mais importantes e comuns na análise de dados, e o pandas é uma das bibliotecas mais utilizadas para essa tarefa. A filtragem de dados permite selecionar apenas as informações relevantes de um conjunto de dados, eliminando o ruído e tornando a análise mais precisa e eficiente.

A filtragem de dados pode ser usada para vários fins, como encontrar valores específicos, remover dados redundantes ou obsoletos, selecionar subconjuntos de dados para análise mais aprofundada e assim por diante. Também é útil para preparar dados para modelagem e visualização, tornando a análise mais precisa e informativa.

Além disso, a filtragem de dados é especialmente útil para análise exploratória de dados, onde o objetivo é explorar o conjunto de dados para descobrir padrões, tendências e outras informações importantes. A filtragem de dados permite que os analistas de dados se concentrem nas informações relevantes e descartem os dados desnecessários, tornando a análise mais fácil e eficiente.

### Importação das bibliotecas


In [1]:
import pandas as pd

### Criando  dataframe a partir de uma lista em Python

In [2]:
# Criando um dataframe a partir de uma lista de listas
lista_vendas = [['João', 'Arroz', 2, 10.50],
                ['Maria', 'Feijão', 3, 8.00],
                ['Leandro', 'Carne', 1, 23.50],
                ['Ana', 'Frango', 2, 15.00],
                ['Luiza', 'Leite', 4, 5.00],
                ['Paulo', 'Arroz', 1, 10.50],
                ['Fernanda', 'Feijão', 2, 8.00],
                ['Ricardo', 'Carne', 3, 28.00],
                ['Carlos', 'Frango', 1, 15.00],
                ['Jessica', 'Carne', 2, 27.90]]
 
df = pd.DataFrame(lista_vendas, columns=['Cliente', 'Produto', 'Quantidade', 'Valor_Unitário'])
df

Unnamed: 0,Cliente,Produto,Quantidade,Valor_Unitário
0,João,Arroz,2,10.5
1,Maria,Feijão,3,8.0
2,Leandro,Carne,1,23.5
3,Ana,Frango,2,15.0
4,Luiza,Leite,4,5.0
5,Paulo,Arroz,1,10.5
6,Fernanda,Feijão,2,8.0
7,Ricardo,Carne,3,28.0
8,Carlos,Frango,1,15.0
9,Jessica,Carne,2,27.9


### Método query
***
Permite selecionar subconjuntos de dados baseados em condições definidas por uma expressão. A expressão pode conter operadores lógicos e aritméticos e pode fazer referência a colunas do dataframe.

#### Selecionando todas as linhas onde o valor unitário é maior que 10

In [5]:
df.query('Valor_Unitário >= 10')

Unnamed: 0,Cliente,Produto,Quantidade,Valor_Unitário
0,João,Arroz,2,10.5
2,Leandro,Carne,1,23.5
3,Ana,Frango,2,15.0
5,Paulo,Arroz,1,10.5
7,Ricardo,Carne,3,28.0
8,Carlos,Frango,1,15.0
9,Jessica,Carne,2,27.9


#### Selecionando todas as linhas onde o valor unitário é maior que 15 e o produto é igual a carne

In [6]:
df.query('Valor_Unitário >= 15 and Produto == "Carne"')

Unnamed: 0,Cliente,Produto,Quantidade,Valor_Unitário
2,Leandro,Carne,1,23.5
7,Ricardo,Carne,3,28.0
9,Jessica,Carne,2,27.9


In [7]:
filtro = 'Valor_Unitário >= 15 and Produto == "Carne"'
df.query(filtro)

Unnamed: 0,Cliente,Produto,Quantidade,Valor_Unitário
2,Leandro,Carne,1,23.5
7,Ricardo,Carne,3,28.0
9,Jessica,Carne,2,27.9


In [8]:
valor = 10
produto = 'Arroz'
filtro = f'Valor_Unitário >= {valor} and Produto == "{produto}"'
df.query(filtro)

Unnamed: 0,Cliente,Produto,Quantidade,Valor_Unitário
0,João,Arroz,2,10.5
5,Paulo,Arroz,1,10.5


### Método isin 
***
Permite selecionar subconjuntos de dados baseados em uma lista de valores. É útil quando se deseja selecionar linhas onde uma coluna específica tem um valor que corresponde a um dos valores da lista. 

#### Selecionando todas as linhas onde a quantidade  está presente em 3 e 4 

In [9]:
df[df['Quantidade'].isin([3,4])]

Unnamed: 0,Cliente,Produto,Quantidade,Valor_Unitário
1,Maria,Feijão,3,8.0
4,Luiza,Leite,4,5.0
7,Ricardo,Carne,3,28.0


#### Selecionando todas as linhas que contém o produto Arroz e Feijão

In [10]:
df[df['Produto'].isin(['Arroz','Feijão'])]

Unnamed: 0,Cliente,Produto,Quantidade,Valor_Unitário
0,João,Arroz,2,10.5
1,Maria,Feijão,3,8.0
5,Paulo,Arroz,1,10.5
6,Fernanda,Feijão,2,8.0
