#Como filtrar dados de um dataset utilizando pandas

A filtragem de dados é uma técnica importante na análise de dados, que permite selecionar e visualizar somente os dados relevantes. O pandas, uma biblioteca popular para análise de dados em Python, oferece uma ampla gama de métodos que se assemelham a cláusula WHERE no SQL, permitindo selecionar dados com base nas colunas de um dataframe e obter subconjuntos de dados de forma eficiente.


Para começar, vamos importar a biblioteca **Pandas**:

In [None]:
import pandas as pd

Usaremos um pequeno conjunto de dados para demonstrar algumas técnicas de filtragem. Este dataset é sobre decisão de compra, indicando se um cliente comprou ou não um carro (User ID, Gender, Age, Annual Salary, Purchase Decision (No = 0; Yes = 1))

In [None]:
import pandas as pd
url='https://drive.google.com/file/d/1nSQ1h3S6wZjqAzDhEkJSY70R82F3P2qu/view?usp=share_link'
url='https://drive.google.com/uc?id=' + url.split('/')[-2]
df = pd.read_csv(url,sep=',')

In [None]:
df.head()

Unnamed: 0,User ID,Gender,Age,AnnualSalary,Purchased
0,385,Male,35,20000,0
1,681,Male,40,43500,0
2,353,Male,49,74000,0
3,895,Male,40,107500,1
4,661,Male,25,79000,0


##Filtrar por idade


---
Para filtrar os dados com base na idade dos clientes, vamos usar a função **query** do pandas. Neste exemplo, exibiremos todos os clientes com idade superior a 30 anos.


In [None]:
df_filtrado = df.query('Age > 30')
df_filtrado.head()

Unnamed: 0,User ID,Gender,Age,AnnualSalary,Purchased
0,385,Male,35,20000,0
1,681,Male,40,43500,0
2,353,Male,49,74000,0
3,895,Male,40,107500,1
5,846,Female,47,33500,1


##Filtrar por salário anual


---
Para filtrar os dados com base no salário anual dos clientes, vamos utilizar operadores de comparação, como **<**, **>**, **<=** e **>=**. Neste exemplo, será mostrado todos os clientes com salário anual maior ou igual a 50.000.

In [None]:
df_filtrado = df[df['AnnualSalary'] >= 50000]
df_filtrado.head()

Unnamed: 0,User ID,Gender,Age,AnnualSalary,Purchased
2,353,Male,49,74000,0
3,895,Male,40,107500,1
4,661,Male,25,79000,0
6,219,Female,46,132500,1
7,588,Male,42,64000,0


##Filtrar colunas por tipo de dados


---
O **Pandas** possui um método para selecionar colunas com base no seu tipo de dados. E esse método aceita que mostre um unico tipo de dados passando em seu parâmetro **include**, que no caso será usado o tipo number para exibir somente as colunas com valores numericos. Veja abaixo:


In [12]:
df_numerico = df_filtrado.select_dtypes(include='number')
df_numerico.head()

Unnamed: 0,User ID,Age,AnnualSalary,Purchased
2,353,49,74000,0
3,895,40,107500,1
4,661,25,79000,0
6,219,46,132500,1
7,588,42,64000,0



##Conclusão
---


A filtragem de dados é muito essencial na análise de dados e pode ser aplicada em diversas áreas, ajudando nas tomadas de decisões facilitando a identificação de padrões e tendências importantes. Através da filtragem de dados, é possível obter subconjuntos de dados específicos, e que pode ser muito útil. 