#### Filtragem de dados 
***

A filtragem de dados é uma das tarefas mais importantes e comuns na análise de dados, e o pandas é uma das bibliotecas mais utilizadas para essa tarefa. A filtragem de dados permite selecionar apenas as informações relevantes de um conjunto de dados, eliminando o ruído e tornando a análise mais precisa e eficiente.

A filtragem de dados pode ser usada para vários fins, como encontrar valores específicos, remover dados redundantes ou obsoletos, selecionar subconjuntos de dados para análise mais aprofundada e assim por diante. Também é útil para preparar dados para modelagem e visualização, tornando a análise mais precisa e informativa.

Além disso, a filtragem de dados é especialmente útil para análise exploratória de dados, onde o objetivo é explorar o conjunto de dados para descobrir padrões, tendências e outras informações importantes. A filtragem de dados permite que os analistas de dados se concentrem nas informações relevantes e descartem os dados desnecessários, tornando a análise mais fácil e eficiente.

#### Importação das bibliotecas


In [1]:
import pandas as pd

#### Coletando Dados de Perfil
***

In [None]:
# Criando um dataframe a partir de uma lista de listas
df_perfil_clientes = pd.read_csv('../../source_data/perfil_clientes.csv', sep=';')
df_perfil_clientes.head()

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
0,39,Servidor Público,Ensino Médio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,4754
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,1100
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430


### Método query
***
Permite selecionar subconjuntos de dados baseados em condições definidas por uma expressão. A expressão pode conter operadores lógicos e aritméticos e pode fazer referência a colunas do dataframe.

#### Selecionando todas as linhas em que a idade é maior que 30 anos.

In [4]:
df_perfil_clientes.query('idade > 30')

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
0,39,Servidor Público,Ensino Médio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,4754
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,1100
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
5,37,Funcionário Setor Privado,Mestrado,14,Casado,Branco,Feminino,AP,Norte,1.0,10787
...,...,...,...,...,...,...,...,...,...,...,...
7991,66,Aposentado,Ensino Médio Completo,10,Casado,Branco,Masculino,RN,Nordeste,0.0,4178
7992,35,Autônomo,Ensino Médio Incompleto,9,Solteiro,Negro,Feminino,PB,Nordeste,5.0,1100
7993,32,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Branco,Masculino,PE,Nordeste,4.0,1100
7996,44,,Ensino Médio Completo,10,Casado,Branco,Masculino,BA,Nordeste,0.0,3729


#### Selecionando todas as linhas em que a idade é acima de 30 anos e a pessoa é solteira.

In [8]:
df_perfil_clientes.query('idade > 30 and estado_civil == "Solteiro"')

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
0,39,Servidor Público,Ensino Médio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,4754
8,31,Funcionário Setor Privado,Mestrado,14,Solteiro,Branco,Feminino,PI,Nordeste,4.0,6031
13,32,Funcionário Setor Privado,Ensino Médio Completo,12,Solteiro,Negro,Masculino,AL,Nordeste,1.0,2897
17,32,Funcionário Setor Privado,Ensino Médio Incompleto,9,Solteiro,Branco,Masculino,ES,Sudeste,5.0,1100
35,48,Funcionário Setor Privado,Ensino Médio Incompleto,7,Solteiro,Branco,Masculino,PI,Nordeste,1.0,1100
...,...,...,...,...,...,...,...,...,...,...,...
7951,31,Funcionário Setor Privado,Ensino Médio Incompleto,8,Solteiro,Branco,Masculino,MT,Centro-Oeste,3.0,1100
7961,31,Funcionário Setor Privado,Ensino Médio Completo,13,Solteiro,Branco,Feminino,MA,Nordeste,4.0,2052
7969,34,Funcionário Público,Ensino Médio Completo,13,Solteiro,Pardo,Masculino,BA,Nordeste,4.0,4176
7974,33,Funcionário Setor Privado,Ensino Médio Completo,13,Solteiro,Branco,Masculino,PR,Sul,1.0,3232


### Método isin 
***
Permite selecionar subconjuntos de dados baseados em uma lista de valores. É útil quando se deseja selecionar linhas onde uma coluna específica tem um valor que corresponde a um dos valores da lista. 

#### Selecionando todas as linhas em que os anos de estudo são 1 ou 5.

In [10]:
filtro = df_perfil_clientes['anos_estudo'].isin([1,5])
df_perfil_clientes[filtro]

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
6,49,Funcionário Setor Privado,Ensino Fundamental Completo,5,União Estável,Negro,Feminino,TO,Norte,1.0,1100
22,35,Funcionário Público,Ensino Fundamental Completo,5,Casado,Negro,Masculino,RS,Sul,4.0,1511
40,31,Funcionário Setor Privado,Ensino Fundamental Completo,5,Casado,Branco,Masculino,AL,Nordeste,5.0,1100
87,30,Funcionário Setor Privado,Ensino Fundamental Completo,5,Solteiro,Branco,Masculino,MA,Nordeste,2.0,1100
114,53,Funcionário Setor Privado,Ensino Fundamental Completo,5,Casado,Branco,Masculino,MA,Nordeste,5.0,1100
...,...,...,...,...,...,...,...,...,...,...,...
7740,69,Aposentado,Ensino Fundamental Completo,5,Casado,Branco,Masculino,AM,Norte,0.0,2729
7753,42,Funcionário Setor Privado,Ensino Fundamental Completo,5,Casado,Branco,Masculino,BA,Nordeste,1.0,1100
7879,30,Funcionário Setor Privado,Ensino Fundamental Completo,5,Casado,Branco,Feminino,TO,Norte,5.0,1100
7883,26,Funcionário Setor Privado,Analfabeto,1,União Estável,Branco,Masculino,RN,Nordeste,3.0,1100


In [11]:
df_perfil_clientes[filtro]['anos_estudo'].value_counts()

anos_estudo
5    131
1     11
Name: count, dtype: int64

#### Selecionando todas as linhas que contêm as regiões 'Nordeste', 'Sul' ou 'Sudeste'

In [14]:
regioes = ['Nordeste', 'Sul', 'Sudeste']
filtro_reg = df_perfil_clientes['região'].isin(regioes)
df_perfil_clientes[filtro_reg]


Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
7,52,Autônomo,Ensino Médio Incompleto,9,Casado,Branco,Masculino,MA,Nordeste,4.0,1100
8,31,Funcionário Setor Privado,Mestrado,14,Solteiro,Branco,Feminino,PI,Nordeste,4.0,6031
9,42,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Branco,Masculino,CE,Nordeste,5.0,3798
10,37,Funcionário Setor Privado,Superior Completo,10,Casado,Negro,Masculino,RN,Nordeste,4.0,10316
11,30,Servidor Público,Superior Incompleto,13,Casado,Pardo,Masculino,PB,Nordeste,5.0,3369
...,...,...,...,...,...,...,...,...,...,...,...
7993,32,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Branco,Masculino,PE,Nordeste,4.0,1100
7994,23,Funcionário Setor Privado,Ensino Médio Completo,10,Casado,Negro,Masculino,AL,Nordeste,3.0,2856
7995,19,Funcionário Setor Privado,Ensino Médio Incompleto,9,Solteiro,Branco,Feminino,SE,Nordeste,1.0,1100
7996,44,,Ensino Médio Completo,10,Casado,Branco,Masculino,BA,Nordeste,0.0,3729


In [16]:
df_perfil_clientes[filtro_reg]['região'].value_counts()


região
Nordeste    2666
Sudeste     1184
Sul          888
Name: count, dtype: int64