In [1]:
import pandas as pd
import numpy as np

In [2]:
np.random.seed(10)
n = 50_000

escolaridade = ['Ensino Fundamental', 'Ensino Médio', 'Ensino Superior']

data = {
    'Id': np.arange(1, n+1),
    'Idade': np.random.randint(18, 70, size = n),
    'Renda': np.random.randint(1_500, 10_000, size = n),
    'Sexo': np.random.choice(['Masculino', 'Feminino'], size = n),
    'Escolaridade': np.random.choice(escolaridade, size = n)
}

df = pd.DataFrame(data)

In [3]:
np.random.seed(7)
ativos = pd.Series(np.random.normal(3_000, 1000, size = n)).round(2)

In [4]:
# cria coluna de ativos
df['ativo'] = ativos

In [5]:
# cria coluna de renda total
df['renda_total'] = df['Renda']+df['ativo']

In [6]:
# renda média (ativos e renda)
renda_media = df.loc[:, ['Renda', 'ativo']].mean(axis = 1)

In [7]:
# posição da coluna 'ativo'
posicao = df.columns.to_list().index('ativo')

In [8]:
# insere a coluna renda_media na posição da coluna 'ativo'
df.insert(posicao, 'renda_média', renda_media )

In [9]:
df

Unnamed: 0,Id,Idade,Renda,Sexo,Escolaridade,renda_média,ativo,renda_total
0,1,27,2554,Feminino,Ensino Fundamental,3622.265,4690.53,7244.53
1,2,54,2475,Feminino,Ensino Superior,2504.530,2534.06,5009.06
2,3,33,6820,Masculino,Ensino Superior,4926.410,3032.82,9852.82
3,4,18,2141,Masculino,Ensino Médio,2774.260,3407.52,5548.52
4,5,67,7381,Masculino,Ensino Fundamental,4796.040,2211.08,9592.08
...,...,...,...,...,...,...,...,...
49995,49996,41,3102,Feminino,Ensino Superior,2232.080,1362.16,4464.16
49996,49997,33,3906,Feminino,Ensino Superior,3629.200,3352.40,7258.40
49997,49998,41,2543,Masculino,Ensino Superior,2894.955,3246.91,5789.91
49998,49999,22,4651,Feminino,Ensino Superior,3972.110,3293.22,7944.22


## Consultas
Nesta seção aprenderemos a fazer filtro com os dados. Por exemplo, como filtrar os dados a partir de uma determianda categorica ou de um conjunto de condições?

In [None]:
df.head()

In [None]:
# condição simples: filtra os dados a partir do sexo Feminino
df[df.Sexo == 'Feminino']

In [None]:
# shape do filtro
df[df.Sexo == 'Feminino'].shape[0]

In [None]:
# condição simples: filtra os dados a partir do sexo Feminino
df.query('Sexo == "Feminino"')

In [None]:
df.query("Sexo == 'Feminino'").shape[0]

In [None]:
#SyntaxError: invalid syntax: df.query("Sexo == "Feminino"")

In [None]:
# condição simples: filtra os dados a partir do sexo Feminino
df.loc[df.Sexo == 'Feminino'].shape[0]

In [None]:
# condição 1: sexo feminino
# condição 2: escolaridade ensino superior
# AND: &
df[(df.Sexo == 'Feminino') & (df.Escolaridade == 'Ensino Superior')]

In [None]:
df[(df.Sexo == 'Feminino') & (df.Escolaridade == 'Ensino Superior')].shape

In [None]:
df.query("(Sexo == 'Feminino') & (Escolaridade == 'Ensino Superior')")

In [None]:
df.query("(Sexo == 'Feminino') & (Escolaridade == 'Ensino Superior')").shape

In [None]:
df.loc[(df.Sexo == 'Feminino') & (df.Escolaridade == 'Ensino Superior')].shape

In [None]:
# condição 1: sexo masculino
# condição 2: renda>= 7_500

In [None]:
df[(df.Sexo == 'Masculino') & (df.Renda >= 7_500)]

In [None]:
df[(df.Sexo == 'Masculino') & (df.Renda >= 7_500)].shape

In [None]:
df.query('(Sexo == "Masculino") & (Renda >= 7_500)').shape

In [None]:
df.loc[(df.Sexo == 'Masculino') & (df.Renda >= 7_500)].shape

In [None]:
# condição 1: escolaridade Ensino Fundamental
# condição 2: escolaridade Ensino Médio
# OR: |
df[(df.Escolaridade == 'Ensino Fundamental') | (df.Escolaridade == 'Ensino Médio')]

In [None]:
df[(df.Escolaridade == 'Ensino Fundamental') | (df.Escolaridade == 'Ensino Médio')].shape

In [None]:
df.query('(Escolaridade == "Ensino Fundamental") | (Escolaridade == "Ensino Médio")').shape

In [None]:
df.loc[(df.Escolaridade == 'Ensino Fundamental') | (df.Escolaridade == 'Ensino Médio')].shape

In [None]:
df[(df.Escolaridade == 'Ensino Fundamental') | (df.Escolaridade == 'Ensino Médio')]['Escolaridade'].unique()

In [None]:
# condição 1: renda>=8_000
# condição 2: idade>=50
# condição 3: feminino

df[(df.Renda>=8_000) & (df.Idade>=50) & (df.Sexo == 'Feminino')]\
.sort_values(by = ['Idade', 'Renda'])\
.reset_index(drop = True)\
.drop(columns = ['Id'])[['Renda', 'Idade']]\
.query('Idade >= 60')

In [None]:
df[(df.Renda>=8_000) & (df.Idade>=50) & (df.Sexo == 'Feminino')].shape

In [None]:
df.query('(Renda >= 8_000) & (Idade >= 50) & (Sexo == "Feminino")').shape

In [None]:
df.loc[(df.Renda>=8_000) & (df.Idade>=50) & (df.Sexo == 'Feminino')].shape

In [None]:
df.rename(columns = {'renda_média': 'renda média'}, inplace = True)

In [None]:
df.rename(columns = {'renda_total': 'renda total'}, inplace = True)

In [None]:
df.query('`renda média` >= 7_000')

In [None]:
df.query('(`renda média` >= 5_000) & (`renda total` >= 8_000)')

In [None]:
# nega a proposição
~(df.Sexo == 'Feminino')

In [None]:
# nega a proposição, pega informações apenas para clientes do gênero masculino
df.loc[~(df.Sexo == 'Feminino')]

In [None]:
# outro exemplo de negação
# pega todos os clientes cuja a escolaridade não seja Ensino Superior
df.loc[~(df.Escolaridade == 'Ensino Superior')]

In [None]:
# pega apenas os clientes com escolaridade igual a Ensino Superior
df.loc[df.Escolaridade.isin(['Ensino Superior'])]

In [None]:
# nega a condição, pega clientes cuja escolaridade não seja Ensino Superior
df.loc[~(df.Escolaridade.isin(['Ensino Superior']))]

In [None]:
df.head()

In [None]:
# pega apenas os clientes cuja a escolaridade seja diferente de Ensino Médio
df.query("Escolaridade != 'Ensino Médio'")['Escolaridade'].unique()

In [None]:
# verifica se Ensino Médio está contido no array com valores únicos da nossa consulta
'Ensino Médio' in df.query("Escolaridade != 'Ensino Médio'")['Escolaridade'].unique()