# tips_sintaxe.ipynb

Comandos comuns que podemos aplicar no dataset (filtragem, processamento de colunas, etc)

In [None]:
# Célula 01 - imports e criação do objeto dataframe

import pandas as pd
import numpy as np
import seaborn as sns

# pd.set_option("display.max_rows", None)
df = sns.load_dataset("tips")
df.info()

In [None]:
# Célula 02 - seleção de colunas a serem exibidas

# Mostra apenas a coluna 'total_bill'
display(df['total_bill'])

# Mostra as colunas 'total_bill', 'tip' e 'smoker'
display(df[['total_bill', 'tip', 'smoker']])

In [None]:
# Célula 03 - Filtrando dados no dataframe

# Mostra todas as gorjetas maiores que 5. Além disso, ordenamos a saída para mostrar a maior gorjeta para a menor
# Perceba que estamos sempre utilizando operadores de comparação (e também lógicos), ou seja, que sempre retornam True ou False.
display(df[df['tip'] > 5].sort_values(by='tip', ascending=False))

# Abaixo estamos filtrando o nosso dataframe para mostrar apenas mulheres fumantes que deram gorjeta
# & == AND
display(df[(df['smoker'] == 'Yes') & (df['sex'] == 'Female')])

# Abaixo estamos filtrando todas as gorjetas onde o total ficou acima da média.
print(df['total_bill'].mean())
display(df[df['total_bill'] > df['total_bill'].mean()])

In [None]:
# Célula 04 - Seleção utilizando .loc e .iloc

# loc -> Seleciona por label (nesse caso 'smoker') quais colunas serão exibidas
df.loc[df['smoker'] == 'Yes', ['total_bill', 'tip', 'sex']]

df.iloc[0:4, 0:3]

In [None]:
# Célula 05 - Ordenação

df.sort_values(['sex', 'total_bill'], ascending=[True, False])

In [None]:
# Célula 06 - Agrupando dados

# Aqui somamos o valor total das contas por dia
df.groupby('day')['total_bill'].sum()

# Média de gorjeta por sexo e se a pessoa é fumante. Exemplo de agrupamento por mais de uma coluna
df.groupby(['sex', 'smoker'])['tip'].mean()

# Várias informações sobre total_bill. Exemplo de agrupamento com várias funções de agregação
df.groupby('sex')['total_bill'].agg(
    ['min', 'max', 'mean', 'count']
)