# tips_sintaxe.ipynb

Comandos comuns que podemos aplicar no dataset (filtragem, processamento de colunas, etc)

In [None]:
# Célula 01 - imports e criação do objeto dataframe

import pandas as pd
import numpy as np
import seaborn as sns

df = sns.load_dataset("tips")
df.info()

In [None]:
# Célula 02 - seleção de colunas a serem exibidas

# Mostra apenas a coluna 'total_bill'
display(df['total_bill'])

# Mostra as colunas 'total_bill, 'tip' e 'smoker'
display(df[['total_bill', 'tip', 'smoker']])

In [None]:
# Célula 03 - filtrando dados no dataframe

# Mostra todas as gorjetas maiores que 5. Além disso, ordenamos a saída para mostrar da maior gorjeta para a menor.
# Perceba que estamos sempre utilizando operadores de comparação ( e também lógicos), ou seja, que retornam True ou False.
display(df[df['tip'] > 5].sort_values(by='tip', ascending=False))

# Mostra todas os fumantes E todas as mulheres, resultando em todas as mulheres fumantes que deram gorjeta.
display(df[(df['smoker'] == 'Yes') & (df['sex'] == 'Female')])

# Abaixo estamos filtrando todas as gorjetas onde o total ficou acima da média.
display(df[df['total_bill'] > df['total_bill'].mean()])

In [None]:
# Célula 04 - seleção utilizando .loc e .iloc

# loc -> Seleciona por label (nesse caso 'smoker') quais colunas serão exibidas
df.loc[df['smoker'] == 'Yes', ['total_bill', 'tip', 'sex']]

df.iloc[0:4, 0:3]

In [None]:
# Célula 05 - ordenação

df.sort_values(['sex', 'total_bill'], ascending=[True, False])

In [13]:
# Célula 06 - agrupando dados

# Aqui somamos o valor total das contas por dia
df.groupby('day')['total_bill'].sum()

# Média de gorjeta por sexo e se a pessoa é fumante. Exemplo de agrupamento por mais de uma coluna.
df.groupby(['sex', 'smoker'])['tip'].mean()

# Exemplo de agrupamento com várias funções de agregação.
df.groupby('sex')['total_bill'].agg(
    ['min', 'max', 'mean', 'count']
)

# Podemos customizar ainda mais a geração de dados com funções de agregação:

df.agg({
    'total_bill': ['mean', 'std', 'min', 'max'],
    'tip': ['mean', 'std']
})

  df.groupby('day')['total_bill'].sum()
  df.groupby(['sex', 'smoker'])['tip'].mean()
  df.groupby('sex')['total_bill'].agg(


Unnamed: 0,total_bill,tip
mean,19.785943,2.998279
std,8.902412,1.383638
min,3.07,
max,50.81,
