# Exercise 01 — Métricas básicas e resumo dos dados

Neste exercício iniciamos o estudo de métricas básicas, que representam uma das formas mais fundamentais de extrair informação de um conjunto de dados.

Até aqui, o foco esteve na observação e compreensão da estrutura dos dados. A partir deste ponto, começamos a resumir quantitativamente o dataset, transformando observações individuais em números que descrevem comportamentos gerais.

O objetivo não é tirar conclusões de negócio, mas aprender a construir, ler e interpretar métricas simples de forma consciente.

## Objetivo deste exercício
Ao final deste exercício, espera-se ser capaz de:

- Construir métricas básicas a partir de variáveis quantitativas
- Entender o significado de médias, medianas e contagens
- Relacionar variáveis quantitativas com variáveis categóricas
- Interpretar métricas sem extrapolar conclusões
- Reconhecer as limitações de métricas isoladas

## Dataset utilizado

Neste exercício continuamos utilizando o dataset Tips, que contém informações sobre contas em um restaurante.

In [19]:
import pandas as pd

df = pd.read_csv("../datasets/raw/tips.csv")

df.head(5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


## Bloco 1 — Métricas globais do dataset

In [20]:
quant_cols = ['total_bill', 'tip', 'size']
df[quant_cols].head()


Unnamed: 0,total_bill,tip,size
0,16.99,1.01,2
1,10.34,1.66,3
2,21.01,3.5,3
3,23.68,3.31,2
4,24.59,3.61,4


In [21]:
df[quant_cols].describe()

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


In [22]:
df[quant_cols].agg(['mean', 'median'])

Unnamed: 0,total_bill,tip,size
mean,19.785943,2.998279,2.569672
median,17.795,2.9,2.0


In [23]:
total_contas = df.shape[0]
valot_total = df["total_bill"].sum()
gorjeta_total = df["tip"].sum()

total_contas, valot_total, gorjeta_total

(244, np.float64(4827.77), np.float64(731.5799999999999))

In [24]:
(df["tip"] / df["total_bill"]).mean()

np.float64(0.16080258172250472)

Em média, 16% da conta vira gorjeta.

## Bloco 2 — Métricas por grupo (uma variável categórica)

In [25]:
df.groupby('day')['tip'].mean()

day
Fri     2.734737
Sat     2.993103
Sun     3.255132
Thur    2.771452
Name: tip, dtype: float64

In [26]:
df.groupby('day')['tip'].median()

day
Fri     3.000
Sat     2.750
Sun     3.150
Thur    2.305
Name: tip, dtype: float64

In [27]:
(df
 .assign(tip_pct=df['tip'] / df['total_bill'])
 .groupby('day')['tip_pct']
 .mean()
)

day
Fri     0.169913
Sat     0.153152
Sun     0.166897
Thur    0.161276
Name: tip_pct, dtype: float64

Observa-se que a média da porcentagem do valor da conta que se transforma em gorjeta é ligeiramente maior nas sextas-feiras. Nos demais dias da semana, essa porcentagem média se mantém relativamente próxima, sugerindo que, em geral, cerca de 16% a 17% do valor da conta tende a ser destinado à gorjeta.

Esse padrão pode indicar um comportamento consistente dos clientes ao definir o valor da gorjeta, embora não seja possível afirmar, apenas com essa análise, se essa proporção é aplicada de forma consciente ou automática.

In [28]:
df.groupby('time')['tip'].mean().round(2)

time
Dinner    3.10
Lunch     2.73
Name: tip, dtype: float64

In [29]:
df.groupby('time')['tip'].median().round(2)

time
Dinner    3.00
Lunch     2.25
Name: tip, dtype: float64

In [30]:
df.groupby('day').size()

day
Fri     19
Sat     87
Sun     76
Thur    62
dtype: int64

In [31]:
df.groupby('time').size()

time
Dinner    176
Lunch      68
dtype: int64

Observa-se que, para todos os grupos analisados, a média e a mediana das gorjetas apresentam valores bastante próximos, o que sugere uma maior concentração dos dados em torno da tendência central.

Um ponto que merece destaque é a mediana das gorjetas por período do dia, que se mostra mais elevada no período do jantar. No entanto, nota-se que esse grupo possui mais que o dobro de registros em relação ao período do almoço, o que pode contribuir para uma maior variabilidade dos valores observados.

Dessa forma, embora a diferença seja visível, uma análise mais aprofundada seria necessária para compreender se esse padrão reflete um comportamento consistente ou se está associado à distribuição desigual do número de observações entre os grupos.

## Bloco 3 — Comparação consciente entre métricas

Observa-se que, em todos os grupos analisados, as médias apresentam valores ligeiramente superiores às medianas, o que sugere a presença de uma leve assimetria positiva nas distribuições. No entanto, a diferença entre essas métricas é pequena e, neste nível de análise, não aparenta ter relevância prática significativa.

Ainda assim, essas métricas, quando analisadas de forma isolada, não são suficientes para explicar o comportamento completo dos dados. Elas permitem apenas a formulação de hipóteses iniciais e inferências limitadas, que não devem ser interpretadas como conclusões definitivas.

## Bloco 4 — Limitações das métricas básicas

A partir das análises realizadas neste notebook, é possível perceber que métricas básicas, quando observadas de forma isolada, podem levar a interpretações enganosas. Médias e medianas não capturam, por si só, a distribuição completa dos dados, nem evidenciam a presença de assimetrias ou valores extremos.

A combinação de métricas com visualizações gráficas permite uma compreensão mais ampla do comportamento dos dados, evidenciando padrões que não seriam perceptíveis apenas por meio de números agregados. Além disso, sem um contexto claro sobre o processo de geração dos dados, não é possível inferir relações causais, apenas formular hipóteses iniciais que exigem análises mais profundas e metodológicas para serem validadas.