# Exercise 02 — Comparações e proporções

Neste exercício avançamos da análise de métricas básicas para comparações relativas entre grupos.

O foco aqui não é analisar valores absolutos, mas sim entender como as observações se distribuem proporcionalmente entre categorias, evitando interpretações enganosas causadas por diferenças no tamanho dos grupos.

Trabalharemos exclusivamente com contagens, proporções e leitura consciente de tabelas, sem utilizar métricas avançadas ou inferências estatísticas.

## Contexto do dataset

O dataset Tips contém informações sobre contas de um restaurante, incluindo variáveis categóricas como sexo, hábito de fumar, dia da semana e período do dia.

Essas variáveis permitem observar como os dados se distribuem entre diferentes grupos, tornando o dataset ideal para exercícios focados em comparação de proporções.

In [1]:
import pandas as pd

df = pd.read_csv("../datasets/raw/tips.csv")

df.head(5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


## Bloco 1 — Distribuição de observações entre categorias

In [2]:
df["sex"].value_counts()

sex
Male      157
Female     87
Name: count, dtype: int64

In [3]:
df["smoker"].value_counts()

smoker
No     151
Yes     93
Name: count, dtype: int64

In [4]:
df["day"].value_counts()

day
Sat     87
Sun     76
Thur    62
Fri     19
Name: count, dtype: int64

In [5]:
df["time"].value_counts()

time
Dinner    176
Lunch      68
Name: count, dtype: int64

In [6]:
df["sex"].value_counts(normalize=True)

sex
Male      0.643443
Female    0.356557
Name: proportion, dtype: float64

In [7]:
df["smoker"].value_counts(normalize=True)

smoker
No     0.618852
Yes    0.381148
Name: proportion, dtype: float64

In [8]:
df["day"].value_counts(normalize=True)

day
Sat     0.356557
Sun     0.311475
Thur    0.254098
Fri     0.077869
Name: proportion, dtype: float64

In [9]:
df["time"].value_counts(normalize=True)

time
Dinner    0.721311
Lunch     0.278689
Name: proportion, dtype: float64

Observa-se que contagens absolutas podem mascarar diferenças reais de volume entre categorias, o que evidencia a importância da análise por contagens relativas. Dentre os grupos observados, o que mais chama atenção é o grupo dos dias da semana: ao considerar apenas as contagens absolutas, a distribuição aparenta ser relativamente equilibrada. No entanto, ao observar as proporções, nota-se que um dos dias representa cerca de apenas 8% do volume total de registros, revelando um desbalanceamento que não era evidente à primeira vista.

## Bloco 2 — Proporções condicionadas a um grupo

In [10]:
pd.crosstab(df["day"], df["time"])

time,Dinner,Lunch
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Fri,12,7
Sat,87,0
Sun,76,0
Thur,1,61


In [11]:
pd.crosstab(
    df["day"],
    df["time"],
    normalize="index"
)

time,Dinner,Lunch
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Fri,0.631579,0.368421
Sat,1.0,0.0
Sun,1.0,0.0
Thur,0.016129,0.983871


In [12]:
pd.crosstab(
    df["day"],
    df["time"],
    normalize="index"
).round(2)

time,Dinner,Lunch
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Fri,0.63,0.37
Sat,1.0,0.0
Sun,1.0,0.0
Thur,0.02,0.98


In [13]:
pd.crosstab(
    df["time"],
    df["smoker"],
    normalize="index"
).round(2)

smoker,No,Yes
time,Unnamed: 1_level_1,Unnamed: 2_level_1
Dinner,0.6,0.4
Lunch,0.66,0.34


Nesta etapa foram construídas tabelas de contingência e calculadas proporções relativas entre variáveis categóricas, com o objetivo de observar como a distribuição de uma variável se comporta dentro de outra.

## Bloco 3 — Comparações relativas entre grupos

Ao comparar as proporções entre períodos do dia e dias da semana, observa-se que não há registros no período do almoço durante os finais de semana. Para sábado e domingo, 100% dos pedidos concentram-se no jantar, enquanto o almoço representa 0% do volume.

Já na quinta-feira, cerca de 98% dos registros se concentram no almoço e apenas 2% no período do jantar.

Na análise da distribuição de fumantes por período do dia, nota-se uma divisão mais equilibrada. No almoço, cerca de 60% dos registros correspondem a não fumantes e aproximadamente 40% a fumantes, indicando que, embora haja predominância de não fumantes, o grupo de fumantes ainda representa uma parcela relevante.

Esses exemplos mostram como as proporções ajudam a quantificar diferenças já observáveis nas contagens absolutas, oferecendo uma leitura mais precisa da distribuição relativa entre os grupos.

## Bloco 4 — Observações guiadas

Ao observarmos as proporções dentro das categorias, nota-se que a contagem absoluta pode mascarar parcialmente diferenças de volume entre os grupos. Algumas categorias tornam-se desproporcionalmente mais evidentes quando analisadas de forma relativa, enquanto outras perdem destaque.

Nas comparações entre grupos, essa desproporcionalidade torna-se ainda mais clara. Embora a diferença já seja observável em valores absolutos, a análise relativa ajuda a dimensionar melhor o peso de cada categoria.

Nesse contexto, as proporções indicam que grupos com maior volume podem apresentar maior variabilidade, o que pode tornar médias e medianas potencialmente enganosas quando comparadas entre categorias de tamanhos distintos.

## Bloco 5 — Conclusões do exercício

Interpretar a diferença relativa entre grupos de dados é uma tarefa importante, pois a contagem absoluta, isoladamente, pode fornecer uma visão enganosa sobre o volume observado.

Usando contagens relativas, é possível compreender melhor por que a média ou mediana de uma categoria pode ser maior ou menor que a de outra, muitas vezes não por diferença de comportamento, mas por diferença no volume de registros e na variabilidade dos dados.

Ainda assim, há limitações nas comparações feitas até aqui. Não é possível explicar, por exemplo, por que não há registros no período do almoço durante os finais de semana, ou por que as quintas-feiras apresentam tão poucos registros no jantar, mesmo quando os finais de semana concentram grande volume nesse período.