# Exercise 01 — Foundations: Estrutura e inspeção inicial dos dados

## Contexto

Neste exercício utilizamos o dataset **tips**, que contém informações sobre contas, gorjetas e características dos clientes em um restaurante.

O objetivo deste exercício é desenvolver a habilidade de leitura e compreensão da estrutura de um dataset, identificando tipos de variáveis, dimensões e padrões simples por meio de inspeção inicial e filtros básicos.

## Perguntas analíticas

In [14]:
import pandas as pd

df = pd.read_csv(
    "../datasets/raw/tips.csv"
)

df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


## Estrutura do Dataset

Quantas linhas e colunas existem no dataset:

In [15]:
df.shape

(244, 7)

Cada linha representa uma conta individual (bill) associada a uma mesa em um determinado dia e horário.

In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   total_bill  244 non-null    float64
 1   tip         244 non-null    float64
 2   sex         244 non-null    object 
 3   smoker      244 non-null    object 
 4   day         244 non-null    object 
 5   time        244 non-null    object 
 6   size        244 non-null    int64  
dtypes: float64(2), int64(1), object(4)
memory usage: 13.5+ KB


Numéricas: `total_bill`, `tip`, `size`
| Categóricas: `sex`, `smoker`, `day`, `time`

In [17]:
df.isnull().sum()

total_bill    0
tip           0
sex           0
smoker        0
day           0
time          0
size          0
dtype: int64

O dataset não apresenta valores ausentes em nenhuma coluna.

## Compreensão das variáveis categóricas

In [18]:
df["day"].unique()

array(['Sun', 'Sat', 'Thur', 'Fri'], dtype=object)

In [19]:
df["time"].unique()

array(['Dinner', 'Lunch'], dtype=object)

In [20]:
df["day"].value_counts()

day
Sat     87
Sun     76
Thur    62
Fri     19
Name: count, dtype: int64

In [21]:
df["time"].value_counts()

time
Dinner    176
Lunch      68
Name: count, dtype: int64

## Filtros condicionais simples

In [22]:
(df["total_bill"] > 30).sum()

np.int64(32)

In [23]:
(df["tip"] > 5).sum()

np.int64(18)

In [24]:
(df["size"] > 4).sum()

np.int64(9)

In [25]:
df["smoker"].value_counts()

smoker
No     151
Yes     93
Name: count, dtype: int64

In [26]:
high_bill_df = df[df["total_bill"] > 30]
high_bill_df["day"].value_counts()

day
Sun     14
Sat     12
Thur     5
Fri      1
Name: count, dtype: int64

Observa-se que os dias `sábado` e `domingo` concentram a maior frequência de contas com valores elevados, sugerindo um padrão associado ao fim de semana. O horário (Lunch vs Dinner) não apresenta, nesta análise inicial, uma diferença clara nos valores das contas. Além disso, há uma predominãncia de clientes não fumantes no dataset.