# Análise exploratória de dados

In [2]:
import pandas as pd
from IPython.display import display, Markdown

## 1. Leitura dos dados

In [15]:
df = pd.read_csv('../data/raw/data.csv')
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


## 2. Descrição dos dados

Os dados se referem a gorjetas recebidas por um garçom em um período de alguns meses enquanto trabalhava em um restaurante. Esse experimento foi estudado no livro  Practical Data Analysis: Case Studies in Business Statistics, escrito por Peter G. Bryant e Marlene A. Smith.

Considerando a natureza dos dados faremos análises baseadas nos valores relativos das gorjetas em relação a conta da mesa. Isso porque culturalmente, nos Estados Unidos da América, o valor da gorjeta costuma ser proporcional ao valor da conta.

### 2.1 Dicionário de dados

In [4]:
dicionario = pd.read_csv('../data/external/dictionary.csv')
dicionario

Unnamed: 0,variavel,descricao,tipo,subtipo
0,total_bill,valor da conta,quantitativa,contínua
1,tip,Valor da gorjeta,quantitativa,contínua
2,sex,Sexo do indivíduo,qualitativa,nominal
3,smoker,Se havia algum fumante na mesa,qualitativa,nominal
4,day,Dia da semana,qualitativa,ordinal
5,time,período do dia,qualitativa,ordinal
6,size,Quantidade de pessoas à mesa,quantitativa,discreta


Temos então um total de 7 variáveis. 4 qualitativas (sendo dessas 2 nominais e 2 ordinais) e 3 quantitativas (2 contínuas e 1 discreta).

### 2.2 Valores faltantes

In [20]:
#contaremos a quantidade de valores nulos por coluna

null_counts = df.isnull().sum()

print(null_counts)

display(Markdown(
    "---\n"
    f"Sabemos assim que a não existem valores faltantes."))


total_bill     0
tip            0
sex            0
smoker         0
day            0
time           0
size           0
tip_percent    0
dtype: int64


---
Sabemos assim que a não existem valores faltantes.

## 3. Perguntas de partida e hipóteses

- A quantidade de pessoas à mesa influenciou os valores de gorjeta?
- O período do dia influenciou os valores?
- Qual porcentagem média de gorjeta em relação ao valor da conta?
- Como o dia da semana afetou os valores? Finais de semana causam variações?
- Homens e mulheres costumam dar gorjetas em valores diferentes?

## 4. Análises

Vamos criar uma nova coluna com o valor percentual da gorjeta em relação a conta.

In [18]:
df['tip_percent'] = (df['tip'] / df['total_bill']) * 100
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_percent
0,16.99,1.01,Female,No,Sun,Dinner,2,5.944673
1,10.34,1.66,Male,No,Sun,Dinner,3,16.054159
2,21.01,3.5,Male,No,Sun,Dinner,3,16.658734
3,23.68,3.31,Male,No,Sun,Dinner,2,13.978041
4,24.59,3.61,Female,No,Sun,Dinner,4,14.680765


Identificaremos estatísticas descritivas do nosso conjunto de dados que nos ajudarão nas análises:

In [19]:
df.describe(include='all')

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_percent
count,244.0,244.0,244,244,244,244,244.0,244.0
unique,,,2,2,4,2,,
top,,,Male,No,Sat,Dinner,,
freq,,,157,151,87,176,,
mean,19.785943,2.998279,,,,,2.569672,16.080258
std,8.902412,1.383638,,,,,0.9511,6.10722
min,3.07,1.0,,,,,1.0,3.563814
25%,13.3475,2.0,,,,,2.0,12.912736
50%,17.795,2.9,,,,,2.0,15.476977
75%,24.1275,3.5625,,,,,3.0,19.147549


- A maioria das gorjetas foram durante o jantar
- 64% das gorjetas foram ofertadas por homens
- 61% das gorjetas foram ofertadas por não fumantes
- A média do valor percentual de gorjeta em relação a conta foi de 16%
- O maior valor bruto de gorjeta foi de U$ 10
- A maior valor percentual de gorjeta foi de 71% do valor da conta

## 3. Insights