# Análise exploratória de dados

In [16]:
import pandas as pd
import seaborn as sns

## 1. Coleta de dados

In [17]:
df = sns.load_dataset("tips")
df.to_csv("../data/raw/data.csv",index=False)

## 2. Dicionário de dados

In [18]:
dicionario = pd.DataFrame([
    {
        "variavel": "sex",
        "descricao": "Sexo dos indivíduos",
        "tipo":"qualitativa",
        "subtipo":"nominal"
    },{
        "variavel": "smoker",
        "descricao": "Pessoa fumante ou nao",
        "tipo":"qualitativa",
        "subtipo":"nominal"
    },{
        "variavel": "day",
        "descricao": "Dia da semana",
        "tipo":"quantitativa",
        "subtipo":"ordinal"
    },{
        "variavel": "time",
        "descricao": "Tempo",
        "tipo":"quantitativa",
        "subtipo":"continua"
    },{
        "variavel": "size",
        "descricao": "Qtd de pessoas juntas",
        "tipo":"quantitativa",
        "subtipo":"discreta"
    },{
        "variavel": "total_bill",
        "descricao": "Total da conta",
        "tipo":"quantitativa",
        "subtipo":"continua"
    },{
        "variavel": "tip",
        "descricao": "Gorjeta",
        "tipo":"quantitativa",
        "subtipo":"discreta"
    }
])

dicionario

Unnamed: 0,variavel,descricao,tipo,subtipo
0,sex,Sexo dos indivíduos,qualitativa,nominal
1,smoker,Pessoa fumante ou nao,qualitativa,nominal
2,day,Dia da semana,quantitativa,ordinal
3,time,Tempo,quantitativa,continua
4,size,Qtd de pessoas juntas,quantitativa,discreta
5,total_bill,Total da conta,quantitativa,continua
6,tip,Gorjeta,quantitativa,discreta


In [19]:
dicionario.to_csv("../data/external/dictionary.csv", index=False)

### 3. Insights

### Qual a média de clientes por dia?

In [20]:
media_clientes_por_dia = df.groupby('day').size().mean()
print("Média de clientes por dia:", media_clientes_por_dia)

Média de clientes por dia: 61.0


### Qual a media de número de pessoas que jantam juntas?

In [21]:
media_pessoas_jantam_juntas = df['size'].mean()
print("Média de pessoas que jantam juntas:", media_pessoas_jantam_juntas)

Média de pessoas que jantam juntas: 2.569672131147541


### Qual a média de fumantes do local?


In [22]:
media_fumantes = df['smoker'].value_counts(normalize=True)['Yes']
print("Média de fumantes do local:", media_fumantes)

Média de fumantes do local: 0.38114754098360654


### Quantos homens são fumantes? E quantos não são?

In [23]:
homens_fumantes = df[(df['sex'] == 'Male') & (df['smoker'] == 'Yes')]['sex'].count()
homens_nao_fumantes = df[(df['sex'] == 'Male') & (df['smoker'] == 'No')]['sex'].count()
print("Número de homens fumantes:", homens_fumantes)
print("Número de homens não fumantes:", homens_nao_fumantes)

Número de homens fumantes: 60
Número de homens não fumantes: 97


### Quantas mulheres são fumantes? E quantas não são?

In [24]:
mulheres_fumantes = df[(df['sex'] == 'Female') & (df['smoker'] == 'Yes')]['sex'].count()
mulheres_nao_fumantes = df[(df['sex'] == 'Female') & (df['smoker'] == 'No')]['sex'].count()
print("Número de mulheres fumantes:", mulheres_fumantes)
print("Número de mulheres não fumantes:", mulheres_nao_fumantes)

Número de mulheres fumantes: 33
Número de mulheres não fumantes: 54


### Mulheres ou homens dão gorjetas maiores?

In [25]:
media_gorjetas_mulheres = df[df['sex'] == 'Female']['tip'].mean()
media_gorjetas_homens = df[df['sex'] == 'Male']['tip'].mean()
if media_gorjetas_mulheres > media_gorjetas_homens:
    print("Mulheres dão gorjetas maiores.")
elif media_gorjetas_mulheres < media_gorjetas_homens:
    print("Homens dão gorjetas maiores.")
else:
    print("Mulheres e homens dão gorjetas do mesmo tamanho.")

Homens dão gorjetas maiores.


### Qual o dia da semana de maior e menor movimento?

In [26]:
dia_maior_movimento = df['day'].value_counts().idxmax()
print("Dia da semana de maior movimento:", dia_maior_movimento)
dia_menor_movimento = df['day'].value_counts().idxmin()
print("Dia da semana de menor movimento:", dia_menor_movimento)


Dia da semana de maior movimento: Sat
Dia da semana de menor movimento: Fri


### Quem gasta mais, homens ou mulheres?

In [27]:
media_gastos_homem = df[df['sex'] == 'Male']['total_bill'].mean()
media_gastos_mulher = df[df['sex'] == 'Female']['total_bill'].mean()
if media_gastos_homem > media_gastos_mulher:
    print("Homens gastam mais.")
elif media_gastos_homem < media_gastos_mulher:
    print("Mulheres gastam mais.")
else:
    print("Homens e mulheres gastam a mesma quantia.")

Homens gastam mais.


### Qual a média do total das contas?

In [28]:
media_total_contas = df['total_bill'].mean()
print("Média do total das contas:", media_total_contas)

Média do total das contas: 19.78594262295082


### Qual a média das contas por sexo?

In [29]:
media_contas_por_sexo = df.groupby('sex')['total_bill'].mean()
print("Média das contas por sexo:")
print(media_contas_por_sexo)

Média das contas por sexo:
sex
Male      20.744076
Female    18.056897
Name: total_bill, dtype: float64


### Qual o valor médio das gorjetas por sexo?

In [30]:
media_gorjetas_por_sexo = df.groupby('sex')['tip'].mean()
print("Valor médio das gorjetas por sexo:")
print(media_gorjetas_por_sexo)

Valor médio das gorjetas por sexo:
sex
Male      3.089618
Female    2.833448
Name: tip, dtype: float64
