# Estatística Descritiva

## Atividade do dia

**Conjunto de dados**

- Pinguins (penguins)
- Gorjetas (tips)
- Titanic (titanic)
- Quarteto anscombe (anscombe)

**Atividade**

- Carregar conjunto de dados
- Criar dicionário de dados
- Descrever os dados usando estatística de tendência central e dispersão
- Calcular estatísticas de forma separada para cada varoável categórica

## Importandos as bibliotecas

In [32]:
import numpy as np
import pandas as pd
import seaborn as sns

## Dataset penguins

### Carregando DataSet

In [33]:
df_pg = sns.load_dataset('penguins')

# df_ac = sns.load_dataset('anscombe')

df_pg.dtypes

species               object
island                object
bill_length_mm       float64
bill_depth_mm        float64
flipper_length_mm    float64
body_mass_g          float64
sex                   object
dtype: object

### Dicionário de dados

In [34]:
df_pg_dict = pd.DataFrame([
    {
        "Variável": "species",
        "Descrição": "Espécie do pinguim ('Adelie', 'Gentoo', 'Chinstrap')",
        "Tipo": "Qualitativa",
        "Subtipo": "Nominal"
    },
    {
        "Variável": "island",
        "Descrição": "Ilha em que o dado do pinguim foi coletado ('Biscue', 'Dream', 'Torgersen')",
        "Tipo": "Qualitativa",
        "Subtipo": "Nominal"
    },
    {
        "Variável": "bill_length_mm",
        "Descrição": "Comprimento do bico do pinguim em milímetros",
        "Tipo": "Quantitativa",
        "Subtipo": "Contínua"
    },
    {
        "Variável": "bill_depth_mm",
        "Descrição": "Profundidade do bico do pinguim em milímetros",
        "Tipo": "Quantitativa",
        "Subtipo": "Contínua"
    },
    {
        "Variável": "flipper_length_mm",
        "Descrição": "Comprimento da nadadeira do pinguim em milímetros",
        "Tipo": "Quantitativa",
        "Subtipo": "Contínua"
    },
    {
        "Variável": "body_mass_g",
        "Descrição": "Massa corporal do pinguim em gramas",
        "Tipo": "Quantitativa",
        "Subtipo": "Contínua"
    },
    {
        "Variável": "sex",
        "Descrição": "Sexo do pinguim em gramas",
        "Tipo": "Qualitativa",
        "Subtipo": "Nominal"
    },
])

df_pg_dict

Unnamed: 0,Variável,Descrição,Tipo,Subtipo
0,species,"Espécie do pinguim ('Adelie', 'Gentoo', 'Chins...",Qualitativa,Nominal
1,island,Ilha em que o dado do pinguim foi coletado ('B...,Qualitativa,Nominal
2,bill_length_mm,Comprimento do bico do pinguim em milímetros,Quantitativa,Contínua
3,bill_depth_mm,Profundidade do bico do pinguim em milímetros,Quantitativa,Contínua
4,flipper_length_mm,Comprimento da nadadeira do pinguim em milímetros,Quantitativa,Contínua
5,body_mass_g,Massa corporal do pinguim em gramas,Quantitativa,Contínua
6,sex,Sexo do pinguim em gramas,Qualitativa,Nominal


---

## Dataset tips

### Carregando DataSet

In [35]:
df_tp = sns.load_dataset('tips')
df_tp

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


### Dicionário de dados

In [36]:
df_tp_dict = pd.DataFrame([
    {
        "Variável": "total_bill",
        "Descrição": "Valor da fatura total.",
        "Tipo": "Quantitativa",
        "Subtipo": "Contínua"
    },
    {
        "Variável": "tip",
        "Descrição": "Valor da gorjeta.",
        "Tipo": "Quantitativa",
        "Subtipo": "Contínua"
    },
    {
        "Variável": "sex",
        "Descrição": "Sexo do cliente (Male, Female).",
        "Tipo": "Qualitativa",
        "Subtipo": "Nominal"
    },
    {
        "Variável": "smoker",
        "Descrição": "Se o cliente é fumante (Yes, No).",
        "Tipo": "Qualitativa",
        "Subtipo": "Nominal"
    },
    {
        "Variável": "day",
        "Descrição": "Dia da semana em que foi feito o atendimento",
        "Tipo": "Qualitativa",
        "Subtipo": "Nominal"
    },
    {
        "Variável": "time",
        "Descrição": "Se foi almoço ou jantar.",
        "Tipo": "Qualitativa",
        "Subtipo": "Nominal"
    },
    {
        "Variável": "size",
        "Descrição": "Quantidade de pessoas na mesa.",
        "Tipo": "Quantitativa",
        "Subtipo": "Discreta"
    },
])

df_tp_dict

Unnamed: 0,Variável,Descrição,Tipo,Subtipo
0,total_bill,Valor da fatura total.,Quantitativa,Contínua
1,tip,Valor da gorjeta.,Quantitativa,Contínua
2,sex,"Sexo do cliente (Male, Female).",Qualitativa,Nominal
3,smoker,"Se o cliente é fumante (Yes, No).",Qualitativa,Nominal
4,day,Dia da semana em que foi feito o atendimento,Qualitativa,Nominal
5,time,Se foi almoço ou jantar.,Qualitativa,Nominal
6,size,Quantidade de pessoas na mesa.,Quantitativa,Discreta


---

## Calculando estatísticas de tendência central e disperção

In [37]:
def statistics(data_frame, data_frame_dict):
    quantitative_vars = data_frame_dict.query("Tipo == 'Quantitativa'")['Variável']
    quantitative_vars
    statistics_columns = np.array(['mean', 'median', 'mode', 'std', 'var'])

    statistics_data = np.column_stack([
            data_frame[quantitative_vars].mean(),
            data_frame[quantitative_vars].median(),
            data_frame[quantitative_vars].mode().T,
            data_frame[quantitative_vars].std(),
            data_frame[quantitative_vars].var()
        ])

    statistics_list = pd.DataFrame(statistics_data, index=quantitative_vars.values, columns=statistics_columns)
    display(statistics_list.T)

In [38]:
statistics(df_pg, df_pg_dict)

Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g
mean,43.92193,17.15117,200.915205,4201.754386
median,44.45,17.3,197.0,4050.0
mode,41.1,17.0,190.0,3800.0
std,5.459584,1.974793,14.061714,801.954536
var,29.807054,3.899808,197.731792,643131.077327


In [39]:
statistics(df_tp, df_tp_dict)

Unnamed: 0,total_bill,tip,size
mean,19.785943,2.998279,2.569672
median,17.795,2.9,2.0
mode,13.42,2.0,2.0
std,8.902412,1.383638,0.9511
var,79.252939,1.914455,0.904591
