In [69]:
# carregar biblioteca 
import pandas as pd
import seaborn as sns

## Leitura do conjunto de dados

### gorjetas

In [70]:
df_tips = sns.load_dataset('tips')
df_tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


- Dicionário de Dados

In [71]:
dicionario_gorjetas = pd.DataFrame([
    {
        "Nome": "total_bill",
        "Descricao": "O valor total da conta da refeição",
        "Tipo": "Quantitativo",
        "Subtipo": "Contínuo"
    },
    {
        "Nome": "tip",
        "Descricao": "Valor da gorjeta",
        "Tipo": "Quantitativo",
        "Subtipo": "Contínuo"
    },
    {
        "Nome": "sex",
        "Descricao": "Gênero do cliente",
        "Tipo": "Qualitativo",
        "Subtipo": "Nominal"
    },
    {
        "Nome": "smoker",
        "Descricao": "Se o cliente fuma",
        "Tipo": "Qualitativo",
        "Subtipo": "Nominal"
    },
    {
        "Nome": "day",
        "Descricao": "O dia da semana em que a refeição ocorreu.",
        "Tipo": "Qualitativo",
        "Subtipo": "Nominal"
    },
    {
        "Nome": "time",
        "Descricao": "Se a refeição foi feita durante o almoço ou o jantar.",
        "Tipo": "Qualitativo",
        "Subtipo": "Nominal"
    },
     {
        "Nome": "size",
        "Descricao": "O número de pessoas no grupo que fez a refeição.",
        "Tipo": "Quantitativo",
        "Subtipo": "Discreto"
    },
    
])

dicionario_gorjetas

Unnamed: 0,Nome,Descricao,Tipo,Subtipo
0,total_bill,O valor total da conta da refeição,Quantitativo,Contínuo
1,tip,Valor da gorjeta,Quantitativo,Contínuo
2,sex,Gênero do cliente,Qualitativo,Nominal
3,smoker,Se o cliente fuma,Qualitativo,Nominal
4,day,O dia da semana em que a refeição ocorreu.,Qualitativo,Nominal
5,time,Se a refeição foi feita durante o almoço ou o ...,Qualitativo,Nominal
6,size,O número de pessoas no grupo que fez a refeição.,Quantitativo,Discreto


- Estatística de tendência central e dispersão

In [72]:
#Funções que calculam a moda, o intervalo e o intervalo interquartil

#Função para calcular a moda
def mode(column):
    mode = column.mode()
    if not mode.empty: 
        return mode.iloc[0]
    else:
        return None
    
#Função para calcular o intervalo
def intervalo(column):
    inter = column.max() - column.min()
    return inter

#Função para calcular o intervalo interquartil
def intervalo_interquartil(column):
    q1 = column.quantile(0.25)
    q3 = column.quantile(0.75)
    iqr = q3 - q1
    return iqr

In [73]:
# Lista para renomear o  titulo das colunas para melhor compreensão
titulo_tabela = {
    'mean': 'Média',
    'median': 'Mediana',
    'std': 'Desvio Padrão',
    'var': 'Variância',
    'mode': 'Moda',
    'intervalo': 'Intervalo',
    'intervalo_interquartil': 'Intervalo Interquartil'
}

In [74]:
# Filtrar apenas as colunas numéricas
numeric_columns  = df_tips.select_dtypes(include=['number'])

# Adicionado o calculo das medidas de tendência central e dispersão
tendencia_central_e_dispersao_values =  numeric_columns .agg(['mean', 'median','std', 'var', mode, intervalo, intervalo_interquartil])

#Renomeando as colunas
tendencia_central_e_dispersao_values.rename(titulo_tabela, inplace=True)

#Imprimindo o DataFrame
tendencia_central_e_dispersao_values

Unnamed: 0,total_bill,tip,size
Média,19.785943,2.998279,2.569672
Mediana,17.795,2.9,2.0
Desvio Padrão,8.902412,1.383638,0.9511
Variância,79.252939,1.914455,0.904591
Moda,13.42,2.0,2.0
Intervalo,47.74,9.0,5.0
Intervalo Interquartil,10.78,1.5625,1.0


- Calculo estastítica de forma separada para cada variável categórica

In [75]:
# Criando uma lista com as colunas numericas
colunas_numericas = df_tips.select_dtypes(include=['number']).columns

    - Por Gênero

In [76]:
# Adicionado o calculo das medidas de tendência central e dispersão
values_by_sex = (
    df_tips
    .groupby('sex')[colunas_numericas]
    .agg(['mean', 'median','std', 'var', mode, intervalo, intervalo_interquartil])
)

#Renomeando as colunas
values_by_sex = values_by_sex.rename(columns = titulo_tabela)

#Imprimindo o DataFrame
values_by_sex

Unnamed: 0_level_0,total_bill,total_bill,total_bill,total_bill,total_bill,total_bill,total_bill,tip,tip,tip,tip,tip,tip,tip,size,size,size,size,size,size,size
Unnamed: 0_level_1,Média,Mediana,Desvio Padrão,Variância,Moda,Intervalo,Intervalo Interquartil,Média,Mediana,Desvio Padrão,...,Moda,Intervalo,Intervalo Interquartil,Média,Mediana,Desvio Padrão,Variância,Moda,Intervalo,Intervalo Interquartil
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
Male,20.744076,18.35,9.246469,85.497185,10.34,43.56,10.71,3.089618,3.0,1.489102,...,2.0,9.0,1.76,2.630573,2.0,0.955997,0.913931,2,5,1.0
Female,18.056897,16.4,8.009209,64.147429,10.33,41.23,8.77,2.833448,2.75,1.159495,...,2.0,5.5,1.5,2.45977,2.0,0.937644,0.879177,2,5,1.0


    - Caso fume ou não

In [77]:
# Adicionado o calculo das medidas de tendência central e dispersão
values_by_smoker = (
    df_tips
    .groupby('smoker')[colunas_numericas]
    .agg(['mean', 'median','std', 'var', mode, intervalo, intervalo_interquartil])
)

#Renomeando as colunas
values_by_smoker = values_by_smoker.rename(columns = titulo_tabela)

#Imprimindo o DataFrame
values_by_smoker

Unnamed: 0_level_0,total_bill,total_bill,total_bill,total_bill,total_bill,total_bill,total_bill,tip,tip,tip,tip,tip,tip,tip,size,size,size,size,size,size,size
Unnamed: 0_level_1,Média,Mediana,Desvio Padrão,Variância,Moda,Intervalo,Intervalo Interquartil,Média,Mediana,Desvio Padrão,...,Moda,Intervalo,Intervalo Interquartil,Média,Mediana,Desvio Padrão,Variância,Moda,Intervalo,Intervalo Interquartil
smoker,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
Yes,20.756344,17.92,9.832154,96.671256,13.0,47.74,13.44,3.00871,3.0,1.401468,...,2.0,9.0,1.68,2.408602,2.0,0.810751,0.657317,2,4,1.0
No,19.188278,17.59,8.255582,68.154632,10.07,41.08,9.43,2.991854,2.74,1.37719,...,2.0,8.0,1.505,2.668874,2.0,1.017984,1.036291,2,5,1.0


    - Por dia da semana

In [78]:
# Adicionado o calculo das medidas de tendência central e dispersão
values_by_day = (
    df_tips
    .groupby('day')[colunas_numericas]
    .agg(['mean', 'median','std', 'var', mode, intervalo, intervalo_interquartil])
)

#Renomeando as colunas
values_by_day = values_by_day.rename(columns=titulo_tabela)

#Imprimindo o DataFrame
values_by_day

Unnamed: 0_level_0,total_bill,total_bill,total_bill,total_bill,total_bill,total_bill,total_bill,tip,tip,tip,tip,tip,tip,tip,size,size,size,size,size,size,size
Unnamed: 0_level_1,Média,Mediana,Desvio Padrão,Variância,Moda,Intervalo,Intervalo Interquartil,Média,Mediana,Desvio Padrão,...,Moda,Intervalo,Intervalo Interquartil,Média,Mediana,Desvio Padrão,Variância,Moda,Intervalo,Intervalo Interquartil
day,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
Thur,17.682742,16.2,7.88617,62.191683,13.0,35.6,7.7125,2.771452,2.305,1.240223,...,2.0,5.45,1.3625,2.451613,2.0,1.066285,1.136965,2,5,0.0
Fri,17.151579,15.38,8.30266,68.934158,13.42,34.42,9.655,2.734737,3.0,1.019577,...,3.0,3.73,1.405,2.105263,2.0,0.567131,0.321637,2,3,0.0
Sat,20.441379,18.24,9.480419,89.878338,17.92,47.74,10.835,2.993103,2.75,1.631014,...,3.0,9.0,1.37,2.517241,2.0,0.819275,0.671211,2,4,1.0
Sun,21.41,19.63,8.832122,78.006376,7.25,40.92,10.61,3.255132,3.15,1.23488,...,2.0,5.49,1.9625,2.842105,2.0,1.007341,1.014737,2,4,2.0


    - Por Horário da refeição

In [79]:
# Adicionado o calculo das medidas de tendência central e dispersão
values_by_time = (
    df_tips
    .groupby('time')[colunas_numericas]
    .agg(['mean', 'median','std', 'var', mode, intervalo, intervalo_interquartil])
)

#Renomeando as colunas
values_by_time = values_by_time.rename(columns=titulo_tabela)

#Imprimindo o DataFrame
values_by_time

Unnamed: 0_level_0,total_bill,total_bill,total_bill,total_bill,total_bill,total_bill,total_bill,tip,tip,tip,tip,tip,tip,tip,size,size,size,size,size,size,size
Unnamed: 0_level_1,Média,Mediana,Desvio Padrão,Variância,Moda,Intervalo,Intervalo Interquartil,Média,Mediana,Desvio Padrão,...,Moda,Intervalo,Intervalo Interquartil,Média,Mediana,Desvio Padrão,Variância,Moda,Intervalo,Intervalo Interquartil
time,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
Lunch,17.168676,15.965,7.713882,59.503973,13.42,35.6,7.2975,2.728088,2.25,1.205345,...,2.0,5.45,1.2875,2.411765,2.0,1.040024,1.081651,2,5,0.0
Dinner,20.797159,18.39,9.142029,83.576697,7.25,47.74,10.845,3.10267,3.0,1.436243,...,2.0,9.0,1.6875,2.630682,2.0,0.910241,0.828539,2,5,1.0
