In [1]:
# carregar biblioteca 
import pandas as pd
import seaborn as sns

## Leitura do conjunto de dados

### pinguins

In [2]:
df_anscombe = sns.load_dataset('anscombe')
df_anscombe

Unnamed: 0,dataset,x,y
0,I,10.0,8.04
1,I,8.0,6.95
2,I,13.0,7.58
3,I,9.0,8.81
4,I,11.0,8.33
5,I,14.0,9.96
6,I,6.0,7.24
7,I,4.0,4.26
8,I,12.0,10.84
9,I,7.0,4.82


- Dicionário de Dados

In [4]:
dicionario_anscombe = pd.DataFrame([
    {
        "Nome": "dataset",
        "Descricao": "Identifica qual dos quatro subconjuntos está sendo representado",
        "Tipo": "Qualitativo",
        "Subtipo": "Nominal"
    },
    {
        "Nome": "x",
        "Descricao": "Valor da variável X",
        "Tipo": "Quantitativo",
        "Subtipo": "Contínuo"
    },
    {
        "Nome": "y",
        "Descricao": "Valor da variável Y",
        "Tipo": "Quantitativo",
        "Subtipo": "Contínuo"
    }
])

dicionario_anscombe

Unnamed: 0,Nome,Descricao,Tipo,Subtipo
0,dataset,Identifica qual dos quatro subconjuntos está s...,Qualitativo,Nominal
1,x,Valor da variável X,Quantitativo,Contínuo
2,y,Valor da variável Y,Quantitativo,Contínuo


- Estatística de tendência central e dispersão

In [5]:
#Funções que calculam a moda, o intervalo e o intervalo interquartil

#Função para calcular a moda
def mode(column):
    mode = column.mode()
    if not mode.empty: 
        return mode.iloc[0]
    else:
        return None
    
#Função para calcular o intervalo
def intervalo(column):
    inter = column.max() - column.min()
    return inter

#Função para calcular o intervalo interquartil
def intervalo_interquartil(column):
    q1 = column.quantile(0.25)
    q3 = column.quantile(0.75)
    iqr = q3 - q1
    return iqr

In [6]:
# Lista para renomear o  titulo das colunas para melhor compreensão
titulo_tabela = {
    'mean': 'Média',
    'median': 'Mediana',
    'std': 'Desvio Padrão',
    'var': 'Variância',
    'mode': 'Moda',
    'intervalo': 'Intervalo',
    'intervalo_interquartil': 'Intervalo Interquartil'
}

In [8]:
# Filtrar apenas as colunas numéricas
numeric_columns  = df_anscombe.select_dtypes(include=['number'])

# Adicionado o calculo das medidas de tendência central e dispersão
tendencia_central_e_dispersao_values =  numeric_columns .agg(['mean', 'median','std', 'var', mode, intervalo, intervalo_interquartil])
#Renomeando as colunas
tendencia_central_e_dispersao_values.rename(titulo_tabela, inplace=True)

#Imprimindo o DataFrame
tendencia_central_e_dispersao_values

Unnamed: 0,x,y
Média,9.0,7.500682
Mediana,8.0,7.52
Desvio Padrão,3.198837,1.958925
Variância,10.232558,3.837388
Moda,8.0,8.84
Intervalo,15.0,9.64
Intervalo Interquartil,4.0,2.63


- Calculo estastítica de forma separada para cada variável categórica

In [10]:
# Criando uma lista com as colunas numericas
colunas_numericas = df_anscombe.select_dtypes(include=['number']).columns

    - Por Dataset

In [11]:
# Adicionado o calculo das medidas de tendência central e dispersão
values_by_dataset = (
    df_anscombe
    .groupby('dataset')[colunas_numericas]
    .agg(['mean', 'median','std', 'var', mode, intervalo, intervalo_interquartil])
)

#Renomeando as colunas
values_by_dataset = values_by_dataset.rename(columns=titulo_tabela)

#Imprimindo o DataFrame
values_by_dataset

Unnamed: 0_level_0,x,x,x,x,x,x,x,y,y,y,y,y,y,y
Unnamed: 0_level_1,Média,Mediana,Desvio Padrão,Variância,Moda,Intervalo,Intervalo Interquartil,Média,Mediana,Desvio Padrão,Variância,Moda,Intervalo,Intervalo Interquartil
dataset,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2
I,9.0,9.0,3.316625,11.0,4.0,10.0,5.0,7.500909,7.58,2.031568,4.127269,4.26,6.58,2.255
II,9.0,9.0,3.316625,11.0,4.0,10.0,5.0,7.500909,8.14,2.031657,4.127629,3.1,6.16,2.255
III,9.0,9.0,3.316625,11.0,4.0,10.0,5.0,7.5,7.11,2.030424,4.12262,5.39,7.35,1.73
IV,9.0,8.0,3.316625,11.0,8.0,11.0,0.0,7.500909,7.04,2.030579,4.123249,5.25,7.25,2.02
