# Estatistica descritiva - Penguins

In [1]:
import seaborn as sns 
import pandas as pd

In [2]:
df = sns.load_dataset("titanic")
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [1]:
informacoes_colunas = {
    "survived": {
        "coluna": "survived",
        "descricao": "Indica se o passageiro sobreviveu (0 = Não, 1 = Sim)",
        "tipo_dado": "Qualitativo",
        "subtipo_dado": "Nominal"
    },
    "pclass": {
        "coluna": "pclass",
        "descricao": "Classe do bilhete (1 = Primeira, 2 = Segunda, 3 = Terceira)",
        "tipo_dado": "Qualitativo",
        "subtipo_dado": "Ordinal"
    },
    "sex": {
        "coluna": "sex",
        "descricao": "Sexo do passageiro",
        "tipo_dado": "Qualitativo",
        "subtipo_dado": "Nominal"
    },
    "age": {
        "coluna": "age",
        "descricao": "Idade do passageiro",
        "tipo_dado": "Quantitativo",
        "subtipo_dado": "Contínuo"
    },
    "sibsp": {
        "coluna": "sibsp",
        "descricao": "Número de irmãos/cônjuges a bordo do Titanic",
        "tipo_dado": "Quantitativo",
        "subtipo_dado": "Discreto"
    },
    "parch": {
        "coluna": "parch",
        "descricao": "Número de pais/filhos a bordo do Titanic",
        "tipo_dado": "Quantitativo",
        "subtipo_dado": "Discreto"
    },
    "fare": {
        "coluna": "fare",
        "descricao": "Tarifa paga pelo passageiro",
        "tipo_dado": "Quantitativo",
        "subtipo_dado": "Contínuo"
    },
    "embarked": {
        "coluna": "embarked",
        "descricao": "Porto de embarque (C = Cherbourg, Q = Queenstown, S = Southampton)",
        "tipo_dado": "Qualitativo",
        "subtipo_dado": "Nominal"
    },
    "class": {
        "coluna": "class",
        "descricao": "Classe do bilhete",
        "tipo_dado": "Qualitativo",
        "subtipo_dado": "Nominal"
    },
    "who": {
        "coluna": "who",
        "descricao": "Grupo demográfico (homem, mulher, criança)",
        "tipo_dado": "Qualitativo",
        "subtipo_dado": "Nominal"
    },
    "adult_male": {
        "coluna": "adult_male",
        "descricao": "Indica se o passageiro é adulto e do sexo masculino",
        "tipo_dado": "Qualitativo",
        "subtipo_dado": "Nominal"
    },
    "deck": {
        "coluna": "deck",
        "descricao": "Deck onde o passageiro estava localizado",
        "tipo_dado": "Qualitativo",
        "subtipo_dado": "Nominal"
    },
    "embark_town": {
        "coluna": "embark_town",
        "descricao": "Cidade onde o passageiro embarcou",
        "tipo_dado": "Qualitativo",
        "subtipo_dado": "Nominal"
    },
    "alive": {
        "coluna": "alive",
        "descricao": "Indica se o passageiro está vivo (yes = Sim, no = Não)",
        "tipo_dado": "Qualitativo",
        "subtipo_dado": "Nominal"
    },
    "alone": {
        "coluna": "alone",
        "descricao": "Indica se o passageiro está sozinho (True = Sim, False = Não)",
        "tipo_dado": "Qualitativo",
        "subtipo_dado": "Nominal"
    }
}

Informações para a coluna 'age':
Descrição: Idade do passageiro
Tipo do dado: Quantitativo
Subtipo do dado: Contínuo
Nome da coluna: age


In [3]:
colunas_numericas = df.select_dtypes(include=['number'])

estatisticas_por_coluna = colunas_numericas.describe()

print("Estatísticas de tendência central e dispersão para cada coluna numérica:")
print(estatisticas_por_coluna)

Estatísticas de tendência central e dispersão para cada coluna numérica:
         survived      pclass         age       sibsp       parch        fare
count  891.000000  891.000000  714.000000  891.000000  891.000000  891.000000
mean     0.383838    2.308642   29.699118    0.523008    0.381594   32.204208
std      0.486592    0.836071   14.526497    1.102743    0.806057   49.693429
min      0.000000    1.000000    0.420000    0.000000    0.000000    0.000000
25%      0.000000    2.000000   20.125000    0.000000    0.000000    7.910400
50%      0.000000    3.000000   28.000000    0.000000    0.000000   14.454200
75%      1.000000    3.000000   38.000000    1.000000    0.000000   31.000000
max      1.000000    3.000000   80.000000    8.000000    6.000000  512.329200


In [4]:
colunas_categoricas = df.select_dtypes(include=['object'])

contagem_ocorrencias = {}
for coluna in colunas_categoricas:
    contagem_ocorrencias[coluna] = df[coluna].value_counts()

print("Contagem de ocorrências para cada variável categórica:")
for coluna, contagem in contagem_ocorrencias.items():
    print(f"\nContagem para a variável: {coluna}")
    print(contagem)

Contagem de ocorrências para cada variável categórica:

Contagem para a variável: sex
sex
male      577
female    314
Name: count, dtype: int64

Contagem para a variável: embarked
embarked
S    644
C    168
Q     77
Name: count, dtype: int64

Contagem para a variável: who
who
man      537
woman    271
child     83
Name: count, dtype: int64

Contagem para a variável: embark_town
embark_town
Southampton    644
Cherbourg      168
Queenstown      77
Name: count, dtype: int64

Contagem para a variável: alive
alive
no     549
yes    342
Name: count, dtype: int64
