In [44]:
import pandas as pd
import seaborn as sns

## CONJUNTO DE DADOS DOS TIPS


In [45]:
df_tips = sns.load_dataset("tips")

In [46]:
df_tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


## Dicionário dos dados



In [47]:
df_tips_dict = pd.DataFrame({
    'total_bill': {
        'descricao': 'Valor total da conta (em dólares)',
        'tipo': 'quantitativo',
        'subtipo': 'contínuo'
    },
    'tip': {
        'descricao': 'Valor da gorjeta (em dólares)',
        'tipo': 'quantitativo',
        'subtipo': 'contínuo'
    },
    'sex': {
        'descricao': 'Sexo do pagante (M: Masculino, F: Feminino)',
        'tipo': 'qualitativo',
        'subtipo': 'nominal'
    },
    'smoker': {
        'descricao': 'Se o pagante é fumante (Sim, Não)',
        'tipo': 'qualitativo',
        'subtipo': 'nominal'
    },
    'day': {
        'descricao': 'Dia da semana (Thur: Quinta-feira, Fri: Sexta-feira, Sat: Sábado, Sun: Domingo)',
        'tipo': 'qualitativo',
        'subtipo': 'nominal'
    },
    'time': {
        'descricao': 'Período do dia (Lunch: Almoço, Dinner: Jantar)',
        'tipo': 'qualitativo',
        'subtipo': 'nominal'
    },
    'size': {
        'descricao': 'Número de pessoas na mesa',
        'tipo': 'quantitativo',
        'subtipo': 'discreto'
    }
})

df_tips_dict

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
descricao,Valor total da conta (em dólares),Valor da gorjeta (em dólares),"Sexo do pagante (M: Masculino, F: Feminino)","Se o pagante é fumante (Sim, Não)","Dia da semana (Thur: Quinta-feira, Fri: Sexta-...","Período do dia (Lunch: Almoço, Dinner: Jantar)",Número de pessoas na mesa
tipo,quantitativo,quantitativo,qualitativo,qualitativo,qualitativo,qualitativo,quantitativo
subtipo,contínuo,contínuo,nominal,nominal,nominal,nominal,discreto


# Estatísticas Descritivas dos Dados

## variáveis qualitativas

In [48]:
df_tips[['sex', 'smoker', 'day', 'time']].mode()

Unnamed: 0,sex,smoker,day,time
0,Male,No,Sat,Dinner


In [49]:
qualitative_vars = ['sex', 'smoker', 'day', 'time']
for variavel in qualitative_vars:
    valores_unicos = df_tips[variavel].unique()
    for valor in valores_unicos:
        print(f"{variavel} - {valor}")
        subamostra = df_tips[df_tips[variavel] == valor]
        print(subamostra.describe())
        print("="*1000)

sex - Female
       total_bill        tip       size
count   87.000000  87.000000  87.000000
mean    18.056897   2.833448   2.459770
std      8.009209   1.159495   0.937644
min      3.070000   1.000000   1.000000
25%     12.750000   2.000000   2.000000
50%     16.400000   2.750000   2.000000
75%     21.520000   3.500000   3.000000
max     44.300000   6.500000   6.000000
sex - Male
       total_bill         tip        size
count  157.000000  157.000000  157.000000
mean    20.744076    3.089618    2.630573
std      9.246469    1.489102    0.955997
min      7.250000    1.000000    1.000000
25%     14.000000    2.000000    2.000000
50%     18.350000    3.000000    2.000000
75%     24.710000    3.760000    3.000000
max     50.810000   10.000000    6.000000
smoker - No
       total_bill         tip        size
count  151.000000  151.000000  151.000000
mean    19.188278    2.991854    2.668874
std      8.255582    1.377190    1.017984
min      7.250000    1.000000    1.000000
25%     13.32500

## variáveis quantitativas


In [50]:
df_tips.describe()

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


## ------------------------------------------------------------------------

## CONJUNTO DE DADOS DO TITANIC



In [51]:
df_titanic = sns.load_dataset("titanic")

In [52]:
df_titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


## Dicionário dos dados

In [53]:
df_titanic_dict = pd.DataFrame({
    'survived': {
        'descricao': 'Sobreviveu ao desastre (0: Não, 1: Sim)',
        'tipo': 'qualitativo',
        'subtipo': 'nominal'
    },
    'pclass': {
        'descricao': 'Classe da passagem (1: Primeira classe, 2: Segunda classe, 3: Terceira classe)',
        'tipo': 'qualitativo',
        'subtipo': 'ordinal'
    },
    'sex': {
        'descricao': 'Sexo do passageiro (male: Masculino, female: Feminino)',
        'tipo': 'qualitativo',
        'subtipo': 'nominal'
    },
    'age': {
        'descricao': 'Idade do passageiro',
        'tipo': 'quantitativo',
        'subtipo': 'contínuo'
    },
    'sibsp': {
        'descricao': 'Número de irmãos/cônjuges a bordo',
        'tipo': 'quantitativo',
        'subtipo': 'discreto'
    },
    'parch': {
        'descricao': 'Número de pais/filhos a bordo',
        'tipo': 'quantitativo',
        'subtipo': 'discreto'
    },
    'fare': {
        'descricao': 'Tarifa paga pelo passageiro (em dólares)',
        'tipo': 'quantitativo',
        'subtipo': 'contínuo'
    },
    'embarked': {
        'descricao': 'Porto de embarque (C: Cherbourg, Q: Queenstown, S: Southampton)',
        'tipo': 'qualitativo',
        'subtipo': 'nominal'
    }
})

df_titanic_dict


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked
descricao,"Sobreviveu ao desastre (0: Não, 1: Sim)","Classe da passagem (1: Primeira classe, 2: Seg...","Sexo do passageiro (male: Masculino, female: F...",Idade do passageiro,Número de irmãos/cônjuges a bordo,Número de pais/filhos a bordo,Tarifa paga pelo passageiro (em dólares),"Porto de embarque (C: Cherbourg, Q: Queenstown..."
tipo,qualitativo,qualitativo,qualitativo,quantitativo,quantitativo,quantitativo,quantitativo,qualitativo
subtipo,nominal,ordinal,nominal,contínuo,discreto,discreto,contínuo,nominal


# Estatísticas Descritivas dos Dados

## variáveis qualitativas

In [54]:
df_titanic[['survived', 'pclass', 'sex', 'embarked']].mode()


Unnamed: 0,survived,pclass,sex,embarked
0,0,3,male,S


In [57]:
qualitative_vars = ['survived', 'pclass', 'sex', 'embarked']
for variavel in qualitative_vars:
    valores_unicos = df_titanic[variavel].unique()
    for valor in valores_unicos:
        print(f"{variavel} - {valor}")
        subamostra = df_titanic[df_titanic[variavel] == valor]
        print(subamostra.describe())
        print("="*1000)

survived - 0
       survived      pclass         age       sibsp       parch        fare
count     549.0  549.000000  424.000000  549.000000  549.000000  549.000000
mean        0.0    2.531876   30.626179    0.553734    0.329690   22.117887
std         0.0    0.735805   14.172110    1.288399    0.823166   31.388207
min         0.0    1.000000    1.000000    0.000000    0.000000    0.000000
25%         0.0    2.000000   21.000000    0.000000    0.000000    7.854200
50%         0.0    3.000000   28.000000    0.000000    0.000000   10.500000
75%         0.0    3.000000   39.000000    1.000000    0.000000   26.000000
max         0.0    3.000000   74.000000    8.000000    6.000000  263.000000
survived - 1
       survived      pclass         age       sibsp       parch        fare
count     342.0  342.000000  290.000000  342.000000  342.000000  342.000000
mean        1.0    1.950292   28.343690    0.473684    0.464912   48.395408
std         0.0    0.863321   14.950952    0.708688    0.77171

         survived  pclass         age       sibsp       parch        fare
count  216.000000   216.0  186.000000  216.000000  216.000000  216.000000
mean     0.629630     1.0   38.233441    0.416667    0.356481   84.154687
std      0.484026     0.0   14.802856    0.611898    0.693997   78.380373
min      0.000000     1.0    0.920000    0.000000    0.000000    0.000000
25%      0.000000     1.0   27.000000    0.000000    0.000000   30.923950
50%      1.000000     1.0   37.000000    0.000000    0.000000   60.287500
75%      1.000000     1.0   49.000000    1.000000    0.000000   93.500000
max      1.000000     1.0   80.000000    3.000000    4.000000  512.329200
pclass - 2
         survived  pclass         age       sibsp       parch        fare
count  184.000000   184.0  173.000000  184.000000  184.000000  184.000000
mean     0.472826     2.0   29.877630    0.402174    0.380435   20.662183
std      0.500623     0.0   14.001077    0.601633    0.690963   13.417399
min      0.000000     2.0  

## variáveis quantitativas

In [None]:
quantitative_vars = ['age', 'sibsp', 'parch', 'fare']
df_titanic[quantitative_vars].describe()



Unnamed: 0,age,sibsp,parch,fare
count,714.0,891.0,891.0,891.0
mean,29.699118,0.523008,0.381594,32.204208
std,14.526497,1.102743,0.806057,49.693429
min,0.42,0.0,0.0,0.0
25%,20.125,0.0,0.0,7.9104
50%,28.0,0.0,0.0,14.4542
75%,38.0,1.0,0.0,31.0
max,80.0,8.0,6.0,512.3292
