# 1. Análise exploratória de dados

In [49]:
import pandas as pd
import seaborn as sns

# 1.1. Conjuntos de dados

In [55]:
df_tips = sns.load_dataset('tips')
df_titanic = sns.load_dataset('titanic')

## 1.2. Dicionário de dados

### 1.2.1. Tips

In [53]:
df_dict_tips = pd.DataFrame([
    {
        "variavel": "total_bill",
        "descricao": "Valor da compra em unidades monetárias",
        "tipo": "quantitativa",
        "subtipo": "continua",
    },{
        "variavel": "tip",
        "descricao": "Valor da gorjeta em unidades monetárias",
        "tipo": "quantitativa",
        "subtipo": "continua",
    },{
        "variavel": "sex",
        "descricao": "Sexo da pessoa ('Male', 'Female')",
        "tipo": "qualitativa",
        "subtipo": "nominal",
    },{
        "variavel": "day",
        "descricao": "Dias da semana ('Thur', 'Fri', 'Sat', 'Sun')",
        "tipo": "qualitativa",
        "subtipo": "nominal",
    }
])

df_dict_tips

Unnamed: 0,variavel,descricao,tipo,subtipo
0,total_bill,Valor da compra em unidades monetárias,quantitativa,continua
1,tip,Valor da gorjeta em unidades monetárias,quantitativa,continua
2,sex,"Sexo da pessoa ('Male', 'Female')",qualitativa,nominal
3,day,"Dias da semana ('Thur', 'Fri', 'Sat', 'Sun')",qualitativa,nominal


### 1.2.2. Titanic

In [54]:
df_dict_titanic = pd.DataFrame([
    {
        "variavel": "who",
        "descricao": "Gênero do Passageiro ('man', 'woman')",
        "tipo": "qualitativa",
        "subtipo": "nominal",
    },{
        "variavel": "class",
        "descricao": "Classe social do passageiro ('First', 'Second', 'Third')",
        "tipo": "qualitativa",
        "subtipo": "nominal",
    },{
        "variavel": "fare",
        "descricao": "Valor da passagem em Libras",
        "tipo": "quantitativa",
        "subtipo": "discreta",
    },{
        "variavel": "age",
        "descricao": "Idade do passageiro em anos",
        "tipo": "quantitativa",
        "subtipo": "discreta",
    }
])

df_dict_titanic

Unnamed: 0,variavel,descricao,tipo,subtipo
0,who,"Gênero do Passageiro ('man', 'woman')",qualitativa,nominal
1,class,"Classe social do passageiro ('First', 'Second'...",qualitativa,nominal
2,fare,Valor da passagem em Libras,quantitativa,discreta
3,age,Idade do passageiro em anos,quantitativa,discreta


## 1.3. Estatísticas dos Dados

### 1.3.1. Tips

#### 1.3.1.1. Variáveis Qualitativas

In [77]:
df_dict_tips.query('tipo == "qualitativa"').variavel.to_list()

qualitative_vars_tips = ['sex', 'day']
moda_tips = df_tips[qualitative_vars_tips].mode()
print(moda_tips)

    sex  day
0  Male  Sat


#### 1.3.1.2. Estatísticas das Variáveis Qualitativas

In [78]:
for variavel in qualitative_vars_tips:
    unique_vars = df_tips[variavel].unique()

    for var in unique_vars:
        subamostra = df_tips[df_tips[variavel] == var]
        print(subamostra.describe(), "\n")

       total_bill        tip       size
count   87.000000  87.000000  87.000000
mean    18.056897   2.833448   2.459770
std      8.009209   1.159495   0.937644
min      3.070000   1.000000   1.000000
25%     12.750000   2.000000   2.000000
50%     16.400000   2.750000   2.000000
75%     21.520000   3.500000   3.000000
max     44.300000   6.500000   6.000000 

       total_bill         tip        size
count  157.000000  157.000000  157.000000
mean    20.744076    3.089618    2.630573
std      9.246469    1.489102    0.955997
min      7.250000    1.000000    1.000000
25%     14.000000    2.000000    2.000000
50%     18.350000    3.000000    2.000000
75%     24.710000    3.760000    3.000000
max     50.810000   10.000000    6.000000 

       total_bill        tip       size
count   76.000000  76.000000  76.000000
mean    21.410000   3.255132   2.842105
std      8.832122   1.234880   1.007341
min      7.250000   1.010000   2.000000
25%     14.987500   2.037500   2.000000
50%     19.630000 

#### 1.3.1.3. Variáveis Quantitativas

In [79]:
df_tips.describe()

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


### 1.3.2. Titanic

#### 1.3.2.1. Variáveis Qualitativas

In [70]:
df_dict_titanic.query('tipo == "qualitativa"').variavel.to_list()

qualitative_vars_titanic = ['who', 'class']
moda_titanic = df_titanic[qualitative_vars_titanic].mode()
print(moda_titanic)

   who  class
0  man  Third


#### 1.3.2.2. Estatísticas das Variáveis Qualitativas

In [71]:
for variavel in qualitative_vars_titanic:
    unique_vars = df_titanic[variavel].unique()

    for var in unique_vars:
        subamostra = df_titanic[df_titanic[variavel] == var]
        print(subamostra.describe(), "\n")

         survived      pclass         age       sibsp       parch        fare
count  537.000000  537.000000  413.000000  537.000000  537.000000  537.000000
mean     0.163873    2.372439   33.173123    0.296089    0.152700   24.864182
std      0.370506    0.823525   12.906908    0.850726    0.528089   44.021339
min      0.000000    1.000000   16.000000    0.000000    0.000000    0.000000
25%      0.000000    2.000000   23.000000    0.000000    0.000000    7.854200
50%      0.000000    3.000000   30.000000    0.000000    0.000000    9.500000
75%      0.000000    3.000000   40.000000    0.000000    0.000000   26.387500
max      1.000000    3.000000   80.000000    8.000000    5.000000  512.329200 

         survived      pclass         age       sibsp       parch        fare
count  271.000000  271.000000  218.000000  271.000000  271.000000  271.000000
mean     0.756458    2.084871   32.000000    0.601476    0.564576   46.570711
std      0.430014    0.867196   11.495441    1.093685    1.033

#### 1.3.2.3. Variáveis Quantitativas

In [72]:

df_titanic.describe()

#df_dict_titanic.query('tipo == "quantitativa"').variavel.to_list()

#quantitative_vars = ['fare', 'age']

#media = df[quantitative_vars].mean()
#desvio = df[quantitative_vars].std()
#mediana = media = df[quantitative_vars].min()

#print("Média:\n", media)
#print("\nDesvio Padrão:\n", desvio)
#print("\nMediana:\n", mediana)

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292
