# Aula 5 - Limpeza e transformação de dados

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) Limpeza de Dados (dropna, fillna, isnull, notnull, replace, duplicated, drop_duplicated)
- 2) Transformação de Dados (cut, qcut, get_dummies)

________

### Objetivos

Apresentar como identificamos valores nulos, discutir melhores formas de tratá-los além de trabalhar com variáveis dummies.

________

### Habilidades a serem desenvolvidas nessa aula

Ao final da aula o aluno deve:

- Saber como identificar valores nulos e como tratá-los.
- Identificar quando utilizar variáveis dummies e como criá-las.
____
____
____

In [3]:
import pandas as pd 
import numpy as np 

In [4]:
df = pd.read_csv("data/titanic.csv")

## Limpeza de Dados: Dados Faltantes

### .isna() e isnull()
retorna um df booleano indicando se existe um nulo naquela posição. `pd.isnull()` é um alias para `pd.isna()` dentro do python como podemos ver na <a href="https://github.com/pandas-dev/pandas/blob/0409521665bd436a10aea7e06336066bf07ff057/pandas/core/dtypes/missing.py#L109">documentação</a>. O pandas dataframe é baseado nos df do R, onde null e na tem sentidos distintos.

In [17]:
pd.isnull

<function pandas.core.dtypes.missing.isna(obj)>

In [4]:
df.isna()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,True,False
887,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,False,False,True,False,False,False,False,True,False
889,False,False,False,False,False,False,False,False,False,False,False,False


Para termos a quantidade de nans em cada coluna podemos somar os valores true:

In [5]:
df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

### .notnull()

retorna df com True ou False, com True para elementos não nulos

In [6]:
df.notnull().sum()

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

### .dropna()

elimina nulos em todo o df ou em colunas especificadas. É um dos métodos que aceita o parâmetro inplace.


In [7]:
df.dropna(subset=['Age','Embarked'])

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [8]:
df.dropna(subset=['Age','Embarked']).isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          529
Embarked         0
dtype: int64

### .fillna()

preeche os valores nulos com valores especificados.
Parâmetros úteis:

    method {‘bfill’,‘ffill’, None}, default None
    Preenche os nas propagando o último valor válido para frente (ffill) ou utiliza próxima observação válida para preencher os nulos (bfill).
    axis {0 para ‘index’, 1 para ‘colunas’}
    Eixo no qual se quer preencher os nulos
    inplace {booleano}, default False

Quais soluções poderíamos utilizar para preencher os nulos em Age?
E as cabines nulas?
E os portões de embarque nulos?
Qual os possíveis problemas que podemos encontrar utilizando essas abordagens?


In [9]:
# Podemos ordenar nosso df pelo Pclass e Fare para preencher os nulos de Embarked 
# utilizando o ffill se aceitarmos a premissa de que os portões de embarque eram
# distintos de acordo com o nível social. 
# Qual problema poderíamos estar causando nos nossos dados?
df.sort_values(['Pclass', 'Fare']).fillna(method='ffill')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
263,264,0,1,"Harrison, Mr. William",male,40.0,0,0,112059,0.00,B94,S
633,634,0,1,"Parr, Mr. William Henry Marsh",male,40.0,0,0,112052,0.00,B94,S
806,807,0,1,"Andrews, Mr. Thomas Jr",male,39.0,0,0,112050,0.00,A36,S
815,816,0,1,"Fry, Mr. Richard",male,39.0,0,0,112058,0.00,B102,S
822,823,0,1,"Reuchlin, Jonkheer. John George",male,38.0,0,0,19972,0.00,B102,S
...,...,...,...,...,...,...,...,...,...,...,...,...
201,202,0,3,"Sage, Mr. Frederick",male,32.0,8,2,CA. 2343,69.55,F E69,S
324,325,0,3,"Sage, Mr. George John Jr",male,32.0,8,2,CA. 2343,69.55,F E69,S
792,793,0,3,"Sage, Miss. Stella Anna",female,32.0,8,2,CA. 2343,69.55,F E69,S
846,847,0,3,"Sage, Mr. Douglas Bullen",male,32.0,8,2,CA. 2343,69.55,F E69,S


### `.interpolate()`
Faz a interpolação dos missing de acordo com o método escolhido.
[Documentação](https://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.Series.interpolate.html)

In [2]:
s = pd.Series([0, 1, np.nan, 3])
s.interpolate()

NameError: name 'pd' is not defined

### .replace()

substitui elementos dentro do df. É um dos métodos que aceita o parâmetro inplace.


In [10]:
# para apenas uma troca
df.replace('male', 'H')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",H,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",H,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",H,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",H,26.0,0,0,111369,30.0000,C148,C


In [11]:
# para mais de uma troca
df.replace(['male', 'female'], ['H', 'M'])

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",H,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",M,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",M,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",M,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",H,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",H,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",M,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",M,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",H,26.0,0,0,111369,30.0000,C148,C


## Limpeza de Dados: Dados duplicados
### .duplicated() e .drop_duplicated()

O .duplicated() retorna uma series indicando se determinada linha possui duplicados ou não. Já o .drop_duplicated(), elimina as linhas duplicadas.
Parâmetros do .drop_duplicated():

    subset seleciona colunas para serem utilizdas na comparação de linhas duplicadas
    keep {‘first’, ‘last’, False}, default ‘first’ Determina qual duplicado manter
    inplace {bool}, default False Se False retorna uma cópia do df com as alterações, es True faz as modificações no próprio df



In [12]:
# vamos criar um df que possua linhas duplicadas
df_dup = df.copy()

df_dup.loc[891, :] = df_dup.loc[0, :]
                                
df_dup.loc[892, :] = df_dup.loc[1, :]
df_dup.loc[893, :] = df_dup.loc[1, :]

print(df.shape, df_dup.shape)

(891, 12) (894, 12)


In [13]:
df_dup.duplicated().sum()

3

In [14]:
print(df_dup.shape)
print(df_dup.drop_duplicates().shape)

(894, 12)
(891, 12)


## Transformação de dados

### pd.cut()
O método `pd.cut()` ordena os dados, separa em bins e computa qual grupo cada linha do df pertence. O `pd.cut()` escolherá os bins para serem espaçados uniformemente de acordo com os próprios valores e não com a frequência desses valores.  <br>
Ele é muito utilizado para transformar variáveis contínuas em categóricas. Por exemplo, podemos converter o valor númerico da idade em grupos de criança, jovem, adulto e idoso.
<br><br>
<a href='https://pandas.pydata.org/docs/reference/api/pandas.cut.html'>Parâmetros:</a> <br>
pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise', ordered=True)

Ao informar quantidade de grupos o pd.cut() escolhe os bins com o mesmo tamanho de janela :


In [82]:
df['cut_bins'] = pd.cut(df.Age, 4)
df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked,cut_bins,cut_classes
0,0,3,male,22.0,1,0,7.25,,S,"(20.315, 40.21]",adultos
1,1,1,female,38.0,1,0,71.2833,C85,C,"(20.315, 40.21]",adultos
2,1,3,female,26.0,0,0,7.925,,S,"(20.315, 40.21]",adultos
3,1,1,female,35.0,1,0,53.1,C123,S,"(20.315, 40.21]",adultos
4,0,3,male,35.0,0,0,8.05,,S,"(20.315, 40.21]",adultos


Podemos passar o nome dos grupos e transformar a variável numérica diretamente em categórica


In [78]:
df['cut_classes'] = pd.cut(df.Age, 4, labels=["jovens", "adultos", "meia-idade", "idosos"])
df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked,cut_bins,cut_classes
0,0,3,male,22.0,1,0,7.25,,S,"(20.315, 40.21]",adultos
1,1,1,female,38.0,1,0,71.2833,C85,C,"(20.315, 40.21]",adultos
2,1,3,female,26.0,0,0,7.925,,S,"(20.315, 40.21]",adultos
3,1,1,female,35.0,1,0,53.1,C123,S,"(20.315, 40.21]",adultos
4,0,3,male,35.0,0,0,8.05,,S,"(20.315, 40.21]",adultos


In [90]:
df.cut_bins.unique()

[(20.315, 40.21], NaN, (40.21, 60.105], (0.34, 20.315], (60.105, 80.0]]
Categories (4, interval[float64]): [(0.34, 20.315] < (20.315, 40.21] < (40.21, 60.105] < (60.105, 80.0]]

In [86]:
df.cut_classes.value_counts()

adultos       385
jovens        179
meia-idade    128
idosos         22
Name: cut_classes, dtype: int64

In [87]:
df.cut_bins.value_counts()

(20.315, 40.21]    385
(0.34, 20.315]     179
(40.21, 60.105]    128
(60.105, 80.0]      22
Name: cut_bins, dtype: int64

Também podemos passar uma lista com os valores de início e fim dos bins:

In [81]:
pd.cut(df.Age, [0,20,60,80]).unique()

[(20.0, 60.0], NaN, (0.0, 20.0], (60.0, 80.0]]
Categories (3, interval[int64]): [(0, 20] < (20, 60] < (60, 80]]

In [14]:
df.Age.describe()

count    714.000000
mean      29.699118
std       14.526497
min        0.420000
25%       20.125000
50%       28.000000
75%       38.000000
max       80.000000
Name: Age, dtype: float64

Repare que o ú

### pd.qcut()
O `pd.qcut()` é utilizado quando queremos discretizar nossos dados em quantis. Ao informar quantidade de grupos o `pd.qcut()` escolhe os bins tal que tenhamos a mesma quantidade de valores em cada grupo.

#### `pd.qcut()` x `pd.qcut()`
   * O comando `pd.cut()` cria **caixas equidistantes**, mas a **frequência** das amostras é **desigual** em cada caixa
   * O comando `pd.qcut()` cria **caixas de tamanhos desiguais**, mas a **frequência** das amostras é **igual** em cada caixa.

<br>
Parâmetros:<br>
pandas.qcut(x, q, labels=None, retbins=False, precision=3, duplicates='raise')

In [93]:
pd.cut(df.Age, 4).value_counts()

(20.315, 40.21]    385
(0.34, 20.315]     179
(40.21, 60.105]    128
(60.105, 80.0]      22
Name: Age, dtype: int64

In [31]:
pd.qcut(df.Age, 4).value_counts()

(20.125, 28.0]     183
(0.419, 20.125]    179
(38.0, 80.0]       177
(28.0, 38.0]       175
Name: Age, dtype: int64

In [32]:
pd.qcut(df.Age, 4).value_counts()/df.Age.notnull().sum()

(20.125, 28.0]     0.256303
(0.419, 20.125]    0.250700
(38.0, 80.0]       0.247899
(28.0, 38.0]       0.245098
Name: Age, dtype: float64

<a href='https://towardsdatascience.com/discretisation-using-decision-trees-21910483fa4b'>Discretização utilizando decision trees</a>

### pd.get_dummies()

#### variáveis categóricas
Variáveis categóricas são aquelas que representam grupos ou classes dentro dos nossos dados. Elas podem ser de dois tipos:
* ordinais: possuem uma ordem que tem um sentido. Por exemplo, em rendimentos poderíamos ter: classe alta > classe média > classe baixa  
* nominais: não possuem uma ordem válida. Por exemplo: sexo e CEP.

<img src="variaveis_categoricas.jpeg" style="width: 500px">

Dummies são quaisquer variáveis cujos valores são 1 ou 0 para cada observação. O método `pd.get_dummies()` converte as variáveis categóricas em numéricas separando cada categoria em uma coluna única.
<br>
<br>
<a href="https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html">Parâmetros:</a> <br>
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)

In [96]:
pd.get_dummies(df, columns=['Sex', 'cut_classes'], drop_first=True)

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare,Cabin,Embarked,cut_bins,Sex_male,cut_classes_adultos,cut_classes_meia-idade,cut_classes_idosos
0,0,3,22.0,1,0,7.2500,,S,"(20.315, 40.21]",1,1,0,0
1,1,1,38.0,1,0,71.2833,C85,C,"(20.315, 40.21]",0,1,0,0
2,1,3,26.0,0,0,7.9250,,S,"(20.315, 40.21]",0,1,0,0
3,1,1,35.0,1,0,53.1000,C123,S,"(20.315, 40.21]",0,1,0,0
4,0,3,35.0,0,0,8.0500,,S,"(20.315, 40.21]",1,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,27.0,0,0,13.0000,,S,"(20.315, 40.21]",1,1,0,0
887,1,1,19.0,0,0,30.0000,B42,S,"(0.34, 20.315]",0,0,0,0
888,0,3,,1,2,23.4500,,S,,0,0,0,0
889,1,1,26.0,0,0,30.0000,C148,C,"(20.315, 40.21]",1,1,0,0


In [100]:
pd.get_dummies(pd.cut(df.Age, 4))

Unnamed: 0,"(0.34, 20.315]","(20.315, 40.21]","(40.21, 60.105]","(60.105, 80.0]"
0,0,1,0,0
1,0,1,0,0
2,0,1,0,0
3,0,1,0,0
4,0,1,0,0
...,...,...,...,...
886,0,1,0,0
887,1,0,0,0
888,0,0,0,0
889,0,1,0,0


## Exercícios

1. Baixe os dados de consumo de bebidas por país do <a href="https://www.kaggle.com/justmarkham/alcohol-consumption-by-country">kaggle</a> faça uma análise das informações utilizando os métodos que você já conhece e depois responda:

In [150]:
drinks = pd.read_csv("data/drinks.csv")
drinks

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,Asia
1,Albania,89,132,54,4.9,Europe
2,Algeria,25,0,14,0.7,Africa
3,Andorra,245,138,312,12.4,Europe
4,Angola,217,57,45,5.9,Africa
...,...,...,...,...,...,...
188,Venezuela,333,100,3,7.7,South America
189,Vietnam,111,2,1,2.0,Asia
190,Yemen,6,0,0,0.1,Asia
191,Zambia,32,19,4,2.5,Africa


a. Encontre qual a bebida mais consumida em cada um dos países e a quantidade.

In [None]:
# Seleciona a bebida mais consumida
df_bebida = (drinks
             .set_index(['country','continent'])
             .idxmax(axis=1)
             .rename('bebida', axis=1)
             .reset_index())

# Seleciona a quantidade da bebida mais consumida
df_quantidade = (drinks
                 .set_index(['country','continent'])
                 .max(axis=1)
                 .rename('quantidade', axis=1)
                 .reset_index())

# Junta os dois df
df_bebida.merge(df_quantidade, on=['country', 'continent'], how='inner')

In [None]:
# com os próximos exercícios faremos esse mesmo processo de forma mais fácil

b. Crie um df cujas bebidas estejam agrupadas em uma mesma coluna.

In [153]:
drinks_melt = drinks.melt(id_vars=['country','continent'], value_name='volume', var_name='drink')
drinks_melt

Unnamed: 0,country,continent,drink,volume
0,Afghanistan,Asia,beer_servings,0.0
1,Albania,Europe,beer_servings,89.0
2,Algeria,Africa,beer_servings,25.0
3,Andorra,Europe,beer_servings,245.0
4,Angola,Africa,beer_servings,217.0
...,...,...,...,...
767,Venezuela,South America,total_litres_of_pure_alcohol,7.7
768,Vietnam,Asia,total_litres_of_pure_alcohol,2.0
769,Yemen,Asia,total_litres_of_pure_alcohol,0.1
770,Zambia,Africa,total_litres_of_pure_alcohol,2.5


c. Utilizando esse novo df, encontre qual a bebida mais consumida por país e a quantidade.

In [188]:
drinks_melt.loc[drinks_melt.groupby('country').idxmax().volume]

Unnamed: 0,country,continent,drink,volume
0,Afghanistan,Asia,beer_servings,0.0
194,Albania,Europe,spirit_servings,132.0
2,Algeria,Africa,beer_servings,25.0
389,Andorra,Europe,wine_servings,312.0
4,Angola,Africa,beer_servings,217.0
...,...,...,...,...
188,Venezuela,South America,beer_servings,333.0
189,Vietnam,Asia,beer_servings,111.0
190,Yemen,Asia,beer_servings,6.0
191,Zambia,Africa,beer_servings,32.0


2. Considere os dados de preço de fechamento e volume das ações que estão dentro de "data/stocks.csv". <br>
a. Escolha um método de python ensinado na aula de hoje para obter um dataframe cujas linhas são os códigos das ações e as colunas são as datas.

In [None]:
stocks = pd.read_csv("data/stocks.csv")

In [212]:
stocks_pivot = stocks.pivot_table(values='Close', index='Symbol', columns='Date')
stocks_pivot

Date,2016-10-03,2016-10-04,2016-10-05
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AAPL,112.52,113.0,113.05
CSCO,31.5,31.35,31.59
MSFT,57.42,57.24,57.64


b. Com o df original, converta o código das ações para variáveis dummies.

In [222]:
pd.get_dummies(stocks, columns=['Symbol'], drop_first=True)

Unnamed: 0,Date,Close,Volume,Symbol_CSCO,Symbol_MSFT
0,2016-10-03,31.5,14070500,1,0
1,2016-10-03,112.52,21701800,0,0
2,2016-10-03,57.42,19189500,0,1
3,2016-10-04,113.0,29736800,0,0
4,2016-10-04,57.24,20085900,0,1
5,2016-10-04,31.35,18460400,1,0
6,2016-10-05,57.64,16726400,0,1
7,2016-10-05,31.59,11808600,1,0
8,2016-10-05,113.05,21453100,0,0


3. Considere os dados do arquivo "german_credit.csv" que contem dados de empréstimos realizados por um banco.<br>
a. Encontre qual a média de empréstimo ("Credit Amount") obtidos considerando o propósito ("Purpose") do empréstimo nas linhas e o sexo ("Sex") nas colunas.

In [216]:
gc = pd.read_csv('data/german_credit.csv')
gc.head()

Unnamed: 0.1,Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose
0,0,67,male,2,own,,little,1169,6,radio/TV
1,1,22,female,2,own,little,moderate,5951,48,radio/TV
2,2,49,male,1,own,little,,2096,12,education
3,3,45,male,2,free,little,little,7882,42,furniture/equipment
4,4,53,male,2,free,little,little,4870,24,car


In [218]:
gc.pivot_table(index="Purpose", columns = ['Sex'] , values="Credit amount", aggfunc='mean')

Sex,female,male
Purpose,Unnamed: 1_level_1,Unnamed: 2_level_1
business,3195.421053,4392.525641
car,3369.723404,3922.333333
domestic appliances,1409.833333,1586.166667
education,2134.041667,3390.171429
furniture/equipment,2774.72973,3269.11215
radio/TV,2400.517647,2525.635897
repairs,2126.4,2905.058824
vacation/others,11653.666667,7061.222222


In [221]:
gc.groupby(['Purpose', 'Sex'])[['Credit amount']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Credit amount
Purpose,Sex,Unnamed: 2_level_1
business,female,3195.421053
business,male,4392.525641
car,female,3369.723404
car,male,3922.333333
domestic appliances,female,1409.833333
domestic appliances,male,1586.166667
education,female,2134.041667
education,male,3390.171429
furniture/equipment,female,2774.72973
furniture/equipment,male,3269.11215


b. Converta as variáveis categóricas em numéricas.

In [226]:
gc.dtypes

Unnamed: 0           int64
Age                  int64
Sex                 object
Job                  int64
Housing             object
Saving accounts     object
Checking account    object
Credit amount        int64
Duration             int64
Purpose             object
dtype: object

In [232]:
gc['Checking account'].unique()

array(['little', 'moderate', nan, 'rich'], dtype=object)

In [234]:
pd.get_dummies(gc, columns=['Saving accounts', 'Sex', 'Checking account', 'Purpose'], drop_first=True)

Unnamed: 0.1,Unnamed: 0,Age,Job,Housing,Credit amount,Duration,Saving accounts_moderate,Saving accounts_quite rich,Saving accounts_rich,Sex_male,Checking account_moderate,Checking account_rich,Purpose_car,Purpose_domestic appliances,Purpose_education,Purpose_furniture/equipment,Purpose_radio/TV,Purpose_repairs,Purpose_vacation/others
0,0,67,2,own,1169,6,0,0,0,1,0,0,0,0,0,0,1,0,0
1,1,22,2,own,5951,48,0,0,0,0,1,0,0,0,0,0,1,0,0
2,2,49,1,own,2096,12,0,0,0,1,0,0,0,0,1,0,0,0,0
3,3,45,2,free,7882,42,0,0,0,1,0,0,0,0,0,1,0,0,0
4,4,53,2,free,4870,24,0,0,0,1,0,0,1,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,995,31,1,own,1736,12,0,0,0,0,0,0,0,0,0,1,0,0,0
996,996,40,3,own,3857,30,0,0,0,1,0,0,1,0,0,0,0,0,0
997,997,38,2,own,804,12,0,0,0,1,0,0,0,0,0,0,1,0,0
998,998,23,2,free,1845,45,0,0,0,1,0,0,0,0,0,0,1,0,0


4. Considere o dataset (fake) com testes de aceleração para três carros distintos. Utilize um dos métodos ensinados em aula para criar uma única coluna com os valores das datas e outra com os valores das acelerações.

In [223]:
s = 'Carro A'
x = 'Carro B'
three = 'Carro C'

s_data = [s, 2.5, 2.51, 2.54]
x_data = [x, 2.92, 2.91, 2.93]
three_data = [three, 3.33, 3.31, 3.35]

data = [s_data, x_data, three_data] 
car = pd.DataFrame(data, columns=['car_model', 'Sept 1 9am', 'Sept 1 10am', 'Sept 1 11am'])
car

Unnamed: 0,car_model,Sept 1 9am,Sept 1 10am,Sept 1 11am
0,Carro A,2.5,2.51,2.54
1,Carro B,2.92,2.91,2.93
2,Carro C,3.33,3.31,3.35


In [224]:
car_melt = car.melt(id_vars=['car_model'], var_name='date', value_name='0-60mph_in_seconds')
car_melt

Unnamed: 0,car_model,date,0-60mph_in_seconds
0,Carro A,Sept 1 9am,2.5
1,Carro B,Sept 1 9am,2.92
2,Carro C,Sept 1 9am,3.33
3,Carro A,Sept 1 10am,2.51
4,Carro B,Sept 1 10am,2.91
5,Carro C,Sept 1 10am,3.31
6,Carro A,Sept 1 11am,2.54
7,Carro B,Sept 1 11am,2.93
8,Carro C,Sept 1 11am,3.35


## Referências:
pd.melt(): <br>
https://towardsdatascience.com/shape-tables-like-jelly-with-pandas-melt-and-pivot-f2e13e666d6 <br>
https://pub.towardsai.net/understanding-pandas-melt-pd-melt-362954f8c125