# pandas.melt

Doc: [pandas.melt](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.melt.html)

O nome desta função representa, de maneira curiosa e divertida, o seu significado. <br>
__Melt__, do inglês, significa __Derreter__. E é este o nosso objetivo nesse Notebook.

Observe a coluna __ingredientes__ no DataFrame abaixo. <br>
O nosso objetivo é apresentar cada ingrediente da lista em uma nova linha do DataFrame.

Abaixo é apresentado um passo-a-passo para que você possa acompanhar o raciocínio apresentado neste notebook, mas você também pode pular para o final e encontrar o resultado :)
1. [Passo 1](#passo1) .apply(pd.Series)
2. [Passo 2](#passo2) .merge(df, left_index=True, right_index=True)
3. [Passo 3](#passo3) .drop(columns='ingredientes')
4. [Passo 4](#passo4) .melt(id_vars=['codigo', 'receita'], value_name='ingredientes')
5. [Passo 5](#passo5) .drop(columns='variable')
6. [Passo 6](#passo6) .dropna()
7. [Passo 7](#passo7) .sort_values(by='codigo')

Então vamos derreter cada ingrediente ao longo do DataFrame...

In [1]:
import pandas as pd
import ast

df = pd.read_csv('dados_ingredientes.csv', converters={'ingredientes': ast.literal_eval})
df

Unnamed: 0,codigo,receita,ingredientes
0,1,Batata Rosti,"[batata, orégano, lentilha]"
1,2,Farofa proteica,"[lentilha, quinoa]"
2,3,Hambúrguer,"[grão de bico, aveia, açafrão]"


<a id="passo1"></a>

## Passo 1 
### .apply(pd.Series)
Convertemos cada ingrediente em uma nova coluna.

Observe que existem receitas com 2 ingredientes e outras com 3 ingredientes. <br>
Portanto haverá linhas com o valor NaN. <br>
Iremos remover estes valores no [Passo 6](#passo6).

In [2]:
df['ingredientes'].apply(pd.Series)

Unnamed: 0,0,1,2
0,batata,orégano,lentilha
1,lentilha,quinoa,
2,grão de bico,aveia,açafrão


<a id="passo2"></a>

## Passo 2 
### .merge(df, left_index=True, right_index=True)
Unimos o DataFrame original com as novas colunas contendo os ingredientes.

In [3]:
df['ingredientes'].apply(pd.Series) \
    .merge(df, left_index=True, right_index=True)

Unnamed: 0,0,1,2,codigo,receita,ingredientes
0,batata,orégano,lentilha,1,Batata Rosti,"[batata, orégano, lentilha]"
1,lentilha,quinoa,,2,Farofa proteica,"[lentilha, quinoa]"
2,grão de bico,aveia,açafrão,3,Hambúrguer,"[grão de bico, aveia, açafrão]"


<a id="passo3"></a>

## Passo 3 
### .drop(columns='ingredientes')
Removemos a coluna que contém todos os ingredientes.

In [4]:
df['ingredientes'].apply(pd.Series) \
    .merge(df, left_index=True, right_index=True) \
    .drop(columns='ingredientes') 

Unnamed: 0,0,1,2,codigo,receita
0,batata,orégano,lentilha,1,Batata Rosti
1,lentilha,quinoa,,2,Farofa proteica
2,grão de bico,aveia,açafrão,3,Hambúrguer


<a id="passo4"></a>

## Passo 4
### .melt(id_vars=['codigo', 'receita'], value_name='ingredientes')
Finalmente aplicamos a função melt(). O parâmetro:
* __id_vars__: define quais colunas do DataFrame serão repetidas ao longo do DataFrame. 
* __value_name__: define o nome da nova coluna que conterá cada ingrediente.

Observe que esta função também criará a coluna "variable".

In [5]:
df['ingredientes'].apply(pd.Series) \
    .merge(df, left_index=True, right_index=True) \
    .drop(columns='ingredientes') \
    .melt(id_vars=['codigo', 'receita'], value_name='ingredientes')

Unnamed: 0,codigo,receita,variable,ingredientes
0,1,Batata Rosti,0,batata
1,2,Farofa proteica,0,lentilha
2,3,Hambúrguer,0,grão de bico
3,1,Batata Rosti,1,orégano
4,2,Farofa proteica,1,quinoa
5,3,Hambúrguer,1,aveia
6,1,Batata Rosti,2,lentilha
7,2,Farofa proteica,2,
8,3,Hambúrguer,2,açafrão


<a id="passo5"></a>

## Passo 5
### .drop(columns='variable')
Removemos a coluna _variable_

In [6]:
df['ingredientes'].apply(pd.Series) \
    .merge(df, left_index=True, right_index=True) \
    .drop(columns='ingredientes') \
    .melt(id_vars=['codigo', 'receita'], value_name='ingredientes') \
    .drop(columns='variable')

Unnamed: 0,codigo,receita,ingredientes
0,1,Batata Rosti,batata
1,2,Farofa proteica,lentilha
2,3,Hambúrguer,grão de bico
3,1,Batata Rosti,orégano
4,2,Farofa proteica,quinoa
5,3,Hambúrguer,aveia
6,1,Batata Rosti,lentilha
7,2,Farofa proteica,
8,3,Hambúrguer,açafrão


<a id="passo6"></a>

## Passo 6
### .dropna()
Observe também que existem receitas com 2 ingredientes e outras com 3 ingredientes. <br>
Portanto há linhas com o valor NaN. <br>
Para removê-las, basta utilizar a função .dropna()

In [7]:
df['ingredientes'].apply(pd.Series) \
    .merge(df, left_index=True, right_index=True) \
    .drop(columns='ingredientes') \
    .melt(id_vars=['codigo', 'receita'], value_name='ingredientes') \
    .drop(columns='variable') \
    .dropna()

Unnamed: 0,codigo,receita,ingredientes
0,1,Batata Rosti,batata
1,2,Farofa proteica,lentilha
2,3,Hambúrguer,grão de bico
3,1,Batata Rosti,orégano
4,2,Farofa proteica,quinoa
5,3,Hambúrguer,aveia
6,1,Batata Rosti,lentilha
8,3,Hambúrguer,açafrão


<a id="passo7"></a>

## Passo 7
### .sort_values(by='codigo')
E por fim, vamos ordernar o resultado pelo código para facilitar a nossa visualização!

In [8]:
df['ingredientes'].apply(pd.Series) \
    .merge(df, left_index=True, right_index=True) \
    .drop(columns='ingredientes') \
    .melt(id_vars=['codigo', 'receita'], value_name='ingredientes') \
    .drop(columns='variable') \
    .dropna() \
    .sort_values(by='codigo')

Unnamed: 0,codigo,receita,ingredientes
0,1,Batata Rosti,batata
3,1,Batata Rosti,orégano
6,1,Batata Rosti,lentilha
1,2,Farofa proteica,lentilha
4,2,Farofa proteica,quinoa
2,3,Hambúrguer,grão de bico
5,3,Hambúrguer,aveia
8,3,Hambúrguer,açafrão
