# Feature Engineering

Este notebook contém a feature engineering dos conjuntos de dados de treino e teste, que serão realizados com base na EDA realizada anteriormente.

Ao final desse notebook, serão gerados dois conjuntos de dados de treino e teste processados e que serão fornecidos para o modelo classificador.

### Imports

#### Importação das bibliotecas utilizadas

In [1]:
import pandas as pd
import json
import re
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk import word_tokenize as TK

from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import FunctionTransformer, LabelEncoder
from sklearn.feature_extraction.text import TfidfVectorizer

#### Importação do conjunto de treinamento e teste

O conjuntos de treinamento e de teste estão em formato JSON, portando é necessário usar a função __read_json__ do pandas para realizar a leitura dos arquivos:

In [2]:
train = pd.read_json('../dados/train.json', encoding='utf-8')
test = pd.read_json('../dados/test.json', encoding='utf-8')

In [3]:
print(f"O conjunto de treinamento possui {train.shape[0]} exemplos, cada qual representando uma receita, e \
{train.shape[1]} colunas, que são as seguintes:") 

O conjunto de treinamento possui 39774 exemplos, cada qual representando uma receita, e 3 colunas, que são as seguintes:


* **cuisine**: tipo de culinária da qual a receita pertence. Essa é a variável resposta (a classe que o modelo a ser criado deve prever)
* **id**: número identificador único da receita
* **ingredients**: lista de ingredientes que compõem a receita

In [4]:
# visualização das cinco primeira receitas presentes no conjunto de treino
train.head()

Unnamed: 0,cuisine,id,ingredients
0,greek,10259,"[romaine lettuce, black olives, grape tomatoes..."
1,southern_us,25693,"[plain flour, ground pepper, salt, tomatoes, g..."
2,filipino,20130,"[eggs, pepper, salt, mayonaise, cooking oil, g..."
3,indian,22213,"[water, vegetable oil, wheat, salt]"
4,indian,13162,"[black pepper, shallots, cornflour, cayenne pe..."


In [5]:
print(f"O conjunto de teste possui {test.shape[0]} exemplos, cada qual representando uma receita, e \
{test.shape[1]} colunas. Diferentemente do que ocorreu com o conjunto de treino, a classe não foi fornecida para o conjunto de teste.") 

O conjunto de teste possui 9944 exemplos, cada qual representando uma receita, e 2 colunas. Diferentemente do que ocorreu com o conjunto de treino, a classe não foi fornecida para o conjunto de teste.


In [6]:
# visualização das cinco primeira receitas presentes no conjunto de teste
test.head()

Unnamed: 0,id,ingredients
0,18009,"[baking powder, eggs, all-purpose flour, raisi..."
1,28583,"[sugar, egg yolks, corn starch, cream of tarta..."
2,41580,"[sausage links, fennel bulb, fronds, olive oil..."
3,29752,"[meat cuts, file powder, smoked sausage, okra,..."
4,35687,"[ground black pepper, salt, sausage casings, l..."


### Tratamento dos dados

Os seguintes tratamentos serão realizados nos dois conjuntos de dados:
  * Conversão de todas as palavras para letras minúsculas
  * Remoção de caracteres númericos e especiais
  * Remoção de palavras indicando unidades de medida
  * Remoção de stopwords
  * Lematização das palavras

In [7]:
# função para contabilizar a quantidade de ingredientes únicos
def unique(data):
    return list(dict.fromkeys(data))

In [8]:
print(f"Antes do tratamento dos dados, o conjunto de treino possui \
{len(unique([j for i in train['ingredients'] for j in i]))} ingredientes únicos.")

Antes do tratamento dos dados, o conjunto de treino possui 6714 ingredientes únicos.


In [9]:
print(f"Antes do tratamento dos dados, o conjunto de teste possui \
{len(unique([j for i in test['ingredients'] for j in i]))} ingredientes únicos.")

Antes do tratamento dos dados, o conjunto de teste possui 4484 ingredientes únicos.


#### Conversão para letras minúsculas

In [10]:
train['ingredients'] = train['ingredients'].apply(lambda x: list(map(lambda x:x.lower(),x)))
test['ingredients'] = test['ingredients'].apply(lambda x: list(map(lambda x:x.lower(),x)))

#### Remoção de unidades medidas

As unidades de medida abaixo e que foram encontradas durante a EDA serão removidas dos dois conjuntos de dados:

* [oz.](https://en.wikipedia.org/wiki/Ounce)
* [ounc](https://en.wikipedia.org/wiki/Ounce) (Ounce escrita de maneira incorreta)
* [lb.](https://en.wikipedia.org/wiki/Pound_(mass))
* [pound](https://en.wikipedia.org/wiki/Pound_(mass))
* [inch](https://en.wikipedia.org/wiki/Inch)

In [11]:
train['ingredients'] = train['ingredients'].apply(lambda x: 
                                        list(map(lambda x:x.replace('oz.', '')
                                                 .replace('ounc', '')
                                                 .replace('lb.', '')
                                                 .replace('pound', '')
                                                 .replace(' inch', '')
                                                 ,x)))
test['ingredients'] = test['ingredients'].apply(lambda x: 
                                        list(map(lambda x:x.replace('oz.', '')
                                                 .replace('ounc', '')
                                                 .replace('lb.', '')
                                                 .replace('pound', '')
                                                 .replace(' inch', '')
                                                 ,x)))

#### Remoção números e caracteres especiais

In [12]:
# retira os caracteres numéricos 
train['ingredients'] = train['ingredients'].apply(lambda x: list(map(lambda x:re.sub('[0-9]', '',x),x)))
test['ingredients'] = test['ingredients'].apply(lambda x: list(map(lambda x:re.sub('[0-9]', '',x),x)))

# retira os caracteres especiais
train['ingredients'] = train['ingredients'].apply(lambda x: list(map(lambda x:re.sub('[!%&/.,®€™()]', '',x),x)))
test['ingredients'] = test['ingredients'].apply(lambda x: list(map(lambda x:re.sub('[!%&/.,®€™()]', '',x),x)))

# no caso do hífen, ápice e apóstrofo, será dado um espaço para que as palavras separadas não sejam agrupadas em uma só
train['ingredients'] = train['ingredients'].apply(lambda x: list(map(lambda x:re.sub('[-’\']', ' ',x),x)))
test['ingredients'] = test['ingredients'].apply(lambda x: list(map(lambda x:re.sub('[-’\']', ' ',x),x)))

É necessário retirar os acentos de algumas palavras, visto que há casos do mesmo ingrediente escrito de maneiras diferentes no conjunto de dados (por exemplo, o ingrediente `açaí` está escrito como `açai` e `acai`):

In [13]:
train['ingredients'] = train['ingredients'].apply(lambda x: 
                                        list(map(lambda x:x.replace('â', "a")
                                                 .replace('ç', 'c')
                                                 .replace('è', 'e')
                                                 .replace('é', 'e')
                                                 .replace('í', 'i')
                                                 .replace('î', 'i')
                                                 .replace('ú', 'u')
                                                 ,x)))
test['ingredients'] = test['ingredients'].apply(lambda x: 
                                        list(map(lambda x:x.replace('â', "a")
                                                 .replace('ç', 'c')
                                                 .replace('è', 'e')
                                                 .replace('é', 'e')
                                                 .replace('í', 'i')
                                                 .replace('î', 'i')
                                                 .replace('ú', 'u')
                                                 ,x)))

#### Remoção stopwords

In [14]:
# lista de stopwords em inglês
stop_words = set(stopwords.words('english')) 

# função para remover as stopwords da lista de ingredientes das receitas
def remove_stopwords(df, column):
    for i, row in df.iterrows():
        ingredients_without_stopwords = []
        for sentence in df.at[i, column]:
            temp_list=[]
            for word in sentence.split():
                if word.lower() not in stop_words:
                    temp_list.append(word)
            ingredients_without_stopwords.append(' '.join(temp_list))
        df.at[i, column] = ingredients_without_stopwords
    return df[column]

In [15]:
train['ingredients'] = remove_stopwords(train,'ingredients')
test['ingredients'] = remove_stopwords(test,'ingredients')

#### Lematização dos ingredientes

In [16]:
# converte as palavras do plural para o singular
lemmatizer = WordNetLemmatizer()

def lemmatize(ingredients):
    for i in ingredients.index.values:
        for j in range(len(ingredients[i])):
            ingredients[i][j] = ingredients[i][j].strip()
            token = TK(ingredients[i][j])
            for k in range(len(token)):
                token[k] = lemmatizer.lemmatize(token[k])
            token = ' '.join(token)
            ingredients[i][j] = token
    return ingredients

In [17]:
train['ingredients'] = lemmatize(train.ingredients)
test['ingredients'] = lemmatize(test.ingredients)

#### Remoção dos espaços em branco em excesso

Por conta dos tratamentos realizadas, alguns espaços a mais ficaram sobrando no nome dos ingredientes (por exemplo, o ingrediente `7 Up` não existe mais porque seu nome era formado apenas por um número e uma stopword, que foram removidos). O código abaixo resolve esse problema:

In [18]:
def remove_empty_ingredients(df, column):
    for i, row in df.iterrows():
        df.at[i, column] = [x.strip() for x in df.at[i, column] if x.strip()]
    return df[column]

In [19]:
train['ingredients'] = remove_empty_ingredients(train,'ingredients')
test['ingredients'] = remove_empty_ingredients(test,'ingredients')

In [20]:
print(f"Após o tratamento dos dados, restaram \
{len(unique([j for i in train['ingredients'] for j in i]))} ingredientes únicos no conjunto de treino.")

Após o tratamento dos dados, restaram 6658 ingredientes únicos no conjunto de treino.


In [21]:
print(f"Após o tratamento dos dados, restaram \
{len(unique([j for i in test['ingredients'] for j in i]))} ingredientes únicos no conjunto de teste.")

Após o tratamento dos dados, restaram 4452 ingredientes únicos no conjunto de teste.


### Limpeza dos dados

Com base na EDA realizada anteriormente, foram identificadas as seguintes tarefas de limpeza de dados:

* Exclusão das receitas repetidas por tipo de cozinha
* Exclusão de outliers (receitas com apenas 1 ingrediente ou com mais de 40)
* Exclusão de ingredientes repetidos na lista de ingredientes de algumas receitas

As duas primeiras tarefas serão realizadas somente no conjunto de treinamento, visto que o conjunto de teste não não possui a classe, que permitiria identificar as receitas repetidas, e porque não podem ser removidos os outliers, visto que o arquivo a ser fornecido para o Kaggle deve conter as predições para todos os exemplos existentes no conjunto de teste.

#### Exclusão das receitas repetidas por tipo de cozinha

In [22]:
train["ingredients_text"] = train["ingredients"].apply(lambda x: ", ".join(x))
train.drop_duplicates(subset=['cuisine','ingredients_text'], keep='first', inplace=True)

#### Exclusão de outliers

In [23]:
train['ingredients_qtt'] = train['ingredients'].apply(lambda x: len(x))
train = train[(train['ingredients_qtt'] <= 40) | (train['ingredients_qtt'] > 1)]

#### Exclusão de ingredientes repetidos na lista de ingredientes

In [24]:
# remoção dos ingredientes duplicados
train['ingredients'] = train['ingredients'].apply(lambda x: list(set(x)))
test['ingredients'] = test['ingredients'].apply(lambda x: list(set(x)))

### Criação de novas features

Duas novas features serão adicionadas aos conjuntos de dados:
* `ingredients_qtt`: indica a quantidade de ingredientes presentes na receita
* `ingredients_text`: lista de ingredientes presentes na receita. Ao invés de ser uma lista de strings, é somente uma string na qual os ingredientes estão separados por vírgula

#### ingredients_qtt

In [25]:
# cria uma nova coluna contendo a quantidade de ingredientes presentes em cada receita
train['ingredients_qtt'] = train['ingredients'].apply(lambda x: len(x))
test['ingredients_qtt'] = test['ingredients'].apply(lambda x: len(x))

#### ingredients_text

In [26]:
# cria uma nova coluna contendo a tranformação da lista de ingredientes em uma única string, com os ingredientes 
# separados por vírgula
train["ingredients_text"] = train["ingredients"].apply(lambda x: " ".join(x))
test["ingredients_text"] = test["ingredients"].apply(lambda x: " ".join(x))

### Conjuntos de dados processados

Com os conjuntos de dados processados, 

In [27]:
print(f"O conjunto de treinamento processado possui {train.shape[0]} exemplos e \
{train.shape[1]} colunas:") 

O conjunto de treinamento processado possui 39677 exemplos e 5 colunas:


In [28]:
# visualização das cinco primeira receitas presentes no conjunto de treino
train.head()

Unnamed: 0,cuisine,id,ingredients,ingredients_text,ingredients_qtt
0,greek,10259,"[pepper, garbanzo bean, romaine lettuce, black...",pepper garbanzo bean romaine lettuce black oli...,9
1,southern_us,25693,"[milk, egg, green tomato, yellow corn meal, th...",milk egg green tomato yellow corn meal thyme s...,11
2,filipino,20130,"[grilled chicken breast, pepper, egg, mayonais...",grilled chicken breast pepper egg mayonaise ch...,12
3,indian,22213,"[salt, water, wheat, vegetable oil]",salt water wheat vegetable oil,4
4,indian,13162,"[double cream, bay leaf, shallot, chili powder...",double cream bay leaf shallot chili powder mil...,20


In [29]:
train.tail()

Unnamed: 0,cuisine,id,ingredients,ingredients_text,ingredients_qtt
39769,irish,29109,"[light brown sugar, large egg, purpose flour, ...",light brown sugar large egg purpose flour warm...,12
39770,italian,11462,"[broccoli floret, red pepper, kraft zesty ital...",broccoli floret red pepper kraft zesty italian...,7
39771,irish,2238,"[milk, sourdough starter, sugar, raisin, hot t...",milk sourdough starter sugar raisin hot tea eg...,12
39772,chinese,41882,"[steamed white rice, store bought low sodium c...",steamed white rice store bought low sodium chi...,21
39773,mexican,2362,"[celery, white sugar, chopped cilantro fresh, ...",celery white sugar chopped cilantro fresh drie...,12


In [30]:
print(f"O conjunto de teste processado possui {test.shape[0]} exemplos e \
{test.shape[1]} colunas:") 

O conjunto de teste processado possui 9944 exemplos e 4 colunas:


In [31]:
# visualização das cinco primeira receitas presentes no conjunto de teste
test.head()

Unnamed: 0,id,ingredients,ingredients_qtt,ingredients_text
0,18009,"[milk, raisin, purpose flour, baking powder, e...",6,milk raisin purpose flour baking powder egg wh...
1,28583,"[milk, sugar, vanilla extract, egg yolk, egg w...",11,milk sugar vanilla extract egg yolk egg white ...
2,41580,"[cuban pepper, frond, fennel bulb, onion, saus...",6,cuban pepper frond fennel bulb onion sausage l...
3,29752,"[ham, file powder, shrimp, dried thyme, flat l...",21,ham file powder shrimp dried thyme flat leaf p...
4,35687,"[leek, parmigiano reggiano cheese, cornmeal, s...",8,leek parmigiano reggiano cheese cornmeal sausa...


Como é possível notar acima, nenhum exemplo foi excluído do conjunto de teste, mas foram adicionadas as 2 colunas descritas acima.

In [32]:
train = train.reset_index(drop=True)

Como as classes presentes no conjunto de dados são categóricas, é necessário convertê-las para variáveis númericas. Essa conversão é realizada abaixo:

In [33]:
encoder = LabelEncoder()
y_train = encoder.fit_transform(train.cuisine)

In [34]:
# lista o nome da cozinha e o número que orá representá-la
list(zip(encoder.classes_, encoder.transform(encoder.classes_)))

[('brazilian', 0),
 ('british', 1),
 ('cajun_creole', 2),
 ('chinese', 3),
 ('filipino', 4),
 ('french', 5),
 ('greek', 6),
 ('indian', 7),
 ('irish', 8),
 ('italian', 9),
 ('jamaican', 10),
 ('japanese', 11),
 ('korean', 12),
 ('mexican', 13),
 ('moroccan', 14),
 ('russian', 15),
 ('southern_us', 16),
 ('spanish', 17),
 ('thai', 18),
 ('vietnamese', 19)]

In [35]:
vectorizer = make_pipeline(
        TfidfVectorizer(binary=True),
        FunctionTransformer(lambda x: x.astype('float'), validate=False)
    )

In [36]:
tfidf = vectorizer.fit_transform(train['ingredients_text'])
tfidf = pd.DataFrame(tfidf.toarray())

In [37]:
print (tfidf.shape)

(39677, 2730)


In [38]:
X_train = pd.concat([train, tfidf],axis=1)

In [39]:
train.tail()

Unnamed: 0,cuisine,id,ingredients,ingredients_text,ingredients_qtt
39672,irish,29109,"[light brown sugar, large egg, purpose flour, ...",light brown sugar large egg purpose flour warm...,12
39673,italian,11462,"[broccoli floret, red pepper, kraft zesty ital...",broccoli floret red pepper kraft zesty italian...,7
39674,irish,2238,"[milk, sourdough starter, sugar, raisin, hot t...",milk sourdough starter sugar raisin hot tea eg...,12
39675,chinese,41882,"[steamed white rice, store bought low sodium c...",steamed white rice store bought low sodium chi...,21
39676,mexican,2362,"[celery, white sugar, chopped cilantro fresh, ...",celery white sugar chopped cilantro fresh drie...,12


In [40]:
X_train.to_csv("../dados/processed_train.csv", index=False)

In [41]:
pd.DataFrame(y_train, columns=['target']).to_csv("../dados/train_target.csv", index=False)

In [42]:
scaler = StandardScaler()
scaler.fit(pd.concat([train['ingredients_qtt'], tfidf],axis=1))
X_train_scaled = scaler.transform(pd.concat([train['ingredients_qtt'], tfidf],axis=1))

  return self.partial_fit(X, y)
  This is separate from the ipykernel package so we can avoid doing imports until


In [43]:
X_train_scaled = pd.concat([train, pd.DataFrame(X_train_scaled)],axis=1)

In [44]:
X_train_scaled.to_csv("../dados/processed_train_scaled.csv", index=False)

In [45]:
tfidf = vectorizer.fit_transform(test['ingredients_text'])
tfidf = pd.DataFrame(tfidf.toarray())

In [46]:
print (tfidf.shape)

(9944, 2034)


In [47]:
X_test = pd.concat([test, tfidf],axis=1)

In [48]:
X_test.to_csv("../dados/processed_test.csv", index=False)

In [49]:
scaler.fit(pd.concat([test['ingredients_qtt'], tfidf],axis=1))
X_test_scaled = scaler.transform(pd.concat([test['ingredients_qtt'], tfidf],axis=1))

  return self.partial_fit(X, y)
  


In [51]:
X_test_scaled = pd.concat([test, pd.DataFrame(X_test_scaled)],axis=1)

In [52]:
X_test_scaled.to_csv("../dados/processed_test_scaled.csv", index=False)