# Treinamento do modelo

Bem vindo à seção de treinamento do nosso modelo!

Nesse arquivo, abordaremos desde à leitura de um dataset com a informação nutricional de cada ingrediente até ao treinamento de um modelo com um dataset apropriado


### Leitura e tratamento dos dados do dataset inicial

Nesse primeira trecho, realizaremos a leitura e tratamento dos dados de um dataset que contém as informações nutricionais de ingredientes comuns do nosso dia a dia no Brasil.

Escolhemos a Tabela Brasileira de Composição de Alimentos como base para realizar o desafio



In [91]:
import pandas as pd

pd.set_option('display.max_rows', 1000)

## Lê csv com informações nutricionais de alimentos brasileiros
df = pd.read_csv("../data/raw/taco-db-nutrientes.csv")

df.head()


Unnamed: 0,id,Nome,Umidade (%),Energia (kcal),Energia (kJ),Proteína (g),Lipídeos (g),Colesterol (mg),Carboidrato (g),Fibra Alimentar (g),Cinzas (g),Cálcio (mg),Magnésio (mg),Unnamed: 13
0,1,Arroz integral cozido,70.1,124,517,2.6,1.0,,25.8,2.7,0.5,5,59,
1,2,Arroz integral cru,12.2,360,1505,7.3,1.9,,77.5,4.8,1.2,8,110,
2,3,Arroz tipo 1 cozido,69.1,128,537,2.5,0.2,,28.1,1.6,0.1,4,2,
3,4,Arroz tipo 1 cru,13.2,358,1497,7.2,0.3,,78.8,1.6,0.5,4,30,
4,5,Arroz tipo 2 cozido,68.7,130,544,2.6,0.4,,28.2,1.1,0.1,3,6,


Filtramos apenas pelas colunas que fazer sentido para o nosso desafio

In [92]:
# Filtra colunas importantes para o nosso projeto

df_colunas_importantes = df [[' Nome', ' Energia (kcal)', ' Proteína (g)', ' Lipídeos (g)', ' Carboidrato (g)']]

df_colunas_importantes.head(5)

Unnamed: 0,Nome,Energia (kcal),Proteína (g),Lipídeos (g),Carboidrato (g)
0,Arroz integral cozido,124,2.6,1.0,25.8
1,Arroz integral cru,360,7.3,1.9,77.5
2,Arroz tipo 1 cozido,128,2.5,0.2,28.1
3,Arroz tipo 1 cru,358,7.2,0.3,78.8
4,Arroz tipo 2 cozido,130,2.6,0.4,28.2


Nesse trecho, retiramos da nossa base de dados as linhas que possuem dados que são não inteiros (string ou Nan) das colunas numéricas.

Além disso, faz-se necessário não utilizarmos ingredientes que não podem ser utilizados em uma refeição comum (alimentos crus). É importante ressaltar, também, que retiramos alimentos duplicados na nossa base de base dados (tipo 1, tipo 2) para facilitar o input inicial do usuário quando este for utilizar o modelo (o fato de existir ingredientes como "arroz tipo 1" e "arroz tipo 2" no dataset iria dificultar a usabilidade do modelo)

Nesse sentido, isso nos resulta em uma base de dados pronta para que seja realizada a montagem de um próximo dataset que será utilizado no treinamento do modelo.

In [93]:
## Retira ingredientes que não fazem sentido para uma refeição comum
palavras_proibidas = 'cru|crua|tipo 1|tipo 2|mistura'

df_ingredientes_formatados = df_colunas_importantes[df_colunas_importantes[' Nome'].str.contains(palavras_proibidas, case=False)==False]

# Seleciona apenas as colunas numéricas

colunas_numericas = df_ingredientes_formatados.columns.drop(' Nome')  

# Transforma valores strings incorretos das colunas numéricas em Nan.
# Além disso, preenche campos vazios com Nan

df_ingredientes_formatados[colunas_numericas] = df_ingredientes_formatados[colunas_numericas].apply(pd.to_numeric, errors='coerce')


# Dropa colunas com valores Nan
df_semNan = df_ingredientes_formatados.dropna(subset=[' Proteína (g)', ' Lipídeos (g)', ' Carboidrato (g)'])

df_semNan.head(1000)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_ingredientes_formatados[colunas_numericas] = df_ingredientes_formatados[colunas_numericas].apply(pd.to_numeric, errors='coerce')


Unnamed: 0,Nome,Energia (kcal),Proteína (g),Lipídeos (g),Carboidrato (g)
0,Arroz integral cozido,124.0,2.6,1.0,25.8
7,Biscoito doce maisena,443.0,8.1,12.0,75.2
8,Biscoito doce recheado com chocolate,472.0,6.4,19.6,70.5
9,Biscoito doce recheado com morango,471.0,5.7,19.6,71.0
10,Biscoito doce wafer recheado de chocolate,502.0,5.6,24.7,67.5
11,Biscoito doce wafer recheado de morango,513.0,4.5,26.4,67.4
12,Biscoito salgado cream cracker,432.0,10.1,14.4,68.7
14,Bolo pronto aipim,324.0,4.4,12.7,47.9
15,Bolo pronto chocolate,410.0,6.2,18.5,54.7
16,Bolo pronto coco,333.0,5.7,11.3,52.3


### Criação do dataset do modelo

Agora, realizaremos a criação do dataset que irá conter as informações necessárias para o treinamento do modelo de acordo com os requisitos do nosso projeto (ingredientes, calorias, carboidratos, proteínas e gorduras)