## Introdução

Este arquivo será encarregado de transformar os dados oriundos de uma fote de dados confiavel da tabela Taco. Os dados transformados devem conter os seguintes atributos:
- Código do alimento na tabela TACO
- Descrição do alimento
- Energia (kcal)

Para ficar mais prático, a coluna **Energia (kcal)** terá seu nome modificado para **Calorias** no dataframe que iremos criar.
É importante salientar que os alimentos foram quantificados em porções do **100g**.

## importando bibliotecas

In [1]:
import pandas as pd

## Coletando os dados

In [2]:
url = 'https://raw.githubusercontent.com/LucaseNogueira/ClassificarAlimentosData/main/data/Atualizada/Tabela_Taco_Atualizada.csv'
df = pd.read_csv(url)
df

Unnamed: 0,Código do alimento,Descrição do alimento,Código da preparação,Descrição da preparação,Energia (kcal),Proteína (g),Lipídios totais (g),Carboidrato (g),Fibra alimentar total (g),Colesterol (mg),...,Riboflavina (mg),Niacina (mg),Niacina (NE) (mg),Piridoxina (mg),Cobalamina (mcg),Folato (DFE) (mcg),Vitamina D (mcg),Vitamina E (mg),Vitamina C (mg),Grupo Alimentar
0,6300101,"Arroz (polido, parboilizado, agulha, agulhinha...",99.0,Não se aplica,135.6229457071333,2.4961126633333333,1.200042,27.784863469999994,1.5457021999999998,-,...,-,-,-,-,-,-,-,0.0797818,-,1
1,6300201,Arroz integral,99.0,Não se aplica,130.9456437535,2.56288515,1.9657966666666666,25.55681445,2.722389866666667,-,...,-,-,-,0.079216,-,-,-,0.0797818,-,1
2,6300701,Milho (em grão),1.0,Cru(a),160.141,3.32,7.178,25.11,4.25,-,...,0.072,1.614,1.997,0.06,-,46,-,0.572,6.2,1
3,6300701,Milho (em grão),2.0,Cozido(a),160.141,3.32,7.178,25.11,4.25,-,...,0.072,1.614,1.997,0.06,-,46,-,0.572,6.2,1
4,6300701,Milho (em grão),3.0,Grelhado(a)/brasa/churrasco,160.141,3.32,7.178,25.11,4.25,-,...,0.072,1.614,1.997,0.06,-,46,-,0.572,6.2,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1966,8579003,Maria izabel,99.0,Não se aplica,154,10.8,7.1,11.6,1.5,36,...,-,-,-,0.07,-,-,-,-,-,19
1967,8579004,Arroz de leite,99.0,Não se aplica,142.422,2.98,4.174,22.622,0.303,2.744,...,0.068,1.183,1.93,0.077,0.121,35.38,0.274,0.297,0.006,19
1968,8579005,Arroz com mandioca,99.0,Não se aplica,130.31147285356667,1.5480563316666667,0.750021,28.942431735,1.5728510999999998,-,...,-,-,-,0.015,-,-,-,-,5.55,19
1969,8579006,Arroz com ovo,99.0,Não se aplica,179.10697285356667,8.085056331666667,9.427021,14.500931734999996,0.7728510999999999,230.435,...,0.279,0.035,1.4205,0.066,0.6035,23.913,0.6955,0.81,-,19


In [3]:
df.columns

Index(['Código do alimento', 'Descrição do alimento', 'Código da preparação',
       'Descrição da preparação', 'Energia (kcal)', 'Proteína (g)',
       'Lipídios totais (g)', 'Carboidrato (g)', 'Fibra alimentar total (g)',
       'Colesterol (mg)', 'AG Saturados (g)', 'AG Mono (g)', 'AG Poli (g)',
       'AG Linoléico (g)', 'AG Linolênico (g)', 'AG Trans total(g)',
       'Açúcar total (g)', 'Açúcar de adição (g)', 'Cálcio (mg)',
       'Magnésio (mg)', 'Manganês (mg)', 'Fósforo (mg)', 'Ferro (mg)',
       'Sódio (mg)', 'Sódio de adição (mg)', 'Potássio (mg)', 'Cobre (mg)',
       'Zinco (mg)', 'Selênio (mcg)', 'Retinol (mcg)',
       'Vitamina A (RAE) (mcg)', 'Tiamina (mg)', 'Riboflavina (mg)',
       'Niacina (mg)', 'Niacina (NE) (mg)', 'Piridoxina (mg)',
       'Cobalamina (mcg)', 'Folato (DFE) (mcg)', 'Vitamina D (mcg)',
       'Vitamina E (mg)', 'Vitamina C (mg)', 'Grupo Alimentar'],
      dtype='object')

## Filtrando apenas as tabelas utilizadas no nosso contexto

In [4]:
df_contexto = df[['Código do alimento', 'Descrição do alimento', 'Energia (kcal)']]
df_contexto

Unnamed: 0,Código do alimento,Descrição do alimento,Energia (kcal)
0,6300101,"Arroz (polido, parboilizado, agulha, agulhinha...",135.6229457071333
1,6300201,Arroz integral,130.9456437535
2,6300701,Milho (em grão),160.141
3,6300701,Milho (em grão),160.141
4,6300701,Milho (em grão),160.141
...,...,...,...
1966,8579003,Maria izabel,154
1967,8579004,Arroz de leite,142.422
1968,8579005,Arroz com mandioca,130.31147285356667
1969,8579006,Arroz com ovo,179.10697285356667


## Tratando as colunas filtradas

In [5]:
df_contexto.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1971 entries, 0 to 1970
Data columns (total 3 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   Código do alimento     1971 non-null   int64 
 1   Descrição do alimento  1971 non-null   object
 2   Energia (kcal)         1971 non-null   object
dtypes: int64(1), object(2)
memory usage: 46.3+ KB


Existem duas colunas que devem ser tratadas:
- **Descrição do Alimento:** esta coluna deve receber valores *string*
- **Energia (kcal):** esta coluna deve receber valores *float64*

In [6]:
try:
  df_contexto['Descrição do alimento'] = df_contexto['Descrição do alimento'].astype('str')
  df_contexto['Energia (kcal)'] = df_contexto['Energia (kcal)'].astype('float64')
  df_contexto.info()
except Exception as e:
  print(str(e))

could not convert string to float: '-'


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_contexto['Descrição do alimento'] = df_contexto['Descrição do alimento'].astype('str')


Apesar do erro ter comentado sobre a coluna **Descrição do Alimento** a coluna que gerou o erro foi a **Energia (kcal)**, pois não foi possível transforma-la em *float64*.

Para corrigir isso temos que transformar todas as ocorrencias de "-" em "0" (zero).

In [7]:
df_contexto['Energia (kcal)'].replace('-', '0', inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_contexto['Energia (kcal)'].replace('-', '0', inplace=True)


A mensagem anterior é apenas um aviso do pandas com relação a boas práticas. Nós fizemos o **replace** com o **inplace=True**, porém neste caso é mais recomendavel a criação de um outro dataframe, uma cópia ou setar o valor (df = df_replace).

Na filtragem abaixo é possível notar que os dados foram alterados com sucesso.

In [8]:
print('Verificando ocorrências de "-":')
print(str(len(df_contexto.loc[df_contexto['Energia (kcal)'] == '-'])) + ' ocorrências(s)')
print('-'*30)
print('Verificando ocorrências de "0":')
print(str(len(df_contexto.loc[df_contexto['Energia (kcal)'] == '0'])) + ' ocorrência(s)')

Verificando ocorrências de "-":
0 ocorrências(s)
------------------------------
Verificando ocorrências de "0":
9 ocorrência(s)


Agora podemos transformar as colunas

In [9]:
try:
  df_contexto['Descrição do alimento'] = df_contexto['Descrição do alimento'].astype('str')
  df_contexto['Energia (kcal)'] = df_contexto['Energia (kcal)'].astype('float64')
  df_contexto.info()
except Exception as e:
  print(str(e))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1971 entries, 0 to 1970
Data columns (total 3 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Código do alimento     1971 non-null   int64  
 1   Descrição do alimento  1971 non-null   object 
 2   Energia (kcal)         1971 non-null   float64
dtypes: float64(1), int64(1), object(1)
memory usage: 46.3+ KB


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_contexto['Descrição do alimento'] = df_contexto['Descrição do alimento'].astype('str')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_contexto['Energia (kcal)'] = df_contexto['Energia (kcal)'].astype('float64')


**Observação:** As *strings* são reconhecidas como *object* pelo dataframe Pandas.

## Alterando o nome da coluna Energia (kcal) para Calorias

In [10]:
df_contexto.rename({'Energia (kcal)' : 'Calorias'}, axis=1, inplace=True)
df_contexto.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_contexto.rename({'Energia (kcal)' : 'Calorias'}, axis=1, inplace=True)


Unnamed: 0,Código do alimento,Descrição do alimento,Calorias
0,6300101,"Arroz (polido, parboilizado, agulha, agulhinha...",135.622946
1,6300201,Arroz integral,130.945644
2,6300701,Milho (em grão),160.141
3,6300701,Milho (em grão),160.141
4,6300701,Milho (em grão),160.141


## Lidando com dados duplicados

A fonte de dados utilizada não possui dados duplicados, mas com as transformações que fizemos, os dados presentes em df_contexto podem estar duplicados. Pegue como exemplo o alimento de **Descrição do alimento** igual a *Milho (em grão)*, em df_contexto eles estão duplicados mas em df não, pois existem mais atributos que justificam a quantidade de alimentos com a descrição *Milho (em grão)*.

Desta forma devemos excluir todos os alimentos duplicados. Esta exclusão será feita com base no código do alimento. Por mais que a quantidade de calorias pode ser diferente, por padrão o método **drop_duplicates** mantem a primeira ocorrência do valor duplicado, e a primeira ocorrência de um determinado alimento sempre leva o estado de conservação, ou forma de preparo, como crú, por mais que a forma de preparo não tenha importancia no nosso desenvolvimento.

In [11]:
df_contexto.drop_duplicates(subset=['Código do alimento'], inplace=True);
df_contexto

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_contexto.drop_duplicates(subset=['Código do alimento'], inplace=True);


Unnamed: 0,Código do alimento,Descrição do alimento,Calorias
0,6300101,"Arroz (polido, parboilizado, agulha, agulhinha...",135.622946
1,6300201,Arroz integral,130.945644
2,6300701,Milho (em grão),160.141000
9,6300706,Canjiquinha de milho em grão,79.680000
15,6300707,Xerém de milho,62.952000
...,...,...,...
1966,8579003,Maria izabel,154.000000
1967,8579004,Arroz de leite,142.422000
1968,8579005,Arroz com mandioca,130.311473
1969,8579006,Arroz com ovo,179.106973


## Adicionando coluna Campo de Pesquisa no dataframe

Aqui será criado uma coluna responsável apenas para facilitar a pesquisa dos alimentos. Esta coluna contem os dados de Descrição do Alimento sanetizado, sem caracterez especiais, stopwords e padronizados.

In [15]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
import re
import unicodedata

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [16]:
def sanitizar(frase:str)->str:
  sw = stopwords.words('portuguese')
  str_processada = re.sub(r"[,.()]", "", frase)
  str_processada = str_processada.replace('etc','')
  str_processada = ' '.join([k for k in str_processada.split(" ") if k not in sw])
  str_processada = str_processada.upper()
  str_processada = unicodedata.normalize("NFD", str_processada)
  str_processada = str_processada.encode("ascii", "ignore").decode("utf-8").strip()
  str_processada = re.sub(r"[^A-Z0-9]", " ", str_processada)
  return str_processada

In [17]:
coluna_descricao_tratada = df_contexto['Descrição do alimento'].str.strip()
coluna_campo_pesquisa = []

for col_str in coluna_descricao_tratada:
  str_processada = sanitizar(col_str)
  coluna_campo_pesquisa.append(str_processada)

df_contexto['Campo de Pesquisa'] = coluna_campo_pesquisa
df_contexto

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_contexto['Campo de Pesquisa'] = coluna_campo_pesquisa


Unnamed: 0,Código do alimento,Descrição do alimento,Calorias,Campo de Pesquisa
0,6300101,"Arroz (polido, parboilizado, agulha, agulhinha...",135.622946,ARROZ POLIDO PARBOILIZADO AGULHA AGULHINHA
1,6300201,Arroz integral,130.945644,ARROZ INTEGRAL
2,6300701,Milho (em grão),160.141000,MILHO GRAO
9,6300706,Canjiquinha de milho em grão,79.680000,CANJIQUINHA MILHO GRAO
15,6300707,Xerém de milho,62.952000,XEREM MILHO
...,...,...,...,...
1966,8579003,Maria izabel,154.000000,MARIA IZABEL
1967,8579004,Arroz de leite,142.422000,ARROZ LEITE
1968,8579005,Arroz com mandioca,130.311473,ARROZ MANDIOCA
1969,8579006,Arroz com ovo,179.106973,ARROZ OVO


## Salvando os dados filtrados num arquivo .csv

In [18]:
df_contexto.to_csv('Taco_Calorias_Alimentos.csv', index=False)