## Introdução

Este arquivo será utilizado para o pré-processamento dos dados presente no arquivo **Tabela_Taco_Atualizada.csv** para o modelo preditivo de classificação.

## Carregando o arquivo

In [2]:
import pandas as pd
import numpy as np

In [3]:
url = '/content/Tabela_Taco_Atualizada.csv'
df = pd.read_csv(url)
df

Unnamed: 0,Código do alimento,Descrição do alimento,Código da preparação,Descrição da preparação,Energia (kcal),Proteína (g),Lipídios totais (g),Carboidrato (g),Fibra alimentar total (g),Colesterol (mg),...,Riboflavina (mg),Niacina (mg),Niacina (NE) (mg),Piridoxina (mg),Cobalamina (mcg),Folato (DFE) (mcg),Vitamina D (mcg),Vitamina E (mg),Vitamina C (mg),Grupo Alimentar
0,6300101,"Arroz (polido, parboilizado, agulha, agulhinha...",99.0,Não se aplica,135.6229457071333,2.4961126633333333,1.200042,27.784863469999994,1.5457021999999998,-,...,-,-,-,-,-,-,-,0.0797818,-,1
1,6300201,Arroz integral,99.0,Não se aplica,130.9456437535,2.56288515,1.9657966666666666,25.55681445,2.722389866666667,-,...,-,-,-,0.079216,-,-,-,0.0797818,-,1
2,6300701,Milho (em grão),1.0,Cru(a),160.141,3.32,7.178,25.11,4.25,-,...,0.072,1.614,1.997,0.06,-,46,-,0.572,6.2,1
3,6300701,Milho (em grão),2.0,Cozido(a),160.141,3.32,7.178,25.11,4.25,-,...,0.072,1.614,1.997,0.06,-,46,-,0.572,6.2,1
4,6300701,Milho (em grão),3.0,Grelhado(a)/brasa/churrasco,160.141,3.32,7.178,25.11,4.25,-,...,0.072,1.614,1.997,0.06,-,46,-,0.572,6.2,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1966,8579003,Maria izabel,99.0,Não se aplica,154,10.8,7.1,11.6,1.5,36,...,-,-,-,0.07,-,-,-,-,-,19
1967,8579004,Arroz de leite,99.0,Não se aplica,142.422,2.98,4.174,22.622,0.303,2.744,...,0.068,1.183,1.93,0.077,0.121,35.38,0.274,0.297,0.006,19
1968,8579005,Arroz com mandioca,99.0,Não se aplica,130.31147285356667,1.5480563316666667,0.750021,28.942431735,1.5728510999999998,-,...,-,-,-,0.015,-,-,-,-,5.55,19
1969,8579006,Arroz com ovo,99.0,Não se aplica,179.10697285356667,8.085056331666667,9.427021,14.500931734999996,0.7728510999999999,230.435,...,0.279,0.035,1.4205,0.066,0.6035,23.913,0.6955,0.81,-,19


## Analisando os dados

Vamos verificar as informações deste dataframe e verificar o que precisa ser feito.

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1971 entries, 0 to 1970
Data columns (total 42 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Código do alimento         1971 non-null   int64  
 1   Descrição do alimento      1971 non-null   object 
 2   Código da preparação       1971 non-null   float64
 3   Descrição da preparação    1971 non-null   object 
 4   Energia (kcal)             1971 non-null   object 
 5   Proteína (g)               1971 non-null   object 
 6   Lipídios totais (g)        1971 non-null   object 
 7   Carboidrato (g)            1971 non-null   object 
 8   Fibra alimentar total (g)  1971 non-null   object 
 9   Colesterol (mg)            1971 non-null   object 
 10  AG Saturados (g)           1971 non-null   object 
 11  AG Mono (g)                1971 non-null   object 
 12  AG Poli (g)                1971 non-null   object 
 13  AG Linoléico (g)           1971 non-null   objec

Não há ocorrencia de dados nulos em nenhuma coluna, assim podemos começar a nossa etapa de pré-processamento.

## Excluindo colunas desnecessárias para o modelo

Sabemos que colunas textuais só são relevantes caso eles sejam categóricas. Temos a sorte de as unicas colunas textuais em nosso dataframe serem colunas que já possuem as suas representações numericas, sendo elas **Descrição da Preparação** com **Código da Preparação** e **Descrição do Alimento** com **Código do Alimento**. Sendo assim podemos excluir estas colunas descritivas.

In [5]:
df.drop(['Descrição da preparação', 'Descrição do alimento'], axis='columns', inplace=True)

Também podemos excluir a coluna **Código do Alimento**. Ela é uma coluna unica e categorica, mas para um modelo de aprendizagem de máquina, esta coluna não irá representar dados estatisticos.

In [6]:
df.drop('Código do alimento', axis='columns', inplace=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1971 entries, 0 to 1970
Data columns (total 39 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Código da preparação       1971 non-null   float64
 1   Energia (kcal)             1971 non-null   object 
 2   Proteína (g)               1971 non-null   object 
 3   Lipídios totais (g)        1971 non-null   object 
 4   Carboidrato (g)            1971 non-null   object 
 5   Fibra alimentar total (g)  1971 non-null   object 
 6   Colesterol (mg)            1971 non-null   object 
 7   AG Saturados (g)           1971 non-null   object 
 8   AG Mono (g)                1971 non-null   object 
 9   AG Poli (g)                1971 non-null   object 
 10  AG Linoléico (g)           1971 non-null   object 
 11  AG Linolênico (g)          1971 non-null   object 
 12  AG Trans total(g)          1971 non-null   object 
 13  Açúcar total (g)           1971 non-null   objec

Com a exclusão das colunas nós podemos verificar se existem inconformidades nas colunas númericas. Além disso podemos tratar a conversão das colunas de tipo **object** para **float64** ou **int64**

## Validando as colunas númericas Grupo Alimentar e Código de Preparação

Ambas as colunas são categoricas, semelhantes a enumeradores na programação ou hash-maps que possuem código e descrição (porém neste caso só importa o código). Já sabemos que elas são numéricas mas não sabemos os valores destas colunas. Vamos verificar

In [7]:
for col in ['Código da preparação', 'Grupo Alimentar']:
  print(f"Coluna: {col}")
  print(df[col].unique())
  print("-"*30)

Coluna: Código da preparação
[99.  1.  2.  3.  4.  7. 13. 14. 15.  5.  8.  9. 10. 11.  6. 12.]
------------------------------
Coluna: Grupo Alimentar
[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
------------------------------


Podemos ver que não possue valores inconformes. Por comodidade, vou transformar a coluna **Código da Preparação** em um **int64**, pois não vejo sentido em mante-la como **float64**.

In [8]:
df['Código da preparação'] = df['Código da preparação'].astype('int64')
df['Código da preparação'].unique()

array([99,  1,  2,  3,  4,  7, 13, 14, 15,  5,  8,  9, 10, 11,  6, 12])

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1971 entries, 0 to 1970
Data columns (total 39 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   Código da preparação       1971 non-null   int64 
 1   Energia (kcal)             1971 non-null   object
 2   Proteína (g)               1971 non-null   object
 3   Lipídios totais (g)        1971 non-null   object
 4   Carboidrato (g)            1971 non-null   object
 5   Fibra alimentar total (g)  1971 non-null   object
 6   Colesterol (mg)            1971 non-null   object
 7   AG Saturados (g)           1971 non-null   object
 8   AG Mono (g)                1971 non-null   object
 9   AG Poli (g)                1971 non-null   object
 10  AG Linoléico (g)           1971 non-null   object
 11  AG Linolênico (g)          1971 non-null   object
 12  AG Trans total(g)          1971 non-null   object
 13  Açúcar total (g)           1971 non-null   object
 14  Açúcar d

## Validando as tabelas de tipo Object

Primeiro vamos capturar o nome de todas as colunas com excessão das duas numericas.

In [10]:
colunas_object = df.columns.delete([0, 38])
colunas_object

Index(['Energia (kcal)', 'Proteína (g)', 'Lipídios totais (g)',
       'Carboidrato (g)', 'Fibra alimentar total (g)', 'Colesterol (mg)',
       'AG Saturados (g)', 'AG Mono (g)', 'AG Poli (g)', 'AG Linoléico (g)',
       'AG Linolênico (g)', 'AG Trans total(g)', 'Açúcar total (g)',
       'Açúcar de adição (g)', 'Cálcio (mg)', 'Magnésio (mg)', 'Manganês (mg)',
       'Fósforo (mg)', 'Ferro (mg)', 'Sódio (mg)', 'Sódio de adição (mg)',
       'Potássio (mg)', 'Cobre (mg)', 'Zinco (mg)', 'Selênio (mcg)',
       'Retinol (mcg)', 'Vitamina A (RAE) (mcg)', 'Tiamina (mg)',
       'Riboflavina (mg)', 'Niacina (mg)', 'Niacina (NE) (mg)',
       'Piridoxina (mg)', 'Cobalamina (mcg)', 'Folato (DFE) (mcg)',
       'Vitamina D (mcg)', 'Vitamina E (mg)', 'Vitamina C (mg)'],
      dtype='object')

Agora vamos tentar converter todas as colunas. Caso não for possível converter alguma coluna nós devemos reserva-la numa variavel e analisar o seu caso com mais atenção.

Todas as colunas **Object** serão convertidas para o tipo **float64**

In [11]:
colunas_nao_convertidas = []
for col in colunas_object:
  try:
    df[col] = df[col].astype('float64')
  except:
    colunas_nao_convertidas.append(col)

colunas_nao_convertidas

['Energia (kcal)',
 'Proteína (g)',
 'Lipídios totais (g)',
 'Carboidrato (g)',
 'Fibra alimentar total (g)',
 'Colesterol (mg)',
 'AG Saturados (g)',
 'AG Mono (g)',
 'AG Poli (g)',
 'AG Linoléico (g)',
 'AG Linolênico (g)',
 'AG Trans total(g)',
 'Açúcar total (g)',
 'Açúcar de adição (g)',
 'Cálcio (mg)',
 'Magnésio (mg)',
 'Manganês (mg)',
 'Fósforo (mg)',
 'Ferro (mg)',
 'Sódio (mg)',
 'Sódio de adição (mg)',
 'Potássio (mg)',
 'Cobre (mg)',
 'Zinco (mg)',
 'Selênio (mcg)',
 'Retinol (mcg)',
 'Vitamina A (RAE) (mcg)',
 'Tiamina (mg)',
 'Riboflavina (mg)',
 'Niacina (mg)',
 'Niacina (NE) (mg)',
 'Piridoxina (mg)',
 'Cobalamina (mcg)',
 'Folato (DFE) (mcg)',
 'Vitamina D (mcg)',
 'Vitamina E (mg)',
 'Vitamina C (mg)']

In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1971 entries, 0 to 1970
Data columns (total 39 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   Código da preparação       1971 non-null   int64 
 1   Energia (kcal)             1971 non-null   object
 2   Proteína (g)               1971 non-null   object
 3   Lipídios totais (g)        1971 non-null   object
 4   Carboidrato (g)            1971 non-null   object
 5   Fibra alimentar total (g)  1971 non-null   object
 6   Colesterol (mg)            1971 non-null   object
 7   AG Saturados (g)           1971 non-null   object
 8   AG Mono (g)                1971 non-null   object
 9   AG Poli (g)                1971 non-null   object
 10  AG Linoléico (g)           1971 non-null   object
 11  AG Linolênico (g)          1971 non-null   object
 12  AG Trans total(g)          1971 non-null   object
 13  Açúcar total (g)           1971 non-null   object
 14  Açúcar d

A sorte não esta do nosso lado XD

## Validando colunas isoladas: Energia (kcal)

Vamos ver o que esta rolando

In [13]:
try:
  df['Energia (kcal)'] = df['Energia (kcal)'].astype('float64')
except Exception as e:
  print('Tratamento de excessão: ' + str(e))

Tratamento de excessão: could not convert string to float: '-'


Existe o valor **'-'** na coluna **Energia (kcal)** que esta impossibilitando a conversão da coluna. Aparentemente este valor representa algo como *nulo* ou *vazio*. Neste caso podemos substituir este valor por **0 (zero)**.

In [14]:
df['Energia (kcal)'].replace('-', '0', inplace=True)

In [15]:
print('Ocorrencias de -:')
print(df['Energia (kcal)'].loc[df['Energia (kcal)'] == '-'])
print('-'*30)
print('Ocorrencias de 0:')
print(df['Energia (kcal)'].loc[df['Energia (kcal)'] == '0'])

Ocorrencias de -:
Series([], Name: Energia (kcal), dtype: object)
------------------------------
Ocorrencias de 0:
567     0
669     0
1717    0
1718    0
1719    0
1742    0
1743    0
1744    0
1745    0
Name: Energia (kcal), dtype: object


Agora que realizamos a substituição de valore nós podemos tentar, novamente, a transformação da coluna para **float64**

In [16]:
try:
  df['Energia (kcal)'] = df['Energia (kcal)'].astype('float64')
except Exception as e:
  print('Tratamento de excessão: ' + str(e))

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1971 entries, 0 to 1970
Data columns (total 39 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Código da preparação       1971 non-null   int64  
 1   Energia (kcal)             1971 non-null   float64
 2   Proteína (g)               1971 non-null   object 
 3   Lipídios totais (g)        1971 non-null   object 
 4   Carboidrato (g)            1971 non-null   object 
 5   Fibra alimentar total (g)  1971 non-null   object 
 6   Colesterol (mg)            1971 non-null   object 
 7   AG Saturados (g)           1971 non-null   object 
 8   AG Mono (g)                1971 non-null   object 
 9   AG Poli (g)                1971 non-null   object 
 10  AG Linoléico (g)           1971 non-null   object 
 11  AG Linolênico (g)          1971 non-null   object 
 12  AG Trans total(g)          1971 non-null   object 
 13  Açúcar total (g)           1971 non-null   objec

Coluna tratada com sucesso. Com este exemplo bem sucedido, podemos aplicar a mesma formula para as demais colunas e ver no que vai dar.

## Validando as colunas de tipo Object com o desenvolvimento aplicado na coluna Energia (kcal)

Vamos utilizar o nosso vetor **colunas_object** para coletar o nomes das colunas que precisam ser tratadas. Porém, precisamos retirar a coluna **Energia (kcal)**, pois ela já foi tratada.

In [17]:
colunas_object = colunas_object.delete(0)
colunas_object

Index(['Proteína (g)', 'Lipídios totais (g)', 'Carboidrato (g)',
       'Fibra alimentar total (g)', 'Colesterol (mg)', 'AG Saturados (g)',
       'AG Mono (g)', 'AG Poli (g)', 'AG Linoléico (g)', 'AG Linolênico (g)',
       'AG Trans total(g)', 'Açúcar total (g)', 'Açúcar de adição (g)',
       'Cálcio (mg)', 'Magnésio (mg)', 'Manganês (mg)', 'Fósforo (mg)',
       'Ferro (mg)', 'Sódio (mg)', 'Sódio de adição (mg)', 'Potássio (mg)',
       'Cobre (mg)', 'Zinco (mg)', 'Selênio (mcg)', 'Retinol (mcg)',
       'Vitamina A (RAE) (mcg)', 'Tiamina (mg)', 'Riboflavina (mg)',
       'Niacina (mg)', 'Niacina (NE) (mg)', 'Piridoxina (mg)',
       'Cobalamina (mcg)', 'Folato (DFE) (mcg)', 'Vitamina D (mcg)',
       'Vitamina E (mg)', 'Vitamina C (mg)'],
      dtype='object')

Agora podemos aplicar o desenvolvimento. Vamos adicionar alguns tratamentos de excessões para podermos mapear os erros com mais segurança.

In [18]:
colunas_nao_convertidas = []
for col in colunas_object:
  try:
    df[col] = df[col].astype('float64')
    print('Coluna convertida com sucesso!!!')
  except Exception as e:
    colunas_nao_convertidas.append({col:str(e)})
    print('Tratamento de excessão: ' + str(e))

Tratamento de excessão: could not convert string to float: '-'
Tratamento de excessão: could not convert string to float: '-'
Tratamento de excessão: could not convert string to float: '-'
Tratamento de excessão: could not convert string to float: '-'
Tratamento de excessão: could not convert string to float: '-'
Tratamento de excessão: could not convert string to float: '-'
Tratamento de excessão: could not convert string to float: '-'
Tratamento de excessão: could not convert string to float: '-'
Tratamento de excessão: could not convert string to float: '-'
Tratamento de excessão: could not convert string to float: '-'
Tratamento de excessão: could not convert string to float: '-'
Tratamento de excessão: could not convert string to float: '-'
Tratamento de excessão: could not convert string to float: '-'
Tratamento de excessão: could not convert string to float: '-'
Tratamento de excessão: could not convert string to float: '-'
Tratamento de excessão: could not convert string to flo

In [19]:
colunas_nao_alteradas = []
for col in colunas_object:
  try:
    df[col].replace('-', '0', inplace=True)
    print('Ocorrencias de -:')
    print(df[col].loc[df[col] == '-'])
    print('-'*30)
    print('Ocorrencias de 0:')
    print(df[col].loc[df[col] == '0'])
    print('\n\n')
  except Exception as e:
    colunas_nao_alteradas.append({col:str(e)})

Ocorrencias de -:
Series([], Name: Proteína (g), dtype: object)
------------------------------
Ocorrencias de 0:
458     0
527     0
529     0
530     0
533     0
       ..
1855    0
1856    0
1857    0
1858    0
1859    0
Name: Proteína (g), Length: 73, dtype: object



Ocorrencias de -:
Series([], Name: Lipídios totais (g), dtype: object)
------------------------------
Ocorrencias de 0:
167     0
172     0
174     0
486     0
489     0
       ..
1857    0
1858    0
1859    0
1895    0
1897    0
Name: Lipídios totais (g), Length: 87, dtype: object



Ocorrencias de -:
Series([], Name: Carboidrato (g), dtype: object)
------------------------------
Ocorrencias de 0:
567     0
669     0
693     0
694     0
695     0
       ..
1789    0
1797    0
1875    0
1876    0
1899    0
Name: Carboidrato (g), Length: 573, dtype: object



Ocorrencias de -:
Series([], Name: Fibra alimentar total (g), dtype: object)
------------------------------
Ocorrencias de 0:
167     0
172     0
210     0
213    

In [20]:
print('Ocorrências de colunas não alteradas:')
if len(colunas_nao_alteradas) != 0:
  for obj in colunas_nao_alteradas:
    print(obj)
else:
  print('0 (zero)')

Ocorrências de colunas não alteradas:
0 (zero)


In [21]:
colunas_nao_convertidas = []
for col in colunas_object:
  try:
    df[col] = df[col].astype('float64')
    print('Coluna convertida com sucesso!!!')
  except Exception as e:
    colunas_nao_convertidas.append({col:str(e)})
    print('Tratamento de excessão: ' + str(e))

df.info()

Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna convertida com sucesso!!!
Coluna con

Todas as colunas tiveram seu tipo alterado com excessão da coluna **Vitamina E (mg)**. Foi emitido uma excessão durante a tentativa de converte-la e esta excessão deve ser analisada.

## Validando colunas isoladas: Vitamina E (mg)

Analisando a excessão temos ``could not convert string to float: '0,02'``. Não é muito dificil entender o motivo do erro quando sabemos como funciona os tipos flutuantes em **Python**. Este tipo separa os números utilizando **"." (ponto)** e não "," **(virgula)**. Vamos desenvolver um código capaz de tratar este problema.

In [22]:
df['Vitamina E (mg)'] = df['Vitamina E (mg)'].str.replace(',','.')
try:
  df['Vitamina E (mg)'] = df['Vitamina E (mg)'].astype('float64')
  print('Coluna convertida com sucesso!!!')
except Exception as e:
  print('Tratamento de excessão: ' + str(e))

Coluna convertida com sucesso!!!


In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1971 entries, 0 to 1970
Data columns (total 39 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Código da preparação       1971 non-null   int64  
 1   Energia (kcal)             1971 non-null   float64
 2   Proteína (g)               1971 non-null   float64
 3   Lipídios totais (g)        1971 non-null   float64
 4   Carboidrato (g)            1971 non-null   float64
 5   Fibra alimentar total (g)  1971 non-null   float64
 6   Colesterol (mg)            1971 non-null   float64
 7   AG Saturados (g)           1971 non-null   float64
 8   AG Mono (g)                1971 non-null   float64
 9   AG Poli (g)                1971 non-null   float64
 10  AG Linoléico (g)           1971 non-null   float64
 11  AG Linolênico (g)          1971 non-null   float64
 12  AG Trans total(g)          1971 non-null   float64
 13  Açúcar total (g)           1971 non-null   float

## Criando arquivo .csv

In [24]:
df.to_csv('Tabela_Taco_Pre_Processada.csv', index=False)