<a href="https://colab.research.google.com/github/ErickNoGit/Machine-Learning/blob/main/analise_descritiva_de_alimentos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Ingredientes e alérgenos alimentares**

*Isso pode ser usado para o modelo de detecção de alérgenos, análise de similaridade de ingredientes.*

### Tópicos de resolução de problema preditivo

1.  Definição da questão a ser resolvida ( business case );
2.  Definição dos dados necessários ao desenvolvimento do caso;
3.  Coleta dos dados (evitando vícios de amostragem);
4.  Limpeza e tratamento dos dados (quando necessário);
5.  Análise descritiva (resumos estatísticos e visualização gráfica);
6.  Escolha de um modelo (algoritmo) preditivo;
7.  Ajuste (treino) do modelo (do algoritmo);
8.  Teste do modelo para verificação da sua performance preditiva;
9.  Entrega do modelo para validação e utilização pelo cliente;
10. Feedback do cliente para ajustes e melhoramentos do modelo.

## **1.** Questão a ser resolvida (business case);

### Modelos e análises potenciais:

**Modelo de detecção de alérgenos:** pode prever se contém alérgenos ou não

**Análise de similaridade de ingredientes:** Esta análise pode fornecer informações sobre semelhanças e diferenças entre os diferentes tipos de pratos.

**Análise de prevalência de alérgenos:** Pode obter insights sobre a prevalência de diferentes alérgenos em produtos alimentícios.

**Sistemas de recomendação:** O conjunto de dados também pode ser usado para desenvolver sistemas de recomendação para indivíduos com restrições ou alergias alimentares específicas.

*O modelo selecionado será o preditivo **Modelo de detecção de alérgenos** com abordagem supervisionada, a variável ``` Y = CONTEM OU NÃO ```. Regressão de classificação dicotomica*



## **2.** Definição dos dados necessários ao desenvolvimento do caso;

A base de dados em ```.csv``` foi obtida através do kaggle, nesse link:

https://www.kaggle.com/datasets/uom190346a/food-ingredients-and-allergens

## **3.** Coleta dos dados (evitando vícios de amostragem);

### Sobre o conjunto de dados:

O conjunto de **dados de alérgenos** alimentares é uma coleção de informações sobre alérgenos presentes em vários itens alimentares. O conjunto de dados contém informações sobre alérgenos para uma variedade de ingredientes alimentares, permitindo a identificação e análise de possíveis alérgenos em diferentes pratos e produtos. Serve como um recurso valioso para pesquisadores, fabricantes de alimentos, profissionais de saúde e indivíduos com alergias alimentares.

**Tamanho:** O conjunto de dados consiste em um total de 400 registros, com cada registro representando um item alimentar específico e seus alérgenos associados.

**Alérgenos:** O conjunto de dados inclui uma lista abrangente de alérgenos encontrados nos itens alimentares. Esses alérgenos abrangem uma ampla gama de ingredientes, como laticínios, trigo, nozes ( amêndoas, amendoins, pinhões ), frutos do mar ( anchovas, peixes, frutos do mar ), grãos ( aveia, arroz ), ingredientes à base de animais ( frango, carne de porco ), ingredientes à base de plantas ( celaria, mostarda, soja ) e ingredientes comuns ( cacau, ovos ). Além disso, o conjunto de dados contém entradas nas quais nenhum alérgeno específico está listado.

**Estrutura de dados** - O conjunto de dados é estruturado com várias colunas para fornecer informações detalhadas. As colunas incluem:

**Item alimentar:** representa o nome do item alimentar.

**Ingredientes:** lista os ingredientes presentes no item alimentar, classificados em diferentes colunas, como açúcar, sal, óleo, especiarias, etc.

**Alérgenos:** indica os alérgenos associados ao item alimentar, incluindo os ingredientes alergênicos específicos presentes.

**Previsão:** produtos alimentares que contenham alérgenos e aqueles que não contêm.



## **4.** Limpeza e tratamento dos dados (quando necessário);

In [172]:
# Bibliotecas padrão
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [173]:
# Carregando base de dados do DataFrame
csv = '/content/food_ingredients_and_allergens.csv'
df = pd.read_csv(csv)
df

Unnamed: 0,Food Product,Main Ingredient,Sweetener,Fat/Oil,Seasoning,Allergens,Prediction
0,Almond Cookies,Almonds,Sugar,Butter,Flour,"Almonds, Wheat, Dairy",Contains
1,Almond Cookies,Almonds,Sugar,Butter,Flour,"Almonds, Wheat, Dairy",Contains
2,Chicken Noodle Soup,Chicken broth,,,Salt,"Chicken, Wheat, Celery",Contains
3,Chicken Noodle Soup,Chicken broth,,,Salt,"Chicken, Wheat, Celery",Contains
4,Cheddar Cheese,Cheese,,,Salt,Dairy,Contains
...,...,...,...,...,...,...,...
394,Lemon Bars,Lemon juice,Sugar,Butter,"Flour, eggs","Wheat, Dairy, Eggs",Contains
395,Pecan Pie,Pecans,Sugar,Butter,Corn syrup,"Wheat, Dairy, Nuts",Contains
396,Zucchini Bread,Zucchini,Sugar,Butter,"Cinnamon, nuts","Wheat, Dairy, Nuts",Contains
397,Banana Bread,Bananas,Sugar,Butter,"Cinnamon, nuts","Wheat, Dairy, Nuts",Contains


In [174]:
# Destacando informações
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 399 entries, 0 to 398
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Food Product     399 non-null    object
 1   Main Ingredient  399 non-null    object
 2   Sweetener        399 non-null    object
 3   Fat/Oil          399 non-null    object
 4   Seasoning        399 non-null    object
 5   Allergens        399 non-null    object
 6   Prediction       398 non-null    object
dtypes: object(7)
memory usage: 21.9+ KB


In [175]:
# Tratamento do nome das colunas para reduzir código e facilitar entendimento
coluns_rename = ['food', 'ingredient', 'sweet', 'fat', 'seasoning', 'allergens', 'prediction']
df.columns = coluns_rename
df

Unnamed: 0,food,ingredient,sweet,fat,seasoning,allergens,prediction
0,Almond Cookies,Almonds,Sugar,Butter,Flour,"Almonds, Wheat, Dairy",Contains
1,Almond Cookies,Almonds,Sugar,Butter,Flour,"Almonds, Wheat, Dairy",Contains
2,Chicken Noodle Soup,Chicken broth,,,Salt,"Chicken, Wheat, Celery",Contains
3,Chicken Noodle Soup,Chicken broth,,,Salt,"Chicken, Wheat, Celery",Contains
4,Cheddar Cheese,Cheese,,,Salt,Dairy,Contains
...,...,...,...,...,...,...,...
394,Lemon Bars,Lemon juice,Sugar,Butter,"Flour, eggs","Wheat, Dairy, Eggs",Contains
395,Pecan Pie,Pecans,Sugar,Butter,Corn syrup,"Wheat, Dairy, Nuts",Contains
396,Zucchini Bread,Zucchini,Sugar,Butter,"Cinnamon, nuts","Wheat, Dairy, Nuts",Contains
397,Banana Bread,Bananas,Sugar,Butter,"Cinnamon, nuts","Wheat, Dairy, Nuts",Contains


Obtendo dados de contagem, unificando valores iguais e retornando a soma da contagem. Por coluna do DataFrame.

In [176]:
print('Coluna de classificação dos Food')
objeto = np.unique(np.array(df['food']))
print(objeto, '\n')
print('Percebe-se que a coluna de alimentos (food) contem {} tipos para classificação'.format(pd.Series(objeto).value_counts().sum()))

Coluna de classificação dos Food
['Almond Cookies' 'Aloo Gobi' 'Aloo Paratha' 'Apple' 'Apple Cider'
 'Apple Crisp' 'Apple Pie' 'Avocado Toast' 'BBQ Ribs'
 'Bacon-Wrapped Shrimp' 'Baked Apple' 'Baked Brie' 'Baked Chicken Wings'
 'Baked Cod' 'Baked Garlic Parmesan Chicken' 'Baked Salmon' 'Baked Ziti'
 'Banana Bread' 'Banana Pudding' 'Banana Smoothie' 'Beef Burger'
 'Beef Burritos' 'Beef Chili' 'Beef Kabobs' 'Beef Stir-Fry'
 'Beef Stroganoff' 'Beef Tacos' 'Beef Wellington' 'Beef and Broccoli'
 'Beef and Mushroom Stir-Fry' 'Berry Cobbler' 'Berry Crumble'
 'Berry Parfait' 'Berry Smoothie' 'Biryani' 'Black Bean Soup'
 'Blueberry Muffins' 'Blueberry Pancakes' 'Brussels Sprouts'
 'Buffalo Wings' 'Butter Chicken' 'Butter Naan' 'Butternut Squash Soup'
 'Cabbage Rolls' 'Caesar Pasta Salad' 'Caesar Salad' 'Caesar Salad Wrap'
 'Caesar Shrimp Skewers' 'Caesar Wrap' 'Caprese Salad' 'Caprese Sandwich'
 'Caprese Skewers' 'Caramel Apple' 'Caramel Popcorn' 'Caramelized Onions'
 'Carrot Cake' 'Chana Masal

In [177]:
print('Coluna de classificação dos Ingredient')
objeto = np.unique(np.array(df['ingredient']))
print(objeto, '\n')
print('Percebe-se que a coluna de indgredientes (ingredient) contem {} tipos para classificação'.format(pd.Series(objeto).value_counts().sum()))

Coluna de classificação dos Ingredient
['Almonds' 'Apples' 'Arborio rice' 'Avocado' 'Bacon' 'Bananas'
 'Basmati rice' 'Beef' 'Bell peppers' 'Berries' 'Black beans'
 'Blueberries' 'Bread' 'Brie cheese' 'Brussels sprouts' 'Buttermilk'
 'Butternut squash' 'Cabbage' 'Carrots' 'Cauliflower' 'Cheese' 'Chicken'
 'Chicken breast' 'Chicken broth' 'Chicken wings' 'Chickpeas' 'Chocolate'
 'Cod' 'Cottage cheese' 'Cream cheese' 'Cucumber' 'Cucumbers' 'Dough'
 'Eggplant' 'Eggs' 'Fermented batter' 'Fish' 'Fish (salmon, tuna)'
 'Fish fillets' 'Flour' 'Graham crackers' 'Greek yogurt' 'Grilled chicken'
 'Ground beef' 'Kidney beans' 'Ladyfingers' 'Lamb' 'Lamb/Chicken'
 'Lemon juice' 'Lentil dumplings' 'Lentils' 'Lime juice' 'Lobster' 'Mango'
 'Milk' 'Milk solids' 'Miso paste' 'Mixed berries' 'Mixed fruits'
 'Mixed vegetables' 'Mushrooms' 'Mutton' 'Oats' 'Onions' 'Oranges'
 'Paneer' 'Pasta' 'Peanuts' 'Pecans' 'Pesto sauce' 'Pineapple'
 'Pizza dough' 'Popcorn' 'Pork ribs' 'Portobello mushrooms' 'Potato'
 '

In [178]:
print('Coluna de classificação dos Sweet')
objeto = np.unique(np.array(df['sweet']))
print(objeto, '\n')
print('Percebe-se que a coluna de adoçante (sweet) contem {} tipos para classificação'.format(pd.Series(objeto).value_counts().sum()))

Coluna de classificação dos Sweet
['Brown sugar' 'Caramel' 'Cocoa butter' 'Honey' 'Marshmallows'
 'Mayonnaise' 'None' 'Rice vinegar' 'Sugar' 'Tamarind'] 

Percebe-se que a coluna de adoçante (sweet) contem 10 tipos para classificação


In [179]:
print('Coluna de classificação dos Fat')
objeto = np.unique(np.array(df['fat']))
print(objeto, '\n')
print('Percebe-se que a coluna de gordura/oleo (fat) contem {} tipos para classificação'.format(pd.Series(objeto).value_counts().sum()))

Coluna de classificação dos Fat
['Avocado' 'Bacon' 'Bread crumbs, Parmesan cheese' 'Butter'
 'Caesar dressing' 'Cheese' 'Chocolate' 'Coconut milk' 'Coconut oil'
 'Cream' 'Cream cheese, sour cream' 'Enchilada sauce' 'Ghee' 'Heavy cream'
 'Mascarpone cheese' 'Mascarpone cheese, coffee liqueur' 'Mayonnaise'
 'Milk' 'Milk powder' 'Milk, Ghee' 'Mustard' 'None' 'Oil' 'Olive oil'
 'Pancetta' 'Peanut butter' 'Peanut oil' 'Pesto sauce' 'Sesame oil'
 'Sour cream' 'Soy sauce' 'Vegetable oil' 'Water' 'Whipped cream' 'Yogurt'
 'Yogurt (milk, cultures)'] 

Percebe-se que a coluna de gordura/oleo (fat) contem 36 tipos para classificação


In [180]:
print('Coluna de classificação dos seasoning')
objeto = np.unique(np.array(df['seasoning']))
print(objeto, '\n')
print('Percebe-se que a coluna de tempero (seasoning) contem {} tipos para classificação'.format(pd.Series(objeto).value_counts().sum()))

Coluna de classificação dos seasoning
['Almond milk' 'Arborio rice, Parmesan cheese' 'BBQ sauce' 'Baking powder'
 'Balsamic glaze' 'Balsamic vinaigrette' 'Balsamic vinegar'
 'Basil, garlic' 'Basmati rice, spices' 'Beef broth, cheese, bread'
 'Biryani masala, spices' 'Blueberries' 'Buffalo sauce'
 'Burger bun, vegetables' 'Burrito seasoning' 'Caesar dressing' 'Cardamom'
 'Cardamom syrup' 'Cardamom, nuts' 'Cauliflower, spices'
 'Celery, lemon juice' 'Celery, mustard' 'Celery, onion' 'Cheese'
 'Cheese, breadcrumbs' 'Cheese, eggs' 'Cheese, tortillas'
 'Chicken, Alfredo sauce' 'Chili powder' 'Chocolate chips'
 'Chole masala, spices' 'Cilantro, lime' 'Cinnamon' 'Cinnamon, icing'
 'Cinnamon, nutmeg' 'Cinnamon, nuts' 'Cinnamon, oats' 'Cinnamon, pastry'
 'Cinnamon, raisins' 'Cocoa powder' 'Coffee, cocoa' 'Corn syrup'
 'Cream, Parmesan cheese' 'Cream, brandy' 'Cream, spices'
 'Creamy sauce, spices' 'Creamy tomato sauce' 'Curry paste' 'Curry powder'
 'Curry spices' 'Egg, Parmesan cheese' 'Emulsif

In [181]:
print('Coluna de classificação dos allergens')
objeto = np.unique(np.array(df['allergens']))
print(objeto, '\n')
print('Percebe-se que a coluna de alergenos (allergens) contem {} tipos para classificação'.format(pd.Series(objeto).value_counts().sum()))

Coluna de classificação dos allergens
['Almonds, Wheat, Dairy' 'Chicken, Wheat, Celery' 'Dairy'
 'Dairy, Anchovies' 'Dairy, Cocoa' 'Dairy, Eggs' 'Dairy, Fish'
 'Dairy, Ghee' 'Dairy, Nuts' 'Dairy, Wheat' 'Eggs' 'Eggs, Dairy'
 'Eggs, Mustard' 'Eggs, Soybeans' 'Fish' 'Fish, Coconut' 'Fish, Dairy'
 'Fish, Eggs' 'Fish, Soybeans' 'Milk' 'Milk, Strawberries' 'None'
 'Oats, Dairy' 'Peanuts' 'Pine nuts, Dairy' 'Rice, Dairy' 'Shellfish'
 'Shellfish, Dairy' 'Shellfish, Eggs' 'Shellfish, Pork'
 'Shellfish, Soybeans' 'Soybeans' 'Soybeans, Fish' 'Wheat' 'Wheat, Dairy'
 'Wheat, Dairy, Alcohol' 'Wheat, Dairy, Cocoa' 'Wheat, Dairy, Eggs'
 'Wheat, Dairy, Nuts' 'Wheat, Pork, Dairy'] 

Percebe-se que a coluna de alergenos (allergens) contem 40 tipos para classificação


In [182]:
print('Coluna de classificação dos prediction')
print(np.unique(np.array(df['prediction'], dtype=np.string_)))
print('Percebe-se que a coluna de previsão (prediction) contem 3 tipos de dados de classificação. Um deles, faltantes!')

Coluna de classificação dos prediction
[b'Contains' b'Does not contain' b'nan']
Percebe-se que a coluna de previsão (prediction) contem 3 tipos de dados de classificação. Um deles, faltantes!
