# 1.0 Introdução

In [0]:
# Uploading files from your local file system

from google.colab import files
uploaded = files.upload()

for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

Neste projeto iremos trabalhar com um dataset contendo dados nutricionais de produtos do McDonald's.

O upload deste dataset foi feito originalmente no [Kaggle](https://www.kaggle.com/mcdonalds/nutrition-facts). Os items do menu do McDonalds e demais dados foram retirados do site do McDonald's.

O dataset fornece uma análise nutricional de cada item do cardápio do McDonald's nos EUA, incluindo café da manhã, hambúrgueres de carne, sanduíches de frango e peixe, batatas fritas, saladas, refrigerantes, café e chá, milkshakes e sobremesas.

Abaixo estão algumas das colunas presentes no dataset:



- **Category** - Tipo da refeição. Exemplos: Café da manhã, Sobremesas, Frango e Peixe, etc;
- **Item** - Nome do produto no cardápio;
- **Serving Size** - Tamanho da porção em onça(unidade de medida de massa) e gramas;
- **Calories** - Calorias;
- **Calories from Fat** - Calorias provenientes de gordura; 
- **Total Fat** - Gordura total;
- **Total Fat (% Daily Value)** -  Percentual diário de gordura total;
- **Satured Fat** - Gordura saturada;
- **Trans Fat** - Gordura trans;
- **Cholesterol** - Colesterol;
- **Sodium** - Sódio;
- **Carbohydrates** - Carboidratos;
- **Dietary Fiber** - Fibra dietética;
- **Sugars** - Açúcares;
- **Protein** - Proteínas;
- **Vitamin A (% Daily Value)** - Percentual diário de vitamina A; 
- **Vitamin C (% Daily Value)** - Percentual diário de vitamina C;
- **Calcium (% Daily Value)** - Percentual diário de cálcio;
- **Iron (% Daily Value)** - Percentual diário de ferro;

Esse projeto foi elaborado pelos seguintes alunos:

- **Eulle Silva** - eulle100@gmail.com
- **Erick Silva** - erickoliveira.eos@gmail.com
- **Fernando Maciel** - nandormaciel@gmail.com
- **Gabriel Igor** - gabriel.igorq@gmail.com
- **Luís Andrade** - luisandrade_araujo@hotmail.com

Cada membro foi responsável por elaborar pelo menos um dos tópicos presentes no notebook e desenvolver exercícios envolvendo o dataset mencionado anteriormente

Tempo previsto para conclusão do notebook: 90 min

**Exercício - Nível: Fácil**


<img width="100" src="https://drive.google.com/uc?export=view&id=1E8tR7B9YYUXsU_rddJAyq0FrM0MSelxZ">

- Importe a biblioteca Pandas.
- Leia o arquivo csv **mcdonalds.csv** utilizando o pandas, atribuindo à variável **mc**.
    - Se ocorrer um erro de codificação, tente um dos dois tipos mais populares (**Latin-1** e **Windows-1252**) até conseguir ler o arquivo sem erros.
- Use os métodos **DataFrame.info()** e **DataFrame.head()** para obter informações e se familiarizar com o dataset.


In [0]:
#Insira aqui sua resposta

# 2.0 Simplificando o Dataset

Através das informações obtidas na última seção podemos fazer algumas observações:

- O dataset possui 24 colunas;
- A grande maioria dos valores contidos no dataset são inteiros;

Portanto, como não precisamos nos preocupar em remover linhas com dados em falta, nesta seção temos como objetivo remover determinadas colunas do dataset que não serão do nosso interesse no decorrer do notebook.


**Exercício - Nível: Médio**


<img width="100" src="https://drive.google.com/uc?export=view&id=1E8tR7B9YYUXsU_rddJAyq0FrM0MSelxZ">

- Cria uma lista contendo as colunas do dataframe original e atribua a variável **cols**. Dica: Lembre-se do método tolist();
- Crie uma nova lista de nome **remover** e atribua a ela as seguintes colunas:
  - Serving Size
  - Dietary Fiber
  - Dietary Fiber (%Daily Value)
  - Vitamin A (% Daily Value)
  - Vitamin C (% Daily Value)
  - Calcium (% Daily Value)
  - Iron (% Daily Value)
  - Calories From Fat
  - Total Fat ( % Daily Value)
  - Saturated Fat ( % Daily Value)
  - Cholesterol (% Daily Valuue)
  - Sodium (% Daily Value)
  - Carbohydrates(% Daily Value)
- Através de uma iteração sobre a lista **remover**, retire as colunas indesejadas da lista **cols**.
- Crie um novo dataframe contendo apenas as colunas presentes em **cols**.

In [0]:
#Insira aqui sua resposta

# 3.0 Renomeando colunas

Com os exercícios anteriores conseguimos tornar nosso dataset mais amigável, mas ainda possuem nomes extensos e que dificultam a vida de quem está utilizando-o. Vamos então melhorar esses nomes para fazer melhor uso.



**Exercício - Nível: Médio**


<img width="100" src="https://drive.google.com/uc?export=view&id=1E8tR7B9YYUXsU_rddJAyq0FrM0MSelxZ">

- Substitua todos os nomes de colunas que possuam `<Nome Coluna> para <Nome_Coluna>`

Observação: Existem diversas formas de resolver este exercício, logo, use a estratégia que achar melhor. Uma sugestão seria pesquisar a respeito da biblioteca **stringcase**.



In [0]:
#Insira aqui sua resposta

# 4.0 Análise Inicial e Tratamento inicial do Dataset 

Após simplificar os dados, e renomear as colunas. Devemos verificar a qualidade dos dados, uma vez que inconsistências ou casos inválidados (NaN ou None) devem ser tratados. Assim, vamos realizar uma analíse inicial para averiguar a qualidade dos dados, e tornar o dataset útil. 

Além disso, vamos realizar uma análise inicial a respeito do dataset, analisando o comportamento de algumas categorias.

Para auxiliar o desenvolvimento desta seção, vamos relembrar alguns conceitos vistos em sala de aula. Observe a célula abaixo:

In [0]:
df.loc[df["Category"] == "Beef & Pork", "Cholesterol"]

42     85
43     95
44    105
45    105
46     85
47    160
48     30
49     45
50     90
51    115
52     75
53     90
54     80
55     80
56     70
Name: Cholesterol, dtype: int64

Executando o exemplo de código acima, pode-se filtrar do dataset apenas as linhas cuja categoria são do tipo **Beef & Pork** e analisar apenas os dados dessas linha referentes a coluna **Cholesterol**. Uma abordagem semelhante a essa pode te auxiliar no segundo exercício desta seção.

**Exercício - Nível: Fácil**


<img width="100" src="https://drive.google.com/uc?export=view&id=1E8tR7B9YYUXsU_rddJAyq0FrM0MSelxZ"> 

- Verificar a existência de valores nulos;
- Caso existam, deve-se removê-los;

In [0]:
#Insira aqui sua resposta

**Exercício - Nível: Médio**


<img width="100" src="https://drive.google.com/uc?export=view&id=1E8tR7B9YYUXsU_rddJAyq0FrM0MSelxZ"> 

- Obtenha quais as categorias de refeições servidas, de acordo com o Dataset;
- Analisar as informações sobre médias, medianas, valores mínimos e máximo de calorias para as duas categorias com maior número de refeições.

In [0]:
#Insira aqui sua resposta

# 5.0   Analisando a quantidade de gordura trans nos alimentos
 
O Mc Donald's oferece uma variedade enorme de comidas, muitas delas são muito nocivas a saúde . Mas quais alimentos da categoria, com maior númedo de opções de escolha, possuem gordura trans em sua composição ? É isso que nós iremos analisar aqui !


**Exercício - Nível : Muito Difícil**

<img width="100" src="https://drive.google.com/uc?export=view&id=1E8tR7B9YYUXsU_rddJAyq0FrM0MSelxZ">



*   Criar um dicionario com a chave sendo a categoria, e o valor sendo o total de opções que essa categoria tem.
*   Calcular o valor máximo desse dicionário . Com isso , será possível encontrar a categoria que oferece mais opções .
* Por último , você tem que pensar em uma condição que possa filtrar os valores pedidos no enunciado da questão.


In [0]:
#Insira aqui sua resposta

# 6.0 - Alimentos de risco

**Exercício - Nível : Difícil**

<img width="100" src="https://drive.google.com/uc?export=view&id=1E8tR7B9YYUXsU_rddJAyq0FrM0MSelxZ">


Sabendo que muitos dos alimentos fornecidos pelo McDonald's tem alto teor de gordura e colesterol  e queremos evitar esse tipo de alimento no nosso dia a dia:
 * Liste o nome das colunas da tabela
 * Selecione as colunas que informam a quantidade de gordura total e colesterol
 * Exiba somente os alimentos que contem gordura total e colesterol entre 0 e 40
 * Teste com outros valores e observe os alimentos que aparecem com maiores indices de gordura e colesterol
 
 A taxa de colesterol recomendada depende do tipo de colesterol, mas aqui vamos utilizar o ideal como sendo 40. Para maiores informações ou para escolher um valor apropriado veja: https://www.tuasaude.com/colesterol/ 

In [0]:
#Insira aqui sua resposta

**Exercício - Nível : Difícil**

<img width="100" src="https://drive.google.com/uc?export=view&id=1E8tR7B9YYUXsU_rddJAyq0FrM0MSelxZ">

Com base na questão anterior agora vamos procurar os alimento mais caloricos, gordurosos para isso:
* Importe a biblioteca numpy 
* Por categoria, seleciona as goduras totais, gorduras saturadas, goduras trans e colesterol
* Procure em todas as colunas os alimentos quem tem os maiores indices. Dica: **np.max**
* Crie um novo data frame e armazene essa nova tabela
* Com o data frame criado nomeie as colunas com os seguintes nomes:
`'Category','Max_Fat','Max_Trans_Fat','Max_Sat_Fat','Max_Cholestrol'`
* Mostre o novo data frame

In [0]:
#Insira aqui sua resposta

<img width="100" src="https://drive.google.com/uc?export=view&id=1E8tR7B9YYUXsU_rddJAyq0FrM0MSelxZ">

Com o novo data frame vamos procurar o alimento mais gorduroso, para isso:
* Faça um merge entre as _categorias_ do novo data frame e o anterior para identificar o item e atualize o data frame
* Com o data frame atualizado, crie um novo data frame chamado `fatty_df` que contenha as colunas categoria, item, gorduras totais e colesterol e procure os alimentos que contêm os maiores indices de gorduras totais e colesterol
* Mostre o data frame
* Identifique o alimento com maior índice de gordura totais e colesterol

In [0]:
#Insira aqui sua resposta

# Questionário
* Com base nas poucas informações retiradas desse dataset, você voltaria a comer no McDonalts?
    * Se sim, pq?