# Classificador Naive Bayes

___


___
Carregando algumas bibliotecas:

In [1]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

from scipy import stats
import math

# Para ter melhor print
from IPython.display import display

___
## Índice

- [Questão 1](#q1)
    - [Item a](#q1_a)
    - [Item b](#q1_b)
    - [Item c](#q1_c)
- [Questão 2](#q2)
    - [Item a](#q2_a)
    - [Item b](#q2_b)
    - [Item c](#q2_c)
___

<div id="q1"></div>

___

# Questão 1

O serviço de entregas de comida iQueMedo entrega apenas 4 itens diferentes durante a semana: coxinha (C), carne misteriosa (M), peixe caramelizado - pensa uma maçã do amor, mas de sardinha - (P) e ostra *vintage* (O). Aos sábados servem pizza ou sushi.

O *DataFrame* abaixo mostra o histórico de compras de alguns clientes durante a semana, e qual o pedido que fizeram no sábado. A coluna "Semana" contém uma *string* onde cada letra representa um pedido (dentre as opções acima: 'C', 'M', 'P' e 'O'), e a coluna "Final" mostra o que foi pedido no final de semana.

In [2]:
import os

filename = 'comidas.csv'
if filename in os.listdir():
    print(f'Encontrei o arquivo {filename}, tudo certo para prosseguir com a prova!')
else:
    print(f'Não encontrei o arquivo {filename} aqui no diretório {os.getcwd()}, '
          'será que você não baixou o arquivo?')

Encontrei o arquivo comidas.csv, tudo certo para prosseguir com a prova!


In [3]:
comidas = pd.read_csv(filename, sep=";")

In [4]:
comidas.head()

Unnamed: 0,Sábado,Semana
0,pizza,PMPCPCC
1,sushi,CPO
2,sushi,PPMPOPOOPP
3,sushi,POPPO
4,pizza,CPMM


<div id="q1_a"></div>

---

**a)** Queremos um sistema que permita escolher, baseado no histórico de pedidos de um cliente, se ele vai preferir sushi ou pizza no sábado.

Construa um classificador Naive-Bayes para esse problema. Ou seja, determine:

- as probabilidades condicionais de comida por preferência de final de semana, e 
- as probabilidades *a priori* das preferências de final de semana.

Observação: você deve adotar as seguintes medidas simplificadoras:

- Não precisa separar em treinamento e teste, estamos interessados apenas no classificador treinado com o conjunto completo de dados.
- Não precisa implementar *smoothing*.
- Não tem "palavra desconhecida": os pedidos são apenas as letras C, M, P e O.

Dica: para separar uma *string* em lista de letras é simples: basta usar a função `list()`. Por exemplo:


In [5]:
texto = 'PPMPOPOOPP'
lista = list(texto)
print(lista)

['P', 'P', 'M', 'P', 'O', 'P', 'O', 'O', 'P', 'P']


In [6]:
# Coloque seu código aqui...

--- 

<div id="q1_b"></div>


**b)** Determine a recomendação do sistema para um cliente com o seguinte histórico de pedidos: "PPCPCCCOPP"

Observação: não precisa implementar o "truque do log".

In [8]:
# Coloque seu código aqui...

<div id="q1_c"></div>

---

**c)** Saiu uma notícia no jornal que diz que comer peixe caramelizado aumenta muito a incidência de unha encravada, daquelas bem horríveis. (Caso você goste de unha encravada: suponha que a população em geral não gosta.)

Comente o que você espera que aconteça se você continuar usando seu classificador Naive-Bayes para fazer as recomendações de pizza ou sushi.

(Nesta questão não tem código ou cálculos para fazer - apenas senso crítico.)

In [10]:
# Coloque sua resposta aqui...

---

<div id="q2"></div>

# Questão 2 - análise de texto

___

![Fonte: https://commons.wikimedia.org/wiki/File:CocaColaBottle_background_free.png](img/160px-CocaColaBottle_background_Free.png)

Esta questão é baseada no Projeto 2

Você foi contratado pela empresa *The Coca Cola Company* para fazer monitoramento de redes sociais. Sua empresa fez um *bot* que continuamente busca por novas postagens no Twitter e as classifica.

A empresa está interessada em saber quais mensagens estão felizes com a marca versus o total que estão neutros ou insatisfeitos.

Sua base de treinamento está no arquivo `coca_cola.xlsx`.  

As mensagens felizes têm a coluna **Categoria** com valor `FELIZ` e as mensagens que não são felizes têm como **Categoria** o valor `NAO_FELIZ`.

Note que a coluna Texto já passou pelas seguintes etapas:
* Conversão para letras minúsculas
* Limpeza de pontuação

In [11]:
tweets = pd.read_excel("Q3_coca_cola.xlsx")

In [12]:
tweets.head()

Unnamed: 0,Texto,Categoria
0,acho que comer hamburguer de soja e se entupir...,NAO_FELIZ
1,gosto mais de vaca preta coca cola com sorvet...,FELIZ
2,me prometo uma coca cola gelada para o fim do...,FELIZ
3,essa coca cola gelada fez meu dia,FELIZ
4,prometo parar com doce refrigerante coca cola ...,NAO_FELIZ


Pede-se:

<div id="q2_a"></div>

---

**a)** Junte todas as mensagens da cada categoria em uma *string* única


<div id="q2_b"></div>

---

**b)** Apresente as tabelas que são equivalentes a $P(palavra|FELIZ)$ e $P(palavra|NAO\_FELIZ)$, e que contém todas as palavras presentes nas respectivas categorias.

Você deve guardá-las em variáveis e exibi-las de forma semelhante ao que foi feito com o comando `tweets.head()` acima.

**R.:**

$P(palavra|FELIZ)$

In [25]:
# insira aqui os comandos para obter

$P(palavra|NAO\_FELIZ)$

In [26]:
# insira aqui os comandos para palavra não feliz. Crie mais células se precisar

<div id="q2_c"></div>

---

**c)** Considerando que: 
* Não deve ser feito nenhum tratamento para o caso de palavras inéditas
* Não devem ser usadas bibliotecas de *machine learning* ou estatística
* Atenha-se ao `pandas` e `numpy`



Por favor faça:

Classifique usando um classificador *Naive Bayes* se a frase `"prometo que vai ser a última coca cola do dia"` é uma frase que pertence à categoria `FELIZ` ou `NAO_FELIZ`

Deixe claro (pode ser em comentários) o significado de seus cálculos e a qual conclusão chegou. Principalmente deixei claro *em qual número* baseou a conclusão 

Atente que vai ser necessário calcular os valores de $P(FELIZ)$ e $P(NAO\_FELIZ)$




In [16]:
frase = "prometo que vai ser a última coca cola do dia" # frase a classificar