# Parte 1

## Imports

- **nltk**: Para POS tagging, tokenização de sentenças e demais itens inerentes a NLP
- **json**: Para a leitura do dataset
- **emoji**: Para converter emojis no texto para suas respectivas descriçrões
- _emot_: Considerar o uso para extrair emojis e emoticons do texto

In [18]:
import nltk
import json
import emoji
from nltk.corpus import floresta
from nltk.corpus import mac_morpho

## Leitura dos dados

Lendo os dados do arquivo **banzeiro.json** em duas listas de objetos, que serão representados por `dicts`. Uma lista guardará os dados com os emojis substituídos pelas suas respectivas descrições e a outra, o conteúdo original.

In [11]:
with open("banzeiro.json", "r") as f:
    publications = json.load(f)

In [12]:
for p in publications:
    if "caption" in p:
        p["caption"] = emoji.demojize(p["caption"])
        if "comments" in p:
            for c in p["comments"]:
                c["comment"] = emoji.demojize(c["comment"])
publications

[{'caption': 'Já provou os nossos Chás Gelados?\nAs três combinações que vem chamando a atenção dos nossos clientes que optam por uma opção refrescante e não alcoólica: Hibisco com Abacaxi de Manaus, Limão com Alecrim e Maracujá com Cumaru.',
  'comments': [{'author': 'audreycaminha', 'comment': 'Deliciosos'}],
  'datetime': '2019-09-19T14:47:48.000Z',
  'img_urls': ['https://z-p42-instagram.fpll2-1.fna.fbcdn.net/vp/a6d60b0df54d20fe561c3308e6411257/5E35929A/t51.2885-15/e35/p1080x1080/69264317_114551886371133_4403060268670076166_n.jpg?_nc_ad=z-m&_nc_ht=z-p42-instagram.fpll2-1.fna.fbcdn.net&_nc_cat=109'],
  'key': 'https://www.instagram.com/p/B2mMB_OHbfI/'},
 {'caption': 'Uma das entradas exclusivas do Banzeiro Manaus. Experimente o nosso Tacacá assado na brasa!',
  'comments': [{'author': 'karenmabel', 'comment': 'é sensacional!'},
   {'author': 'restaurantebanzeiro',
    'comment': '@karenmabel :folded_hands_medium-light_skin_tone::heart_suit:'},
   {'author': 'tiagoijichi',
    'comme

## Limpeza de dados

Algumas operações de limpeza dos dados deverão ser realizadas, considerando os seguintes pontos:

- Comentários que apenas mencionam outros usuários não expressam uma opinião
- Publicações sem comentários não possuem opiniões a serem mineradas
- Publicações sem legenda não deixam claro a que se endereça a opinião


### Removendo publicações sem legenda

Fazendo download do _tokenizer_ **Punkt** do NLTK, que será usado para quebrar as sentenças em Português.

In [13]:
nltk.download("punkt")

[nltk_data] Downloading package punkt to /home/miguel/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

Carregando o `sent_tokenizer` treinado para o português. Substitui as legendas e os comentários por listas de sentenças encontradas. Além disso, o `word_tokenizer` quebra cada sentença em uma lista de palavras.

In [28]:
sent_tokenizer=nltk.data.load('tokenizers/punkt/portuguese.pickle')

msents = mac_morpho.tagged_sents()
fsents = floresta.tagged_sents()

noun_tagger = nltk.DefaultTagger('n')
unigram_tagger = nltk.UnigramTagger(msents, backoff=noun_tagger)
bigram_tagger = nltk.BigramTagger(msents, backoff=unigram_tagger)

In [27]:
for p in publications:
    sentences = sent_tokenizer.tokenize(p["caption"])
    tags = [bigram_tagger.tag(nltk.word_tokenize(sentence)) for sentence in sentences]
    print(tags, "\n\n") 

[[('Já', 'ADV'), ('provou', 'V'), ('os', 'ART'), ('nossos', 'PROADJ'), ('Chás', 'n'), ('Gelados', 'n'), ('?', '?')], [('As', 'ART'), ('três', 'NUM'), ('combinações', 'N'), ('que', 'PRO-KS-REL'), ('vem', 'V'), ('chamando', 'V'), ('a', 'ART'), ('atenção', 'N'), ('dos', 'N'), ('nossos', 'PROADJ'), ('clientes', 'N'), ('que', 'PRO-KS-REL'), ('optam', 'n'), ('por', 'PREP|+'), ('uma', 'ART'), ('opção', 'N'), ('refrescante', 'n'), ('e', 'KC'), ('não', 'ADV'), ('alcoólica', 'ADJ'), (':', ':'), ('Hibisco', 'n'), ('com', 'PREP'), ('Abacaxi', 'n'), ('de', 'PREP'), ('Manaus', 'NPROP'), (',', ','), ('Limão', 'NPROP'), ('com', 'PREP'), ('Alecrim', 'n'), ('e', 'KC'), ('Maracujá', 'n'), ('com', 'PREP'), ('Cumaru', 'n'), ('.', '.')]] 


[[('Uma', 'ART'), ('das', 'NPROP'), ('entradas', 'N'), ('exclusivas', 'ADJ'), ('do', 'KS'), ('Banzeiro', 'n'), ('Manaus', 'NPROP'), ('.', 'NPROP')], [('Experimente', 'V|+'), ('o', 'PROPESS'), ('nosso', 'PROADJ'), ('Tacacá', 'n'), ('assado', 'PCP'), ('na', 'ADV'), ('brasa

KeyError: 'caption'