In [None]:
from google.colab import drive
import os

drive.mount('/content/drive')
os.chdir('/content/drive/My Drive/Colab Notebooks/tcc')

In [None]:
import json
from tqdm import tqdm
import pickle
from modules.preprocessing import *
from pprint import pprint


prepare_text = Tokenizer()
with open("dataset/unified-dataset.jsonl", "r") as json_file:
    json_list = list(json_file)

[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('en_core_web_lg')


In [None]:
pprint(json.loads(json_list[12648]), indent=1)

{'VAD': {'arousal': None, 'dominance': None, 'valence': None},
 'annotation_procedure': 'crowdsourcing',
 'domain': 'tweets',
 'emotion_model': 'Ekman+CF',
 'emotions': {'anger': 0,
              'anticipation': None,
              'confusion': None,
              'disgust': 0,
              'fear': 0,
              'guilt': None,
              'joy': 0,
              'love': 0,
              'noemo': 0,
              'sadness': 1,
              'shame': None,
              'surprise': 0,
              'trust': None},
 'id': 12648,
 'labeled': 'single',
 'source': 'crowdflower',
 'split': None,
 'text': 'Layin n bed with a headache  ughhhh...waitin on your call...'}


In [None]:
datasets = {
    "text": list(),
    "tokens": list(),
    "source": list(),
    "anger": list(),
    "disgust": list(),
    "fear": list(),
    "joy": list(),
    "love": list(),
    "noemo": list(),
    "sadness": list(),
    "surprise": list(),
}


for json_str in tqdm(json_list):
    result = json.loads(json_str)
    datasets["text"].append(result["text"])
    datasets["tokens"].append(prepare_text.cleanText(result["text"]))
    datasets["source"].append(result["source"])
    datasets["anger"].append(result["emotions"]["anger"])
    datasets["disgust"].append(result["emotions"]["disgust"])
    datasets["fear"].append(result["emotions"]["fear"])
    datasets["joy"].append(result["emotions"]["joy"])
    datasets["love"].append(result["emotions"]["love"])
    datasets["noemo"].append(result["emotions"]["noemo"])
    datasets["sadness"].append(result["emotions"]["sadness"])
    datasets["surprise"].append(result["emotions"]["surprise"])

100%|██████████| 221439/221439 [40:01<00:00, 92.23it/s]


In [None]:
def save_object(obj, filename):
    with open(filename, "wb") as output:  # Overwrites any existing file.
        pickle.dump(datasets, output, pickle.HIGHEST_PROTOCOL)


save_object(datasets, "dataset/organized_dataset.pkl")

# More metrics
# https://scikit-learn.org/stable/modules/model_evaluation.html
# https://nbviewer.jupyter.org/github/autonomio/talos/blob/master/examples/Hyperparameter%20Optimization%20with%20Keras%20for%20the%20Iris%20Prediction.ipynb#seven

<img src="https://miro.medium.com/max/1400/1*QbnbVSRoAyqLG76ZtF-oew.png" style="width: 650px;"/>
<img src="https://www.researchgate.net/profile/Ruth_Campbell2/publication/279178495/figure/fig1/AS:614158332620800@1523438165009/Examples-of-the-Ekman-Friesen-Pictures-of-Facial-Affect-used-in-the-computerized-task.png" style="width: 650px;"/>



# Pré processamento

## Tokenizer
   É a forma que usamos para representar strings em pedaços menores também conhecidos como tokens. Geralmente cada token pode conter apenas uma palavra desde que esta carregue o significado completo, em casos nos quais são necessárias mais de uma palavra para representar o significado, mantemos as palavras juntas.

```python
phrase = "city of new york"
tokens = tokenizer(phrase)
# ["city", "of", "new", "york"] ou ["city", "of", "new_york"]


```

como é o caso do token "New York", que mantemos as duas palavras unidas visando não impactar no sentido final da sentença(bi-grams).

## Stemmization
 
  É o processo de converter uma palavra para sua forma básica agrupando diferentes formas de escrever, como por exemplo as palavras "car, cars, car's, cars' são transformadas somente em "car", dessa forma facilitando a generalização do modelo treinado, pois ao abreviar diferentes variações da mesma palavra diminuindo o numero de vetores de palavras

```python
# ["cars", "car", "am", "are", "is", ""] -> ["car", "car", "be", "york","be"]
phrase = "the boy's car are different colors"
tokens = tokenizer(phrase)
stem(tokens)
# [the boy car are different color"]


```
