Análise de sentimentos: classificação de textos em um sentimento predefinido.
Biblioteca utilizada: NLTK: Natural Language Toolkit.
Serão utilizado um conjunto de dados de tweets, que passarão por uma limpeza. Após isso, o modelo será treinado e usado para classificar os tweets em sentimentos negativos e positivos.

Comandos utilizados para baixar os tweets:
```
pip install nltk==3.3
python
imnport nltk
nltk.download('twitter_samples')
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')
```

## Tokeninzando os dados

In [1]:
from nltk.corpus import twitter_samples

**strings()**: imprime os tweets em um conjunto de dados como sequência de caracteres. Facilita o processamento e o teste.

In [2]:
# separando entre categorias de tweets
positive_tweets = twitter_samples.strings('positive_tweets.json')
negative_tweets = twitter_samples.strings('negative_tweets.json')
text = twitter_samples.strings('tweets.20150430-223406.json')

**punkt**: modelo pré-treinado que ajuda a tokenizar palavras e frases.

In [5]:
tweet_tokens = twitter_samples.tokenized('positive_tweets.json')
# print(tweet_tokens[0])

## Normalizando os dados

**Normalização**: converter a palavra para sua forma canônica. Ajuda a agrupar palavras com o mesmo significado, mas com formas diferentes.


Técnicas utilizadas: *stemming* e *lematização*.

**stemming**: remoção dos afixos de uma palavra. Remove os fins das palavras.

**lematização:**: normaliza uma palavra de acordo com o contexto e a análise morfológica da palavra. Tem um custo de velocidade.

**wordnet**: banco de dados lexical para inglês que ajuda o script a determinar a raiz da palavra.

**averaged_perceptron_tagger**: para determinar o contexto de uma palavra numa frase.

É necessário determinar o contexto das palavras através de um **algoritmo de marcação**: avalia a posição relativa de uma palavra em uma frase. Será utilizado o *pos_tag*.

In [6]:
from nltk.tag import pos_tag
print(pos_tag(tweet_tokens[0]))

[('#FollowFriday', 'JJ'), ('@France_Inte', 'NNP'), ('@PKuchly57', 'NNP'), ('@Milipol_Paris', 'NNP'), ('for', 'IN'), ('being', 'VBG'), ('top', 'JJ'), ('engaged', 'VBN'), ('members', 'NNS'), ('in', 'IN'), ('my', 'PRP$'), ('community', 'NN'), ('this', 'DT'), ('week', 'NN'), (':)', 'NN')]


Significado das tags:
* **NNP**: substantivo, próprio, singular
* **NN**: substantivo, comum, singular ou de massa
* **IN**: preposição ou conjunção, subordinação
* **VBG**: partícula verbal, gerúndio ou presente
* **VBN**: verbo, particípio passado

In [8]:
# eliminando uma frase
from nltk.stem.wordnet import WordNetLemmatizer
def lemmatize_sentence(tokens):
    lemmatizer = WordNetLemmatizer()
    lemmatized_sentence = [] 
    for word, tag in pos_tag(tokens):
        if tag.startswith('NN'):
            pos = 'n'
        elif tag.startswith('VB'):
            pos = 'v'
        else:
            pos = 'a'
        lemmatized_sentence.append(lemmatizer.lemmatize(word, pos))
    return lemmatized_sentence

print(lemmatize_sentence(tweet_tokens[0]))

['#FollowFriday', '@France_Inte', '@PKuchly57', '@Milipol_Paris', 'for', 'be', 'top', 'engage', 'member', 'in', 'my', 'community', 'this', 'week', ':)']


Nota-se que os verbos foram para a forma básica.

**lematize_sentence**: obtém a tag de posição de cada token de um tweet.