#  Introdução ao Python
## Professor: Luiz Ferreira

## Módulo 4

### Python para Dados

_____________

## Trabalhando com Dados da Web

### Análise de sentimentos

#### Importando textblob

Como mencionamos no início deste post, textblob nos permitirá fazer análises de sentimentos de uma maneira muito simples. Também usaremos a rebiblioteca do Python, que é usada para trabalhar com expressões regulares . Para isso, fornecerei duas funções de utilitário para: 

a) limpar o texto (o que significa que qualquer símbolo distinto de um valor alfanumérico será remapeado em um novo que satisfaça essa condição) 

b) criar um classificador para analisar o polaridade de cada tweet após a limpeza do texto. Não vou explicar a maneira específica pela qual a função que limpa funciona, pois seria estendida e poderia ser melhor entendida na documentação oficial de `re`.

In [None]:
from textblob import TextBlob
import re

def clean_tweet(tweet):
    '''
    Função utilizada para limpar o texto em um tweet removendo links e caracteres especiais utilizando regex.
    '''
    return ' '.join(re.sub("(@[A-Za-z0-9]+)|([^0-9A-Za-z \t])|(\w+:\/\/\S+)", " ", tweet).split())

def analize_sentiment(tweet):
    '''
    Função utilizada para classificar a polaridade de um tweet usando textblob.
    '''
    analysis = TextBlob(clean_tweet(tweet))
    if analysis.sentiment.polarity > 0:
        return 1
    elif analysis.sentiment.polarity == 0:
        return 0
    else:
        return -1

A maneira como funciona o textblob é já fornecer um analisador treinado (legal, certo?). O Textblob pode trabalhar com diferentes modelos de aprendizado de máquina usados no processamento de linguagem natural . Se você quiser treinar seu próprio classificador (ou pelo menos verificar como ele funciona), fique à vontade para verificar o seguinte [link](https://textblob.readthedocs.io/en/dev/classifiers.html). Esse classificador poderá retornar conteúdo não muito relevante, já que estamos trabalhando com um modelo pré-treinado (para o qual não usamos os dados que foram usados no treinamento).

De qualquer forma, voltando ao código, vamos apenas adicionar uma coluna extra aos nossos dados. Esta coluna irá conter a análise de sentimento e podemos traçar o dataframe para ver a atualização:

In [None]:
# Cria a coluna com o resultado da análise:
data['SA'] = np.array([ analize_sentiment(tweet) for tweet in data['Tweets'] ])

# Exibe o dataframe atualizado com uma nova coluna
display(data.head(10))

Como podemos ver, a última coluna contém a análise de sentimento (SA). Agora só precisamos verificar os resultados.

#### Analisando os resultados

Para ter uma maneira simples de verificar os resultados, vamos contar o número de tweets neutros, positivos e negativos e extrair as porcentagens.

In [None]:
# Construindo listas com tweets classificados:

pos_tweets = [ tweet for index, tweet in enumerate(data['Tweets']) if data['SA'][index] > 0]
neu_tweets = [ tweet for index, tweet in enumerate(data['Tweets']) if data['SA'][index] == 0]
neg_tweets = [ tweet for index, tweet in enumerate(data['Tweets']) if data['SA'][index] < 0]

Agora que temos as listas, apenas imprimimos as porcentagens:



In [None]:
# Imprimindo porcentagens:

print("Percentage of positive tweets: {}%".format(len(pos_tweets)*100/len(data['Tweets'])))
print("Percentage of neutral tweets: {}%".format(len(neu_tweets)*100/len(data['Tweets'])))
print("Percentage de negative tweets: {}%".format(len(neg_tweets)*100/len(data['Tweets'])))

Temos que considerar que estamos trabalhando apenas com os 200 tweets mais recentes de D. Trump. Para resultados mais precisos, podemos considerar mais tweets. Uma coisa interessante (um convite para os leitores) é analisar a polaridade dos tweets de diferentes fontes, pode ser determinístico que, considerando apenas os tweets de uma fonte, a polaridade resultaria mais positiva / negativa. De qualquer forma, espero que isso tenha resultado interessante.

Como vimos, podemos extrair, manipular, visualizar e analisar dados de maneira muito simples com o Python. Espero que isso deixe alguma incerteza no leitor, para uma maior exploração usando essas ferramentas.