## Stream de Dados do Twitter com MongoDB, Pandas e Scikit Learn

## Preparando a Conexão com o Twitter

In [None]:
# Instala o pacote tweepy
# Pacote para realizar a conexão entre Python - Twitter
# É necessário o "!" para informar ao jupyter notebook, que esse comando deverá ser executado no SO.
!pip install tweepy

In [2]:
# Importando os módulos Tweepy, Datetime e Json
from tweepy.streaming import StreamListener # Função que será responsável por ficar ouvindo os twetters
from tweepy import OAuthHandler  # Utilizado para realizar a autenticação com o twitter
from tweepy import Stream
from datetime import datetime
import json

#### TODAS AS CHAVES DEVEM SER OBTIDAS NA API DO TWITTER

In [3]:
# Adicione aqui sua Consumer Key
consumer_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

In [4]:
# Adicione aqui sua Consumer Secret 
consumer_secret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

In [5]:
# Adicione aqui seu Access Token
access_token = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

In [6]:
# Adicione aqui seu Access Token Secret
access_token_secret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

In [8]:
# Criando as chaves de autenticação
auth = OAuthHandler(consumer_key, consumer_secret)
# Realizando a autenticação com o twitter
auth.set_access_token(access_token, access_token_secret)

In [29]:
# Criando uma classe para capturar os stream de dados do Twitter e armazenar no MongoDB
# Classe MyListener está sendo herdada de StreamListener
class MyListener(StreamListener):
    def on_data(self, dados): # dados representa os tweets que estão sendo coletados pelo StreamListener. (StremListener.dados)
        tweet = json.loads(dados) # Converte os dados coletados para Json
        created_at = tweet["created_at"]
        id_str = tweet["id_str"]
        text = tweet["text"]
        obj = {"created_at":created_at,"id_str":id_str,"text":text,} # cria um dict que será inserido no mongodb
        #tweetind = col.insert_one(obj).inserted_id
        db.tweets.insert_one(obj) # Insere o registro no mongodb
        #print (obj)
        return True

In [30]:
# Criando o objeto mylistener
mylistener = MyListener()

In [31]:
# Criando o objeto mystream, informando as credencias e o que deve ser feito
mystream = Stream(auth, listener = mylistener)

## Preparando a Conexão com o MongoDB

In [12]:
# Importando do PyMongo o módulo MongoClient
from pymongo import MongoClient   

In [13]:
# Criando a conexão ao MongoDB
client = MongoClient('localhost', 27017)

In [14]:
# Criando o banco de dados twitterdb
db = client.twitterdb

In [16]:
# Criando a collection "col" chamada tweets
col = db.tweets 

In [17]:
# Criando uma lista de palavras chave para buscar nos Tweets
# As palavras chaves serão as palavras que deverá existir no tweet para ele ser considerado e selecionado 
keywords = ['Big Data', 'Python', 'Data Mining', 'Data Science']

## Coletando os Tweets

In [None]:
# Iniciando o filtro e gravando os tweets no MongoDB
mystream.filter(track=keywords)

## Consultando os Dados no MongoDB

In [33]:
mystream.disconnect()

In [37]:
# Verificando um documento no collection
# col.find_one()
db.tweets.find_one()

{'_id': ObjectId('5cef2806622cf3ff48947863'),
 'created_at': 'Thu May 30 00:46:57 +0000 2019',
 'id_str': '1133897550564487168',
 'text': 'This truth really does hurt...'}

## Análise de Dados com Pandas e Scikit-Learn (pacote para ML)

In [38]:
# criando um dataset com dados retornados do MongoDB
# Para cada item iterado, retorna os fields escolhidos
dataset = [{"created_at": item["created_at"], "text": item["text"],} for item in db.tweets.find()]

In [41]:
# Importando o módulo Pandas para trabalhar com datasets em Python
import pandas as pd

In [42]:
# Criando um dataframe do pandas a partir do dataset 
df = pd.DataFrame(dataset)

In [43]:
# Imprimindo o dataframe
df

Unnamed: 0,created_at,text
0,Thu May 30 00:46:57 +0000 2019,This truth really does hurt...
1,Thu May 30 00:47:01 +0000 2019,Udemy Free Discount - JavaScript for Noobs All...
2,Thu May 30 00:47:03 +0000 2019,RT @GobKittipos: มธ เปิด ป.โท ออนไลน์มา 3 หลัก...
3,Thu May 30 00:47:05 +0000 2019,CTV News: 'Surveillance capitalism' turning ki...
4,Thu May 30 00:47:07 +0000 2019,RT @couponfree01: Udemy Free Discount - JavaSc...
5,Thu May 30 00:47:07 +0000 2019,Watching John Cleese be racist on this website...
6,Thu May 30 00:47:12 +0000 2019,RT @aggity: 71% de los bancos dicen que para a...
7,Thu May 30 00:47:16 +0000 2019,RT @FBuenAbad: TODO lo que diga el “Big Data” ...
8,Thu May 30 00:47:25 +0000 2019,RT @ScubaForDogs: the fucking Monty Python guy...
9,Thu May 30 00:47:28 +0000 2019,RT @ed_saber: Q5: To focus on a few specific a...


In [44]:
# Importando a função CountVectorizer do módulo Scikit Learn
# CountVectorize -> Contar quantas vezes cada palavra aparece no conjunto de dados
from sklearn.feature_extraction.text import CountVectorizer

In [45]:
# Usando o método CountVectorizer para criar uma matriz de documentos
cv = CountVectorizer()
count_matrix = cv.fit_transform(df.text)

In [46]:
# Contando o número de ocorrências das principais palavras em nosso dataset
word_count = pd.DataFrame(cv.get_feature_names(), columns=["word"])
word_count["count"] = count_matrix.sum(axis=0).tolist()[0]
word_count = word_count.sort_values("count", ascending=False).reset_index(drop=True)
word_count[:50]

Unnamed: 0,word,count
0,rt,30
1,https,27
2,co,26
3,the,14
4,python,12
5,to,11
6,data,10
7,of,10
8,on,9
9,that,8
