## Python - Fundamentos para a Análise de Dados

### Mini-projeto - Stream de Dados do Twitter

Neste projeto vamos criar um stream de dados do [twitter](https://twitter.com/explore) com o Banco de Dados MongoDB e as libs Pandas(https://pandas.pydata.org/) e Scikit-Learn (https://scikit-learn.org/stable/).

Este projeto consiste em aplicar técnincas de processamento de linguagem natural e métodos analíticos para extrair informações relevantes de dados de texto, o [Text Mining](https://www.linguamatics.com/what-text-mining-text-analytics-and-natural-language-processing). 

**Twitter**

O Twitter é uma fonte rica de informações sobre diversos assuntos. Podemos usar os dados para analisar tendências relacionados a uma palavra chave, analisar o sentimento relacionado a um determinado assunto e feedbacks de marcas.

**Mongo DB**

Banco de dados NoSQL que permite a integração entre certos tipos de aplicação, de forma fácil e rápido.

Para obter esses dados será necessário a criação de uma API. Nesse caso vamos utilizar o [Twitter Stream API](https://developer.twitter.com/en/docs/tweets/filter-realtime/guides/basic-stream-parameters).

**Obtendo as API's Keys:**

* Crie uma conta no Twitter, caso ainda não possua.
* Acesse as [apps](https://developer.twitter.com/en/apps) com seu usuário do Twitter.
* Clique em 'Criar uma nova Aplicação'.
* Preencha as informações e clique em "Criar T

**Instalando as libs necessárias**

Para fazer essa análise vamos precisar utilizar o pacote Tweepy para fazer a comunicação com o Twitter.

É necessário que o MongoDB esteja ativo, pois armazenaremos nossos dados nele.

In [1]:
# Instala o pacote tweepy
!pip install tweepy



In [2]:
# Importando os módulos Tweepy, Datetime e Json
from tweepy.streaming import StreamListener
from tweepy import OAuthHandler
from tweepy import Stream
from datetime import datetime
import json

**Adicionando as chaves da API**

Quando criamos uma conta como desenvolvedor no twitter recebemos algumas chaves.

In [3]:
#API key
consumer_key = "XXXXXXXXXXXXXXXXXXXXXXXXXXX"

In [4]:
#API secret key
consumer_secret ="XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"

In [5]:
#Access Token
access_token ="1XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"

In [6]:
#Access Token Secret
token_secret="XXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"

**Criando os objetos de autenticação**

In [8]:
#Criando as chaves de autenticação
auth = OAuthHandler(consumer_key, consumer_secret)

In [9]:
auth.set_access_token(access_token, token_secret)

In [30]:
# Criando uma classe para capturar os stream de dados do Twitter e 
# armazenar no MongoDB
class MyListener(StreamListener):
    def on_data(self, dados):
        tweet = json.loads(dados)
        created_at = tweet["created_at"]
        followers_count = tweet["followers_count"]
        tweet_favorite_count = tweet["tweet_favorite_count"]
        tweet_retweet_count= tweet["tweet_retweet_count"]
        id_str = tweet["id_str"]
        text = tweet["text"]
        obj = {"created_at":created_at,"id_str":id_str,"text":text, "tweet_favorite_count":tweet_favorite_count, "tweet_retweet_count":tweet_retweet_count}
        tweetind = col.insert_one(obj).inserted_id
        print (obj)
        return True

In [31]:
# Criando o objeto mylistener
mylistener = MyListener()

In [32]:
# Criando o objeto mystream
mystream = Stream(auth, listener = mylistener)

### Preparando a conexão com o mongo

In [33]:
from pymongo import MongoClient

In [34]:
client = MongoClient()

In [35]:
# Criando o banco de dados
db = client.twitterdb

In [36]:
#Criando a collection 
col = db.tweets

In [37]:
# Criando uma lista de palavras chave para buscar nos Tweets
keywords = ['digital', 'energia','quarentena','dados']

### Coletando os twitter

In [38]:
# Iniciando o filtro e gravando os tweets no MongoDB
mystream.filter(track=keywords)

KeyError: 'followers_count'

**Pressione STOP para finalizar a captura dos dados**

### Consultando os dados

Agora vamos consultar nossos dados. É importante ressaltar que os dados são coletados no momento da análise.

mystream.disconnect()

In [18]:
# Verificando um documento no collection
col.find_one()

{'_id': ObjectId('5ef5f37ceaa1177f658d90dc'),
 'created_at': 'Fri Jun 26 13:09:12 +0000 2020',
 'id_str': '1276502774151176192',
 'text': '@realDonaldTrump Really? Bullshit you LYING MORON!\n\nAmerica has 4% of the world’s population but 25% of the world’s… https://t.co/kduWFUMhfl'}

### Análise dos Dados com Pandas e Sckit-Learn

Vamos analisar os dados coletados

In [19]:
# criando um dataset com dados retornados do MongoDB
dataset = [{"created_at": item["created_at"], "text": item["text"],} for item in col.find()]

In [20]:
# Importando o módulo Pandas para trabalhar com datasets em Python
import pandas as pd

In [21]:
df = pd.DataFrame(dataset)

In [22]:
df

Unnamed: 0,created_at,text
0,Fri Jun 26 13:09:12 +0000 2020,@realDonaldTrump Really? Bullshit you LYING MO...
1,Fri Jun 26 13:09:12 +0000 2020,RT @ateez_charts: #ATEEZ is trending \n\n#11 ...
2,Fri Jun 26 13:09:13 +0000 2020,RT @colelilivids: oxente o cole já foi em tant...
3,Fri Jun 26 13:09:13 +0000 2020,@Lu_S_Maia A quarentena precisa acabar pelos b...
4,Fri Jun 26 13:09:13 +0000 2020,"100 dias presa dentro de casa, respeitando a q..."
...,...,...
388,Fri Jun 26 13:10:53 +0000 2020,RT @YoloAkili: Fam. HIV is a virus. like the F...
389,Fri Jun 26 13:10:53 +0000 2020,RT @skzwng: o minho é meu mood nessa quarenten...
390,Fri Jun 26 13:10:54 +0000 2020,RT @Pedriell: Dá pra você entender a pandemia ...
391,Fri Jun 26 13:10:54 +0000 2020,RT @Y15299: #save_GTU_students\n@ugc please re...


In [23]:
from sklearn.feature_extraction.text import CountVectorizer
import sklearn

In [24]:
# Usando o método CountVectorizer para criar uma matriz de documentos
cv = CountVectorizer()
count_matrix = cv.fit_transform(df.text)

In [25]:
# Contando o número de ocorrências das principais palavras em nosso dataset
word_count = pd.DataFrame(cv.get_feature_names(), columns=["word"])
word_count["count"] = count_matrix.sum(axis=0).tolist()[0]
word_count = word_count.sort_values("count", ascending=False).reset_index(drop=True)
word_count[:50]

Unnamed: 0,word,count
0,rt,260
1,the,190
2,quarentena,124
3,de,118
4,https,109
5,co,101
6,virus,85
7,corona,83
8,like,83
9,is,80


## Referências##

Doc Tweepy: https://www.tweepy.org/