In [0]:
# Instalação de pacotes necessários

!pip install twython

In [0]:
import nltk
nltk.download()

# O que o twitter está pensando?

# Extraindo informações em redes sociais utilizando Python

`> por: `[@profadolfoguimaraes](http://www.twitter.com/profadolfoguimaraes)

Estes tutoriais apresentam os principais scritps desenvolvidos no minicurso: **O que o twitter está pensando? Extraindo informações em redes sociais utilizando Python**. O conteúdo está dividio em dois repositórios: (1) [d2l-minicursotwitter-notebook](http://github.com/adolfoguimaraes/d2l-minicursotwitter-notebook) que possui estes notebooks e (2) [d2l-minicursotwitter-web](http://github.com/adolfoguimaraes/d2l-minicursotwitter-web) que possui a página web desenvolvida.

O material completo do minicurso pode ser encontrado em: http://www.data2learning.com/cursos.

## 01 - Coletando Dados do Twitter (Parte 1)

Na primeira parte do nosso curso vamos mostrar como utilizar uma API do twitter para coletar dados publicados na rede social. Para poder utilizar a API é necessário criar uma aplicação no site http://dev.twitter.com/apps. Após a criação da APP deve-se criar também um `Access Token` na mesma página. Detalhes de como fazer isso estão disponíveis nos slides na página do curso linkada anteriormente. 

Para coletar as informações do twitter, vamos utilizar a API em python **Twython** (https://twython.readthedocs.io/en/latest/). Antes de começar devemos instala utilizando o comando **pip install twython** no console. Se você já instalou a partir do arquivo `requirements.txt` não é mais necessário instalar. 

Com todos estes passos concluídos podemos executar a primeira parte deste minicurso.

O primiero passo é importar as bibliotecas necessárias. No nosso caso, iremos importar a biblioteca do Twython e uma biblioteca para trabalhar com data e hora.

In [0]:
from twython import Twython
from datetime import datetime

Em seguida devemos informar as chaves necessárias da API do twitter. Estas chaves foram geradas no momento da criação da app no site listado anteriormente. Substitua o `None` com as chaves geradas na sua conta.

In [0]:
#Definição das chaves da API do Twitter
consumer_key = None # Get Keys and Access Token at apps.twitter.com
consumer_secret = None # Get Keys and Access Token at apps.twitter.com
access_token = None # Get Keys and Access Token at apps.twitter.com
access_token_secret = None # Get Keys and Access Token at apps.twitter.com

Em seguida, vamos criar uma instância da api Twython para que possamos utilizar os métodos de busca.

In [0]:
tw = Twython(consumer_key, consumer_secret, access_token, access_token_secret)

O primeiro método que iremos utilizar para coletar as informações é o `search`. Ele permite coletar uma quantidade específica de tweets a partir de uma query de busca. Essa query pode ser uma #hashtag ou uma palavra qualquer.

Detalhes sobre os parâmetros e os valores de retorno do método `search` podem ser encontrados na página da API do twitter: https://dev.twitter.com/rest/reference/get/search/tweets. Nesse exemplo inicial vamos utilizar apenas três parâmetros: 

* **q:** query de busca
* **count:** o número de tweets que serão retornados
* **lang:** o idioma dos tweets retornados

`Para facilitar a visualização foi coletado apenas 1 twitter. Modifique o valor para coletar mais`

In [0]:
result = tw.search(q="brasil",count=1,lang="pt")

In [0]:
#Isso irá imprimir no console o resultado armazenado na variável result
print(result)

A variável **result** irá armazenar os `n` últimos tweets postados que possuem a palavra **brasil** no texto e que estão em português. Sendo `n` o valor passado no parâmetro `count`. Mais detalhes dos parâmetros que podem ser utilizados com o método *search* podem ser encontrados na documentação para desenvolvedores twitter: https://dev.twitter.com/rest/reference/get/search/tweets.

A **query** de busca utiliza os mesmos critérios de busca do twitter. Podemos buscar por hashtag ou ainda pela combinação de várias palavras. Uma lista dos comandos que podem ser passados pela query pode ser encontrada neste link: https://dev.twitter.com/rest/public/search.

Segue alguns exemplos:

In [0]:
result_hashtag = tw.search(q="#MasterChefBR", count=5, lang="pt")
result_multi = tw.search(q="#MasterChefBR OR #MasterChef", count=100, lang="pt")

Nos exemplos a seguir vamos trabalhar com a variável`result_hashtag` que armazenou 5 tweets com a `hashtag` `#MasterChefBR`. 

A busca retorna um dicionário com dois campos:

* **search_metadata:** metadados da busca
* **statuses:** os tweets que foram coletados

Podemos imprimir tais informações utilizando os comandos a seguir:


In [0]:
print(result_hashtag['search_metadata'])

In [0]:
print(result_hashtag['statuses'])

O nosso foco nessa primiera parte é ver os dados associados a cada twitter retornado pela busca. Por conta disso, vamos trabalhar com o **statuses**. O *statuses* é uma lista de tweets. No entanto, a busca retorna toda a estrutura relacionada ao tweet e não somente o texto. A lista completa do que a busca retorna pode ser encontrada na documentação do twitter já linkada anteriormente.

Vamos exibir o texto dos tweets coletados:

In [0]:
tweets = result_hashtag['statuses']

for tweet in tweets:
    print(tweet['id'])
    print(tweet['text'])

Cade tweet possui um *id* que o identifica unicamente. Essa informação é útil caso não queira coletar tweets repetidos. No entanto, RT são considerados tweets distintos. 

A busca também retorna informações sobre o usuário que postou tal tweet. O campo *user* retorna uma instância de usuário do tweet conforme documentação disponível em: https://dev.twitter.com/overview/api/users. Como exemplo vamos utilizar o primeir tweet coletado na busca anterior. 

In [0]:
first_tweet = tweets[0]

user_ = first_tweet['user']

print(user_)

Selecionando alguns campos, temos:

In [0]:
print(user_['id']) #id do usuário
print(user_['name']) #nome do usuário
print(user_['screen_name']) #username do usuário
print(user_['description']) #descrição do perfil
print(user_['profile_image_url']) #url da imagem do perfil

É possível coletar também a timeline de um determinado usuário:

In [0]:
tw_timeline = tw.get_user_timeline(screen_name="@adolfoguimaraes")

for tweet in tw_timeline:
    print(tweet['text'])

Observe que neste caso da timeline, a API só retorna a lista de tweets.

A API permite também coletar informações cadastradas no perfil do usuário. O método `show_user` retorna uma instância de usuário o do twitter. 

In [0]:
tw_user = tw.show_user(screen_name="@adolfoguimaraes")

print(tw_user['id']) #id do usuário
print(tw_user['name']) #nome do usuário
print(tw_user['screen_name']) #username do usuário
print(tw_user['description']) #descrição do perfil
print(tw_user['profile_image_url']) #url da imagem do perfil

A lista completa dos métodos do Twython pode ser encontrada na documentação da API disponível em: https://twython.readthedocs.io/en/latest/index.html

Com esses passos básicos já é possível coletar informações de textos do twitter e dos usuários que postam o conteúdo. Explore a documentação do Twitter e do Twython para criar outros exemplos. Na segunda parte, vamos explorar mais algumas funcionalidades interessantes da API.