# O que o twitter está pensando?

# Extraindo informações em redes sociais utilizando Python

`> por: `[@profadolfoguimaraes](http://www.twitter.com/profadolfoguimaraes)

Estes tutoriais apresentam os principais scritps desenvolvidos no minicurso: **O que o twitter está pensando? Extraindo informações em redes sociais utilizando Python**. O conteúdo está dividio em dois repositórios: (1) [d2l-minicursotwitter-notebook](http://github.com/adolfoguimaraes/d2l-minicursotwitter-notebook) que possui estes notebooks e (2) [d2l-minicursotwitter-web](http://github.com/adolfoguimaraes/d2l-minicursotwitter-web) que possui a página web desenvolvida.

O material completo do minicurso pode ser encontrado em: http://www.data2learning.com/cursos.

## 01 - Coletando Dados do Twitter (Parte 1)

Na primeira parte do nosso curso vamos mostrar como utilizar uma API do twitter para coletar dados publicados na rede social. Para poder utilizar a API é necessário criar uma aplicação no site http://dev.twitter.com/apps. Após a criação da APP deve-se criar também um `Access Token` na mesma página. Detalhes de como fazer isso estão disponíveis nos slides na página do curso linkada anteriormente. 

Para coletar as informações do twitter, vamos utilizar a API em python **Twython** (https://twython.readthedocs.io/en/latest/). Antes de começar devemos instala utilizando o comando **pip install twython** no console. Se você já instalou a partir do arquivo `requirements.txt` não é mais necessário instalar. 

Com todos estes passos concluídos podemos executar a primeira parte deste minicurso.

O primiero passo é importar as bibliotecas necessárias. No nosso caso, iremos importar a biblioteca do Twython e uma biblioteca para trabalhar com data e hora.

In [1]:
from twython import Twython
from datetime import datetime

Em seguida devemos informar as chaves necessárias da API do twitter. Estas chaves foram geradas no momento da criação da app no site listado anteriormente. Substitua o `None` com as chaves geradas na sua conta.

In [16]:
#Definição das chaves da API do Twitter
APP_KEY = None # Get Keys and Access Token at apps.twitter.com
APP_SECRET = None # Get Keys and Access Token at apps.twitter.com
OAUTH_TOKEN = None # Get Keys and Access Token at apps.twitter.com
OAUTH_TOKEN_SECRET = None # Get Keys and Access Token at apps.twitter.com

Em seguida, vamos criar uma instância da api Twython para que possamos utilizar os métodos de busca.

In [3]:
tw = Twython(APP_KEY, APP_SECRET, OAUTH_TOKEN, OAUTH_TOKEN_SECRET)

O primeiro método que iremos utilizar para coletar as informações é o `search`. Ele permite coletar uma quantidade específica de tweets a partir de uma query de busca. Essa query pode ser uma #hashtag ou uma palavra qualquer.

Detalhes sobre os parâmetros e os valores de retorno do método `search` podem ser encontrados na página da API do twitter: https://dev.twitter.com/rest/reference/get/search/tweets. Nesse exemplo inicial vamos utilizar apenas três parâmetros: 

* **q:** query de busca
* **count:** o número de tweets que serão retornados
* **lang:** o idioma dos tweets retornados

`Para facilitar a visualização foi coletado apenas 1 twitter. Modifique o valor para coletar mais`

In [4]:
result = tw.search(q="brasil",count=1,lang="pt")

In [5]:
#Isso irá imprimir no console o resultado armazenado na variável result
print(result)

{'statuses': [{'created_at': 'Thu May 03 10:20:56 +0000 2018', 'id': 991985956499677184, 'id_str': '991985956499677184', 'text': 'RT @danielpachecco: o brasil que eu quero é um brasil sem rinite alérgica', 'truncated': False, 'entities': {'hashtags': [], 'symbols': [], 'user_mentions': [{'screen_name': 'danielpachecco', 'name': 'daniel', 'id': 3356179389, 'id_str': '3356179389', 'indices': [3, 18]}], 'urls': []}, 'metadata': {'iso_language_code': 'pt', 'result_type': 'recent'}, 'source': '<a href="http://twitter.com/download/android" rel="nofollow">Twitter for Android</a>', 'in_reply_to_status_id': None, 'in_reply_to_status_id_str': None, 'in_reply_to_user_id': None, 'in_reply_to_user_id_str': None, 'in_reply_to_screen_name': None, 'user': {'id': 41161608, 'id_str': '41161608', 'name': 'ingrid', 'screen_name': 'ingridcampioni', 'location': 'Rio de Janeiro', 'description': 'que nunca nos falte fogo no cu', 'url': 'https://t.co/jd1rtiZNDD', 'entities': {'url': {'urls': [{'url': 'https://

A variável **result** irá armazenar os `n` últimos tweets postados que possuem a palavra **brasil** no texto e que estão em português. Sendo `n` o valor passado no parâmetro `count`. Mais detalhes dos parâmetros que podem ser utilizados com o método *search* podem ser encontrados na documentação para desenvolvedores twitter: https://dev.twitter.com/rest/reference/get/search/tweets.

A **query** de busca utiliza os mesmos critérios de busca do twitter. Podemos buscar por hashtag ou ainda pela combinação de várias palavras. Uma lista dos comandos que podem ser passados pela query pode ser encontrada neste link: https://dev.twitter.com/rest/public/search.

Segue alguns exemplos:

In [6]:
result_hashtag = tw.search(q="#MasterChefBR", count=5, lang="pt")
result_multi = tw.search(q="#MasterChefBR OR #MasterChef", count=100, lang="pt")

Nos exemplos a seguir vamos trabalhar com a variável`result_hashtag` que armazenou 5 tweets com a `hashtag` `#MasterChefBR`. 

A busca retorna um dicionário com dois campos:

* **search_metadata:** metadados da busca
* **statuses:** os tweets que foram coletados

Podemos imprimir tais informações utilizando os comandos a seguir:


In [15]:
print(result_hashtag['search_metadata'])

{'completed_in': 0.034, 'max_id': 991984461100273664, 'max_id_str': '991984461100273664', 'next_results': '?max_id=991982254091104255&q=%23MasterChefBR&lang=pt&count=5&include_entities=1', 'query': '%23MasterChefBR', 'refresh_url': '?since_id=991984461100273664&q=%23MasterChefBR&lang=pt&include_entities=1', 'count': 5, 'since_id': 0, 'since_id_str': '0'}


In [8]:
print(result_hashtag['statuses'])

[{'created_at': 'Thu May 03 10:15:00 +0000 2018', 'id': 991984461100273664, 'id_str': '991984461100273664', 'text': 'O Dia das Bruxas ainda tá longe, mas a @ClarisseMChef já entrou no clima. #MasterChefBR https://t.co/Tw7JjjA9pB', 'truncated': False, 'entities': {'hashtags': [{'text': 'MasterChefBR', 'indices': [74, 87]}], 'symbols': [], 'user_mentions': [{'screen_name': 'ClarisseMChef', 'name': 'Clarisse', 'id': 971872726863564801, 'id_str': '971872726863564801', 'indices': [39, 53]}], 'urls': [], 'media': [{'id': 991799368465420294, 'id_str': '991799368465420294', 'indices': [88, 111], 'media_url': 'http://pbs.twimg.com/amplify_video_thumb/991799368465420294/img/ifcBbmUqDhOKD-fw.jpg', 'media_url_https': 'https://pbs.twimg.com/amplify_video_thumb/991799368465420294/img/ifcBbmUqDhOKD-fw.jpg', 'url': 'https://t.co/Tw7JjjA9pB', 'display_url': 'pic.twitter.com/Tw7JjjA9pB', 'expanded_url': 'https://twitter.com/masterchefbr/status/991984461100273664/video/1', 'type': 'photo', 'sizes': {'thu

O nosso foco nessa primiera parte é ver os dados associados a cada twitter retornado pela busca. Por conta disso, vamos trabalhar com o **statuses**. O *statuses* é uma lista de tweets. No entanto, a busca retorna toda a estrutura relacionada ao tweet e não somente o texto. A lista completa do que a busca retorna pode ser encontrada na documentação do twitter já linkada anteriormente.

Vamos exibir o texto dos tweets coletados:

In [9]:
tweets = result_hashtag['statuses']

for tweet in tweets:
    print(tweet['id'])
    print(tweet['text'])

991984461100273664
O Dia das Bruxas ainda tá longe, mas a @ClarisseMChef já entrou no clima. #MasterChefBR https://t.co/Tw7JjjA9pB
991983175025950721
RT @masterchefbr: Te chamam pra sair e você precisa falar o quanto de dinheiro tem sobrando para os rolês. #MasterChefBR https://t.co/gNmgf…
991982981588901888
RT @masterchefbr: Aquele busão lotado na volta do trabalho! #MasterChefBR https://t.co/GyuHrT3YOp
991982427982782466
RT @RainhaCarminha: Por enquanto tô torcendo por esse top 4 ❤❤ #MasterChefBR https://t.co/mAfx5Au6Jz
991982254091104256
RT @RainhaCarminha: Até hoje me pergunto: quem lava a louça que esse povo suja?
#MasterChefBR https://t.co/x7YgvsltpJ


Cade tweet possui um *id* que o identifica unicamente. Essa informação é útil caso não queira coletar tweets repetidos. No entanto, RT são considerados tweets distintos. 

A busca também retorna informações sobre o usuário que postou tal tweet. O campo *user* retorna uma instância de usuário do tweet conforme documentação disponível em: https://dev.twitter.com/overview/api/users. Como exemplo vamos utilizar o primeir tweet coletado na busca anterior. 

In [10]:
first_tweet = tweets[0]

user_ = first_tweet['user']

print(user_)

{'id': 2598211989, 'id_str': '2598211989', 'name': 'MasterChef Brasil', 'screen_name': 'masterchefbr', 'location': '', 'description': 'O maior reality culinário do mundo toda terça, às 22h30, na tela da @BandTV', 'url': 'https://t.co/yjbDPPVZNC', 'entities': {'url': {'urls': [{'url': 'https://t.co/yjbDPPVZNC', 'expanded_url': 'http://band.com.br/masterchef', 'display_url': 'band.com.br/masterchef', 'indices': [0, 23]}]}, 'description': {'urls': []}}, 'protected': False, 'followers_count': 1598968, 'friends_count': 300, 'listed_count': 405, 'created_at': 'Tue Jun 10 16:23:11 +0000 2014', 'favourites_count': 3164, 'utc_offset': -10800, 'time_zone': 'Brasilia', 'geo_enabled': True, 'verified': True, 'statuses_count': 180725, 'lang': 'pt', 'contributors_enabled': False, 'is_translator': False, 'is_translation_enabled': False, 'profile_background_color': '1A1B1F', 'profile_background_image_url': 'http://abs.twimg.com/images/themes/theme9/bg.gif', 'profile_background_image_url_https': 'https

Selecionando alguns campos, temos:

In [11]:
print(user_['id']) #id do usuário
print(user_['name']) #nome do usuário
print(user_['screen_name']) #username do usuário
print(user_['description']) #descrição do perfil
print(user_['profile_image_url']) #url da imagem do perfil

2598211989
MasterChef Brasil
masterchefbr
O maior reality culinário do mundo toda terça, às 22h30, na tela da @BandTV
http://pbs.twimg.com/profile_images/969251202105036802/DOCRA8gK_normal.jpg


É possível coletar também a timeline de um determinado usuário:

In [12]:
tw_timeline = tw.get_user_timeline(screen_name="@adolfoguimaraes")

for tweet in tw_timeline:
    print(tweet['text'])

(pt-br and english post) Essa é mais uma atividade do curso de Fundamentos de Programação em… https://t.co/15m4j60LKj
(pt-br and english posts) Que tal começar a coletar dados do twitter em 1 minuto? Twython +… https://t.co/PVhB4SXNzd
Já já começa a #congenti na @unit_br 😊
É neste sábado: #feivest na @unit_br. Estaremos lá mostrando um pouco dos cursos de computação ;)
@jonh_paulo muito interessante. Só o texto que podia ter algumas informações mais técnicas ou pelo menos o link para o artigo =/
Sério q tem um Twitter da vuvuzela kkkkkkkkkkk https://t.co/z5lkHHMr0v
GO GO Power Rangers :P  https://t.co/ToUPVHhaa0
Qual o propósito dessa briga??? Kkkkk https://t.co/rBRG0NzIBE
Infográfico interessante sobre Data Science :P https://t.co/oAtlQp6wra
RT @exame: Nanotecnologia e big data podem revolucionar medicina &gt; https://t.co/hsL0wr4Mmn https://t.co/gm5yfK4FNg
Para quem quer começar na área: https://t.co/Kgi4TFm9Gw via @dsacademybr
Você namora a pessoa e ela vive cantando Metallica, Guns

Observe que neste caso da timeline, a API só retorna a lista de tweets.

A API permite também coletar informações cadastradas no perfil do usuário. O método `show_user` retorna uma instância de usuário o do twitter. 

In [13]:
tw_user = tw.show_user(screen_name="@adolfoguimaraes")

print(tw_user['id']) #id do usuário
print(tw_user['name']) #nome do usuário
print(tw_user['screen_name']) #username do usuário
print(tw_user['description']) #descrição do perfil
print(tw_user['profile_image_url']) #url da imagem do perfil

20678688
Adolfo Guimarães
adolfoguimaraes
🌍Brazilian 
📚Computer Science: professor and researcher 
💻#pyhon developer 
❤ Artificial Intelligence 
👊Technology for society
http://pbs.twimg.com/profile_images/649939979553144832/VrYxkBov_normal.jpg


A lista completa dos métodos do Twython pode ser encontrada na documentação da API disponível em: https://twython.readthedocs.io/en/latest/index.html

Com esses passos básicos já é possível coletar informações de textos do twitter e dos usuários que postam o conteúdo. Explore a documentação do Twitter e do Twython para criar outros exemplos. Na segunda parte, vamos explorar mais algumas funcionalidades interessantes da API.