# O que o twitter está pensando?

# Extraindo informações em redes sociais utilizando Python

`> por: `[@profadolfoguimaraes](http://www.twitter.com/profadolfoguimaraes)

Estes tutoriais apresentam os principais scritps desenvolvidos no minicurso: **O que o twitter está pensando? Extraindo informações em redes sociais utilizando Python**. O conteúdo está dividio em dois repositórios: (1) [d2l-minicursotwitter-notebook](http://github.com/adolfoguimaraes/d2l-minicursotwitter-notebook) que possui estes notebooks e (2) [d2l-minicursotwitter-web](http://github.com/adolfoguimaraes/d2l-minicursotwitter-web) que possui a página web desenvolvida.

O material completo do minicurso pode ser encontrado em: http://www.data2learning.com/cursos.

## 01 - Coletando Dados do Twitter (Parte 1)

Na primeira parte do nosso curso vamos mostrar como utilizar uma API do twitter para coletar dados publicados na rede social. Para poder utilizar a API é necessário criar uma aplicação no site http://dev.twitter.com/apps. Após a criação da APP deve-se criar também um `Access Token` na mesma página. Detalhes de como fazer isso estão disponíveis nos slides na página do curso linkada anteriormente. 

Para coletar as informações do twitter, vamos utilizar a API em python **Twython** (https://twython.readthedocs.io/en/latest/). Antes de começar devemos instala utilizando o comando **pip install twython** no console. Se você já instalou a partir do arquivo `requirements.txt` não é mais necessário instalar. 

Com todos estes passos concluídos podemos executar a primeira parte deste minicurso.

O primiero passo é importar as bibliotecas necessárias. No nosso caso, iremos importar a biblioteca do Twython e uma biblioteca para trabalhar com data e hora.

In [1]:
from twython import Twython
from datetime import datetime

Em seguida devemos informar as chaves necessárias da API do twitter. Estas chaves foram geradas no momento da criação da app no site listado anteriormente. Substitua o `None` com as chaves geradas na sua conta.

In [14]:
#Definição das chaves da API do Twitter
consumer_key = None # Get Keys and Access Token at apps.twitter.com
consumer_secret = None # Get Keys and Access Token at apps.twitter.com
access_token = None # Get Keys and Access Token at apps.twitter.com
access_token_secret = None # Get Keys and Access Token at apps.twitter.com

Em seguida, vamos criar uma instância da api Twython para que possamos utilizar os métodos de busca.

In [3]:
tw = Twython(consumer_key, consumer_secret, access_token, access_token_secret)

O primeiro método que iremos utilizar para coletar as informações é o `search`. Ele permite coletar uma quantidade específica de tweets a partir de uma query de busca. Essa query pode ser uma #hashtag ou uma palavra qualquer.

Detalhes sobre os parâmetros e os valores de retorno do método `search` podem ser encontrados na página da API do twitter: https://dev.twitter.com/rest/reference/get/search/tweets. Nesse exemplo inicial vamos utilizar apenas três parâmetros: 

* **q:** query de busca
* **count:** o número de tweets que serão retornados
* **lang:** o idioma dos tweets retornados

`Para facilitar a visualização foi coletado apenas 1 twitter. Modifique o valor para coletar mais`

In [4]:
result = tw.search(q="brasil",count=1,lang="pt")

In [5]:
#Isso irá imprimir no console o resultado armazenado na variável result
print(result)

{'statuses': [{'created_at': 'Thu May 03 14:40:23 +0000 2018', 'id': 992051246327586817, 'id_str': '992051246327586817', 'text': 'RT @joelbrasileiro: DIVULGAÇÃO PESADA PORRA VEM CNCO DOMINAR O BRASIL', 'truncated': False, 'entities': {'hashtags': [], 'symbols': [], 'user_mentions': [{'screen_name': 'joelbrasileiro', 'name': '˗ˏˋ apollo 🇧🇷 ˎˊ˗', 'id': 734258844755496960, 'id_str': '734258844755496960', 'indices': [3, 18]}], 'urls': []}, 'metadata': {'iso_language_code': 'pt', 'result_type': 'recent'}, 'source': '<a href="http://twitter.com/download/android" rel="nofollow">Twitter for Android</a>', 'in_reply_to_status_id': None, 'in_reply_to_status_id_str': None, 'in_reply_to_user_id': None, 'in_reply_to_user_id_str': None, 'in_reply_to_screen_name': None, 'user': {'id': 991314408776364032, 'id_str': '991314408776364032', 'name': 'Biih Luanete❤', 'screen_name': 'LuaneteBiih', 'location': 'Jaraguá, São Paulo', 'description': 'Eu rezo todos os dias,pedindo para Deus cuidado de ti.❤🙏 @LuanS

A variável **result** irá armazenar os `n` últimos tweets postados que possuem a palavra **brasil** no texto e que estão em português. Sendo `n` o valor passado no parâmetro `count`. Mais detalhes dos parâmetros que podem ser utilizados com o método *search* podem ser encontrados na documentação para desenvolvedores twitter: https://dev.twitter.com/rest/reference/get/search/tweets.

A **query** de busca utiliza os mesmos critérios de busca do twitter. Podemos buscar por hashtag ou ainda pela combinação de várias palavras. Uma lista dos comandos que podem ser passados pela query pode ser encontrada neste link: https://dev.twitter.com/rest/public/search.

Segue alguns exemplos:

In [6]:
result_hashtag = tw.search(q="#MasterChefBR", count=5, lang="pt")
result_multi = tw.search(q="#MasterChefBR OR #MasterChef", count=100, lang="pt")

Nos exemplos a seguir vamos trabalhar com a variável`result_hashtag` que armazenou 5 tweets com a `hashtag` `#MasterChefBR`. 

A busca retorna um dicionário com dois campos:

* **search_metadata:** metadados da busca
* **statuses:** os tweets que foram coletados

Podemos imprimir tais informações utilizando os comandos a seguir:


In [7]:
print(result_hashtag['search_metadata'])

{'completed_in': 0.042, 'max_id': 992051106162401280, 'max_id_str': '992051106162401280', 'next_results': '?max_id=992049288481067008&q=%23MasterChefBR&lang=pt&count=5&include_entities=1', 'query': '%23MasterChefBR', 'refresh_url': '?since_id=992051106162401280&q=%23MasterChefBR&lang=pt&include_entities=1', 'count': 5, 'since_id': 0, 'since_id_str': '0'}


In [8]:
print(result_hashtag['statuses'])

[{'created_at': 'Thu May 03 14:39:49 +0000 2018', 'id': 992051106162401280, 'id_str': '992051106162401280', 'text': 'RT @unicorndoreuri: Hugo e Rui: A \nEu: lindíssimos, cozinharam muito!\n#MasterChefBR https://t.co/Hvh9tztAwm', 'truncated': False, 'entities': {'hashtags': [{'text': 'MasterChefBR', 'indices': [70, 83]}], 'symbols': [], 'user_mentions': [{'screen_name': 'unicorndoreuri', 'name': 'L∆RISS∆🌻 TMYLM TOUR 2018', 'id': 386630871, 'id_str': '386630871', 'indices': [3, 18]}], 'urls': [], 'media': [{'id': 991523545544101888, 'id_str': '991523545544101888', 'indices': [84, 107], 'media_url': 'http://pbs.twimg.com/media/DcKZaU6XkAAKY_W.jpg', 'media_url_https': 'https://pbs.twimg.com/media/DcKZaU6XkAAKY_W.jpg', 'url': 'https://t.co/Hvh9tztAwm', 'display_url': 'pic.twitter.com/Hvh9tztAwm', 'expanded_url': 'https://twitter.com/unicorndoreuri/status/991523563504066561/photo/1', 'type': 'photo', 'sizes': {'thumb': {'w': 150, 'h': 150, 'resize': 'crop'}, 'large': {'w': 836, 'h': 836, 're

O nosso foco nessa primiera parte é ver os dados associados a cada twitter retornado pela busca. Por conta disso, vamos trabalhar com o **statuses**. O *statuses* é uma lista de tweets. No entanto, a busca retorna toda a estrutura relacionada ao tweet e não somente o texto. A lista completa do que a busca retorna pode ser encontrada na documentação do twitter já linkada anteriormente.

Vamos exibir o texto dos tweets coletados:

In [9]:
tweets = result_hashtag['statuses']

for tweet in tweets:
    print(tweet['id'])
    print(tweet['text'])

992051106162401280
RT @unicorndoreuri: Hugo e Rui: A 
Eu: lindíssimos, cozinharam muito!
#MasterChefBR https://t.co/Hvh9tztAwm
992050794835914752
RT @masterchefbr: Te chamam pra sair e você precisa falar o quanto de dinheiro tem sobrando para os rolês. #MasterChefBR https://t.co/gNmgf…
992050441067356160
RT @ailathanathalia: #MasterChefBR Baguncei a aula toda no começo do bimestre// preciso de nota https://t.co/TWChKjfEyQ
992050344933904386
Quando alguém fala mal da mamãe @RitaMChef 
#MasterChefBR #masterchef https://t.co/wbFHapZo3C
992049288481067009
ícone acessível #MasterChefBR https://t.co/LEhLtys1Rt


Cade tweet possui um *id* que o identifica unicamente. Essa informação é útil caso não queira coletar tweets repetidos. No entanto, RT são considerados tweets distintos. 

A busca também retorna informações sobre o usuário que postou tal tweet. O campo *user* retorna uma instância de usuário do tweet conforme documentação disponível em: https://dev.twitter.com/overview/api/users. Como exemplo vamos utilizar o primeir tweet coletado na busca anterior. 

In [10]:
first_tweet = tweets[0]

user_ = first_tweet['user']

print(user_)

{'id': 190416667, 'id_str': '190416667', 'name': 'Thaynara', 'screen_name': 'thaylights', 'location': '@thaylights  everywhere', 'description': 'Conhecê-lo para torná-lo conhecido. ✝️💕', 'url': 'https://t.co/ypVCmjQN7m', 'entities': {'url': {'urls': [{'url': 'https://t.co/ypVCmjQN7m', 'expanded_url': 'https://twitter.com/justinbieber/status/242791613586350080', 'display_url': 'twitter.com/justinbieber/s…', 'indices': [0, 23]}]}, 'description': {'urls': []}}, 'protected': False, 'followers_count': 1445, 'friends_count': 943, 'listed_count': 23, 'created_at': 'Mon Sep 13 22:17:11 +0000 2010', 'favourites_count': 6606, 'utc_offset': -10800, 'time_zone': 'Atlantic Time (Canada)', 'geo_enabled': True, 'verified': False, 'statuses_count': 56799, 'lang': 'pt', 'contributors_enabled': False, 'is_translator': False, 'is_translation_enabled': True, 'profile_background_color': 'FFFFFF', 'profile_background_image_url': 'http://pbs.twimg.com/profile_background_images/628625157238726656/Pc4O3F2H.png

Selecionando alguns campos, temos:

In [11]:
print(user_['id']) #id do usuário
print(user_['name']) #nome do usuário
print(user_['screen_name']) #username do usuário
print(user_['description']) #descrição do perfil
print(user_['profile_image_url']) #url da imagem do perfil

190416667
Thaynara
thaylights
Conhecê-lo para torná-lo conhecido. ✝️💕
http://pbs.twimg.com/profile_images/814200896032821249/nal9nFYJ_normal.jpg


É possível coletar também a timeline de um determinado usuário:

In [12]:
tw_timeline = tw.get_user_timeline(screen_name="@adolfoguimaraes")

for tweet in tw_timeline:
    print(tweet['text'])

Só mais um teste #minicursotwitterludiico
RT @adolfoguimaraes: Amanhã tem minicurso #minicursotwitterludiico
Amanhã tem minicurso #minicursotwitterludiico
(pt-br and english post) Essa é mais uma atividade do curso de Fundamentos de Programação em… https://t.co/15m4j60LKj
(pt-br and english posts) Que tal começar a coletar dados do twitter em 1 minuto? Twython +… https://t.co/PVhB4SXNzd
Já já começa a #congenti na @unit_br 😊
É neste sábado: #feivest na @unit_br. Estaremos lá mostrando um pouco dos cursos de computação ;)
@jonh_paulo muito interessante. Só o texto que podia ter algumas informações mais técnicas ou pelo menos o link para o artigo =/
Sério q tem um Twitter da vuvuzela kkkkkkkkkkk https://t.co/z5lkHHMr0v
GO GO Power Rangers :P  https://t.co/ToUPVHhaa0
Qual o propósito dessa briga??? Kkkkk https://t.co/rBRG0NzIBE
Infográfico interessante sobre Data Science :P https://t.co/oAtlQp6wra
RT @exame: Nanotecnologia e big data podem revolucionar medicina &gt; https://t.co/hsL0wr4Mm

Observe que neste caso da timeline, a API só retorna a lista de tweets.

A API permite também coletar informações cadastradas no perfil do usuário. O método `show_user` retorna uma instância de usuário o do twitter. 

In [13]:
tw_user = tw.show_user(screen_name="@adolfoguimaraes")

print(tw_user['id']) #id do usuário
print(tw_user['name']) #nome do usuário
print(tw_user['screen_name']) #username do usuário
print(tw_user['description']) #descrição do perfil
print(tw_user['profile_image_url']) #url da imagem do perfil

20678688
Adolfo Guimarães
adolfoguimaraes
🌍Brazilian 
📚Computer Science: professor and researcher 
💻#pyhon developer 
❤ Artificial Intelligence 
👊Technology for society
http://pbs.twimg.com/profile_images/649939979553144832/VrYxkBov_normal.jpg


A lista completa dos métodos do Twython pode ser encontrada na documentação da API disponível em: https://twython.readthedocs.io/en/latest/index.html

Com esses passos básicos já é possível coletar informações de textos do twitter e dos usuários que postam o conteúdo. Explore a documentação do Twitter e do Twython para criar outros exemplos. Na segunda parte, vamos explorar mais algumas funcionalidades interessantes da API.