# Minicurso: O que o twitter está pensando?

Estes tutoriais apresentam os principais scritps desenvolvidos no minicurso: **O que o twitter está pensando? Extraindo informações em redes sociais utilizando Python**. Os arquivos completos dos scritps e códigos gerados podem ser encontrados nas pastas **scritps** e **web** na raiz do repositório.

A apresentação referente a este minicurso está disponível no site: http://www.data2learning.com/cursos.

## 01 - Coletando Dados do Twitter (Parte 1)

Na primeira parte do nosso curso vamos mostrar como utilizar uma API do twitter para coletar dados publicados na rede social. Para poder utilizar a API é necessário que crie uma aplicação no site http://dev.twitter.com/apps. Após a criação da APP deve-se criar também um Access Token na mesma página. Detalhes de como fazer isso estão disponíveis nos slides. 

Como API em python vamos utilizar a Twython (https://twython.readthedocs.io/en/latest/). Antes de começar devemos instala-la utilizando o comando **pip install twython** no console. 

Com todos estes passos concluídos podemos executar a primeira parte deste minicurso.

O primiero passo é importar as bibliotecas necessárias. No nosso caso, iremos importar a biblioteca do Twython e uma biblioteca para trabalhar com data e hora.

In [1]:
from twython import Twython
from datetime import datetime

Em seguida devemos informar as chaves necessárias da API do twitter. Estas chaves foram geradas no momento da criação da app no site listado anteriormente. Vale ressaltar que as chaves a seguir foram criadas apenas para a criação deste minicurso. As mesmas serão desativadas após a conclusão.

In [1]:
#Definição das chaves da API do Twitter
APP_KEY = None # Get Keys and Access Token at apps.twitter.com
APP_SECRET = None # Get Keys and Access Token at apps.twitter.com
OAUTH_TOKEN = None # Get Keys and Access Token at apps.twitter.com
OAUTH_TOKEN_SECRET = None # Get Keys and Access Token at apps.twitter.com

Em seguida, vamos criar uma instância da api Twython para que possamos utilizar os métodos de busca.

In [3]:
tw = Twython(APP_KEY, APP_SECRET, OAUTH_TOKEN, OAUTH_TOKEN_SECRET)

O primeiro método que iremos utilizar para coletar as informações é o search. Ele permite coletar uma quantidade específica de tweets a partir de uma query de busca. Essa query pode ser uma #hashtag ou uma palavra qualquer.

Detalhes sobre os parâmetros e os valores de retorno do método search podem ser encontrados na página da API do twitter: https://dev.twitter.com/rest/reference/get/search/tweets. Nesse exemplo inicial vamos utilizar apenas três parâmetros: 

* **q:** query de busca
* **count:** o número de tweets que serão retornados
* **lang:** o idioma dos tweets retornados

In [4]:
result = tw.search(q="brasil",count=100,lang="pt")

In [5]:
#Isso irá imprimir no console o resultado armazenado na variável result
print(result)

{u'search_metadata': {u'count': 100, u'completed_in': 0.131, u'max_id_str': u'786363806066810880', u'since_id_str': u'0', u'next_results': u'?max_id=786363645642969087&q=brasil&lang=pt&count=100&include_entities=1', u'refresh_url': u'?since_id=786363806066810880&q=brasil&lang=pt&include_entities=1', u'since_id': 0, u'query': u'brasil', u'max_id': 786363806066810880}, u'statuses': [{u'contributors': None, u'truncated': False, u'text': u'@LuciaMarina5 @brasil_zepeda @davidzepeda1 Kkkkk fiquei geeeente ele nao curtiu isso Kkkkk fiquei surpresa', u'is_quote_status': False, u'in_reply_to_status_id': 786363685832826880, u'id': 786363806066810880, u'favorite_count': 0, u'entities': {u'symbols': [], u'user_mentions': [{u'id': 753552348, u'indices': [0, 13], u'id_str': u'753552348', u'screen_name': u'LuciaMarina5', u'name': u'Lu Costa'}, {u'id': 756340970829021185, u'indices': [14, 28], u'id_str': u'756340970829021185', u'screen_name': u'brasil_zepeda', u'name': u'David Zepeda Brasil'}, {u'id':

A variável **result** irá armazenar os 100 últimos tweets postados que possuem a palavra **brasil** no texto e que estão em português. Mais detalhes dos parâmetros que podem ser utilizados com o método *search* podem ser encontrados na documentação para desenvolvedores twitter: https://dev.twitter.com/rest/reference/get/search/tweets

A **query** de busca utiliza os mesmos critérios de busca do twitter. Podemos buscar por hashtag ou ainda pela combinação de várias palavras. Uma lista dos comandos que podem ser passados pela query pode ser encontrada neste link: https://dev.twitter.com/rest/public/search.

In [6]:
result_hashtag = tw.search(q="#MasterChefBR", count=5, lang="pt")
result_multi = tw.search(q="#MasterChefBR OR #MasterChef", count=100, lang="pt")

Nos exemplos a seguir vamos trabalhar com result_hashtag. Vamos entender os resultados que são retornados da busca. A busca retorna um dicionário com dois campos:

* **search_metadata:** metados da busca
* **statuses:** os tweets que foram coletados

Podemos imprimir tais informações utilizando os comandos a seguir:


In [7]:
print(result_hashtag['search_metadata'])

{u'count': 5, u'completed_in': 0.039, u'max_id_str': u'786363498146193409', u'since_id_str': u'0', u'next_results': u'?max_id=786363365098684415&q=%23MasterChefBR&lang=pt&count=5&include_entities=1', u'refresh_url': u'?since_id=786363498146193409&q=%23MasterChefBR&lang=pt&include_entities=1', u'since_id': 0, u'query': u'%23MasterChefBR', u'max_id': 786363498146193409}


In [8]:
print(result_hashtag['statuses'])

[{u'contributors': None, u'truncated': False, u'text': u'Jo\xe3o todo recalcado. Nossa, parece o Fabio quando o Leonardo conseguia as coisas. #MasterChefBR', u'is_quote_status': False, u'in_reply_to_status_id': None, u'id': 786363498146193409, u'favorite_count': 1, u'entities': {u'symbols': [], u'user_mentions': [], u'hashtags': [{u'indices': [82, 95], u'text': u'MasterChefBR'}], u'urls': []}, u'retweeted': False, u'coordinates': None, u'source': u'<a href="http://twitter.com/download/android" rel="nofollow">Twitter for Android</a>', u'in_reply_to_screen_name': None, u'in_reply_to_user_id': None, u'retweet_count': 0, u'id_str': u'786363498146193409', u'favorited': False, u'user': {u'follow_request_sent': False, u'has_extended_profile': True, u'profile_use_background_image': True, u'default_profile_image': False, u'id': 172157875, u'profile_background_image_url_https': u'https://pbs.twimg.com/profile_background_images/697536205412503552/Joz1HWMa.jpg', u'verified': False, u'translator_ty

O nosso foco nessa primiera parte é ver os dados associados a cada twitter retornado pela busca. Por conta disso, vamos trabalhar com o **statuses**. O *statuses* é uma lista de tweets. No entanto, a busca retorna toda a estrutura relacionada ao tweet e não somente o texto. A lista completa do que a busca retorna pode ser encontrada na documentação do twitter já linkada anteriormente.

Vamos exibir o texto dos tweets coletados:

In [9]:
tweets = result_hashtag['statuses']

for tweet in tweets:
    print(tweet['id'])
    print(tweet['text'])

786363498146193409
João todo recalcado. Nossa, parece o Fabio quando o Leonardo conseguia as coisas. #MasterChefBR
786363447751675904
RT @MC3_Leonardo: Prova de pressão = ovo frito, ovo pochet, omelete, ovo mollet. 🐥🍳 #MasterChefBr
786363410393030656
RT @Aguinaldinho: Ter que fazer um prato de bacalhau e esquecer o bacalhau equivale a ir fazer enem e esquecer a caneta preta. #MasterChefBR
786363385529106432
#MasterchefBr Porra nenhuma, eu tô com vontade de comer jaca e cajá. Uma jaca madura e um cajá verde com sal agora seriam perfeitos.
786363365098684416
Verdade ne, os dois trabalham juntos e foram pro mezanino.  #MasterChefBR legal


Cade tweet possui um *id* que o identifica unicamente. Essa informação é útil caso não queira coletar tweets repetidos. No entanto, RT são considerados tweets distintos. 

A busca também retorna informações sobre o usuário que postou tal tweet. O campo *user* retorna uma instância de usuário do tweet conforme documentação disponível em: https://dev.twitter.com/overview/api/users. Vamos mostrar no exemplo com um tweet coletado. Neste caso, o primeiro.

In [10]:
first_tweet = tweets[0]

user_ = first_tweet['user']

print(user_)

{u'follow_request_sent': False, u'has_extended_profile': True, u'profile_use_background_image': True, u'default_profile_image': False, u'id': 172157875, u'profile_background_image_url_https': u'https://pbs.twimg.com/profile_background_images/697536205412503552/Joz1HWMa.jpg', u'verified': False, u'translator_type': u'none', u'profile_text_color': u'000000', u'profile_image_url_https': u'https://pbs.twimg.com/profile_images/779187949997031424/YPxG8kGO_normal.jpg', u'profile_sidebar_fill_color': u'000000', u'entities': {u'url': {u'urls': [{u'url': u'https://t.co/WdMTrz711u', u'indices': [0, 23], u'expanded_url': u'http://instagram.com/deborizei', u'display_url': u'instagram.com/deborizei'}]}, u'description': {u'urls': [{u'url': u'https://t.co/lS6AHMocUu', u'indices': [76, 99], u'expanded_url': u'http://youtube.com/channel/UCnnyI', u'display_url': u'youtube.com/channel/UCnnyI'}, {u'url': u'https://t.co/ksdlP1haNU', u'indices': [120, 143], u'expanded_url': u'http://garotaveneta.com.br', u'd

Selecionando alguns campos, temos:

In [11]:
print(user_['id']) #id do usuário
print(user_['name']) #nome do usuário
print(user_['screen_name']) #username do usuário
print(user_['description']) #descrição do perfil
print(user_['profile_image_url']) #url da imagem do perfil

172157875
Débora Fernanda
deborizei
Aquariana, fotografa e futura psicologa!! // Acompanhe meu canal no youtube https://t.co/lS6AHMocUu… // E segue o blog! https://t.co/ksdlP1haNU
http://pbs.twimg.com/profile_images/779187949997031424/YPxG8kGO_normal.jpg


É possível coletar também a timeline de um determinado usuário:

In [12]:
tw_timeline = tw.get_user_timeline(screen_name="@adolfoguimaraes")

for tweet in tw_timeline:
    print(tweet['text'])

#feivest2016 rolando na @unit_br
É amanhã. #feivest2016
#feivest neste sábado
Mais uma #feivest
Dia 08/10 tem #feivest na @unit_br  ;)
@jonh_paulo muito interessante. Só o texto que podia ter algumas informações mais técnicas ou pelo menos o link para o artigo =/
Sério q tem um Twitter da vuvuzela kkkkkkkkkkk https://t.co/z5lkHHMr0v
GO GO Power Rangers :P  https://t.co/ToUPVHhaa0
Qual o propósito dessa briga??? Kkkkk https://t.co/rBRG0NzIBE
Infográfico interessante sobre Data Science :P https://t.co/oAtlQp6wra
RT @exame: Nanotecnologia e big data podem revolucionar medicina &gt; https://t.co/hsL0wr4Mmn https://t.co/gm5yfK4FNg
Para quem quer começar na área: https://t.co/Kgi4TFm9Gw via @dsacademybr
Você namora a pessoa e ela vive cantando Metallica, Guns. Você casa, a pessoa tá cantando "Molejao" no carro 😒
Quem vence as disputas das hashtags: #teamsuperman vs #teambatman | #teamcap vs #teamironman? https://t.co/Fqt64OWEMm #coletandodados ;)
Quero ver tiririca votando. Será que vai ser 

Observe que neste caso da timeline, a API só retorna a lista de tweets.

A API permite também coletar informações de um usuário específico. O método *show_user* retorna uma instância de usuário o do twitter. 

In [13]:
tw_user = tw.show_user(screen_name="@adolfoguimaraes")

print(tw_user['id']) #id do usuário
print(tw_user['name']) #nome do usuário
print(tw_user['screen_name']) #username do usuário
print(tw_user['description']) #descrição do perfil
print(tw_user['profile_image_url']) #url da imagem do perfil

20678688
Adolfo Guimarães
adolfoguimaraes

http://pbs.twimg.com/profile_images/649939979553144832/VrYxkBov_normal.jpg


A lista completa dos métodos do Twython pode ser encontrada na documentação da API disponível em: https://twython.readthedocs.io/en/latest/index.html

Com esses passos básicos já é possível coletar informações de textos do twitter e dos usuários que postam o conteúdo. Explore a documentação do Twitter e do Twython para criar outros exemplos. Na próxima parte assunto vamos explorar mais algumas funcionalidades interessantes da API.