# Scraping tweets related to COVID-19 in Brazil

In [2]:
# Importing libraries
import pandas as pd
import numpy as np
import tweepy as tw
import matplotlib.pyplot as plt
import re
import datetime
import nltk

In [340]:
# Twitter developer credentials
with open('twitter_key.txt', 'r') as kfile:
    consumer_key = kfile.readline().strip('\n')
    consumer_secret = kfile.readline().strip('\n')
    access_token = kfile.readline().strip('\n')
    access_token_secret = kfile.readline().strip('\n')

In [341]:
# Authentication - keys and tokens
auth = tw.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)
api = tw.API(auth,wait_on_rate_limit=True)

In [383]:
# Define main searchwords to look inside twitter
search_words = ["coronavirus -filter:retweets",
                "corona -filter:retweets",
                "'Vacina de Oxford' -filter:retweets",
                "pandemia -filter:retweets",
                "covid19 -filter:retweets",
                "covid -filter:retweets",
                "covid-19 -filter:retweets",
                "gripezinha -filter:retweets",
                "#BrasilNaoPodeParar -filter:retweets"]

result_type = ['popular']

max_tweets = 600
tweets_df = pd.DataFrame([])

# Script to scrape data from Twitter

for word in range(len(search_words)):
    tweets = tw.Cursor(api.search, q=search_words[word],
                       result_type=result_type,lang='pt',count=100,
                       tweet_mode = 'extended',since='2020-10-26', until = '2020-10-28').items(max_tweets)
    
    tweets_list = [[tweet.full_text, tweet.created_at] for tweet in tweets]
    
    tweets_df = tweets_df.append(pd.DataFrame(tweets_list, columns=['text','created_at']), ignore_index=True)

In [384]:
tweets_df1 = tweets_df.copy()
tweets_df1

Unnamed: 0,text,created_at
0,"@roxmo Se voc√™ falasse em identificar pessoas com DSTs para manter as que n√£o t√™m seguras, seria taxado de nazista na hora. Agora, com o Coronavirus Chin√™s, os comunistas logo mostram a que vieram.",2020-10-27 23:59:36
1,"@hxyazptt @guztavoliveira A energia criativa pensando na sua fantasia e ela √© composta de uma sunga e um papel√£o e glitter, a energia de corpos dan√ßando, se tocando, se vendo, se desejando, se soltando e se permitindo dan√ßar, √© sobre isso o fervo.\n√â isso que voc√™ me tirou coronavirus, recarga.",2020-10-27 23:59:27
2,O jovem de hoje teme apenas uma coisa. Coronavirus ? N√£o... O Lisca Doido ü§°,2020-10-27 23:59:23
3,"Como s√£o as coisas n√©, eu andado de m√°scara na pela rua, da apar√™ncia de eu √© que estou errado e todo eles certos em n√£o usar suas m√°scaras!\n#COVID19 \n#coronavirus",2020-10-27 23:59:01
4,"Rumo ao fundo do po√ßo. \nD√≠vida p√∫blica federal passa de R$ 4,5 tri com custo mais caro e prazo menor\nTesouro v√™ investidor preocupado com coronav√≠rus e pol√≠tica econ√¥mica brasileira.\n https://t.co/DyWnClCTAa",2020-10-27 23:58:30
...,...,...
4795,@CNNBrasil Gripezinha,2020-10-26 10:59:19
4796,"@GloboNews Este Dr. em fev/20 disse que a gripe chinesa era uma ""gripezinha"" , em mar/20 ele pediu para ""ficar em casa "" e em set/20 ainda com a pandemia ele pede para a popula√ß√£o sair de casa e ser mes√°rio na elei√ß√£o, o Brasil realmente n√£o √© para amadores !!!!!!!!!!!",2020-10-26 10:52:04
4797,E√° rinfo de qu√™ Bolso Nero com 147 mil mortos pela gripezinha?,2020-10-26 10:51:06
4798,@____W00dst0ck__ Se tornou uma gripezinha.,2020-10-26 10:48:13


# Pre-processing

In [385]:
# Text to lowercase
lower_tweets = tweets_df1['text'].str.lower()
tweets_df1['text'] = lower_tweets

# substitute abbreviations with full words
ids = {'id':['pq ','vc ','vcs ','tb ','add ','vlw ','kd ','abs ','tc ','qdo ','qd ',
             'msg ','blz ','q ','ki ','dps ','dpois ','qto ','qt ','qts ',
            'td ','tds ','naum ','rs ','n ','entaum ','\bd\b','obs ','niver ','bjo ','bj ',
            'pc ','aki ','aq ','cmg ','mto ','mt ','pra ','agr ','akilo '],
      'full_word':['por que ','voc√™ ','voc√™s ','tamb√©m ','adicionar ','valeu ','cad√™ ','abra√ßo ','teclar ','quando ','quando ',
              'mensagem ','beleza ','que ','que ','depois ','depois ','quanto ','quanto ','quantos ',
             'tudo ','todos ','n√£o ','risos ','n√£o ','ent√£o ','de ','observa√ß√£o ','anivers√°rio ','beijo ','beijo ',
             'computador ','aqui ','aqui ','comigo ','muito ','muito ','para ','agora ','aquilo ']}

ids = dict(zip(ids['id'], ids['full_word']))

repl = {rf'\b{word_id}\b': word for word_id, word in ids.items()}
cleaned_tweets = tweets_df1.replace({'text': repl}, regex=True)

tweets_df1['text'] = cleaned_tweets
tweets_df1

Unnamed: 0,text,created_at
0,"@roxmo se voc√™ falasse em identificar pessoas com dsts para manter as que n√£o t√™m seguras, seria taxado de nazista na hora. agora, com o coronavirus chin√™s, os comunistas logo mostram a que vieram.",2020-10-27 23:59:36
1,"@hxyazptt @guztavoliveira a energia criativa pensando na sua fantasia e ela √© composta de uma sunga e um papel√£o e glitter, a energia de corpos dan√ßando, se tocando, se vendo, se desejando, se soltando e se permitindo dan√ßar, √© sobre isso o fervo.\n√© isso que voc√™ me tirou coronavirus, recarga.",2020-10-27 23:59:27
2,o jovem de hoje teme apenas uma coisa. coronavirus ? n√£o... o lisca doido ü§°,2020-10-27 23:59:23
3,"como s√£o as coisas n√©, eu andado de m√°scara na pela rua, da apar√™ncia de eu √© que estou errado e todo eles certos em n√£o usar suas m√°scaras!\n#covid19 \n#coronavirus",2020-10-27 23:59:01
4,"rumo ao fundo do po√ßo. \nd√≠vida p√∫blica federal passa de r$ 4,5 tri com custo mais caro e prazo menor\ntesouro v√™ investidor preocupado com coronav√≠rus e pol√≠tica econ√¥mica brasileira.\n https://t.co/dywnclctaa",2020-10-27 23:58:30
...,...,...
4795,@cnnbrasil gripezinha,2020-10-26 10:59:19
4796,"@globonews este dr. em fev/20 disse que a gripe chinesa era uma ""gripezinha"" , em mar/20 ele pediu para ""ficar em casa "" e em set/20 ainda com a pandemia ele pede para a popula√ß√£o sair de casa e ser mes√°rio na elei√ß√£o, o brasil realmente n√£o √© para amadores !!!!!!!!!!!",2020-10-26 10:52:04
4797,e√° rinfo de qu√™ bolso nero com 147 mil mortos pela gripezinha?,2020-10-26 10:51:06
4798,@____w00dst0ck__ se tornou uma gripezinha.,2020-10-26 10:48:13


In [386]:
# Removing @names
def remove_pattern(text, pattern_regex):
    r = re.findall(pattern_regex, text)
    for i in r:
        text = re.sub(i, '', text)
    
    return text

# We are keeping cleaned tweets in a new column called 'tidy_tweets'
tweets_df1['text'] = np.vectorize(remove_pattern)(tweets_df1['text'], "@[\w]*")

In [387]:
# Removing Links
cleaned_tweets = []

for index, row in tweets_df1.iterrows():
    # Filtering out all the words that contains link
    no_links = [word for word in row.text.split() if 'http' not in word]
    cleaned_tweets.append(' '.join(no_links))

tweets_df1['text'] = cleaned_tweets

In [None]:
# Save dataframe on excel format
#tweets_df1.to_excel("tweets_raw.xlsx")