<a href="https://colab.research.google.com/github/devwlad/covid19tweets/blob/master/covid19_tweets.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Análise de tweets brasileiros sobre a COVID-19**


# Apresentação

> ### Resumo
Este documento tem o objetivo de apresentar uma análise exploratória de tweets gerados por brasileiros, e que envolvem o tema COVID-19, para extrair e visualizar informações úteis com o intuito de compreender as principais dúvidas das pessoas sobre esta pandemia.

> ### Autores
Alunos de pós-graduação em CIência de Dados da Universidade do Estado do Amazonas:
1.   [Patrick Tapajós Pinto](https://www.linkedin.com/in/patrick-tapajos-pinto/)
2.   [Wladimir Barroso Guedes de Araújo Neto](https://www.linkedin.com/in/wladneto/)

> ### Ferramentas Utilizadas
A análise será efetuada utilizando-se a linguagem de programação python e suas bibliotecas para análise e processamento de dados **Pandas** e **NumPy**, bem como as bibliotecas **Matplotlib** e **Seaborn** para visualização de dados.


# Introdução

><div align="justify">
O surto do COVID-19 na China foi noticiado em dezembro de 2019. A Organização Mundial de Saúde (OMS) declarou estado de emergência devido ao rápido espalhamento do vírus no mundo. Na América Latina, o Brasil é o país mais afetado pela doença. De acordo com o relatório pela OMS, houve o registro de 347,398 casos de infectados e de 22,013 mortes no Brasil.
<br>
Devido à rápida propagação da doença no mundo, as plataformas de mídias sociais como Twitter, Facebook e Instagram tornaram-se locais onde ocorre uma intensa e contínua troca de informações entre órgãos governamentais, profissionais da área de saúde e o público em geral.
Um representativo número de estudos científicos têm mostrado que as mídias sociais podem desempenhar um papel importante como fonte de dados para análise de crises e também para entender atitudes e comportamentos das pessoas durante uma pandemia.
<br>
Com o objetivo de auxiliar o monitoramento da saúde pública e também para dar suporte a tomada de decisão de profissionais, diversos sistemas de monitoramento são desenvolvidos para classificar grandes quantidades de dados oriundos das mídias sociais. Estes dados podem ser
empregados para identificar rapidamente os pensamentos, atitudes, sentimentos e tópicos que ocupam as mentes das pessoas em relação à pandemia do COVID-19. A análise sistemática desses dados pode ajudar os governantes, profissionais da saúde e o público em geral a identificar
questões que mais lhes interessam e tratá-las de maneira mais apropriada.
<br>
Dentre as plataformas de mídias sociais, o Twitter é uma das mais populares. De acordo com, existe aproximadamente 200 milhões de usuários registrados nesta plataforma e que publicam mais de 500 milhões de tuítes diariamente. Portanto, pode-se aproveitar desse alto volume e troca frequente de informações para se conhecer as dúvidas sobre determinadas doenças. Como exemplo de importância desta plataforma em situações de crise, a atual pandemia de COVID-19 foi primeiro comunicada para a populacão na China através do site Weibo, que é o correspondente ao Twitter na China, antes mesmo do pronunciamento oficial das autoridades locais. Recentemente, existe um grande interesse de pesquisadores investigando o uso do Twitter para pesquisas relacionadas à saúde pública.
</div>


# Coleta de Dados
> Os dados foram coletados e disponibilizados pelo Prof. Dr. Tiago de Melo e contém cerca de 1.7 milhões de tweets coletados durante o primeiro semestre de 2020.
<br>
Link para download dos dados: http://tiagodemelo.info/datasets/dados-curso-completo.csv.tar.gz. 

# Preparação: Importações e funções utilizadas

In [None]:
# Importação das bibliotecas necessárias para a análise e visualização de dados
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Conjunto de bibliotecas e programas para processamento simbólico e estatístico de linguagem natural 
import nltk

# Magic word, faz com que os gráficos sejam mostrados diretamente no notebook
%matplotlib inline

# Download de módulo necessário para gerar WordCloud
nltk.download('stopwords')

  import pandas.util.testing as tm


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
# Montagem de drive para carregamento de dataset
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
# Funções para geração de WordCloud com rápida visualização dos termos encontrados nos tweets (e por diversão :)) 

# Importação de libs necessárias
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from wordcloud import WordCloud

# Carregando as stopwords do idioma português
sw_br = stopwords.words('portuguese');

# Função para exclusão de stopwords e geração de lista com os termos encontrados
def gen_words(text_list):
  words = []
  for s in text_list:
    for p in s.lower().split():
      if p not in sw_br:
        words.append(p)
  words = str(words)
  return words

# Função para exibir a imagem com as palavras
def gen_img_word_cloud(text_list):
  wordcloud = WordCloud(width=1000, height=500, margin=0).generate(gen_words(text_list))
  plt.figure(figsize=(20, 11))
  plt.imshow(wordcloud, interpolation='bilinear')
  plt.axis('off')
  plt.margins(x=0, y=0)
