## Análise Trending Topics Twitter - Brasil
Data: 02/04/2022  
Trabalho de Projeto de Bloco Infnet  
Raphael da Rocha Fonseca

### Eventos do dia 02/04/2022
- Jogos da Premier League (Chelsea perdeu de virada para o Brentford por 4 a 1)
- Jogo do Real Madrid no campeonato espanhol
- Dia Mundial da conscientização do autismo
- Nova Iguaçu - Decretação de estado de Emergência devido fortes chuvas
- Final dos campeonatos Estaduais Carioca (Fla x Flu) e Mineiro (Atlético MG x Cruzeiro)
- Ação comercial do Quinto Andar no programa de televisão Big Brother Brasil
- Show de Alexandre Pires e Seu Jorge na festa do Big Brother Brasil

#### Instalação das bibliotecas

In [0]:
#!pip install plotly

#### Importação das funções

In [0]:
from pyspark.sql.functions import date_format, col, when, sum
import plotly.express as px

#### Importação do DataFrame

In [0]:
%fs 
ls /twitter/trending_topics/dia_ref=20220402/

path,name,size,modificationTime
dbfs:/twitter/trending_topics/dia_ref=20220402/time_ref=0740/,time_ref=0740/,0,0
dbfs:/twitter/trending_topics/dia_ref=20220402/time_ref=0745/,time_ref=0745/,0,0
dbfs:/twitter/trending_topics/dia_ref=20220402/time_ref=0750/,time_ref=0750/,0,0
dbfs:/twitter/trending_topics/dia_ref=20220402/time_ref=0755/,time_ref=0755/,0,0
dbfs:/twitter/trending_topics/dia_ref=20220402/time_ref=0801/,time_ref=0801/,0,0
dbfs:/twitter/trending_topics/dia_ref=20220402/time_ref=0806/,time_ref=0806/,0,0
dbfs:/twitter/trending_topics/dia_ref=20220402/time_ref=0811/,time_ref=0811/,0,0
dbfs:/twitter/trending_topics/dia_ref=20220402/time_ref=0816/,time_ref=0816/,0,0
dbfs:/twitter/trending_topics/dia_ref=20220402/time_ref=0821/,time_ref=0821/,0,0
dbfs:/twitter/trending_topics/dia_ref=20220402/time_ref=0826/,time_ref=0826/,0,0


In [0]:
df_trending_topics = spark.read.parquet('/twitter/trending_topics/dia_ref=20220402/*/', inferSchema=True)

In [0]:
df_trending_topics.printSchema()

root
 |-- assunto: string (nullable = true)
 |-- qtd_tweets: long (nullable = true)
 |-- rank: integer (nullable = true)
 |-- data_consulta: timestamp (nullable = true)



#### Manipulação dos dados para utilização do plotly
- A visualização animada do plotly precisa que o dataframe esteja ordenado pela coluna de data, mas a coluna não pode estar no formato timestamp
- Então feita ordenação do dataframe e criada uma nova coluna dt_consulta_viz como string para ser utilizada como argumento da visualização
- O dataframe passado para o plotly precisa ser convertido para Pandas

In [0]:
df_trending_topics = df_trending_topics.sort('data_consulta')
df_trending_topics = df_trending_topics.withColumn('dt_consulta_viz', date_format(col('data_consulta'),'dd/MM/yy HH:mm').cast('string'))

df_trending_topics.createOrReplaceTempView('tbl_trending_topics')

#### Quantidade de Tweets ao longo do dia sobre os assuntos Trending Topics

In [0]:
df_qtd_tweets_dia = df_trending_topics.groupBy('data_consulta').agg(sum('qtd_tweets').alias('qtd_tweets')).sort('data_consulta')

In [0]:
fig = px.bar(df_qtd_tweets_dia.toPandas(), x="data_consulta", y="qtd_tweets",
             title="Total de Tweets ao longo do dia dos assuntos Trending Topics")
fig.update_layout(paper_bgcolor='lightgrey', plot_bgcolor='lightgrey')
fig.show()

#### Evolução do Trending Topics ao longo do dia

In [0]:
fig = px.bar(df_trending_topics.toPandas(), x="qtd_tweets", y="assunto", text="rank", color="qtd_tweets", 
             animation_frame="dt_consulta_viz", title="Twitter Trending Topics Brasil - Movimentações ao longo do dia",
            height=700, orientation='h', color_continuous_scale=px.colors.sequential.Bluered)

fig.update_layout(yaxis = dict(autorange="reversed"), paper_bgcolor='lightgrey', plot_bgcolor='lightgrey')
fig.layout.updatemenus[0].buttons[0].args[1]["frame"]["duration"] = 600

fig.show()

#### Assuntos que apareceram mais vezes nos Top 5 do Ranking

In [0]:
df_assuntos_top5 = spark.sql("""
select   assunto
        ,count(*) as qtd
        ,round( count(*) / (select count(distinct data_consulta) from tbl_trending_topics) *100,1 ) as qtd_percent
from     tbl_trending_topics
where    rank <=5
group by assunto
order by qtd_percent desc
""")

In [0]:
fig = px.bar(df_assuntos_top5.limit(10).toPandas(), x="qtd_percent", y="assunto", text="qtd_percent", color="qtd", 
             orientation='h', title="Qtd vezes que os assuntos apareceram no Top 5", color_continuous_scale=px.colors.sequential.Bluered)
fig.update_layout(yaxis = dict(autorange="reversed"), paper_bgcolor='lightgrey', plot_bgcolor='lightgrey')
fig.show()

#### Qtd tweets ao longo do dia dos principais assuntos

In [0]:
df_qtd_tweets_dia_assunto = df_trending_topics.filter('qtd_tweets > 0')\
                                              .join(df_assuntos_top5.select('assunto').limit(10), on=['assunto'],how='inner')\
                                              .select('data_consulta', 'assunto', 'qtd_tweets')\
                                              .sort('data_consulta')

In [0]:
fig = px.line(df_qtd_tweets_dia_assunto.toPandas(), x="data_consulta", y="qtd_tweets", color="assunto",
             title=f"Total de Tweets ao longo do dia", height=500)
fig.update_layout(paper_bgcolor='lightgrey', plot_bgcolor='lightgrey')
fig.show()

#### Posição dos assuntos no rank ao longo do dia

In [0]:
df_rank_dia_assunto = df_trending_topics.filter(col('assunto').isin('#BrightStarSeonghwaDay','Autismo','Nova Iguaçu','Chelsea','Real Madrid',
                                                                    'Cruzeiro','Flamengo','Jorge','Alexandre Pires','#QuintoAndarNoBBB',
                                                                    '#festabbb22'))\
                                        .select('data_consulta', 'assunto', 'rank')\
                                        .sort('data_consulta')

In [0]:
fig = px.line(df_rank_dia_assunto.toPandas(), x="data_consulta", y="rank", color="assunto",
             title=f"Posição no rank ao longo do dia", height=500)

fig.update_layout(yaxis = dict(autorange="reversed"), paper_bgcolor='lightgrey', plot_bgcolor='lightgrey')
fig.show()

#### Conclusão

A API do Twitter possui um erro durante a requisição onde alguns assuntos do Trending Topics não são retornados com a quantidade de Tweets.  
Isso inviabiliza a correta análise da quantidade de Tweets em cada período do dia.  
Foi observado que os assuntos comentados refletem bastante os acontecimentos do momento do dia, especialmente relacionados a eventos de esportes.  
Alguns assuntos são bastante comentados por um breve período, outros conseguem se manter relevantes durante bastante tempo após acontecerem

#### Proposta de melhoria futura
Obter os Tweets sobre os principais assuntos comentados no momento e executar um WordCloud e uma análise de sentimentos para saber o que está sendo falado de cada assunto