In [None]:
# Importações
import pandas as pd
import matplotlib.pyplot as plt
from wordcloud import wordcloud as WD
from collections import Counter
import re
import seaborn as sns
import ast

In [None]:
# Definição de funções necessárias
def plot_top_barlplot(word_list, escopo, number=20):
    # Contar a frequência de cada palavra
    word_count = Counter(word_list)

    # Selecionar as 10 palavras mais comuns
    common_words = word_count.most_common(number)

    # Separar as palavras e suas frequências
    labels, values = zip(*common_words)

    # Configurar o estilo do gráfico
    sns.set_theme(style="whitegrid")

    # Criar o gráfico de barras
    plt.figure(figsize=(10, 5))
    sns.barplot(x=list(values), y=list(labels), palette="viridis")

    # Configurar título e labels
    plt.title(f'Top {number} Palavras Mais Usadas {escopo}')
    plt.xlabel('Frequência')
    plt.ylabel('Palavras')

    # Exibir o gráfico
    plt.show()

def plot_wordcloud(word_list):
    # Gerar a nuvem de palavras
    wordcloud = WD.WordCloud(width=800, height=400, background_color='white').generate(' '.join(word_list))

    # Exibir a nuvem de palavras
    plt.figure(figsize=(10, 5))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.show()

In [None]:
# Importa dados
df_final = pd.read_csv('dados/df_final.zip')

# Re-transforma as listas em listas
df_final['title'] = df_final['title'].apply(lambda x: ast.literal_eval(x) if isinstance(x, str) else x)
df_final['corpo_texto'] = df_final['corpo_texto'].apply(lambda x: ast.literal_eval(x) if isinstance(x, str) else x)


display(df_final)

In [None]:
# Palavras-chave
keywords = ["vacina", "vacinação", "vacinacao", "covid", "pandemia", "corona", "coronavírus", "coronavirus", "quarentena", "sars-cov-2"]
keywords_regex = r"\b(vacina(r|s|ção)?|covid(19)?|pandemia|corona(v[íi]rus)?|quarentena|boato(s)?|fake|n|d|p[áa]gina(s)?|ediç([ãa]o|[õo]es)|sars-cov-2)\b"

## Títulos

In [None]:
# --------------------------- Palavras mais usadas --------------------------- #
# Reunir todas as palavras de todos os títulos
title_words = [word for title in df_final['title'] for word in title]

# Filtrar as palavras-chave utilizadas na busca (com regex)
title_words = [word for word in title_words if not re.search(keywords_regex, word, re.IGNORECASE)]

# Plots
plot_top_barlplot(title_words, "nos Títulos")
plot_wordcloud(title_words)

In [None]:
# --------------- Palavras mais usadas nas notícias verdadeiras -------------- #
# Separar notícias verdadeiras
df_true = df_final.loc[df_final['classe']==1]

title_words = [word for title in df_true['title'] for word in title]
title_words = [word for word in title_words if not re.search(keywords_regex, word, re.IGNORECASE)]

# Plots
plot_top_barlplot(title_words, "nos Títulos de Notícias Verdadeiras")
plot_wordcloud(title_words)

In [None]:
# ----------------- Palavras mais usadas nas notícias falsas ----------------- #
# Separar notícias falsas
df_false = df_final.loc[df_final['classe']==0]

title_words = [word for title in df_false['title'] for word in title]
title_words = [word for word in title_words if not re.search(keywords_regex, word, re.IGNORECASE)]

# Plots
plot_top_barlplot(title_words, 'nos Títulos de Notícias Falsas')
plot_wordcloud(title_words)

## Corpo do Texto

In [None]:
# --------------------------- Palavras mais usadas --------------------------- #
# Reunir todas as palavras do corpo de todos os textos
title_words = [word for title in df_final['corpo_texto'] for word in title]

# Filtrar as palavras-chave utilizadas na busca (com regex)
title_words = [word for word in title_words if not re.search(keywords_regex, word, re.IGNORECASE)]

# Plots
plot_top_barlplot(title_words, "no Corpo dos Textos")
plot_wordcloud(title_words)

In [None]:
# --------------- Palavras mais usadas nas notícias verdadeiras -------------- #
# Separar notícias verdadeiras
df_true = df_final.loc[df_final['classe']==1]

title_words = [word for title in df_true['corpo_texto'] for word in title]
title_words = [word for word in title_words if not re.search(keywords_regex, word, re.IGNORECASE)]

# Plots
plot_top_barlplot(title_words, "em Notícias Verdadeiras")
plot_wordcloud(title_words)

In [None]:
# ----------------- Palavras mais usadas nas notícias falsas ----------------- #
# Separar notícias falsas
df_false = df_final.loc[df_final['classe']==0]

title_words = [word for title in df_false['corpo_texto'] for word in title]
title_words = [word for word in title_words if not re.search(keywords_regex, word, re.IGNORECASE)]

# Plots
plot_top_barlplot(title_words, 'em Notícias Falsas')
plot_wordcloud(title_words)