In [None]:
import os
import csv

# Necessário para importar os notebooks do Jupyter
import nbimporter

import utils.pre_processor as ppc
import utils.file_manager as fm

In [None]:
# Diretório base do projeto. Corresponde à posta onde este notebook está localizada.
basedir = os.getcwd()

# Diretório que contém todos os dados utilizados e gerados pela ferramenta.
# Neste exemplo, é utilizado a pasta /sample_data, que contém dados e arquivos utilizados
data_basedir = os.path.join(basedir, "sample_data") 

# Diretório onde são armazenados os arquivos de dados coletados. Corresponde à pasta /sample_data/exports
exports_basedir = os.path.join(data_basedir, "exports")

# Diretório onde serão armazenados os resultados do pré-processamento. Corresponde à pasta /sample_data/results
results_basedir = os.path.join(data_basedir, "results")

# Nome que define o tema base do que está sendo pré-processado
# Neste exemplo, serão pré-processados tweets sobre o jogo Super mario Odyssey.
theme = "super-mario-odyssey"

# Diretório que contém os dados coletados sobre o tema definido
# Nesse exemplo, corresponde à pasta /sample_data/super-mario-odyssey
smo_exports_basedir = os.path.join(exports_basedir, theme)

# Diretório que conterá os resultados obtidos a partir do pré-processamento dos dados
# Nesse exemplo, corresponde à pasta sample_data/results/super-mario-odyssey
smo_results_basedir = os.path.join(results_basedir, theme)

# Nome do arquivo .dl (Gephi) a ser gerado
gephi_filename_words = theme + "-words.dl"
gephi_filename_users = theme + "-users.dl"

# Cria a estrutura de diretórios necessária para execução da ferramenta.
# A função do file-manager (fm) cria toda a árvore de diretórios, até o último diretório especificado no caminho
fm.create_directory_tree(smo_exports_basedir)
fm.create_directory_tree(smo_results_basedir)

In [None]:
export = fm.read_csv_directory(smo_exports_basedir, sep="\t", file_extension=".tsv")

In [None]:
text_tweets = export["description"]
authors = export["author"].apply(lambda s: "@" + s)

# Aqui, a funçao clean_tweets do
clean_tweets_words = ppc.pre_processing_words(text_tweets)
clean_tweets_users = ppc.pre_processing_users(authors, text_tweets)

In [None]:
filepath_words = os.path.join(smo_results_basedir, gephi_filename_words)
filepath_users = os.path.join(smo_results_basedir, gephi_filename_users)

fm.generate_dl_file_words(filepath_words, clean_tweets_words)
fm.generate_dl_file_users(filepath_users, authors, clean_tweets_users)