In [None]:
# Formação Cientista de Dados - Fernando Amaral e Jones Granatyr
# Mineração de textos

In [None]:
# Importação das bibliotecas
import matplotlib.pyplot as plt
import nltk # nltk é uma biblioteca para processamento de linguagem natural
#nltk.download() (pode ser executado após instalar o nltk - pip install nltk)
nltk.download('stopwords') # baixar a lista de stopwords
from nltk.corpus import PlaintextCorpusReader
from nltk.corpus import stopwords
from matplotlib.colors import ListedColormap
from wordcloud import WordCloud # WordCloud é uma biblioteca para gerar nuvens de palavras
#conda install -c conda-forge wordcloud (executar no Anaconda Prompt)
import string

In [None]:
# Criação de um corpus lendo textos do disco
corpus = PlaintextCorpusReader('../dados/Arquivos', '.*', encoding = "ISO-8859-1")
# O primeiro parâmetro é o diretório onde estão os arquivos e o segundo é a expressão regular para os arquivos que serão lidos
# O terceiro parâmetro é a codificação dos arquivos, que pode ser alterada conforme necessário
# O corpus é um objeto que contém os textos lidos do disco e pode ser manipulado com as funções da biblioteca nltk
# PlaintextCorpusReader é uma classe da biblioteca nltk.corpus que permite ler arquivos de texto simples

In [None]:
# Leitura dos arquivos do disco, percorrer os registros e mostrar o nome dos primeiros 100 arquivos
arquivos = corpus.fileids() # fileids() retorna uma lista com os nomes dos arquivos lidos do disco
#primeiro arquivo
arquivos[0]

In [None]:
#zero a 10
arquivos[0:10] #mostra os 10 primeiros arquivos

In [None]:
#imprime todos os nomes
for a in arquivos:
    print(a)

In [None]:
# Acesso ao texto do primeiro arquivo
arquivo = corpus.fileids()[0]  # pegando '3.txt' (índice 2) se essa for a posição correta
texto = corpus.raw(arquivo)
texto # mostra o texto do arquivo lido

In [None]:
# Acesso a todos as palavras de todos os arquivos do corpus
todo_texto = corpus.raw()
todo_texto

In [None]:
# Obtenção de todas as palavras do corpus e visualização da quantidade
palavras = corpus.words()
#acessando pelo indíce
palavras[170] 

In [None]:
#quantidade
len(palavras)

In [None]:
# Usando o NLTK, obtemos as stop word em inglês
stops = stopwords.words('english')
#stops = stopwords.words('portuguese')
stops

In [None]:
# Definição das cores que serão utilizadas na nuvem de palavras
mapa_cores = ListedColormap(['orange', 'green', 'red', 'magenta'])
# LIstedColormap é uma classe da biblioteca matplotlib.colors que permite criar um mapa de cores a partir de uma lista de cores
# Criação da nuvem de palavras, com no máximo 100 palavras e utilizando as stop words
nuvem = WordCloud(background_color = 'white',
                  colormap = mapa_cores,
                  stopwords = stops,
                  max_words = 100)
# WordCloud é uma classe da biblioteca wordcloud que permite criar uma nuvem de palavras a partir de um texto
# background_color define a cor de fundo da nuvem de palavras
# colormap define o mapa de cores que será utilizado na nuvem de palavras
# stopwords define as palavras que serão ignoradas na nuvem de palavras
# max_words define o número máximo de palavras que serão exibidas na nuvem de palavras

# Criação e visualização da nuvem de palavras
nuvem.generate(todo_texto)
# generate() é um método da classe WordCloud que gera a nuvem de palavras a partir do texto fornecido
plt.imshow(nuvem)

In [None]:
# Criação de nova lista de palavras, removendo stop words
palavras_semstop = [p for p in palavras if p not in stops]
len(palavras_semstop)

In [None]:
# Remoção da pontuação, gerando uma lista sem stop words e sem pontuação
palavras_sem_pontuacao = [p for p in palavras_semstop if p not in string.punctuation] #string.punctuation é uma string que contém todos os caracteres de pontuação
len(palavras_sem_pontuacao)

In [None]:
# Cálculo da frequência das palavras e visualização das mais comuns
frequencia = nltk.FreqDist(palavras_sem_pontuacao) # FreqDist é uma classe da biblioteca nltk que calcula a frequência das palavras em uma lista de palavras
frequencia

In [None]:
#mais comuns
mais_comuns = frequencia.most_common(100) #mostra as 100 palavras mais comuns
mais_comuns