Dracula: a brief analysis to the most common words in Dracula, by Bram Stoker

This notebook is also available in Dev Community, both portuguese and english 🌎.

Check this notebook out in english 😉.

Este notebook também está disponível em forma de artigo no Dev Community, tanto em português como em inglês 🌎.

Confira esse notebook em português 😉.

💻 Sobre o projeto

Considerado como um marco da literatura gótica, o icônico livro Drácula, escrito em 1897 por Bram Stoker, desperta até hoje o fascínio das pessoas por todo o mundo. A fim de consolidar os conhecimentos iniciais do Apache Spark, desenvolveu-se este notebook para analisar as principais palavras mais comuns encontradas neste clássico livro.

O processo de análise consiste nas seguintes etapas:

Download do livro Drácula, por Bram Stoker;
Inicialização do Apache Spark e leitura do livro;
Download das stopwords encontradas no idioma inglês;
Extração individual das palavras em cada uma das linhas;
Explodindo a lista de palavras em colunas no DataFrame;
Transformando todas as palavras em minúsculas;
Eliminação de pontuação;
Remoção de valores nulos;
Remoção das stopwords;
Análise das palavras mais comuns;

🛠 Tecnologias

A análise foi desenvolvida com a linguagem python, utilizando o Jupyter Notebook no Google Colab, assim como a biblioteca PySpark para a limpesa e análise dos dados.

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
A brief analysis to the most common words in Dracula, by Bram Stoker.ipynb		A brief analysis to the most common words in Dracula, by Bram Stoker.ipynb
README.md		README.md
Uma_breve_análise_das_palavras_mais_comuns_em_Drácula,_por_Bram_Stoker.ipynb		Uma_breve_análise_das_palavras_mais_comuns_em_Drácula,_por_Bram_Stoker.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Dracula: a brief analysis to the most common words in Dracula, by Bram Stoker

💻 Sobre o projeto

🛠 Tecnologias

About

Releases

Packages

Languages

geazi-anc/dracula

Folders and files

Latest commit

History

Repository files navigation

Dracula: a brief analysis to the most common words in Dracula, by Bram Stoker

💻 Sobre o projeto

🛠 Tecnologias

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages