Skip to content

geazi-anc/dracula

Repository files navigation

Dracula: a brief analysis to the most common words in Dracula, by Bram Stoker

This notebook is also available in Dev Community, both portuguese and english 🌎.

Check this notebook out in english 😉.


Este notebook também está disponível em forma de artigo no Dev Community, tanto em português como em inglês 🌎.

Confira esse notebook em português 😉.


💻 Sobre o projeto

Considerado como um marco da literatura gótica, o icônico livro Drácula, escrito em 1897 por Bram Stoker, desperta até hoje o fascínio das pessoas por todo o mundo. A fim de consolidar os conhecimentos iniciais do Apache Spark, desenvolveu-se este notebook para analisar as principais palavras mais comuns encontradas neste clássico livro.

O processo de análise consiste nas seguintes etapas:

  1. Download do livro Drácula, por Bram Stoker;
  2. Inicialização do Apache Spark e leitura do livro;
  3. Download das stopwords encontradas no idioma inglês;
  4. Extração individual das palavras em cada uma das linhas;
  5. Explodindo a lista de palavras em colunas no DataFrame;
  6. Transformando todas as palavras em minúsculas;
  7. Eliminação de pontuação;
  8. Remoção de valores nulos;
  9. Remoção das stopwords;
  10. Análise das palavras mais comuns;

🛠 Tecnologias

A análise foi desenvolvida com a linguagem python, utilizando o Jupyter Notebook no Google Colab, assim como a biblioteca PySpark para a limpesa e análise dos dados.

About

a brief analysis to the most common words in Dracula, by Bram Stoker

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published