Este projeto implementa um contador de palavras utilizando o framework Apache Spark. O objetivo do exercício é demonstrar o uso de Spark para processar dados de maneira distribuída, utilizando um arquivo de texto como entrada, e contar o número de ocorrências de cada palavra.

O código foi desenvolvido e executado no Google Colab, utilizando PySpark, e inclui o processamento de um arquivo de texto simples (README.md) para contar as palavras presentes no arquivo.


# **Instalação de Dependências**
## Instalação do PySpark e do Java no ambiente do Google Colab para permitir o uso do Spark.

In [4]:
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!pip install pyspark

Collecting pyspark
  Downloading pyspark-3.5.3.tar.gz (317.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m317.3/317.3 MB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.5.3-py2.py3-none-any.whl size=317840625 sha256=72ea4768c57df806f6a345b3e256f94722555c5902108d39f0c403c416037ce5
  Stored in directory: /root/.cache/pip/wheels/1b/3a/92/28b93e2fbfdbb07509ca4d6f50c5e407f48dce4ddbda69a4ab
Successfully built pyspark
Installing collected packages: pyspark
Successfully installed pyspark-3.5.3


# **Inicialização da Sessão Spark**
## Criação de uma sessão do Spark, para processar os dados no framework.

In [5]:
from pyspark.sql import SparkSession

In [6]:
spark = SparkSession.builder \
    .appName("Contador de Palavras") \
    .getOrCreate()

# **Leitura do Arquivo de Texto**
## O arquivo de texto é carregado no Spark para ser processado. Neste caso, o arquivo README.md foi utilizado.

In [7]:
from google.colab import files

In [8]:
uploaded = files.upload()

Saving README.md to README.md


# **Processamento de Dados e Contagem de Palavras**
## O arquivo é processado com Spark RDDs para dividir o texto em palavras e calcular o número de ocorrências de cada uma.

In [9]:
text_file = spark.read.text("README.md")

words = text_file.rdd.flatMap(lambda line: line[0].split())

word_counts = words.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)

results = word_counts.collect()
for word, count in results:
    print(f"{word}: {count}")


##: 1
Na: 1
Sprint: 1
7: 1
foi: 3
desenvolvido:: 1
A: 1
parte: 1
2: 2
da: 2
entrega: 2
do: 8
desafio,: 1
ingestão: 1
po: 1
api,: 1
além: 1
de: 20
exercicios: 1
no: 9
laboratório: 1
Glue,: 1
leitura: 1
sobre: 2
o: 5
hadoop,: 1
também: 2
pude: 1
botar: 1
em: 5
prática: 1
que: 1
aprendido: 1
curso: 4
spark: 1
exercicio: 1
contador: 1
palavras: 1
com: 4
pyspark.: 1
1.: 1
**No: 1
Spark: 6
foram: 2
abordados: 1
os: 4
seguintes: 1
tópicos:**: 1
-: 22
DataFrames: 1
e: 10
RDDS: 1
SQL: 1
Aplicações: 1
Otimizações: 1
Outros: 1
aspectos: 1
como:: 1
notebook: 1
Jupyter: 1
Converter: 1
Pandas: 1
pra: 1
DataFrame: 1
UI: 1
2.: 1
**Na: 1
Desafio: 1
desenvolvido:**: 1
Configuração: 2
API: 3
acesso: 1
à: 2
TMDB,: 1
incluindo: 2
armazenamento: 1
seguro: 1
credenciais: 1
um: 4
arquivo: 1
.env.: 1
Desenvolvimento: 1
Script: 1
Ingestão: 1
Criação: 1
script: 1
Python: 1
(API-ingestao.py): 1
responsável: 1
por: 2
realizar: 1
chamadas: 1
TMDB: 1
coletar: 1
dados: 4
filmes: 1
séries,: 1
agrupando: 1
as: 2
inform

# **Encerramento da Sessão Spark**
## Após o processamento, a sessão Spark é encerrada para liberar os recursos.

In [10]:
spark.stop()