# Job 1 | Conta palavras

## Spark Shell | via pyspark

- A contagem de palavras foi realizada com o arquivo REAMDE.md desta Sprint (7).

Segue a sequência de comandos fornecidos ao pyspark dividido por etapas:

### 1. Importações

In [12]:
# Jupyter Notebook
# import findspark
# findspark.init()


# Spark
# import pyspark
from pyspark.sql import SparkSession
from pyspark import SparkContext, SQLContext
spark = SparkSession.builder.master("local[*]").appName('Conta Palavras').getOrCreate()

# On Docker_Shell
import re
from pyspark.sql.functions import col, count, expr, explode, split

### 2. Entradas

In [13]:
# Local
# arquivo = spark.read.text("../../README.md")

# On Docker_Shell
arquivo = spark.read.text("dados_brutos/README.md")

### 3. Processamento

In [14]:
# Local
separa_palavras = lambda texto: re.split(r'[^\w]+', texto)

# On Shell
## Separe as palavras por cada caractere especial encontrado, não incluindo os acentos
df_palavras = arquivo.select(explode(split(arquivo["value"], r'[^\p{L}\w]+')).alias("palavras"))

## Remova linhas em branco
df_sem_linhas_em_branco = df_palavras.filter(col("palavras").isNotNull() & (col("palavras") != ""
))

## Contagem das palavras
contagem_palavras = df_sem_linhas_em_branco.groupBy("palavras").agg(count("*").alias("Quantidade"))

## Ordenação decrescente pela quantidade
df_ordenado = contagem_palavras.orderBy(col("Quantidade").desc())

### 4. Saída

In [16]:
df_ordenado.show()

+---------+----------+
| palavras|Quantidade|
+---------+----------+
|       da|         7|
|        e|         5|
|       de|         5|
|     Glue|         3|
|      AWS|         3|
|   Sprint|         3|
|       os|         3|
|      Job|         2|
|       se|         2|
|estudados|         2|
|      Lab|         2|
|  últimas|         2|
| entregas|         2|
|       as|         2|
|        a|         2|
|  aplicar|         2|
|  prática|         2|
|  compass|         2|
|    Dados|         2|
|      nas|         2|
+---------+----------+
only showing top 20 rows



## Spark Shell | via spark-submit

- Contagem de palavras passando um script e o arquivo para executar o trabalho.

O comando a ser executado pela linha de comando foi:

    spark-submit job_conta_palavras.py -i dados_brutos/README.md -o dados_processados/conta_palavras
    

### Script 

In [None]:
import sys
from pyspark.sql.functions import *

if __name__ == "__main__":
    
    arquivo = spark.read.csv("", header=True, schema=schema)
    
    # Job