# Apache Spark

## Etapa 1

### Instruções

Inicialmente iremos preparar o ambiente, definindo o diretório onde nosso código será desenvolvido. Para este diretório iremos copiar o arquivo nomes_aleatorios.txt.

Após, em nosso script Python, devemos importar as bibliotecas necessárias:

```
from pyspark.sql import SparkSession

from pyspark import SparkContext, SQLContext
```
Aplicando as bibliotecas do Spark, podemos definir a Spark Session e sobre ela definir o Context para habilitar o módulo SQL

```spark = SparkSession \

                .builder \

                .master("local[*]")\

                .appName("Exercicio Intro") \

                .getOrCreate()```

Nesta etapa, adicione código para ler o arquivo nomes_aleatorios.txt através do comando spark.read.csv. Carregue-o para dentro de um dataframe chamado df_nomes e, por fim, liste algumas linhas através do método show. Exemplo: df_nomes.show(5)

### Código

In [36]:
# Importa a biblioteca findspark para iniciar o serviço do Spark na máquina que hospeda o meu notebook
import findspark
findspark.init()
import pyspark

# Importa demais bibliotecas necessárias
from pyspark.sql import SparkSession
from pyspark import SparkContext, SQLContext

# Aplica as bibliotefcas do spark
spark = SparkSession\
    .builder\
    .master("local[*]")\
    .appName("Exercicio Intro")\
    .getOrCreate()

# Lê o arquivo de texto
df_nomes = spark.read.csv("Files/nomes_aleatorios.txt")

# Exibe 5 linhas do dataframe
df_nomes.show(5)

+----------------+
|             _c0|
+----------------+
|    David Staten|
|  Heather Rivera|
|     Lester Wood|
|William Sandoval|
| Gwendolyn Hines|
+----------------+
only showing top 5 rows



## Etapa 2

### Instruções

No Python, é possível acessar uma coluna de um objeto dataframe pelo atributo (por exemplo df_nomes.nome) ou por índice (df_nomes['nome']). Enquanto a primeira forma é conveniente para a exploração de dados interativos, você deve usar o formato de índice, pois caso algum nome de coluna não esteja de acordo seu código irá falhar.

Como não informamos no momento da leitura do arquivo, o Spark não identificou o Schema por padrão e definiu todas as colunas como string. Para ver o Schema, use o método df_nomes.printSchema().

Nesta etapa, será necessário adicionar código para renomear a coluna para Nomes, imprimir o esquema e mostrar 10 linhas do dataframe.

### Código

In [53]:
# Renomeia a coluna para Nomes
df_nomes = df_nomes.withColumnRenamed("_c0", "Nomes")
# Exibe o esquema
df_nomes.printSchema()
# Exibe 10 linhas do dataframe
df_nomes.show(10)

root
 |-- Nomes: string (nullable = true)

+------------------+
|             Nomes|
+------------------+
|      David Staten|
|    Heather Rivera|
|       Lester Wood|
|  William Sandoval|
|   Gwendolyn Hines|
|Constance Mcmillan|
|        Billy Diaz|
|      Marcos Rolfe|
|         Cara Cole|
|         John Gant|
+------------------+
only showing top 10 rows

