# Analisando dados com PySpark

Neste notebook, utilizaremos o PySpark para exemplificar como:

- Extrair dados de um arquivo
- Transformar os dados para extrair as informações relevantes
- Analisar as estatísticas de interesse

Para isso, utilizaremos o [MovieLens](https://grouplens.org/datasets/movielens/), um banco de dados com avaliações de usuários para filmes cujos arquivos necessários para este notebook se encontram na pasta `./data/input`.

Com base no dataset, queremos responder a seguinte pergunta: 

> **Quantos filmes foram lançados em cada ano do dataset?**

In [None]:
import os
import pyspark

In [None]:
DATA_FOLDER = './data/'

# Spark

## Inicializando uma SparkSession

A `SparkSession` encapsula uma série de funcionalidades e contextos para utilizarmos nas aplicações do Spark, como:

- SparkContext
- SQLContext
- HiveContext
- Streaming Application

Para criar uma `SparkSession`, utilizaremos os seguintes métodos:
1. **Builder()** para definir as configurações da sessão
2. **appName(**_nome_**)** para definir um nome da sessão
3. **getOrCreate()** para criar uma sessão com tais configurações (caso uma sessão com as mesmas configurações já exista, ela será retornada)

In [None]:
from pyspark.sql import SparkSession
spark = ...

## Extraindo os dados

Os dados de entrada se encontram na pasta `input`. Note que os dados estão em múltiplos arquivos csv. Para isso, utilizaremos os seguintes métodos do módulo `SparkSession.read` para criar um dataframe:
1. **format(**_formato_**)**: para definir o formato do arquivo 
2. **option(**_chave_, _valor_**)**: para definir possíveis configurações de leitura
3. **load(**_caminho_do_arquivo_**)**: para carregar o arquivo

In [None]:
df_movies = ...

## Transformando os dados

Agora que temos um dataframe em mãos, podemos fazer transformações em suas colunas. Em particular, utilizaremos os seguintes métodos:

1. **withColumnRenamed(**_nome_antigo_, _novo_nome_**)** para renomear a coluna `movieId` para `movie_id`
2. **withColumn(**_nova_coluna_, _funcao_**)** para aplicar uma função em uma coluna
3. **pyspark.sql.functions.regexp_extract(**_coluna_, _regexp_**)** para extrair o ano dofilme da coluna `title` (utilize a expressão regular `\((\d{4})\)$`)



In [None]:
import pyspark.sql.functions as f

In [None]:
df_movies = ...

## Analisando os dados

Uma das funcionalidades que facilita a análise de dados utilizando o Spark é o `SparkSQL`, em que podemos fazer consultas nos dados como se estivéssmos utilizando um banco de dados relacional.

A utilização do `SparkSQL` pode ser feita através de 2 métodos:

1. **DataFrame.createOrReplaceTempView(**_nome_**)** para criarmos uma view consultável a partir do dataframe
2. **SessionSpark.sql(**_query_**)** para realizar a consulta

In [None]:
# crie uma view temporaria a partir do dataset


In [None]:
sql_string = ...