## Introdução aos Datasets
Neste notebook farei uma rápida introdução ao uso de Datasets!

### Importando as bibliotecas
Nesta etapa iremos apenas importar todas as bibliotecas e funções necessárias para rodar o programa

In [3]:
from pyspark.sql import SparkSession

### Criando uma SparkSession
Por meio de uma SparkSession terei acesso ao SparkContext da minha aplicação.

In [5]:
spark = SparkSession.builder.appName('Select').getOrCreate()

### Carregando os dados
Nesta etapa estamos carregando os dados que utilizaremos neste notebook

In [7]:
dados = spark \
    .read.option("header","true") \
    .option("inferSchema","true") \
    .option("delimiter",";") \
    .format("csv") \
    .load("/FileStore/tables/bank_additional_full-3fd09.csv")

### O que é um Dataset?
<p>Dizemos que Dataframes são Datasets do tipo Row, porque cada linha do meu Dataframe é composta por um objeto da classe Row
Quando utilizamos Datasets, podemos alterar este objeto do tipo Row para um objeto definido por nós mesmos. Tecnicamente, este objeto será
definido por uma Case Class (se for escrito em Scala) ou um Java Bean (se for escrito em Java)
Esta flexibilidade vem com um custo na questão do desempenho

<p>Portanto, você deve preferir usar Datasets se:
* Não for possível realizar sua operação com Dataframes ou
* Você precisa de tipos de dados bem definidos (type-safety). Por exemplo, uma subtração entre duas Strings vai falhar durante a compilação
do código (e não em tempo de execução).

<p>Sempre leve esses pontos em consideracao, já que o uso de datasets prejudicará o desempenho.

In [9]:
case class Bank (
    AGE: Int,
    JOB: String,
    MARITAL: String,
    EDUCATION: String,
    DEFAULT: String,
    HOUSING: String,
    LOAN: String,
    CONTACT: String,
    MONTH: String,
    DAY_OF_WEEK: String,
    DURATION: String,
    CAMPAIGN: Int,
    PDAYS: Int,
    PREVIOUS: Int,
    POUTCOME: String,
    `EMP.VAR.RATE`: Double,
    `CONS.PRICE.IDX`: Double,
    `CONS.CONF.IDX`: Double,
    EURIBOR3M: Double,
    `NR.EMPLOYED`: Double,
    Y: String
)

### Converte para Dataset

In [11]:
dataset = dados.as[Bank]

### Verificando os tipos de objetos

In [13]:
dados

In [14]:
dataset

### Exibindo alguns registros do dataset

In [16]:
dataset.show(5)

Basicamente, tudo que podemos fazer com Dataframes também é aceito em Datasets.<br>

### Obrigado!
Quer construir uma carreira em Data Science? Acesse meu blog pessoal em https://www.hackinganalytics.com/