## Carregando dados no Spark
Este é o primeiro notebook do curso de manipulação de dados com pyspark!<br>
Não conseguiremos fazer nada sem dados...portanto, vamos começar importando os dados em um Spark Dataframe

### Importando as bibliotecas
Nesta etapa iremos apenas importar todas as bibliotecas e funções necessárias para rodar o programa

In [3]:
from pyspark.sql.types import StructField, StructType, StringType, DoubleType, IntegerType
from pyspark.sql import SparkSession

### Criando uma SparkSession
Por meio de uma SparkSession terei acesso ao SparkContext da minha aplicação.

In [5]:
# Inicia uma sparkSession
spark = SparkSession \
    .builder \
    .appName("Meu curso de pyspark") \
    .getOrCreate()

### Carregando dados a partir de um arquivo CSV
Para este curso, os dados foram disponibilizados em um arquivo CSV. O que vamos fazer a seguir é justamente importar estes dados para um Dataframe

In [7]:
dados = spark \
    .read.option("header","true") \
    .option("inferSchema","true") \
    .option("delimiter",";") \
    .format("csv") \
    .load("/FileStore/tables/bank_additional_full-3fd09.csv")

### Verificando a estrutura do Dataframe
Após carregar os dados é bastante prudente confirmar se tudo correu bem! A seguir veremos alguns comandos úteis para realizar uma rápida checagem nos dados.

**Verificar o nome das colunas e tipo de dados**

In [10]:
dados.printSchema()

**Exibindo os primeiros registros do Dataframe**

In [12]:
dados.show(2)

**Retornando os primeiros registros do Dataframe (no formato de objetos)**

In [14]:
# Retorna os primeiros registros
dados.head(2)

**Retorna algumas estatisticas das colunas do Dataframe**

In [16]:
dados.select(dados["age"]).describe().show()

**Retorna as colunas do Dataframe**

In [18]:
dados.columns

### Definindo os tipos de dados ao carregar o Dataframe
No primeiro comando que utilizamos para carregar os dados, você deve ter notado que não tivemos que especificar os tipos de dados das colunas. <br>
Na realidade, especificamos a opção "option("inferSchema","true")", assim o próprio Spark se encerregou de identificar e definir os tipos de dados de cada coluna do nosso Dataframe.<br>
A seguir, nós mesmos iremos especificar estes tipos de dados!

**Carrega dados usando schema**

In [21]:
myManualSchema = StructType([
StructField("age", IntegerType(), True),
StructField("job", StringType(), True),
StructField("marital", StringType(), True),
StructField("education", StringType(), True),
StructField("default", StringType(), True),
StructField("housing", StringType(), True),
StructField("loan", StringType(), True),
StructField("contact", StringType(), True),
StructField("month", StringType(), True),
StructField("day_of_week", StringType(), True),
StructField("duration", StringType(), True),
StructField("campaign", IntegerType(), True),
StructField("pdays", IntegerType(), True),
StructField("previous", IntegerType(), True),
StructField("poutcome", StringType(), True),
StructField("emp.var.rate", DoubleType(), True),
StructField("cons.price.idx", DoubleType(), True),
StructField("cons.conf.idx", DoubleType(), True),
StructField("euribor3m", DoubleType(), True),
StructField("nr.employe", DoubleType(), True),
StructField("y", StringType(), True)
])

**Carrega os dados usando schema**

In [23]:
dados_schema = spark.read.option("header","true").option("delimiter",";").option("mode", "FAILFAST").schema(myManualSchema).format("csv").load("/FileStore/tables/bank_additional_full-3fd09.csv")

**Mostra alguns dados**

In [25]:
dados_schema.show(5)

### Escreve para um arquivo
Finalmente, também é importante saber que podemos fazer o caminho inverso e salvar dados de um Dataframe em um arquivo

In [27]:
dados.write.format("csv").mode("overwrite").option("sep", "\t").save("my-tsv-file.csv")

### Obrigado!
Quer construir uma carreira em Data Science? Acesse meu blog pessoal em https://www.hackinganalytics.com/