## Semana 02 - Big Data

## Bibliotecas

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

## Setup

In [None]:
import findspark
findspark.init()

In [None]:
spark = SparkSession.builder.getOrCreate()

In [None]:
df = spark.createDataFrame([('Pedro', '4'), ('João', '5')], schema = 'nome STRING, id STRING')

In [None]:
df.show()

## Acessando os Tipos de Dados

In [None]:
from pyspark.sql.types import *



In [None]:
int_type = IntegerType()
int_type


In [None]:
array_type = ArrayType(IntegerType())
array_type

## Convertendo os tipos de Colunas

In [None]:
df.dtypes

In [None]:
df.select('nome', col('id').cast(IntegerType())).dtypes

### forma alternativa
IntegerType() == 'int'
StringType() == 'string'
FloatType() == 'float'

ArrayType(IntegralType()) == 'ARRAY<INT>'

In [None]:
df.select('nome', col('id').cast('int')).dtypes


## Schema e Criação de DataFrames
Um schema no Spark é uma especificação de tipos das colunas de um DataFrame. Eles são usados na leitura de dados externos e criação de DataFrames, e podem ser passados diretamente ao Spark ou podem ser inferidos. Passar um schema na leitura traz benefícios interessantes, como:

Evita que o Spark faça inferência de tipos, o que é custoso e demorado dependendo do tamanho do arquivo, além de propenso a erros;
Permite que o usuário identifique erros nos dados logo na leitura, caso os dados não sigam o schema especificado.

In [None]:

df = spark.createDataFrame([('Pedro', 1), ('João', 6), ('Juliana', 4), ('Lucas', 7)], schema = ['nome', 'id'])

In [None]:
df.show()

In [None]:
df.dtypes

## Criando Schemas programaticamente

In [None]:
schema = StructType([
    StructField('nome', StringType()),
    StructField('id', IntegerType())
])

In [None]:
df = spark.createDataFrame([('Pedro', 1), ('João', 6), ('Juliana', 4), ('Lucas', 7)], schema = schema)

In [None]:
df.dtypes

## Criando schemas com DDL

In [None]:
schema = 'nome STRING, id INT'


In [None]:
df = spark.createDataFrame([('Pedro', 1), ('João', 6), ('Juliana', 4), ('Lucas', 7)], schema = schema)

In [None]:
df.dtypes

## Criando DataFrames

In [None]:
data = [('Pedro', 1), ('João', 6), ('Juliana', 4), ('Lucas', 7)]

In [None]:
schema = 'nome STRING, id INT'


In [None]:
df = spark.createDataFrame(data, schema=schema)

In [None]:
df.dtypes

In [None]:
df.schema


In [None]:
df.printSchema()

In [None]:

spark.range(100).show()

In [None]:
#df = spark.createDataFrame(pandas_df)

## Leitura e Escrita de Dados

### DataFrameReader
spark.read.format(format).option(args).load(file/path)

### DataFrameWriter
df.write.format(format).option(args).save(file/path)
Lendo e Escrevendo CSV
Opções mais comuns:

<li>header</li>
<li>inferSchema</li>
<li>sep</li>
<li>encoding</li>

In [None]:
data_path = './'

In [None]:
file_path = 'df_cnae.csv'

In [None]:
df = spark.read.format('csv').load(file_path)

In [None]:
df.limit(15).show()


## Definindo o schema¶

In [None]:
schema = 'cod_cnae STRING, descricao_cnae STRING'


## Opção de Correção 1

In [None]:
df = spark.read.csv(file_path, sep=';', encoding='ISO-8859-1', schema=schema)
df.limit(5).show()

## Opção de Correção 2¶

In [None]:
df = (
    spark.read
    .format('csv')
    .option('sep', ';')
    .option('encoding', 'ISO-8859-1')
    .schema(schema)
    .load(file_path)
)
df.limit(5).show()

## Opção de Correção 3

In [None]:
df = (
    spark.read
    .format('csv')
    .options(sep=';', encoding='ISO-8859-1')
    .schema(schema)
    .load(file_path)
)
df.limit(5).show()


Obs: utilizando o método "options" podemos parametrizar melhor nossa função usando um dicionário


In [None]:
options_dict = {
    'sep': ';',
    'encoding': 'ISO-8859-1',
}

df = (
    spark.read
    .format('csv')
    .options(**options_dict)
    .schema('cod_cnae INT, descricao_cnae STRING')
    .load(file_path)
)
df.limit(5).show()

In [None]:

df.printSchema()

In [None]:
#df.write.format('csv').save('./' + 'df_cnaet_este', header=True)

In [None]:
#spark.read.format('csv').load(data_path + 'df_cnaet_este', header=True).printSchema()


## Lendo e Escrevendo JSON

In [None]:
df.write.format('json').save(data_path + 'df_cnae.json')

In [None]:

df_json = spark.read.format('json').load(data_path + 'df_cnae.json')

In [None]:
df_json.show()

In [None]:
df_json.printSchema()

## Lendo e Escrevendo ORC

In [None]:
formato = 'orc'
df.write.format(formato).save(data_path + 'df_cnae.' + formato)

In [None]:
df_orc = spark.read.format(formato).load(data_path + 'df_cnae.orc')

In [None]:
df_orc.printSchema()

## Lendo e Escrevendo Parquet
Armazenamento colunar, em contraste com o CSV, que armazena baseado nas linhas. Assim, quando uma query é realizada é possível ignorar os dados não relevantes de maneira rápida e fácil, resultando em operações bem mais eficientes;
Preservação de metadados, incluindo os tipos das colunas, o que garante eficiência e praticidade na escrita e leitura (não é necessário especificar schemas para arquivos parquet);
Suporte a dados estruturados de forma aninhada, como listas;
Otimizado para processar dados particionados com volume na casa dos gigabytes para cada arquivo;
Compressão de dados na escrita, de forma a ocupar menos espaço;
Integração com ferramentas como AWS Athena, Amazon Redshift Spectrum, Google BigQuery e Google Dataproc.


In [None]:
df.write.format('parquet').save(data_path + 'df_cnae')

In [None]:
df_parquet = spark.read.format('parquet').load(data_path + 'df_cnae')

In [None]:
df_parquet.printSchema()


mode:

append: arquivos empilhados aos ja existentes
ignore: retorna um erro silencioso
overwrite: sobrescreve os dados já existente
error (default): retorne erro se já existem dados

In [None]:
df.write.format('parquet').mode('overwrite').save(data_path + 'df_cnae')