## Vamos trabalhar com os dados abertos do ONS - Operador Nacional do Sistema Elétrico.

### Optei por trabalhar com os dados de Carga de Energia. Definição conforme site: [Dados de carga por subsistema numa data de referência em base diária.](https://dados.ons.org.br/dataset/carga-energia)

### Nessa etapa de exploração, iremos analisar o resultado da etapa de transformação.

In [1]:
import os
import pyspark

from pyspark import SparkContext
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
from pyspark.sql.types import *

In [2]:
sc = SparkContext.getOrCreate()

spark = (SparkSession
      .builder
      .getOrCreate()
     )

print('ApplicationID:', sc.applicationId)

ApplicationID: local-1631037767489


### Caminho de Leitura e load do Dataframe

In [3]:
read_path = '../data/refined/02_transform/'

df = spark.read.parquet(read_path)

print(f'Número de registros: {df.count()}')

Número de registros: 31649


### Os tipos das variáveis estão de acordo com os propostos

In [4]:
df.printSchema()

root
 |-- id_subsistema: byte (nullable = true)
 |-- nom_subsistema: string (nullable = true)
 |-- din_instante: date (nullable = true)
 |-- val_cargaenergiamwmed: double (nullable = true)



### Exploração das variáveis

#### Verificamos apenas 17 nulos em 'val_cargaeenergiamwmed', então espera-se obter o mesmo resultado

In [5]:
for variavel in df.columns:
    print(f'Número de \'{variavel}\' nulos: {df.filter(F.col(variavel).isNull()).count()}')

Número de 'id_subsistema' nulos: 0
Número de 'nom_subsistema' nulos: 0
Número de 'din_instante' nulos: 0
Número de 'val_cargaenergiamwmed' nulos: 17


#### É possível analisar a distribuição por ano dos registros

In [6]:
df.groupBy(F.year(F.col('din_instante')).alias('ano')).count().orderBy(F.col('ano')).show(30)

+----+-----+
| ano|count|
+----+-----+
|2000| 1464|
|2001| 1460|
|2002| 1460|
|2003| 1460|
|2004| 1464|
|2005| 1460|
|2006| 1460|
|2007| 1460|
|2008| 1464|
|2009| 1460|
|2010| 1460|
|2011| 1460|
|2012| 1464|
|2013| 1461|
|2014| 1460|
|2015| 1460|
|2016| 1464|
|2017| 1460|
|2018| 1460|
|2019| 1460|
|2020| 1464|
|2021|  964|
+----+-----+



In [7]:
sc.stop()