# Projeto Spark Code

Esse projeto visa trazer informações do [Banco Central do Brasil](https://dadosabertos.bcb.gov.br/), e realizar estudos em cima disso.

Utilizando ferramentas atualizadas e importantes no mercado de tecnologia.
Entre elas:
- Ngrok
- Apache Spark
- Google Colab
- Google Drive
- GCP 

### Documentações Utilizadas:

[GCP para Big Data](https://cloud.google.com/architecture/build-a-data-lake-on-gcp?hl=pt-br#cloud-storage-as-data-lake)

### Fontes Utilizadas:
- [Indicador de Custo do Crédito - ICC - Crédito direcionado](https://dadosabertos.bcb.gov.br/dataset/25357-indicador-de-custo-do-credito---icc---credito-direcionado)

  Conceito: Custo médio das operações de crédito que integram a carteira de empréstimos, financiamentos e arrendamento mercantil das instituições financeiras integrantes do Sistema Financeiro Nacional. Inclui todas as operações em aberto classificadas no ativo circulante, independente da data de contratação do crédito.

 **Fonte: Banco Central do Brasil – Departamento de Estatísticas**



## Configurações

In [1]:
# instalar as dependências
!apt-get update -qq
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://archive.apache.org/dist/spark/spark-3.1.2/spark-3.1.2-bin-hadoop2.7.tgz
!tar xf spark-3.1.2-bin-hadoop2.7.tgz
!pip install -q findspark

In [2]:
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.1.2-bin-hadoop2.7"

In [3]:
import findspark
findspark.init()

## Download e extração dos arquivos do ngrok

Link de apoio: (https://dashboard.ngrok.com/get-started/setup)

In [4]:
!wget -q https://bin.equinox.io/c/4VmDzA7iaHb/ngrok-stable-linux-amd64.zip
!unzip ngrok-stable-linux-amd64.zip

Archive:  ngrok-stable-linux-amd64.zip
  inflating: ngrok                   


### Configuração do Authtoken obtido no site do ngrok

In [5]:
get_ipython().system_raw('./ngrok authtoken 2PsAql4UytDT4URhHVThKcBvwin_2PAPWHdDtoPoZRqRXi7bg')
get_ipython().system_raw('./ngrok http 80 &')

### Verificando se a autenticação e a porta funciona

In [6]:
!curl -s http://localhost:4040/api/tunnels

{"tunnels":[],"uri":"/api/tunnels"}


# Realizando conexão com Google Drive

In [None]:
from google.colab import drive
drive.mount('/content/drive')

# Sessão SparkSession

Uma SparkSession pode ser usada para criar DataFrames, registrar DataFrames como tabelas, executar comandos SQL sobre tabelas, armazenar tabelas em cache e ler arquivos em diferentes formatos.

In [None]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .master('local[*]') \
    .appName("Iniciando com Spark") \
    .config('spark.ui.port', '80') \
    .getOrCreate()

# Realizando a leitura dos dados

Para arquivos .zip

In [None]:
# import zipfile

# zipfile.ZipFile('path_arquivo', 'r').extractall('path_destino')

Leitura de CSV

In [None]:
path = '/content/drive/MyDrive/data_sources/banco_central/credito_direcionado/indicador_custo.csv'
df = spark.read.csv(path, sep=';', inferSchema=True)