## Módulo: Analytics Engineering

<br>

## Aula 1 - Parte 1

### Programação da Aula 1:

> ### 1. **Apresentar o formulário de pesquisa**: 
https://forms.gle/A9JnGrRYGZSJjoRe9
> ### 2. **O que são camadas especializadas**;
> ### 3. **Implementando camadas especializadas**;
> ### 4. **Desenvolvimento de exercício**;


#### Link para o formulário de Feedback da aula:
https://forms.gle/qWeiHdZZ48RHUxUL8

<div style="text-align: center;">

<br>

## Geração de camadas especializadas

<img src="https://www.databricks.com/wp-content/uploads/2019/08/Delta-Lake-Multi-Hop-Architecture-Bronze.png"  width="80%" height="60%">

###### Fonte: https://www.databricks.com/wp-content/uploads/2019/08/Delta-Lake-Multi-Hop-Architecture-Bronze.png
<br>


### Instalação das bibliotecas para conectar com o banco de dados

In [None]:
!pip install ipython-sql
!pip install sqlalchemy
!pip install psycopg2

### Chamada da biblioteca para usar o SQL

In [None]:
%load_ext sql

In [None]:
from sqlalchemy import create_engine, text as sql_text
import pandas as pd
import datetime

### Configuração com as informações do banco de dados

In [None]:
%sql postgresql://postgres:ada@localhost/ada

In [None]:
engine = create_engine('postgresql://postgres:ada@localhost/ada')

### Primeiro comando SQL

In [None]:
%%sql

SELECT * 

FROM first_table

### Comando SQL com o Pandas

In [None]:
query = """
SELECT * 
FROM first_table
"""
df = pd.read_sql(sql=sql_text(query), con=engine.connect())
df

### Cria um dataframe Pandas e armazena no Banco de dados

In [None]:
dados = {'ID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15],
         'idade': [30, 18, 67, 45, 19, 21, 25, 36, 46, 59, 72, 25, 37, 14, 59],
         'Local': ['Manaus', 'Fortaleza', 'Fortaleza', 'Sao Paulo', 'Sao Paulo', 'Belo Horizonte', 'Curitiba', 'Goiania', 'Manaus', 'Goiania', 'Belo Horizonte', 'Vitoria', 'Curitiba', 'Maceio', 'Rio de Janeiro']}

base_dados = pd.DataFrame(dados)
base_dados['load_date'] = datetime.datetime.now()
base_dados

In [None]:
base_dados.to_sql('base_usuarios', engine, if_exists='replace', index=False)

### Criar novos dados a partir de um DataFrame Pandas e insere na tabela criada

In [None]:
dados = {'ID': [16, 17],
         'idade': [29, 72],
         'Local': ['Belo Horizonte', 'Fortaleza']}

novos_dados = pd.DataFrame(dados)
novos_dados['load_date'] = datetime.datetime.now()
novos_dados

In [None]:
novos_dados.to_sql('base_usuarios', engine, if_exists='append', index=False)

### API Alpha Vantage - extração de dados sobre finanças.
### Exemplo sobre a extração da série temporal dos resultados financeiros da IBM

In [None]:
%run ./config.ipynb

In [5]:
import requests 

url = 'https://www.alphavantage.co/query?function=TIME_SERIES_INTRADAY&symbol=IBM&interval=60min&apikey=8ECGDJ7MPTX3JB9W'
r = requests.get(url)
data = r.json()

data

{'Meta Data': {'1. Information': 'Intraday (60min) open, high, low, close prices and volume',
  '2. Symbol': 'IBM',
  '3. Last Refreshed': '2023-10-06 19:00:00',
  '4. Interval': '60min',
  '5. Output Size': 'Compact',
  '6. Time Zone': 'US/Eastern'},
 'Time Series (60min)': {'2023-10-06 19:00:00': {'1. open': '142.0300',
   '2. high': '142.4500',
   '3. low': '142.0300',
   '4. close': '142.0400',
   '5. volume': '438686'},
  '2023-10-06 18:00:00': {'1. open': '142.0900',
   '2. high': '142.2000',
   '3. low': '142.0300',
   '4. close': '142.2000',
   '5. volume': '438610'},
  '2023-10-06 17:00:00': {'1. open': '142.0300',
   '2. high': '142.2000',
   '3. low': '142.0100',
   '4. close': '142.2000',
   '5. volume': '1519'},
  '2023-10-06 16:00:00': {'1. open': '142.0200',
   '2. high': '142.4500',
   '3. low': '141.6900',
   '4. close': '142.4000',
   '5. volume': '1441590'},
  '2023-10-06 15:00:00': {'1. open': '142.7200',
   '2. high': '142.7400',
   '3. low': '141.9400',
   '4. clo

### Cria um Dataframe do Pandas a partir dos dados extraídos da API

In [None]:
import pandas as pd

dict_res = data['Time Series (60min)']

df_bronze = pd.DataFrame.from_dict(dict_res, orient='index').reset_index().rename(columns={"index": "datetime"})
df_bronze

### Prepara os tipos de cada coluna e depois armazena os resultados no banco na camada bronze

In [None]:
import sqlalchemy as sqlal
dict_dtype={'datetime': sqlal.DateTime(), 
             '1. open':  sqlal.types.Float(precision=5, asdecimal=True),
             '2. high': sqlal.types.Float(precision=5, asdecimal=True),
             '3. low': sqlal.types.Float(precision=5, asdecimal=True),
             '4. close': sqlal.types.Float(precision=5, asdecimal=True),
             '5. volume': sqlal.types.INTEGER()}

In [None]:
df_bronze.to_sql('ibm_prices_bronze', engine, if_exists='replace', index=False, dtype=dict_dtype)

### Leitura da tabela bronze

In [None]:
query = """
SELECT * 
FROM ibm_prices_bronze
"""
df_silver = pd.read_sql(sql=sql_text(query), con=engine.connect())
df_silver

### Padroniza o nome das colunas da tabela bronze

In [None]:
df_silver.columns = df_silver.columns.str.replace(r'\W', '_', regex=True)
df_silver

### Adiciona uma nova coluna calculada e efetua uma limpeza simples

In [None]:
df_silver['diff_high_low'] = df_silver['2__high'] - df_silver['3__low'] 

df_silver = df_silver.dropna(subset=['datetime'])

values = {"1__open": 0, "2__high": 0, "3__low": 0, "4__close": 0, "5__Volumne": -1}
df_silver.fillna(value=values)
df_silver

### Define os tipos de dados e armazena os resultados como tabela silver

In [None]:
dict_dtype={'datetime': sqlal.DateTime(), 
             '1__open':  sqlal.types.Float(precision=5, asdecimal=True),
             '2__high': sqlal.types.Float(precision=5, asdecimal=True),
             '3__low': sqlal.types.Float(precision=5, asdecimal=True),
             '4__close': sqlal.types.Float(precision=5, asdecimal=True),
             '5__volume': sqlal.types.INTEGER(),
             'diff_high_low': sqlal.types.Float(precision=5, asdecimal=True)}

In [None]:
df_silver.to_sql('ibm_prices_silver', engine, if_exists='replace', index=False, dtype=dict_dtype)

### Leitura da tabela silver

In [None]:
query = """
SELECT * 
FROM ibm_prices_silver
"""
df_gold = pd.read_sql(sql=sql_text(query), con=engine.connect())
df_gold

### Calcula os resultados por dia

In [None]:
df_gold['date'] = df_gold['datetime'].dt.date
df_gold = df_gold.groupby('date').agg(max_high=("2__high", "max"), 
                                      min_low=("3__low", "min"), 
                                      mean_diff_high_low=("diff_high_low", "mean"))
df_gold

### Prepara os tipos de cada coluna e armazena os dados na camada Gold

In [None]:
dict_dtype={'date': sqlal.Date(), 
             'max_high':  sqlal.types.Float(precision=5, asdecimal=True),
             'min_low': sqlal.types.Float(precision=5, asdecimal=True),
             'mean_diff_high_low': sqlal.types.Float(precision=5, asdecimal=True)}

In [None]:
df_gold.to_sql('ibm_prices_gold', engine, if_exists='replace', index=True, dtype=dict_dtype)