-sandbox
<img width = '500' src="https://databricks.com/wp-content/uploads/2021/06/db-pride-logo.svg" style="float: left: margin: 30px"/>        <img src="https://files.training.databricks.com/images/Apache-Spark-Logo_TM_200px.png" style="float: left: margin: 10px"/>

<br>
> # Raw para Bronze 

<br>
## 05 - Dados Macro

Processamento de dados externos para apoiar nossa tomada de decisão

Uma das fontes são os Dados Macroeconômicos sem conexão com nossos conjuntos de dados internos: recebemos esses dados todos os meses do banco central, contendo indicadores macroeconômicos como desemprego e o PIB
  
Isso ajuda a construir uma única métrica decimal, que é usada para atualizar as pontuações de crédito dos investidores. Essas pontuações de crédito servem como base para a aprovação ou negação de solicitações de empréstimo


## Objetivos:
* Crie uma tabela Delta a partir do CSV de dados de macro
* Defina o esquema e grave o DataFrame no diretório especificado
* Definir um esquema CSV manualmente

-sandbox
<h2 style="color:red">Informações:</h2>


- esta é a última tabela bronze
- usar dados de terceiros para atualizar métricas é uma prática comum
- vantagens de importar esses dados no data lake
- diferentes opções de definição de esquema, incluindo DDL

## ![Spark Logo Tiny](https://files.training.databricks.com/images/105/logo_spark_tiny.png) Configurações úteis<br>

In [0]:
%run ./Includes/06-ClassroomSetup

## ![Spark Logo Tiny](https://files.training.databricks.com/images/105/logo_spark_tiny.png) Etapas a serem concluídas: 


<br>
- Explore o esquema do arquivo CSV: use o comando **`%fs head`** em uma nova célula. <a href="https://docs.databricks.com/dev-tools/databricks-utils.html#dbutils-fs" target="_blank"> Documentação </a>
- Leia o arquivo CSV de fornecedores de **`macroDataPath`** em um DataFrame
- Defina o esquema de acordo com a tabela abaixo
- Grave o DataFrame final como uma tabela Delta em **`targetDirectory`**
- Retorne o DataFrame final, que deve ter o seguinte esquema:

|name|type|
|---|---|
|date|DateType|
|fedfunds|DoubleType|
|gdp|FloatType|
|bamlh0a0hym2|FloatType|
|gfdegdq188s|FloatType|
|indpro|FloatType|
|a191rl1q225sbea|FloatType|
|indgs10dpro|FloatType|
|unrate|FloatType|
|dexuseu|FloatType|

In [0]:
%fs head dbfs:/mnt/training/finance-org/macro/macro.csv

In [0]:
def func_DadosMacro(spark, macroDataPath, targetDirectory):
  
  
  from pyspark.sql.functions import col
  from pyspark.sql.types import IntegerType
  
  
  # Defina o esquema de acordo com as "Etapas a serem concluídas"
  macroSchema = """ date DATE, 
                    fedfunds DOUBLE, 
                    gdp FLOAT, 
                    bamlh0a0hym2 FLOAT, 
                    gfdegdq188s FLOAT, 
                    indpro FLOAT, 
                    a191rl1q225sbea FLOAT, 
                    dgs10 FLOAT, 
                    unrate FLOAT, 
                    dexuseu FLOAT
                """
  
  
  # Leia macroDataPath e certifique-se de que:
  # a primeira linha é o cabeçalho e
  # o delimitador correto é especificado.
  df = (spark.read
             .schema(macroSchema)
             .option("header", True)
             .option("delimiter", ";")
             .csv(macroDataPath)
             .dropna())
  

  # Grave o DataFrame final como uma tabela Delta em targetDirectory
  # Certifique-se de deixar o Spark sobrescrever o local de destino
  (df.write
     .mode("overwrite")
     .option("overwriteSchema", "true")
     .format("delta")
     .save(targetDirectory))
  

  return df

In [0]:
dfFinal = func_DadosMacro(spark, macroDataPath, targetDirectory)

In [0]:
display(dfFinal)

date,fedfunds,gdp,bamlh0a0hym2,gfdegdq188s,indpro,a191rl1q225sbea,dgs10,unrate,dexuseu
2010-01-01,0.18,14721.35,6.85,86.76598,91.6642,3.7,3.62,9.8,1.3699
2010-02-01,0.18,14721.35,6.85,86.76598,91.994,3.7,3.62,9.8,1.3699
2010-02-08,0.18,14721.35,6.85,86.76598,91.994,3.7,3.62,9.8,1.3699
2010-02-09,0.18,14721.35,6.88,86.76598,91.994,3.7,3.67,9.8,1.3795
2010-02-10,0.18,14721.35,6.93,86.76598,91.994,3.7,3.72,9.8,1.3722
2010-02-11,0.18,14721.35,6.98,86.76598,91.994,3.7,3.73,9.8,1.364
2010-02-12,0.18,14721.35,7.03,86.76598,91.994,3.7,3.69,9.8,1.3625
2010-02-16,0.18,14721.35,7.02,86.76598,91.994,3.7,3.66,9.8,1.3742
2010-02-17,0.18,14721.35,6.8,86.76598,91.994,3.7,3.74,9.8,1.3623
2010-02-18,0.18,14721.35,6.65,86.76598,91.994,3.7,3.79,9.8,1.3563


<h2><img src="https://files.training.databricks.com/images/105/logo_spark_tiny.png"> Qualidade dos dados</h2>

In [0]:


assert \
      (spark.read
           .schema(""" date DATE, 
                       fedfunds DOUBLE, 
                       gdp FLOAT, 
                       bamlh0a0hym2 FLOAT, 
                       gfdegdq188s FLOAT, 
                       indpro FLOAT, 
                       a191rl1q225sbea FLOAT, 
                       dgs10 FLOAT, 
                       unrate FLOAT, 
                       dexuseu FLOAT
                   """)
            .option("delimiter", ";")
            .option("header", True)
            .csv(macroDataPath)
            .dropna()
            .count()) \
== \
      (dfFinal.count()) \
, displayHTML("""<font size="5" color="red" face="sans-serif">Validação: falhou !!!</font>""")

displayHTML("""<font size="5" color="green" face="sans-serif">Validação: correta !!!</font>""")

In [0]:
from pyspark.sql.types import StructType, StructField, DoubleType, FloatType, DateType

schemaOriginal = (StructType([
                               StructField("date"             ,DateType()    ,True),
                               StructField("fedfunds"         ,DoubleType()  ,True),
                               StructField("gdp"              ,FloatType()   ,True),
                               StructField("bamlh0a0hym2"     ,FloatType()   ,True),
                               StructField("gfdegdq188s"      ,FloatType()   ,True),
                               StructField("indpro"           ,FloatType()   ,True),
                               StructField("a191rl1q225sbea"  ,FloatType()   ,True),
                               StructField("dgs10"            ,FloatType()   ,True),
                               StructField("unrate"           ,FloatType()   ,True),
                               StructField("dexuseu"          ,FloatType()   ,True)
                              ]))

In [0]:
assert dfFinal.schema == schemaOriginal, displayHTML("""<font size="5" color="red" face="sans-serif">Validação: falhou !!!</font>""")

displayHTML("""<font size="5" color="green" face="sans-serif">Validação: correta !!!</font>""")

<h2><img src="https://files.training.databricks.com/images/105/logo_spark_tiny.png"> Validação</h2>

In [0]:
realityCheck(func_DadosMacro, spark, macroDataPath, targetDirectory)

Points,Test,Result
1,Returns correct schema,
1,Returns DataFrame with correct number of rows,
1,Returns DataFrame with correct results,
1,Delta table in place,
1,Delta table has correct content,


d
# <img src="https://files.training.databricks.com/images/105/logo_spark_tiny.png"> Fim do pipeline de ingestão na Bronze

-sandbox

<a href="http://www.apache.org/">Apache Software Foundation</a> <p>
<a href="https://databricks.com/privacy-policy">Privacy Policy</a> | <a href="https://databricks.com/terms-of-use">Terms of Use</a>