-sandbox
<img width = '500' src="https://databricks.com/wp-content/uploads/2021/06/db-pride-logo.svg" style="float: left: margin: 30px"/>        <img src="https://files.training.databricks.com/images/Apache-Spark-Logo_TM_200px.png" style="float: left: margin: 10px"/>

<br>
> # Raw para Bronze 

<br>
## 04 - Transações de estoque

Outro conjunto de dados transacionais são pedidos de estoque ou transações de estoque. 

Os dados de Pedidos de Estoque são gerados pelas atividades de compra, venda e cliques de clientes no site. O tempo gasto em um ticker quando um investidor executa uma análise usando a ferramenta de análise (por exemplo, ao verificar sua série temporal para ver como o preço estava mudando ao longo do tempo) pode ser rastreado.

Isso gera informações valiosas, porque podemos presumir que eles vão comprar.

- As Solicitações de Empréstimo são um conjunto de dados transacionais gerado por investidores que precisam de créditos. 
- Se aprovados, eles podem usar esses créditos (ou fundos) para fins de investimento. 
- A aprovação depende muito da pontuação de crédito do investidor.
- As solicitações de empréstimo vêm por meio de uma exportação XML. 

## Objetivos:
 * Ler arquivo JSON em um Spark DataFrame
 * Criar tabela Delta a partir da fonte de dados

-sandbox
<h2 style="color:red">Informações:</h2>

- ainda estamos trabalhando com tabelas de nível bronze

## ![Spark Logo Tiny](https://files.training.databricks.com/images/105/logo_spark_tiny.png) Etapas a serem concluídas: 

<br>
- Leia o arquivo em ** `stockOrdersPath` ** em um DataFrame.
- Exibir o DataFrame com apenas **3** registros.
- Imprima o esquema do DataFrame.
- Grave o DataFrame final como uma tabela Delta em ** `targetDirectory` **.
   - Certifique-se de permitir que o Spark sobrescreva o local de destino, se necessário, e também use a opção para sobrescrever esquema.
- Retorne o DataFrame final, que deve ter o seguinte esquema:

|name|type|
|---|---|
|clicked_items|ArrayType|
|investor|LongType|
|ordertime|LongType|
|price|DoubleType|
|ticker|StringType|
|transaction_id|LongType|
|type|StringType|
|volume|LongType|

In [0]:
def func_TranEmp(spark, stockOrdersPath, targetDirectory):
  
  
  # Lê o arquivo em stockOrdersPath para um DataFrame
  df = (spark.read
             .json(stockOrdersPath))
  
  
  # Exibe o DataFrame usando show(3)
  df.show(3)
  
  
  # Exibe o esquema do DataFrame
  df.printSchema()
  
  
  # Grava o DataFrame final como uma tabela Delta em targetDirectory
  # Sobrescrever o local de destino "overwrite"
  # Sobrescrever o Schema
  (df.write
     .mode("overwrite")
     .option("overwriteSchema", True)
     .format("delta")
     .save(targetDirectory))
  
  
  return df

In [0]:
dfFinal = func_TranEmp(spark, stockOrdersPath, targetDirectory)

In [0]:
display(dfFinal)

clicked_items,investor,ordertime,price,ticker,transaction_id,type,volume
"List(List(LKQ, 10), List(QRVO, 30))",1101,1567328400,111.57,ADSK,581346329,BUY,4
"List(List(COP, 10))",1036,1567328497,111.31066104190631,ADSK,581346330,BUY,12
"List(List(ETFC, 50), List(EVHC, 50), List(IR, 32))",24,1567329557,112.0898047407684,ADSK,581346331,BUY,12
"List(List(PM, 17))",722,1567330523,111.32084465666814,ADSK,581346332,BUY,12
"List(List(CBOE, 33), List(NDAQ, 10), List(HCN, 31))",203,1567330570,111.85157483553012,ADSK,581346333,BUY,5
"List(List(RSG, 47), List(ADBE, 40), List(ALLE, 46))",608,1567331046,111.6824514218388,ADSK,581346334,BUY,6
"List(List(PKG, 21))",409,1567331224,111.69668307782608,ADSK,581346335,SELL,22
"List(List(REGN, 7), List(PAYX, 5))",1122,1567331358,111.72609213357298,ADSK,581346336,SELL,10
"List(List(AAL, 35))",821,1567331554,111.39436879446669,ADSK,581346337,BUY,14
"List(List(PPL, 18), List(COTY, 29), List(ANDV, 11))",836,1567331816,111.48294271642784,ADSK,581346338,SELL,2


<h2><img src="https://files.training.databricks.com/images/105/logo_spark_tiny.png"> Qualidade dos dados</h2>

In [0]:
assert \
      (spark.read
            .json(stockOrdersPath)
            .count()) \
== \
      (dfFinal.count()) \
, displayHTML("""<font size="5" color="red" face="sans-serif">Validação: falhou !!!</font>""")

displayHTML("""<font size="5" color="green" face="sans-serif">Validação: correta !!!</font>""")

In [0]:
from pyspark.sql.types import StructType, StructField, LongType, StringType, DoubleType, ArrayType

schemaOriginal = (StructType([
                               StructField("clicked_items"   ,ArrayType(ArrayType(StringType(), True), True), True),
                               StructField("investor"        ,LongType()   ,True),
                               StructField("ordertime"       ,LongType()   ,True),
                               StructField("price"           ,DoubleType() ,True),
                               StructField("ticker"          ,StringType() ,True),
                               StructField("transaction_id"  ,LongType()   ,True),
                               StructField("type"            ,StringType() ,True),
                               StructField("volume"          ,LongType()   ,True)
                              ]))

In [0]:
assert dfFinal.schema == schemaOriginal, displayHTML("""<font size="5" color="red" face="sans-serif">Validação: falhou !!!</font>""")

displayHTML("""<font size="5" color="green" face="sans-serif">Validação: correta !!!</font>""")

<h2><img src="https://files.training.databricks.com/images/105/logo_spark_tiny.png"> Validação</h2>

In [0]:
realityCheck(func_TranEmp, spark, stockOrdersPath, targetDirectory)

Points,Test,Result
1,Returns correct schema,
1,Returns DataFrame with correct number of rows,
1,Returns DataFrame with correct results,
1,Prints expected output,
1,Delta Table in place,
1,Delta Table has correct contents,


## <img src="https://files.training.databricks.com/images/105/logo_spark_tiny.png"> Próximo <p>

> * [Dados Macro]($./05-Dados Macro)

-sandbox

<a href="http://www.apache.org/">Apache Software Foundation</a> <p>
<a href="https://databricks.com/privacy-policy">Privacy Policy</a> | <a href="https://databricks.com/terms-of-use">Terms of Use</a>