-sandbox
<img width = '500' src="https://databricks.com/wp-content/uploads/2021/06/db-pride-logo.svg" style="float: left: margin: 30px"/>        <img src="https://files.training.databricks.com/images/Apache-Spark-Logo_TM_200px.png" style="float: left: margin: 10px"/>

<br>
> # Raw para Bronze 

<br>
## 03 - Solicitações de Empréstimo

- As Solicitações de Empréstimo são um conjunto de dados transacionais gerado por investidores que precisam de créditos. 
- Se aprovados, eles podem usar esses créditos (ou fundos) para fins de investimento. 
- A aprovação depende muito da pontuação de crédito do investidor.
- As solicitações de empréstimo vêm por meio de uma exportação XML. 

## Objetivos:
* Instale a Biblioteca XML Databricks
* Leia o XML de solicitações de empréstimo em um DataFrame e grave os resultados em uma tabela Delta.

-sandbox
<h2 style = "color: red"> Informações: </h2>

- ainda estamos trabalhando com mesas de nível de bronze
- verificar se a biblioteca necessária está instalada no cluster

-sandbox
## ![Spark Logo Tiny](https://files.training.databricks.com/images/105/logo_spark_tiny.png) Etapa inicial a ser concluída - Instalar a biblioteca XML do Spark <br>
 
## Requisitos da Biblioteca

 Antes de executar qualquer uma das células de código, certifique-se de ter a biblioteca _Spark XML_ instalada em seu cluster a partir do Maven.
    
Usaremos a biblioteca Maven ***`com.databricks:spark-xml_2.11:0.7.0`***
* Essa biblioteca é usada para ler arquivos XML em um DataFrame.

Assim que a biblioteca estiver instalada, _Detach and Re-Attach_ seu cluster para ativá-lo no driver.

## ![Spark Logo Tiny](https://files.training.databricks.com/images/105/logo_spark_tiny.png) Configurações úteis<br>

In [0]:
%run ./Includes/04-ClassroomSetup

## ![Spark Logo Tiny](https://files.training.databricks.com/images/105/logo_spark_tiny.png) Etapas a serem concluídas: <br>


Dê uma olhada na estrutura do arquivo XML no diretório **`loanRequestsPath`** analise a **`rootTag`** e a **`rowTag`**.


- Leia o XML em um DataFrame.
- Grave o DataFrame como uma tabela Delta no ** `targetDirectory` **.
- Retorne o DataFrame final, que deve ter o seguinte esquema:

|name|type|
|---|---|
|investor_id|LongType|
|loan_id|LongType|
|password|StringType|
|product_id|LongType|
|request_amount|StringType|
|request_length|LongType|
|request_time|LongType|
|valid_to|LongType|

<a href="https://github.com/databricks/spark-xml/" target="_blank"> Documentação: XML do Spark </a>

In [0]:
pathXML = 'dbfs:/mnt/training/finance-org/loan_requests/loan_requests.xml'

spark.read.format('csv').load(pathXML).display()

_c0
503830834
1567643080
1
747
$ 11918
45
1568939080
pK?7m~?u
503830835
1568764863


In [0]:
def func_SolEmp(spark, loanRequestsPath, targetDirectory):
  
  
  # Leia o XML de `loanRequestsPath` em um DataFrame.
  # Analise `rootTag` e a `rowTag do XML.
  dfRaw = (spark.read
                .format("xml")
                .option("rootTag", "loans")
                .option("rowTag", "loan_request") 
                .option("inferSchema", "True")
                .load(loanRequestsPath))
     
    
  # Grave o DataFrame como uma tabela Delta em `targetDirectory`.
  # Utilize o modo Spark para sobrescrever o local de destino.
  (dfRaw.write
        .mode("overwrite")
        .format("delta")
        .save(targetDirectory))
  
  
  return dfRaw

In [0]:
dfFinal = func_SolEmp(spark, loanRequestsPath, targetDirectory)

In [0]:
display(dfFinal)

investor_id,loan_id,password,product_id,request_amount,request_length,request_time,valid_to
747,503830834,pK?7m~?u,1.0,$ 11918,45.0,1567643080.0,1568939080.0
817,503830835,s>jVS0As,1.0,$ 10408,222.0,1568764863.0,1570060863.0
1124,503830836,g`cAH4x0,1.0,$ 12409,235.0,1569225924.0,1570521924.0
1157,503830837,t(QR.0*X,1.0,$ 11332,58.0,1569493930.0,1570789930.0
1148,503830838,"3=,z1mZe",1.0,$ 5803,41.0,1568812467.0,1570108467.0
983,503830839,GAaj0KX1,1.0,$ 14673,52.0,1567605844.0,1568901844.0
194,503830840,U8s1:Ly\,1.0,$ 7358,224.0,1568675701.0,1569971701.0
802,503830841,(P!gw(\G,1.0,$ 13598,100.0,1568025100.0,1569321100.0
1160,503830842,"9\x],:?s",1.0,$ 6657,34.0,1567517679.0,1568813679.0
323,503830843,I2'vKLU+,1.0,$14959,184.0,1569203073.0,1570499073.0


<h2><img src="https://files.training.databricks.com/images/105/logo_spark_tiny.png"> Qualidade dos dados</h2>

In [0]:
assert \
      (spark.read
            .format("xml")
            .option("rootTag", "loans")
            .option("rowTag", "loan_request")
            .option("inferSchema", "True")
            .load(loanRequestsPath)
            .count()) \
== \
      (dfFinal.count()) \
, displayHTML("""<font size="5" color="red" face="sans-serif">Validação: falhou !!!</font>""")

displayHTML("""<font size="5" color="green" face="sans-serif">Validação: correta !!!</font>""")

In [0]:
from pyspark.sql.types import StructType, StructField, LongType, StringType

schemaOriginal = (StructType([
                               StructField("investor_id"     ,LongType()   ,True),
                               StructField("loan_id"         ,LongType()   ,True),
                               StructField("password"        ,StringType() ,True),
                               StructField("product_id"      ,LongType()   ,True),
                               StructField("request_amount"  ,StringType() ,True),
                               StructField("request_length"  ,LongType()   ,True),
                               StructField("request_time"    ,LongType()   ,True),
                               StructField("valid_to"        ,LongType()   ,True)
                              ]))

In [0]:
assert dfFinal.schema == schemaOriginal, displayHTML("""<font size="5" color="red" face="sans-serif">Validação: falhou !!!</font>""")

displayHTML("""<font size="5" color="green" face="sans-serif">Validação: correta !!!</font>""")

<h2><img src="https://files.training.databricks.com/images/105/logo_spark_tiny.png"> Validação</h2>

In [0]:
realityCheck(func_SolEmp, spark, loanRequestsPath, targetDirectory)

Points,Test,Result
1,Returns correct schema,
1,Returns DataFrame with correct number of rows,
1,Returns DataFrame with correct results,
1,Delta Table in place,
1,Delta Table has correct contents,


## <img src="https://files.training.databricks.com/images/105/logo_spark_tiny.png"> Próximo <p>

> * [Transações de estoque]($./04-Transacoes de estoque)

-sandbox

<a href="http://www.apache.org/">Apache Software Foundation</a> <p>
<a href="https://databricks.com/privacy-policy">Privacy Policy</a> | <a href="https://databricks.com/terms-of-use">Terms of Use</a>