-sandbox
<img width = '500' src="https://databricks.com/wp-content/uploads/2021/06/db-pride-logo.svg" style="float: left: margin: 30px"/>        <img src="https://files.training.databricks.com/images/Apache-Spark-Logo_TM_200px.png" style="float: left: margin: 10px"/>

<br>
> # Raw para Bronze 

<br>
## 01 - Ativos
- Os ativos são mostradores de ações que os investidores estão comprando e vendendo por meio da plataforma online. 

### Objetivo:
* Criar uma tabela Delta a partir do arquivo CSV de ativos 
* Certifique-se de que os tipos de dados e valores nulos estão corretos.
* Ler a partir de um caminho de origem definido `dbfs:/mnt/finance-org/assets/assets.csv` e crie uma camada bronze
* Valide os dados e o schema

-sandbox
<h2 style = "color: red">Informações:</h2>


- **tabelas de nível bronze:**
    - armazenar e reter dados em sua forma mais bruta
    - pode ser usado mais tarde como a única fonte
    - novos recursos podem ser gerados usando tabelas de bronze
    
- **o que são e o que não são:**
    - dados importados para o data lake sem qualquer transformação
    - não são tabelas silver, por exemplo: não são filtradas, limpas ou agregadas
    - não são tabelas gold, por exemplo: não deve ser usado como uma entrada para painéis, dashboards e algoritmos de machine learning
    
- **opcionalmente questiona se uma operação é de nível bronze ou não:**
    - lista de ações
    - lista de ações de uma mercadoria específica
    - somas diárias das negociações
    - informações da conta do usuário com senhas contendo hash
    
- **links úteis:**
    - [multi-hop e ml] (https://databricks.com/blog/2019/08/14/productionizing-machine-learning-with-delta-lake.html)
    - [slides sobre a arquitetura] (https://www.slideshare.net/JuanPauloGutierrez/delta-architecture)
    
- o objetivo é (reiterar quais são os ativos da introdução)

- etapas de atenção:
   - a importância da opção nullValues
   - a importância de verificar esquema de saída

## ![Spark Logo Tiny](https://files.training.databricks.com/images/105/logo_spark_tiny.png) Etapas a serem concluídas:

<br>
- Leia o arquivo CSV de ativos a partir do path **`assetsPath`** e crie um DataFrame.
- Certifique-se de que os valores **`na`** e os valores vazios sejam selecionados como **`nulos`** em todas as colunas.
- Certifique-se de converter as colunas "ASSET_ID" e "PRODUCT_ID" em números inteiros.
- Converta cada nome de coluna em minúsculas.
- Grave o DataFrame resultante como uma tabela Delta no diretório **`targetDirectory`**.
- Retorne o DataFrame final, que deve ter o seguinte esquema:

|name|type|
|---|---|
|assets_id|StringType|
|product_id|IntegerType|
|valid_from|StringType|
|valid_to|StringType|
|asset_risk|IntegerType|
|asset_type|StringType|

In [0]:
def func_Assets(spark, assetsPath, targetDirectory):
  
  from pyspark.sql.functions import col
  from pyspark.sql.types import IntegerType, TimestampType
  
  # Lendo dados no formato Saprk a partir do diretório [assetsPath]
  # Atualizando os dados com valores "na" para "null"
  # Convertendo nomes de colunas para "minúsculas" 
  # Convertendo campos para o tipo de dados "inteiro"
  # Escreva em uma tabela Delta para "targetDirectory" 

  rawDF = (spark.read
                .option("header", True)
                .option("inferSchema", True)
                .option("nullValue", "na")
                .csv(assetsPath))

  dfAssets = (rawDF
                   .withColumn("asset_id", col("ASSET_ID").cast(IntegerType()))
                   .withColumn("product_id", col("PRODUCT_ID").cast(IntegerType())))

  (dfAssets.write
           .mode("overwrite")
           .option("overwriteSchema", "true")
           .format("delta")
           .save(targetDirectory))

  return dfAssets

In [0]:
dfFinal = func_Assets(spark, assetsPath, targetDirectory)

In [0]:
dfFinal.display()

asset_id,product_id,valid_from,valid_to,asset_risk,asset_type
,0,2015-01-01 01:00:00,,1,A
,0,2015-01-01 01:00:00,,4,A
,0,2015-01-01 01:00:00,,4,A
,0,2015-01-01 01:00:00,,3,C
,0,2015-01-01 01:00:00,,6,B
,0,2015-01-01 01:00:00,,3,A
,0,2015-01-01 01:00:00,,3,A
,0,2015-01-01 01:00:00,,4,C
,0,2015-01-01 01:00:00,,3,A
,0,2015-01-01 01:00:00,,1,A


<h2><img src="https://files.training.databricks.com/images/105/logo_spark_tiny.png"> Qualidade dos dados</h2>

In [0]:
from pyspark.sql.functions import isnull, col

assert \
      (spark.read
            .option("header", True)
            .option("inferSchema", True)
            .csv(assetsPath)
            .filter(col("valid_to") == 'na')
            .count()) \
== \
      (dfFinal.select(isnull("valid_to"))
              .count()) \
, displayHTML("""<font size="5" color="red" face="sans-serif">Validação: falhou !!!</font>""")

displayHTML("""<font size="5" color="green" face="sans-serif">Validação: correta !!!</font>""")

In [0]:
from pyspark.sql.types import StructType, StructField, IntegerType, StringType, TimestampType

schemaOriginal_dfFinal = (StructType([
                                       StructField("asset_id"    ,IntegerType()   ,True),
                                       StructField("product_id"  ,IntegerType()   ,True),
                                       StructField("valid_from"  ,StringType()    ,True),
                                       StructField("valid_to"    ,StringType()    ,True),
                                       StructField("asset_risk"  ,IntegerType()   ,True),
                                       StructField("asset_type"  ,StringType()    ,True)
                                      ]))

In [0]:
assert dfFinal.schema == schemaOriginal_dfFinal, displayHTML("""<font size="5" color="red" face="sans-serif">Validação: falhou !!!</font>""")

displayHTML("""<font size="5" color="green" face="sans-serif">Validação: correta !!!</font>""")

<h2><img src="https://files.training.databricks.com/images/105/logo_spark_tiny.png"> Validação</h2>

In [0]:
realityCheck(func_Assets, spark, assetsPath, targetDirectory)

Points,Test,Result
1,Returns correct schema,
1,Returns DataFrame with correct number of rows,
1,"Returns DataFrame without ""na"" values",
1,Returns DataFrame with correct results,
1,Delta table in place,
1,Delta table has correct content,


## <img src="https://files.training.databricks.com/images/105/logo_spark_tiny.png"> Próximo <p>

> * [Investidores]($./02-Investidores)

-sandbox

<a href="http://www.apache.org/">Apache Software Foundation</a> <p>
<a href="https://databricks.com/privacy-policy">Privacy Policy</a> | <a href="https://databricks.com/terms-of-use">Terms of Use</a>