# Introdução

## Gestão de Bibliotecas

### Instalando depedências

In [None]:
pip install adal

### Importando dependências

In [None]:
from pyspark.sql.functions import regexp_replace, regexp_extract, col
import adal

## Descrição de conteúdo das tabelas

**DataFrame de Eventos**

Colunas|Descrição|
-------|---------|
classificacaoEtaria|Idade mínima para ter acesso ao conteúdo. Varia de Livre a +18
id_event|Identificador do evento
name|Nome do evento
rule.duration|Duração do evento
rule.endsAt|Horário de término do evento
rule.frequency|Frequência de ocorrência do evento
rule.price|Preço de participação do evento
rule.spaceId|Identificador de espaço que irá ocorrer o evento
rule.startsAt|Horário de ínicio
rule.startsOn|Data de início do evento
rule.until|Data final do evento
shortDescription|Pequena descrição de conteúdo do evento

**DataFrame de espaços/Museus**

Colunas|Descrição|
-------|---------|
id|Identificador do museu/espaço
location.latitude|Latitude do museu/espaço 
location.longitude|Longitude do museu/espaço 
name|Nome do museu/espaço

## Carregamento de dados

In [None]:
df_event = spark.read.format("json").option("inferSchema", "true").load("/mnt/storage_name/lab4/event.json")
df_space = spark.read.format("json").option("inferSchema", "true").load("/mnt/storage_name/lab4/space.json")

# Limpeza dos dados

In [None]:
df_event, df_space = df_event.drop('index'), df_space.drop('index')

## Limpeza DataFrame Evento

In [None]:
df_event = df_event.withColumnRenamed('rule.duration', 'duration')\
                   .withColumnRenamed('rule.endsAt', 'endsAt')\
                   .withColumnRenamed('rule.frequency', 'frequency')\
                   .withColumnRenamed('rule.spaceId', 'spaceId')\
                   .withColumnRenamed('rule.startsAt', 'startsAt')\
                   .withColumnRenamed('rule.startsOn', 'startsOn')\
                   .withColumnRenamed('rule.price', 'price')\
                   .withColumnRenamed('rule.until', 'until')\
                   .withColumnRenamed('name', 'name_event')

In [None]:
df_event = df_event.withColumn('price',regexp_replace(col('price'), '(entrada gratuita|Entrada Gratuita)|(Entrada Franca|entrada franca)|(grátis|Grátis|GRÁTIS)|R\$ 00,00|^0', 'Gratuito'))\
                   .withColumn('price',regexp_replace(col('price'), '^(Gratuito)?,[0]{1,3}|^(Gratuito)?[0]{1,3}|GRATUITO|Gratuita|gratuito|Entrada gratuita', 'Gratuito'))\
                   .withColumn('price',regexp_replace(col('price'), '(^[0-9])', 'R\$ $1'))\
                   .withColumn('price',regexp_replace(col('price'), '(^R\$)([0-9])', '$1 $2'))\
                   .withColumn('price',regexp_replace(col('price'), '(Gratuito)(\.)', '$1'))\
                   .withColumn('price',regexp_replace(col('price'), '(livre)', 'Livre'))\
                   .withColumn('price',regexp_replace(col('price'), '(R\$ 6,00\/3,00)...(inteira\/meia)|(Inteira\/meia)...(R\$6,00\/3,00)[$\$]|(Inteira\/meia)...(R\$6,00\/3,00)', '$1$4$6 Inteira/Meia'))\
                   .withColumn('price',regexp_replace(col('price'), '(^R\$)([0-9])', '$1 $2'))\
                   .withColumn('price',regexp_replace(col('price'), '(null)', 'Não informado'))

In [None]:
df_event = df_event.withColumn('name_event',regexp_replace(col('name_event'), '["]', ''))\
                   .withColumn('name_event',regexp_replace(col('name_event'), '[#•]', ''))\
                   .withColumn('name_event',regexp_replace(col('name_event'), '^[,]', ''))\
                   .withColumn('name_event',regexp_replace(col('name_event'), '(\A[0-9]{2}|\A[0-9]{1})[ª|\s|°|º]+(?!anos|ANOS)', '$1ª '))


In [None]:
df_event = df_event.withColumn('frequency',regexp_replace(col('frequency'), '(daily)', 'Diário'))\
                   .withColumn('frequency',regexp_replace(col('frequency'), '(weekly)', 'Semanal'))\
                   .withColumn('frequency',regexp_replace(col('frequency'), '(once)', 'Único'))

In [None]:
df_event = df_event.fillna(value='Não informado',subset=["price"])

In [None]:
df_space =  df_space.withColumnRenamed('location.latitude', 'latitude')\
            .withColumnRenamed('location.longitude', 'longitude')\
            .withColumnRenamed('id', 'id_space')\
            .withColumnRenamed('name', 'name_space')

# Criação e ingestão da tabela stage

In [None]:
resource_app_id_url = "https://database.windows.net/"

service_principal_id = dbutils.secrets.get(scope = "scope_name", key = "key")
service_principal_secret = dbutils.secrets.get(scope = "scope_name", key = "key")
tenant_id = "*********"
authority = "https://login.windows.net/" + tenant_id

azure_sql_url = "jdbc:sqlserver://sql-server.database.windows.net"
database_name = "db_name"

encrypt = "true"
host_name_in_certificate = "*.database.windows.net"

context = adal.AuthenticationContext(authority)
token = context.acquire_token_with_client_credentials(resource_app_id_url, service_principal_id, service_principal_secret)
access_token = token["accessToken"]

In [None]:
df_stage = df_space.join(df_event,df_space.id_space ==  df_event.spaceId,"left")

In [None]:
db_table = "STAGE_name.DL_IPAV"

df_stage.write \
.format("jdbc") \
.mode("overwrite") \
.option("url", azure_sql_url) \
.option("dbtable", db_table) \
.option("databaseName", database_name) \
.option("accessToken", access_token) \
.option("encrypt", "true") \
.option("hostNameInCertificate", "*.database.windows.net") \
.save()