# MVP Pipeline de Dados
## Pesquisa sobre aparelhos celulares

Edmilson Prata da Silva

PUC-RJ - MBA em Ciência de Dados e Analytics

Disciplina de Engenharia de Dados

## Script para criação da base de dados GOLD

### Imports

Imports das bibliotecas necessárias para o funcionamento do script.

In [0]:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, DecimalType

### Criando base de dados GOLD

A camada Gold contém dados altamente refinados e otimizados para consumo final. Esses dados são agregados, enriquecidos e organizados para atender necessidades específicas de negócio.

In [0]:
%sql CREATE DATABASE IF NOT EXISTS gold;

### Criando as tabelas

A seguir o script para criação das tabelas da camada gold.

In [0]:
print("Iniciando criação da camada gold...")

# Iniciar uma sessão Spark
spark = SparkSession.builder.appName("CreateSmartphonesTables").getOrCreate()

# Criar a tabela de métricas por empresa concorrente
spark.sql("""
CREATE TABLE IF NOT EXISTS gold.company_metrics (
    company_id STRING COMMENT 'Chave primária da empresa frabricante (UUID)',
    company_name STRING COMMENT 'Nome da empresa fabricante',
    mean_price INTEGER COMMENT 'Preço de lançamento médio por empresa em U$',
    max_price INTEGER COMMENT 'Preço de lançamento máximo por empresa em U$',
    min_price INTEGER COMMENT 'Preço de lançamento mínimo por empresa em U$',
    mean_battery INTEGER COMMENT 'Capacidade média da bateria por empresa em mAh',
    max_battery INTEGER COMMENT 'Capacidade máxima da bateria por empresa em mAh',
    min_battery INTEGER COMMENT 'Capacidade mínima da bateria por empresa em mAh',
    mean_screen_size DECIMAL(10,2) COMMENT 'Tamanho médio da tela por empresa em MP',
    max_screen_size DECIMAL(10,2) COMMENT 'Tamanho máximo da tela por empresa em MP',
    min_screen_size DECIMAL(10,2) COMMENT 'Tamanho mínimo da tela por empresa em MP',
    mean_ram DECIMAL(10,2) COMMENT 'Capacidade média de memória RAM por empresa em GB',
    max_ram DECIMAL(10,2) COMMENT 'Capacidade máxima de memória RAM por empresa em GB',
    min_ram DECIMAL(10,2) COMMENT 'Capacidade mínima de memória RAM por empresa em GB'
)
USING DELTA
""")

print('Tabela gold.company_metrics criada com sucesso.')

# Criar a tabela de métricas de performance tipo TOP TEN
spark.sql("""
CREATE TABLE IF NOT EXISTS gold.model_metrics (
    model_id STRING COMMENT 'Chave primária do modelo de smartphone (UUID)',
    model_name STRING COMMENT 'Nome do modelo de smartphone',
    company_id STRING COMMENT 'Chave primária da empresa fabricante (UUID)',
    company_name STRING COMMENT 'Nome da empresa fabricante',
    ranking INTEGER COMMENT 'Posição do modelo no ranking onde foi avaliado',
    characteristic_label STRING COMMENT 'Nome da característica técnica avaliada (RAM, CPU, etc.)',
    characteristic_unit STRING COMMENT 'Unidade da característica técnica avaliada (GB, mAh, etc.)',
    characteristic_value DECIMAL(10, 2) COMMENT 'Valor atribuído à característica técnica avaliada'
)
USING DELTA
""")

print('Tabela gold.model_metrics criada com sucesso.')

# Criar a tabela de métricas de segmentação
spark.sql("""
CREATE TABLE IF NOT EXISTS gold.segmentation_metrics (
    segmentation_code STRING COMMENT 'Chave primária',
    segmentation_name STRING COMMENT 'Nome da segmentação',
    range1_name STRING COMMENT 'Nome da primeira faixa da segmentação',
    range2_name STRING COMMENT 'Nome da segunda faixa da segmentação',
    range3_name STRING COMMENT 'Nome da terceira faixa da segmentação',
    range1_qtd INTEGER COMMENT 'Quantidade de smartphones enquadradas na primeira faixa',
    range2_qtd INTEGER COMMENT 'Quantidade de smartphones enquadradas na segunda faixa',
    range3_qtd INTEGER COMMENT 'Quantidade de smartphones enquadradas na terceira faixa'
)
USING DELTA
""")

print('Tabela gold.segmentation_metrics criada com sucesso.')

# Exibir mensagem de sucesso
print("Camada gold criada com sucesso!")

Iniciando criação da camada gold...
Tabela gold.company_metrics criada com sucesso.
Tabela gold.model_metrics criada com sucesso.
Tabela gold.segmentation_metrics criada com sucesso.
Camada gold criada com sucesso!


In [0]:
spark.sql("DESCRIBE TABLE gold.company_metrics").show()

+----------------+-------------+--------------------+
|        col_name|    data_type|             comment|
+----------------+-------------+--------------------+
|      company_id|       string|Chave primária da...|
|    company_name|       string|Nome da empresa f...|
|      mean_price|          int|Preço de lançamen...|
|       max_price|          int|Preço de lançamen...|
|       min_price|          int|Preço de lançamen...|
|    mean_battery|          int|Capacidade média ...|
|     max_battery|          int|Capacidade máxima...|
|     min_battery|          int|Capacidade mínima...|
|mean_screen_size|decimal(10,2)|Tamanho médio da ...|
| max_screen_size|decimal(10,2)|Tamanho máximo da...|
| min_screen_size|decimal(10,2)|Tamanho mínimo da...|
|        mean_ram|decimal(10,2)|Capacidade média ...|
|         max_ram|decimal(10,2)|Capacidade máxima...|
|         min_ram|decimal(10,2)|Capacidade mínima...|
+----------------+-------------+--------------------+



In [0]:
spark.sql("DESCRIBE TABLE gold.model_metrics").show()

+--------------------+-------------+--------------------+
|            col_name|    data_type|             comment|
+--------------------+-------------+--------------------+
|            model_id|       string|Chave primária do...|
|          model_name|       string|Nome do modelo de...|
|          company_id|       string|Chave primária da...|
|        company_name|       string|Nome da empresa f...|
|             ranking|          int|Posição do modelo...|
|characteristic_label|       string|Nome da caracterí...|
| characteristic_unit|       string|Unidade da caract...|
|characteristic_value|decimal(10,2)|Valor atribuído à...|
+--------------------+-------------+--------------------+



In [0]:
spark.sql("DESCRIBE TABLE gold.segmentation_metrics").show()

+-----------------+---------+--------------------+
|         col_name|data_type|             comment|
+-----------------+---------+--------------------+
|segmentation_code|   string|      Chave primária|
|segmentation_name|   string| Nome da segmentação|
|      range1_name|   string|Nome da primeira ...|
|      range2_name|   string|Nome da segunda f...|
|      range3_name|   string|Nome da terceira ...|
|       range1_qtd|      int|Quantidade de sma...|
|       range2_qtd|      int|Quantidade de sma...|
|       range3_qtd|      int|Quantidade de sma...|
+-----------------+---------+--------------------+

