# MVP Pipeline de Dados
## Pesquisa sobre aparelhos celulares

Edmilson Prata da Silva

PUC-RJ - MBA em Ciência de Dados e Analytics

Disciplina de Engenharia de Dados

## Script para criação da base de dados BRONZE

### Imports

Imports das bibliotecas necessárias para o funcionamento do script.

In [0]:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType

### Criando base de dados Bronze

Na camada bronze os dados são persistidos em seu estado bruto, preservando características da fonte dos dados que, neste caso, é a base do Kaagle, site votlado para trabalhos de analytics e data science bastante conhecido pela comunidade.

Nesta caso, a base utilizada é a "Mobiles Dataset (2025)", que oferece informações técnicas sobre aparelhos tipo smartphone com lançamento realido no ano de 2025.

In [0]:
%sql CREATE DATABASE IF NOT EXISTS bronze;

### Criação da Tabela "mobile_devices"

Criação da tabela utilizando Spark na base de dados bronze. A estrutura da tabela "mobile_devices" segue a mesma estrutura de sua origem, ou seja, o "Mobiles Dataset (2025)" do Kaggle, conforme já informado.

In [0]:
print('Iniciando criação da camada bronze...')

# Iniciar sessão Spark
spark = SparkSession.builder.appName("CreateBronzeTable").getOrCreate()

# Criando a tabela 
spark.sql("""
CREATE TABLE IF NOT EXISTS bronze.mobile_devices (
    company_name STRING COMMENT 'Nome da empresa fabricante',
    model_name STRING COMMENT 'Nome do modelo',
    mobile_weight STRING COMMENT 'Peso em gramas',
    ram STRING COMMENT 'Quantidade de memória RAM',
    front_camera STRING COMMENT 'Resolução da câmera frontal',
    back_camera STRING COMMENT 'Resolução da câmera traseira',
    processor STRING COMMENT 'Processador do aparelho',
    battery_capacity STRING COMMENT 'Capacidade da bateria',
    screen_size STRING COMMENT 'Tamanho da tela',
    launched_price_pakistan STRING COMMENT 'Preço de lançamento no Paquistão',
    launched_price_india STRING COMMENT 'Preço de lançamento na Índia',
    launched_price_china STRING COMMENT 'Preço de lançamento na China',
    launched_price_usa STRING COMMENT 'Preço de lançamento nos EUA',
    launched_price_dubai STRING COMMENT 'Preço de lançamento em Dubai',
    launched_year STRING COMMENT 'Ano de lançamento'
)
USING DELTA
""")

print("Tabela 'mobile_devices' criada com sucesso na camada 'bronze'.")
print("Camada bronze criada com sucesso.")

Iniciando criação da camada bronze...
Tabela 'mobile_devices' criada com sucesso na camada 'bronze'.
Camada bronze criada com sucesso.


### Teste de Criação da Tabela

Teste de acesso a tabela recém criada, para garantir o sucesso da operação.

In [0]:
spark.sql("DESCRIBE TABLE bronze.mobile_devices").show()

+--------------------+---------+--------------------+
|            col_name|data_type|             comment|
+--------------------+---------+--------------------+
|        company_name|   string|Nome da empresa f...|
|          model_name|   string|      Nome do modelo|
|       mobile_weight|   string|      Peso em gramas|
|                 ram|   string|Quantidade de mem...|
|        front_camera|   string|Resolução da câme...|
|         back_camera|   string|Resolução da câme...|
|           processor|   string|Processador do ap...|
|    battery_capacity|   string|Capacidade da bat...|
|         screen_size|   string|     Tamanho da tela|
|launched_price_pa...|   string|Preço de lançamen...|
|launched_price_india|   string|Preço de lançamen...|
|launched_price_china|   string|Preço de lançamen...|
|  launched_price_usa|   string|Preço de lançamen...|
|launched_price_dubai|   string|Preço de lançamen...|
|       launched_year|   string|   Ano de lançamento|
+--------------------+------