# 00 - Ingest√£o de Dados Brutos (Bronze Layer)

Este notebook l√™ os arquivos JSON brutos do Yelp Dataset e os salva em formato Parquet na camada Bronze do Data Lake.

**Arquitetura Data Lake:**
- **Bronze**: Dados brutos em Parquet (c√≥pia fiel dos JSONs)
- **Silver**: Dados limpos e transformados
- **Gold**: Datasets curados para modelagem

In [1]:
import os
from pyspark.sql import SparkSession
from datetime import datetime

In [2]:
# Criar sess√£o Spark com configura√ß√£o de mem√≥ria otimizada
spark = SparkSession.builder \
    .appName("Bronze Layer Ingestion") \
    .config("spark.sql.adaptive.enabled", "true") \
    .config("spark.driver.memory", "4g") \
    .config("spark.executor.memory", "4g") \
    .getOrCreate()

print(f"‚úÖ Spark version: {spark.version}")

‚úÖ Spark version: 3.5.0


In [3]:
# Configura√ß√£o de caminhos
BASE_PATH = '/home/jovyan/work'
DATA_PATH = f'{BASE_PATH}/data'
BRONZE_PATH = f'{DATA_PATH}/bronze'

# Datasets a processar
DATASETS = {
    'business': 'yelp_academic_dataset_business.json',
    'review': 'yelp_academic_dataset_review.json',
    'user': 'yelp_academic_dataset_user.json',
    'tip': 'yelp_academic_dataset_tip.json',
    'checkin': 'yelp_academic_dataset_checkin.json'
}

print(f"üìÅ Diret√≥rio de dados: {DATA_PATH}")
print(f"ü•â Camada Bronze: {BRONZE_PATH}")
print(f"üìä Datasets a carregar: {len(DATASETS)}")

üìÅ Diret√≥rio de dados: /home/jovyan/work/data
ü•â Camada Bronze: /home/jovyan/work/data/bronze
üìä Datasets a carregar: 5


In [4]:
def ingest_to_bronze(dataset_name, filename):
    """
    Carrega um dataset JSON e salva em Parquet na camada Bronze.
    """
    print(f"\n{'='*70}")
    print(f"üì• Carregando: {dataset_name}")
    print(f"{'='*70}")
    
    start_time = datetime.now()
    
    # Ler JSON
    file_path = f"{DATA_PATH}/{filename}"
    print(f"üìÇ Lendo arquivo: {file_path}")
    
    # Otimiza√ß√£o: Sampling para infer√™ncia de schema se necess√°rio, mas read.json padr√£o √© robusto
    df = spark.read.json(file_path)
    
    # Evitar count() antes de salvar para economizar mem√≥ria/tempo
    # count = df.count()
    # print(f"üìä Total de registros: {count:,}")
    
    print(f"üìã Colunas: {len(df.columns)}")
    
    # Salvar em Parquet (Bronze)
    output_path = f"{BRONZE_PATH}/{dataset_name}"
    print(f"üíæ Salvando em: {output_path}")
    
    df.write \
        .mode("overwrite") \
        .parquet(output_path)
    
    elapsed = (datetime.now() - start_time).total_seconds()
    print(f"‚úÖ Conclu√≠do em {elapsed:.2f}s")
    
    return 0 # Retornando 0 pois removemos o count() custoso

In [5]:
print("\nüöÄ INICIANDO INGEST√ÉO - CAMADA BRONZE\n")

results = {}

for dataset_name, filename in DATASETS.items():
    try:
        count = ingest_to_bronze(dataset_name, filename)
        results[dataset_name] = {'status': 'SUCCESS'}
    except Exception as e:
        print(f"‚ùå Erro ao carregar {dataset_name}: {str(e)}")
        import traceback
        traceback.print_exc()
        results[dataset_name] = {'status': 'FAILED', 'error': str(e)}

print(f"\n{'='*70}")
print("üìä RESUMO DA INGEST√ÉO - BRONZE LAYER")
print(f"{'='*70}")
for dataset, result in results.items():
    if result['status'] == 'SUCCESS':
        print(f"‚úÖ {dataset:15s}: SUCESSO")
    else:
        print(f"‚ùå {dataset:15s}: FALHOU")


üöÄ INICIANDO INGEST√ÉO - CAMADA BRONZE


üì• Carregando: business
üìÇ Lendo arquivo: /home/jovyan/work/data/yelp_academic_dataset_business.json
üìã Colunas: 14
üíæ Salvando em: /home/jovyan/work/data/bronze/business
‚úÖ Conclu√≠do em 9.65s

üì• Carregando: review
üìÇ Lendo arquivo: /home/jovyan/work/data/yelp_academic_dataset_review.json
üìã Colunas: 9
üíæ Salvando em: /home/jovyan/work/data/bronze/review
‚úÖ Conclu√≠do em 165.94s

üì• Carregando: user
üìÇ Lendo arquivo: /home/jovyan/work/data/yelp_academic_dataset_user.json
üìã Colunas: 22
üíæ Salvando em: /home/jovyan/work/data/bronze/user
‚úÖ Conclu√≠do em 151.85s

üì• Carregando: tip
üìÇ Lendo arquivo: /home/jovyan/work/data/yelp_academic_dataset_tip.json
üìã Colunas: 5
üíæ Salvando em: /home/jovyan/work/data/bronze/tip
‚úÖ Conclu√≠do em 5.32s

üì• Carregando: checkin
üìÇ Lendo arquivo: /home/jovyan/work/data/yelp_academic_dataset_checkin.json
üìã Colunas: 2
üíæ Salvando em: /home/jovyan/work/data/bronze/chec

In [6]:
print("\nüîç VERIFICA√á√ÉO DA CAMADA BRONZE\n")

for dataset_name in DATASETS.keys():
    try:
        path = f"{BRONZE_PATH}/{dataset_name}"
        df = spark.read.parquet(path)
        count = df.count()
        print(f"üì¶ {dataset_name:20s}: {count:>10,} registros")
        print(f"   Colunas: {df.columns[:5]}..." if len(df.columns) > 5 else f"   Colunas: {df.columns}")
        print()
    except Exception as e:
        print(f"‚ùå Erro ao verificar {dataset_name}: {str(e)}\n")


üîç VERIFICA√á√ÉO DA CAMADA BRONZE

üì¶ business            :    150,346 registros
   Colunas: ['address', 'attributes', 'business_id', 'categories', 'city']...

üì¶ review              :  6,990,280 registros
   Colunas: ['business_id', 'cool', 'date', 'funny', 'review_id']...

üì¶ user                :  1,987,897 registros
   Colunas: ['average_stars', 'compliment_cool', 'compliment_cute', 'compliment_funny', 'compliment_hot']...

üì¶ tip                 :    908,915 registros
   Colunas: ['business_id', 'compliment_count', 'date', 'text', 'user_id']

üì¶ checkin             :    131,930 registros
   Colunas: ['business_id', 'date']



In [7]:
spark.stop()
print("\n‚úÖ INGEST√ÉO BRONZE CONCLU√çDA COM SUCESSO!")
print("\nüí° Pr√≥ximos passos:")
print("   1. Execute o notebook 01_business_analysis.ipynb (Silver Layer)")
print("   2. Os dados brutos est√£o em formato Parquet na camada Bronze")
print("   3. Todas as transforma√ß√µes ser√£o feitas com Spark")


‚úÖ INGEST√ÉO BRONZE CONCLU√çDA COM SUCESSO!

üí° Pr√≥ximos passos:
   1. Execute o notebook 01_business_analysis.ipynb (Silver Layer)
   2. Os dados brutos est√£o em formato Parquet na camada Bronze
   3. Todas as transforma√ß√µes ser√£o feitas com Spark
