## Observa√ß√£o:
Os arquvivoos est√£o sendo salvos em formato Delta, devido a importancia da garantia da efici√™ncia e confiabilidade dos dados. Dessa forma, temos consultas melhoradas e altera√ß√µes seguras.

In [0]:


# ====================================================
# 0. Importando bibliotecas necess√°rias
# ====================================================

# Para fazer chamadas HTTP √†s APIs
import requests
# Para manipular dados JSON (serializa√ß√£o/desserializa√ß√£o)
import json
# Para capturar a data/hora atual no momento da ingest√£o
import datetime
# Criar sess√£o Spark
from pyspark.sql import SparkSession
# Fun√ß√µes √∫teis do Spark SQL para manipula√ß√£o de colunas e listas
from pyspark.sql.functions import col, explode, row_number, regexp_extract
# Para trabalhar com janelas (window functions, ex: deduplica√ß√£o)
from pyspark.sql.window import Window

# ====================================================
# 1. Criando sess√£o Spark
# ====================================================
spark = SparkSession.builder.appName("PokemonCollector").getOrCreate()

# ====================================================
# 2. Fun√ß√£o para coletar lista de Pok√©mon (endpoint principal da API)
# ====================================================
def get_pokemon_list(limit=100, max_records=300):
    """
    Faz chamadas paginadas √† Pok√©API e retorna a lista de Pok√©mon.
    - limit = quantidade de registros por p√°gina (default = 100)
    - max_records = m√°ximo de registros a coletar
    """
    url = "https://pokeapi.co/api/v2/pokemon/"  # endpoint base
    offset = 0  # deslocamento inicial para pagina√ß√£o
    all_data = []  # lista que armazenar√° todos os dados coletados

    # loop at√© atingir o m√°ximo definido
    while offset < max_records:
        print(f"üîé Coletando lista offset={offset}")
        # chamada GET com pagina√ß√£o (limit + offset)
        resp = requests.get(url, params={"limit": limit, "offset": offset})
        
        # se a API retornar erro, interrompe
        if resp.status_code != 200:
            print(f"‚ùå Erro: {resp.status_code}")
            break
        
        # converte resposta em JSON
        data = resp.json()
        # adiciona coluna de data/hora da ingest√£o
        data["ingestion_date"] = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        # guarda os dados na lista final
        all_data.append(data)
        
        # se n√£o existir link "next" na resposta, n√£o h√° mais p√°ginas
        if not data.get("next"):  
            break
        
        # incrementa offset para pr√≥xima chamada
        offset += limit

    return all_data

# ====================================================
# 3. Fun√ß√£o para coletar detalhes de cada Pok√©mon
# ====================================================
def get_pokemon_details(url_list):
    """
    Recebe uma lista de URLs e coleta os detalhes de cada Pok√©mon individualmente.
    Retorna uma lista de dicion√°rios.
    """
    details = []
    for url in url_list:  # percorre todas as URLs de Pok√©mon
        print(f"üì• Coletando detalhes de {url}")
        resp = requests.get(url)
        if resp.status_code == 200:  # sucesso na requisi√ß√£o
            data = resp.json()
            # adiciona timestamp de ingest√£o
            data["ingestion_date"] = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
            details.append(data)
        else:
            print(f"‚ùå Erro ao buscar {url}: {resp.status_code}")
    return details

# ====================================================
# 4. Fun√ß√£o para serializar campos aninhados em JSON
# ====================================================
def serialize_nested_fields(data, fields):
    """
    Transforma listas/dicion√°rios (nested fields) em strings JSON,
    para que o Spark consiga salvar corretamente.
    """
    for d in data:  # percorre cada Pok√©mon
        for f in fields:  # percorre cada campo aninhado
            if f in d:
                d[f] = json.dumps(d[f])  # transforma em string JSON
    return data

# ====================================================
# 5. Coleta lista de Pok√©mon (camada Bronze)
# ====================================================
# chama a fun√ß√£o de ingest√£o
data_list = get_pokemon_list(limit=100, max_records=150)
# cria um DataFrame Spark a partir da lista de dicion√°rios
df_bronze = spark.createDataFrame(data_list)
# salva a tabela no Delta Lake (camada bronze)
df_bronze.write.format("delta").mode("overwrite").saveAsTable("workspace.bronze.pokemon")
print("‚úÖ Bronze salvo!")

# ====================================================
# 6. Transforma lista em Silver (explode + deduplica√ß√£o)
# ====================================================
df_silver = (
    df_bronze
    # explode ‚Üí quebra lista de "results" em v√°rias linhas
    .withColumn("result", explode(col("results")))
    # seleciona apenas colunas de interesse
    .select(
        col("ingestion_date"),
        col("result.name").alias("name"),  # nome do Pok√©mon
        col("result.url").alias("url")     # link para detalhes
    )
)

# Deduplica√ß√£o: mant√©m apenas o registro mais recente por Pok√©mon
