#### Engenharia de dados
**Nome**: M√ÅRCIO DE LIMA LOSS PUGNAL  
**C√≥digo Aluno**: 4052025000363  
**Curso**: P√≥s CI√äNCIA DE DADOS E ANALYTICS  
**Dataset**: [Board-Games] [fonte: https://www.kaggle.com/datasets/andrewmvd/board-games ]

#### Importa√ß√£o das bibliotecas, coleta e carga de dados.

In [0]:
# Importa√ß√£o de bibliotecas

# Manipula√ß√£o de dados
import pandas as pd
import requests
#from io import StringIO

# Spark para processamento distribu√≠do
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql.functions import (
    col,                          # Sele√ß√£o e manipula√ß√£o de colunas
    monotonically_increasing_id,  # Gerar IDs √∫nicos
    regexp_replace,               # Substituir padr√µes usando regex
    explode,                      # Expandir arrays em m√∫ltiplas linhas
    split                         # Dividir strings em arrays
)

# Visualiza√ß√£o de dados
import matplotlib.pyplot as plt               # Cria√ß√£o de gr√°ficos b√°sicos em Python
from matplotlib.ticker import FuncFormatter   # Formatar valores nos eixos (ex.: porcentagem, moeda)
from matplotlib.ticker import MultipleLocator # Definir espa√ßamento fixo entre marcas dos eixos
import seaborn as sns                         # Para gr√°ficos estat√≠sticos mais elaborados e prontos

In [0]:
# Coleta e carga de dados

# URL do dataset no GitHub
url = "https://raw.githubusercontent.com/marciopugnal/mvp-machine-learning/refs/heads/main/bgg_dataset.csv"

# Ler direto com pandas
df_dados = pd.read_csv(url, delimiter=';')

# Converter para Spark DataFrame
df_tabuleiro = spark.createDataFrame(df_dados)

# Informa√ß√µes do dataset carregado
print("Dataset carregado com sucesso!")
print(f"Total de registros: {df_tabuleiro.count()}")
print(f"Total de colunas..: {len(df_tabuleiro.columns)}")

#### An√°lise explorat√≥ria inicial

In [0]:
# Visualizar os dados
display(df_tabuleiro.limit(5))

In [0]:
# Exibir tipos de dados
print("Tipos de dados:")
display(spark.createDataFrame(df_tabuleiro.dtypes, ["Atributo", "Tipo"]))

In [0]:
# Mostrar as primeiras 5 linhas    
df_tabuleiro.select("ID", "Year Published", "Rating Average", "Complexity Average", "Owned Users").show(5)

#### Pr√©-processamentos dos dados

In [0]:
# Converter colunas de double para int
df_tabuleiro = df_tabuleiro.withColumn("ID", F.coalesce(F.col("ID"), F.lit(0)).cast("int"))
df_tabuleiro = df_tabuleiro.withColumn("Year Published", F.coalesce(F.col("Year Published"), F.lit(0)).cast("int"))
df_tabuleiro = df_tabuleiro.withColumn("Owned Users", F.coalesce(F.col("Owned Users"), F.lit(0)).cast("int"))

# Substituir v√≠rgulas por ponto em decimais
df_tabuleiro = df_tabuleiro.withColumn("Rating Average", regexp_replace(col("Rating Average"), ",", ".").cast("double"))
df_tabuleiro = df_tabuleiro.withColumn("Complexity Average", regexp_replace(col("Complexity Average"), ",", ".").cast("double"))


In [0]:
# Converter outras colunas para int
colunas_int = ["Min Players", "Max Players", "Play Time", "Min Age", "Users Rated", "BGG Rank"]

# Percorrer as colunas e converter para int
for coluna in colunas_int:
    df_tabuleiro = df_tabuleiro.withColumn(coluna, F.coalesce(F.col(coluna), F.lit(0)).cast("int"))

In [0]:
df_tabuleiro.select("ID", "Year Published", "Rating Average", "Complexity Average", "Owned Users").show(5)

In [0]:
# Verificar valores ausentes
dados = []
for c in df_tabuleiro.columns:
    ausentes = df_tabuleiro.filter(col(c).isNull()).count()
    presentes = df_tabuleiro.filter(col(c).isNotNull()).count()
    dados.append((c, presentes, ausentes))

# Cria DataFrame com os resultados
df_resumo = spark.createDataFrame(dados, ["Atributos", "Valores Presentes", "Valores Ausentes"])
df_resumo.show(truncate=False)

In [0]:
# TRATAMENTO DE MISSING (valores ausentes) ---

# Eliminando linhas que tenham algum valor missing.
df_tabuleiro = df_tabuleiro.dropna(how='any')

dados = []
for c in df_tabuleiro.columns:
    ausentes = df_tabuleiro.filter(col(c).isNull()).count()
    presentes = df_tabuleiro.filter(col(c).isNotNull()).count()
    dados.append((c, presentes, ausentes))

# Cria DataFrame com os resultados
df_resumo = spark.createDataFrame(dados, ["Atributos", "Valores Presentes", "Valores Ausentes"])
df_resumo.show(truncate=False)

In [0]:
# OBTER VALORES M√çNIMO, M√ÅXIMO E QTD DE VALORES √öNICOS

# Colunas que n√£o s√£o num√©ricas
colunas_excluir = ['Name', 'Mechanics', 'Domains']

dados = []
for c in df_tabuleiro.columns:
    uniq_val = df_tabuleiro.select(F.countDistinct(c)).collect()[0][0]
    
    if c in colunas_excluir:
        # Para colunas n√£o num√©ricas, n√£o calcular min/max
        min_val, max_val = "-", "-"
    else:
        # Para colunas num√©ricas, calcular min e max
        min_val = df_tabuleiro.agg(F.min(c)).collect()[0][0]
        max_val = df_tabuleiro.agg(F.max(c)).collect()[0][0]
    
    dados.append((c, min_val, max_val, uniq_val))

# Criar DataFrame com os resultados
range_valores = spark.createDataFrame(
    dados, ["Atributos", "M√≠nimo", "M√°ximo", "Qtd Valores √önicos"]
)

range_valores.show(truncate=False)

#### Tabelas do Modelo Estrela  
_√â uma estrutura de banco de dados otimizada para consultas anal√≠ticas e relat√≥rios, em contraste com os modelos normalizados (OLTP) otimizados para transa√ß√µes. O seu nome vem da sua forma visual, que se assemelha a uma estrela: uma tabela central (fatos) cercada por v√°rias tabelas auxiliares (dimens√µes)._  
_Chave Substituta (Surrogate Key) √© uma chave artificial, num√©rica e sequencial criada especificamente para o data warehouse, que substitui as chaves naturais (business keys) dos sistemas operacionais. Criada apenas para conectar tabelas de forma eficiente no data warehouse._

#### Tabelas Dimens√£o  
_S√£o as "pontas" da estrela. Elas descrevem o contexto dos fatos._  
_Cont√™m os atributos descritivos e textuais usados para filtrar, agrupar e rotular os dados._  

In [0]:
# Cria√ß√£o Tabela dimens√£o Jogo
dim_jogo = df_tabuleiro.select(
    col("ID").alias("id_jogo"),
    col("Name").alias("nome_jogo"),
    col("Year Published").alias("ano_publicacao"),
).distinct()

# Adicionar chave substituta
dim_jogo = dim_jogo.withColumn("jogo_sk", monotonically_increasing_id())

# Visualiza amostra da tabela
print("Dimens√£o Jogo:")
display(dim_jogo.limit(5))

In [0]:
# Cria√ß√£o Tabela dimens√£o Jogabilidade
dim_jogabilidade = df_tabuleiro.select(
    col("ID").alias("id_jogo"),
    col("Min Players").alias("min_jogadores"),
    col("Max Players").alias("max_jogadores"),
    col("Play Time").alias("tempo_jogo"),
    col("Min Age").alias("idade_minima")
).distinct()

# Adicionar chave substituta
dim_jogabilidade = dim_jogabilidade.withColumn("jogabilidade_sk", monotonically_increasing_id())

# Visualiza amostra da tabela
print("Dimens√£o Jogabilidade:")
display(dim_jogabilidade.limit(5))

In [0]:
# Cria√ß√£o Tabela dimens√£o mecanicas
dim_mecanicas = df_tabuleiro.select(
    col("ID").alias("id_jogo"),
    explode(split(col("Mechanics"), ", ")).alias("mecanica_jogo")
).distinct()

# Adicionar chave substituta
dim_mecanicas = dim_mecanicas.withColumn("mecanica_sk", monotonically_increasing_id())

# Visualiza amostra da tabela
print("Dimens√£o Mec√¢nicas:")
display(dim_mecanicas.limit(5))

In [0]:
# Cria√ß√£o Tabela dimens√£o Dom√≠nios
dim_dominios = df_tabuleiro.select(
    col("ID").alias("id_jogo"),
    explode(split(col("Domains"), ", ")).alias("dominio_jogo")
).distinct()

# Adicionar chave substituta
dim_dominios = dim_dominios.withColumn("dominio_sk", monotonically_increasing_id())

# Visualiza amostra da tabela
print("Dimens√£o Dom√≠nios:")
display(dim_dominios.limit(5))

#### Tabelas Fato  
_√â o "cora√ß√£o" do modelo. Representa o evento ou processo de neg√≥cio que se deseja analisar._  
_Cont√©m as medidas ou m√©tricas num√©ricas._  
_√â composta principalmente por chaves estrangeiras (FK) que se conectam √†s tabelas de dimens√£o e pelas medidas em si._

In [0]:
# Cria√ß√£o Tabela Fato Avaliacao
fato_avaliacao = df_tabuleiro.select(
    col("ID").alias("id_jogo"),
    col("Users Rated").alias("usuarios_avaliaram"),
    col("Rating Average").alias("media_avaliacao"),
    col("BGG Rank").alias("classificacao_bgg"),
    col("Complexity Average").alias("media_complexidade"),
    col("Owned Users").alias("usuarios_possuem")
)

# Visualiza amostra da tabela
print("Tabela Fato Avalia√ß√£o:")
display(fato_avaliacao.limit(5))

#### Salvar as tabelas Delta no Databricks  
_As Tabelas Delta s√£o tabelas que utilizam o formato Delta Lake._  
_Delta Lake √© uma camada de armazenamento aberta que traz confiabilidade de transa√ß√µes ACID (Atomicidade, Consist√™ncia, Isolamento e Durabilidade) para data lakes._

In [0]:
# # No in√≠cio do seu notebook, antes de criar as novas tabelas:
# print("INICIANDO LIMPEZA DO MODELO ESTRELA")
# print("-" * 40)

# # Limpar tabelas antigas
# tabelas_para_excluir = [
#     "tabuleiro.dim_jogo",
#     "tabuleiro.dim_jogabilidade",
#     "tabuleiro.dim_mecanicas", 
#     "tabuleiro.dim_dominios",
#     "tabuleiro.fato_avaliacao"
# ]

# for tabela in tabelas_para_excluir:
#     spark.sql(f"DROP TABLE IF EXISTS {tabela}")
#     print(f"‚òÖ {tabela} >> apagado")

# print("\n Ambiente sem tabelas.")

In [0]:
# # Salvar todos os dataframes do modelo estrela como tabelas Delta (recomendado para Databricks)
# dim_jogo.write.mode("overwrite").saveAsTable("tabuleiro.dim_jogo")
# dim_jogabilidade.write.mode("overwrite").saveAsTable("tabuleiro.dim_jogabilidade")
# dim_mecanicas.write.mode("overwrite").saveAsTable("tabuleiro.dim_mecanicas")
# dim_dominios.write.mode("overwrite").saveAsTable("tabuleiro.dim_dominios")
# fato_avaliacao.write.mode("overwrite").saveAsTable("tabuleiro.fato_avaliacao")

# # Verificar tabelas criadas
# print("\n Tabelas criadas no schema 'tabuleiro':")
# display(spark.sql("SHOW TABLES IN tabuleiro"))

In [0]:
# Cria√ß√£o do modelo estrela no Databricks

print("INICIANDO CRIA√á√ÉO DO MODELO ESTRELA")
print("-" * 50)

# Lista de tabelas do modelo estrela
tabelas = {
    "tabuleiro.dim_jogo": dim_jogo,
    "tabuleiro.dim_jogabilidade": dim_jogabilidade,
    "tabuleiro.dim_mecanicas": dim_mecanicas,
    "tabuleiro.dim_dominios": dim_dominios,
    "tabuleiro.fato_avaliacao": fato_avaliacao
}

# Apagar e recriar cada tabela
for nome, df in tabelas.items():
    # Apagar tabela Delta, caso exista no esquema 'tabuleiro'
    spark.sql(f"DROP TABLE IF EXISTS {nome}")
    
    # Salvar os dataframe como tabelas Delta no esquema 'tabuleiro'
    df.write.mode("overwrite").saveAsTable(nome)
    print(f"‚òÖ {nome} >>> criado")

# Mostrar tabelas criadas
print("\nTabelas criadas no schema 'tabuleiro':")
display(spark.sql("SHOW TABLES IN tabuleiro"))

In [0]:
# Adiciona coment√°rios dos atributos das tabelas do modelo estrela

# --- Coment√°rios para dim_jogo
comentarios_dim_jogo = {
    "jogo_sk": "Chave substituta artificial para a dimens√£o jogo",
    "id_jogo": "ID original do jogo no dataset BoardGameGeek (BGG)",
    "nome_jogo": "Nome completo e oficial do jogo de tabuleiro",
    "ano_publicacao": "Ano de publica√ß√£o original do jogo"
}

for coluna, comentario in comentarios_dim_jogo.items():
    spark.sql(f"""
    ALTER TABLE tabuleiro.dim_jogo 
    ALTER COLUMN {coluna} COMMENT '{comentario}'
    """)

print("Coment√°rios adicionados para dim_jogo")

# --- Coment√°rios para dim_jogabilidade
comentarios_dim_jogabilidade = {
    "jogabilidade_sk": "Chave substituta artificial para a dimens√£o jogabilidade",
    "id_jogo": "ID original do jogo no dataset BoardGameGeek (BGG)",
    "min_jogadores": "N√∫mero m√≠nimo de jogadores necess√°rios",
    "max_jogadores": "N√∫mero m√°ximo de jogadores suportados", 
    "tempo_jogo": "Dura√ß√£o m√©dia da partida em minutos",
    "idade_minima": "Idade m√≠nima recomendada para jogar"
}

for coluna, comentario in comentarios_dim_jogabilidade.items():
    spark.sql(f"""
    ALTER TABLE tabuleiro.dim_jogabilidade 
    ALTER COLUMN {coluna} COMMENT '{comentario}'
    """)

print("Coment√°rios adicionados para dim_jogabilidade")

# --- Coment√°rios para dim_mecanicas
comentarios_dim_mecanicas = {
    "mecanica_sk": "Chave substituta artificial para a dimens√£o mec√¢nicas",
    "id_jogo": "ID original do jogo no dataset BoardGameGeek (BGG)",
    "mecanica_jogo": "Regras e din√¢mica de jogabilidade. Como o jogo funciona (regras/din√¢mica)."
}

for coluna, comentario in comentarios_dim_mecanicas.items():
    spark.sql(f"""
    ALTER TABLE tabuleiro.dim_mecanicas 
    ALTER COLUMN {coluna} COMMENT '{comentario}'
    """)

print("Coment√°rios adicionados para dim_mecanicas")

# --- Coment√°rios para dim_dominios
comentarios_dim_dominios = {
    "dominio_sk": "Chave substituta artificial para a dimens√£o dom√≠nios", 
    "id_jogo": "ID original do jogo no dataset BoardGameGeek (BGG)",
    "dominio_jogo": "Categorias tem√°ticas ou g√™neros dos jogos. O que o jogo √© (categoria/tema)."
}

for coluna, comentario in comentarios_dim_dominios.items():
    spark.sql(f"""
    ALTER TABLE tabuleiro.dim_dominios 
    ALTER COLUMN {coluna} COMMENT '{comentario}'
    """)

print("Coment√°rios adicionados para dim_dominios")

# --- Coment√°rios para fato_avaliacao
comentarios_fato_avaliacao = {
    "id_jogo": "ID original do jogo no dataset BoardGameGeek (BGG)",
    "usuarios_avaliaram": "Quantidade de usu√°rios que avaliaram o jogo",
    "media_avaliacao": "Nota m√©dia recebida",
    "classificacao_bgg": "Posi√ß√£o no ranking da BoardGameGeek",
    "media_complexidade": "N√≠vel m√©dio de dificuldade/complexidade",
    "usuarios_possuem": "Quantidade de usu√°rios que possuem o jogo"
}

for coluna, comentario in comentarios_fato_avaliacao.items():
    spark.sql(f"""
    ALTER TABLE tabuleiro.fato_avaliacao 
    ALTER COLUMN {coluna} COMMENT '{comentario}'
    """)

print("Coment√°rios adicionados para fato_avaliacao")

In [0]:
# Adiciona etiquetas (tags) dos atributos das tabelas do modelo estrela

# --- Etiquetas para dim_jogo
etiquetas_dim_jogo = {
    "id_jogo": "identificador",
    "nome_jogo": "descricao",
    "ano_publicacao": "temporal",
    "jogo_sk": "chave_substituta"
}

for coluna, etiqueta in etiquetas_dim_jogo.items():
    spark.sql(f"""
    ALTER TABLE tabuleiro.dim_jogo 
    ALTER COLUMN {coluna} SET TAGS ('{etiqueta}')
    """)

print("Etiquetas adicionadas para dim_jogo")

# --- Etiquetas para dim_jogabilidade
etiquetas_dim_jogabilidade = {
    "jogabilidade_sk": "chave_substituta",
    "id_jogo": "identificador",
    "min_jogadores": "jogabilidade_min",
    "max_jogadores": "jogabilidade_max",
    "tempo_jogo": "duracao",
    "idade_minima": "faixa_etaria"
}

for coluna, etiqueta in etiquetas_dim_jogabilidade.items():
    spark.sql(f"""
    ALTER TABLE tabuleiro.dim_jogabilidade 
    ALTER COLUMN {coluna} SET TAGS ('{etiqueta}')
    """)

print("Etiquetas adicionadas para dim_jogabilidade")

# --- Etiquetas para dim_mecanicas
etiquetas_dim_mecanicas = {
    "mecanica_sk": "chave_substituta",
    "id_jogo": "identificador",
    "mecanica_jogo": "dinamica"
}

for coluna, etiqueta in etiquetas_dim_mecanicas.items():
    spark.sql(f"""
    ALTER TABLE tabuleiro.dim_mecanicas 
    ALTER COLUMN {coluna} SET TAGS ('{etiqueta}')
    """)

print("Etiquetas adicionadas para dim_mecanicas")

# --- Etiquetas para dim_dominios
etiquetas_dim_dominios = {
    "dominio_sk": "chave_substituta",
    "id_jogo": "identificador",
    "dominio_jogo": "categoria"
}

for coluna, etiqueta in etiquetas_dim_dominios.items():
    spark.sql(f"""
    ALTER TABLE tabuleiro.dim_dominios 
    ALTER COLUMN {coluna} SET TAGS ('{etiqueta}')
    """)

print("Etiquetas adicionadas para dim_dominios")

# --- Etiquetas para fato_avaliacao
etiquetas_fato_avaliacao = {
    "id_jogo": "identificador",
    "usuarios_avaliaram": "engajamento",
    "media_avaliacao": "desempenho",
    "classificacao_bgg": "ranking",
    "media_complexidade": "nivel",
    "usuarios_possuem": "popularidade"
}

for coluna, etiqueta in etiquetas_fato_avaliacao.items():
    spark.sql(f"""
    ALTER TABLE tabuleiro.fato_avaliacao 
    ALTER COLUMN {coluna} SET TAGS ('{etiqueta}')
    """)

print("Etiquetas adicionadas para fato_avaliacao")

#### Gr√°fico dos insight

In [0]:
# 01. Top 10 Jogos Melhor Avaliados

# Monta a query
query = """
SELECT 
    j.nome_jogo as Nome_Jogo,
    j.ano_publicacao as Ano_Publicacao,
    f.media_avaliacao as Avaliacao_Media,
    f.usuarios_avaliaram as Total_que_Avaliaram,
    f.classificacao_bgg as Ranking_BGG
FROM tabuleiro.fato_avaliacao f
JOIN tabuleiro.dim_jogo j ON f.id_jogo = j.id_jogo
WHERE f.usuarios_avaliaram > 1000
ORDER BY f.media_avaliacao DESC
LIMIT 10
"""

# Executa a query e carrega em um DataFrame Spark
df_spark = spark.sql(query)
df = df_spark.toPandas()

plt.figure(figsize=(14,8))
sns.barplot(data=df, x="Nome_Jogo", y="Total_que_Avaliaram", palette="viridis", hue="Nome_Jogo", legend=False)

# Adiciona os r√≥tulos acima das barras
for i, row in df.iterrows():
    plt.text(i, row["Total_que_Avaliaram"] + 50, 
             f"{row['Total_que_Avaliaram']} (nota {row['Avaliacao_Media']:.2f})", 
             ha='center', va='bottom', fontsize=9)

plt.xticks(rotation=90, ha="right", fontsize=9)
plt.yticks(fontsize=9)
plt.title("Top 10: Jogos melhores avaliados", fontsize=12, weight="bold")
plt.ylabel("Total de Usu√°rios que Avaliaram", fontsize=10)
plt.xlabel("Nome do Jogo", fontsize=10)

# Espa√ßamento extra no topo
plt.ylim(0, df["Total_que_Avaliaram"].max() * 1.15)

# Melhorias de borda e linhas internas
ax = plt.gca()
# Borda externa mais grossa
for spine in ax.spines.values():
    spine.set_linewidth(0.9)
    spine.set_color("black")

# Linhas horizontais internas
ax.yaxis.grid(True, linestyle="--", linewidth=0.7, alpha=0.7)

# Formatar eixo y em m√∫ltiplos de 10k
ax.yaxis.set_major_locator(MultipleLocator(10000))
ax.yaxis.set_major_formatter(FuncFormatter(lambda y, _: f"{int(y/1000)}k"))

plt.tight_layout()
plt.show()

In [0]:
# 02. M√©dia de Avalia√ß√£o por N√≠vel de Complexidade

# Monta a query
query = """
SELECT 
    CASE 
        WHEN f.media_complexidade < 2 THEN 'Iniciante (0-2)'
        WHEN f.media_complexidade < 3 THEN 'Intermedi√°rio (2-3)'
        WHEN f.media_complexidade < 4 THEN 'Avan√ßado (3-4)'
        ELSE 'Expert (4-5)'
    END as Nivel_Complexidade,
    ROUND(AVG(f.media_avaliacao), 2) as Media_Avaliacao,
    COUNT(*) as Total_Jogos
FROM tabuleiro.fato_avaliacao f
GROUP BY Nivel_Complexidade 
ORDER BY Media_Avaliacao ASC
"""

# Executa a query e carrega em um DataFrame Spark
df_spark = spark.sql(query)
df = df_spark.toPandas()

plt.figure(figsize=(10,6))
sns.barplot(data=df, y="Nivel_Complexidade", x="Media_Avaliacao", palette="mako", legend=False, hue="Nivel_Complexidade")

# Adiciona r√≥tulos com m√©dia e total de jogos
for i, row in df.iterrows():
    plt.text(row["Media_Avaliacao"] + 0.05, i, 
             f"{row['Media_Avaliacao']:.2f} ‚òÖ |  {row['Total_Jogos']} jogos", 
             va='center', fontsize=8)

plt.title("M√©dia de Avalia√ß√£o por N√≠vel de Complexidade", fontsize=13, weight="bold")
plt.xlabel("M√©dia de Avalia√ß√£o", fontsize=10)
plt.ylabel("N√≠vel de Complexidade", fontsize=10)

# Ajustes visuais
plt.grid(axis="x", linestyle="--", alpha=0.6)
plt.yticks(fontsize=9)
plt.xticks(fontsize=9)
plt.xlim(0, df["Media_Avaliacao"].max() * 1.2)  # espa√ßo extra no topo

# Melhorias de borda e linhas internas
ax = plt.gca()
# Borda externa mais grossa
for spine in ax.spines.values():
    spine.set_linewidth(0.9)
    spine.set_color("black")

# Linhas verticais internas
#ax.yaxis.grid(True, linestyle="--", linewidth=0.7, alpha=0.7)  # linhas horizontais
ax.xaxis.grid(True, linestyle="--", linewidth=0.7, alpha=0.5)  # linhas verticais

plt.tight_layout()
plt.show()

In [0]:
# 03. Mec√¢nicas mais populares

# Monta a query
query = """
SELECT 
    dm.mecanica_jogo AS Mecanica_Jogo, 
    SUM(fa.usuarios_possuem) AS Popularidade
FROM tabuleiro.fato_avaliacao fa
JOIN tabuleiro.Dim_Mecanicas dm 
    ON fa.id_jogo = dm.id_jogo
GROUP BY dm.mecanica_jogo
ORDER BY Popularidade DESC
LIMIT 10;
"""

# Executa a query e carrega em um DataFrame Spark
df_spark = spark.sql(query)
df = df_spark.toPandas().sort_values("Popularidade", ascending=False)

plt.figure(figsize=(10,6))
ax = sns.barplot(data=df, y="Mecanica_Jogo", x="Popularidade", palette="flare", legend=False, hue="Mecanica_Jogo")

# Adiciona r√≥tulos com popularidade formatada
for i, row in df.iterrows():
    plt.text(
        row["Popularidade"] + (row["Popularidade"] * 0.02),
        i,
        f"‚òÖ {row['Popularidade']:,} usu√°rios",
        va="center",
        fontsize=8
    )

# T√≠tulo e eixos
plt.title("Top 10: Mec√¢nicas de jogos mais populares", fontsize=13, weight="bold")
plt.xlabel("N√∫mero de Usu√°rios Propriet√°rios", fontsize=10)
plt.ylabel("Mec√¢nica de Jogo", fontsize=10)

# Ajustes visuais
plt.grid(axis="x", linestyle="--", alpha=0.6)
plt.xticks(fontsize=8)
plt.yticks(fontsize=8)
plt.xlim(0, df["Popularidade"].max() * 1.3) # Espa√ßo extra para r√≥tulos

# Formatar eixo X em milhares (k)
ax.xaxis.set_major_formatter(FuncFormatter(lambda x, _: f"{int(x/1000)}k" if x >= 1000 else f"{int(x)}"))

# Melhorias de borda e linhas internas
ax = plt.gca()
# Borda externa mais grossa
for spine in ax.spines.values():
    spine.set_linewidth(0.9)
    spine.set_color("black")

# Linhas verticais internas
#ax.yaxis.grid(True, linestyle="--", linewidth=0.7, alpha=0.7)  # linhas horizontais
ax.xaxis.grid(True, linestyle="--", linewidth=0.7, alpha=0.5)  # linhas verticais

plt.tight_layout()
plt.show()

In [0]:
# 04. Complexidade m√©dia e tempo de jogo

# Monta a query
query = """
WITH jogos AS (
    SELECT 
        favalia.id_jogo, djogab.tempo_jogo,
        CASE 
            WHEN favalia.media_complexidade < 2 THEN 'Baixa (0-2)'
            WHEN favalia.media_complexidade < 3 THEN 'M√©dia (2-3)'
            WHEN favalia.media_complexidade < 4 THEN 'Alta (3-4)'
            ELSE 'Muito Alta (4-5)'
        END AS Faixa_Complexidade
    FROM tabuleiro.fato_avaliacao favalia
    JOIN tabuleiro.dim_jogo djogo 
        ON favalia.id_jogo = djogo.id_jogo
    JOIN tabuleiro.dim_jogabilidade djogab 
        ON favalia.id_jogo = djogab.id_jogo
) 
SELECT 
    Faixa_Complexidade,
    ROUND(AVG(tempo_jogo), 2) AS Tempo_Medio_Jogo,
    COUNT(DISTINCT id_jogo) AS Total_Jogos
FROM jogos
GROUP BY Faixa_Complexidade
ORDER BY Tempo_Medio_Jogo ASC
"""

# Executa a query e carrega em um DataFrame Spark
df_spark = spark.sql(query)
df = df_spark.toPandas()

import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(10,6))
sns.barplot(data=df, y="Faixa_Complexidade", x="Tempo_Medio_Jogo", palette="flare", legend=False, hue="Faixa_Complexidade")

# Adiciona r√≥tulos com tempo m√©dio e total de jogos
for i, row in df.iterrows():
    plt.text(row["Tempo_Medio_Jogo"] + 1, i, 
             f"‚òÖ {row['Tempo_Medio_Jogo']} min | {row['Total_Jogos']} jogos", 
             va='center', fontsize=8)

plt.title("Rela√ß√£o entre Complexidade M√©dia e Tempo de Jogo", fontsize=13, weight="bold")
plt.xlabel("Tempo M√©dio de Jogo (minutos)", fontsize=10)
plt.ylabel("Faixa de Complexidade", fontsize=10)

# Ajustes visuais
plt.grid(axis="x", linestyle="--", alpha=0.6)
plt.xticks(fontsize=9)
plt.yticks(fontsize=9)
plt.xlim(0, df["Tempo_Medio_Jogo"].max() * 1.3)  # espa√ßo extra para r√≥tulos

# Melhorias de borda e linhas internas
ax = plt.gca()
# Borda externa mais grossa
for spine in ax.spines.values():
    spine.set_linewidth(0.9)
    spine.set_color("black")

# Linhas verticais internas
#ax.yaxis.grid(True, linestyle="--", linewidth=0.7, alpha=0.7)  # linhas horizontais
ax.xaxis.grid(True, linestyle="--", linewidth=0.7, alpha=0.5)  # linhas verticais

plt.tight_layout()
plt.show()

In [0]:
# 05. Compara√ß√£o da M√©dia de Avalia√ß√£o por Faixa Et√°ria

# Monta a query
query = """
SELECT 
    CASE 
        WHEN djg.idade_minima BETWEEN 0 AND 5 THEN 'Infantil (0-5)'
        WHEN djg.idade_minima BETWEEN 6 AND 12 THEN 'Pr√©-adolescente (6-12)'
        WHEN djg.idade_minima BETWEEN 13 AND 17 THEN 'Adolescente (13-17)'
        ELSE 'Adulto (18-21)'
    END AS Faixa_Etaria_Jogador,
    ROUND(AVG(fa.media_avaliacao), 2) AS Media_Avaliacao_Jogo,
    COUNT(DISTINCT fa.id_jogo) AS Total_Jogos
FROM tabuleiro.fato_avaliacao fa
JOIN tabuleiro.dim_jogabilidade djg 
    ON fa.id_jogo = djg.id_jogo
GROUP BY Faixa_Etaria_Jogador
ORDER BY Media_Avaliacao_Jogo ASC
"""

# Executa a query e carrega em um DataFrame Spark
df_spark = spark.sql(query)
df = df_spark.toPandas()

plt.figure(figsize=(10,6))
sns.barplot(data=df, y="Faixa_Etaria_Jogador", x="Media_Avaliacao_Jogo", palette="crest", legend=False, hue="Faixa_Etaria_Jogador")

# Adiciona r√≥tulos com m√©dia e total de jogos
for i, row in df.iterrows():
    plt.text(row["Media_Avaliacao_Jogo"] + 0.05, i, 
             f"‚òÖ {row['Media_Avaliacao_Jogo']:.2f} | {row['Total_Jogos']} jogos", 
             va='center', fontsize=8)

plt.title("Compara√ß√£o da M√©dia de Avalia√ß√£o por Faixa Et√°ria (0 a 21)", fontsize=13, weight="bold")
plt.xlabel("M√©dia de Avalia√ß√£o do Jogo", fontsize=10)
plt.ylabel("Faixa Et√°ria do Jogador", fontsize=10)

# Ajustes visuais
plt.grid(axis="x", linestyle="--", alpha=0.6)
plt.xticks(fontsize=9)
plt.yticks(fontsize=9)
plt.xlim(0, df["Media_Avaliacao_Jogo"].max() * 1.2)  # espa√ßo extra no topo

# Melhorias de borda e linhas internas
ax = plt.gca()
# Borda externa mais grossa
for spine in ax.spines.values():
    spine.set_linewidth(0.9)
    spine.set_color("black")

# Linhas verticais internas
#ax.yaxis.grid(True, linestyle="--", linewidth=0.7, alpha=0.7)  # linhas horizontais
ax.xaxis.grid(True, linestyle="--", linewidth=0.7, alpha=0.5)  # linhas verticais

plt.tight_layout()
plt.show()

In [0]:
# 06. Dom√≠nios mais populares com melhores m√©dias de avalia√ß√£o

# Monta a query
query = """
SELECT 
    dd.dominio_jogo AS Categoria,
    SUM(fb.usuarios_possuem) AS Popularidade,
    AVG(fb.media_avaliacao) AS Media_Avaliacao
FROM tabuleiro.fato_avaliacao fb
JOIN tabuleiro.dim_dominios dd 
    ON fb.id_jogo = dd.id_jogo
WHERE fb.media_avaliacao IS NOT NULL
GROUP BY dd.dominio_jogo
ORDER BY Media_Avaliacao DESC, Popularidade DESC
"""

# Executa a query e carrega em um DataFrame Spark
df_spark = spark.sql(query)

# Converter para Pandas
df = df_spark.toPandas()

# Plotar gr√°fico com Seaborn
import seaborn as sns
import matplotlib.pyplot as plt

sns.set_theme(style="whitegrid")
plt.figure(figsize=(10,6))

# Gr√°fico de barras horizontal ordenado pela m√©dia de avalia√ß√£o
ax = sns.barplot(
    data=df,
    x="Media_Avaliacao",
    y="Categoria",
    palette="viridis",
    legend=False, 
    hue= "Categoria"
)

# Adicionar r√≥tulos com m√©dia e popularidade
for i, (val, pop) in enumerate(zip(df["Media_Avaliacao"], df["Popularidade"])):
    ax.text(val + 0.05, i, f"‚òÖ {val:.2f} | Pop: {pop}", 
            va="center", fontsize=8, color="black")

# T√≠tulo e r√≥tulos
plt.title("Dom√≠nios mais populares vs m√©dias de avalia√ß√£o", fontsize=16, weight="bold")
plt.xlabel("M√©dia de Avalia√ß√£o", fontsize=11)
plt.ylabel("Categoria", fontsize=11)

plt.xticks(fontsize=9)
plt.yticks(fontsize=9)
plt.xlim(0, df["Media_Avaliacao"].max() * 1.2)  # espa√ßo extra no topo

# Borda externa mais grossa
for spine in ax.spines.values():
    spine.set_linewidth(0.9)
    spine.set_color("black")

# Linhas verticais internas
#ax.yaxis.grid(True, linestyle="--", linewidth=0.7, alpha=0.7)  # linhas horizontais
ax.xaxis.grid(True, linestyle="--", linewidth=0.7, alpha=0.5)  # linhas verticais

plt.tight_layout()
plt.show()

In [0]:
df = spark.sql("""
SELECT 
    CASE 
        WHEN j.tempo_jogo <= 30 THEN 'Curto (‚â§30 min)'
        WHEN j.tempo_jogo BETWEEN 31 AND 90 THEN 'M√©dio (31-90 min)'
        ELSE 'Longo (>90 min)'
    END AS faixa_tempo,
    ROUND(AVG(f.media_avaliacao),2) AS media_avaliacao,
    COUNT(DISTINCT f.id_jogo) AS qtd_jogos
FROM tabuleiro.fato_avaliacao f
JOIN tabuleiro.dim_jogabilidade j ON f.id_jogo = j.id_jogo
GROUP BY faixa_tempo
ORDER BY media_avaliacao DESC
""")

pdf = df.toPandas()

import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(10,6))
ax = sns.barplot(   # <<< captura o objeto Axes
    x="faixa_tempo", 
    y="media_avaliacao", 
    data=pdf, 
    palette="Blues_d"
)

# Adiciona r√≥tulos com qtd_jogos
for i, row in pdf.iterrows():
    ax.text(
        i, row["media_avaliacao"] + 0.05, 
        f'{row["qtd_jogos"]} jogos', 
        ha='center', va='bottom', fontsize=9, color='black'
    )

ax.set_title("Tempo de Jogo vs. Avalia√ß√£o M√©dia", fontsize=14, weight="bold")
ax.set_xlabel("Faixa de Tempo de Jogo", fontsize=11)
ax.set_ylabel("M√©dia de Avalia√ß√£o", fontsize=11)

# üîΩ Ajuste do tamanho da fonte dos valores dos eixos
plt.xticks(fontsize=9)
plt.yticks(fontsize=9)

# Borda externa mais grossa
for spine in ax.spines.values():
    spine.set_linewidth(0.9)
    spine.set_color("black")

# Linhas horizontais internas
ax.yaxis.grid(True, linestyle="--", linewidth=0.7, alpha=0.7)

plt.tight_layout()
plt.show()
