In [0]:
# Importação das bibliotecas necessárias
import re
import requests
from bs4 import BeautifulSoup
import pandas as pd
from pyspark.sql.types import DoubleType, IntegerType
from pyspark.sql import SparkSession
import logging
from requests.exceptions import RequestException

# Função para extrair dados do conteúdo HTML
def extrair_dados_de_conteudo_html(html: str) -> pd.DataFrame:
    sopa = BeautifulSoup(html, "html.parser")
    tabelas = sopa.find_all("table")
    resultados = []
    
    # Itera sobre todas as tabelas encontradas no HTML
    for tabela in tabelas:
        linhas = tabela.find_all("tr")
        
        # Itera sobre todas as linhas de cada tabela
        for linha in linhas:
            celulas = linha.find_all(["td", "th"])
            registro = []
            
            # Itera sobre todas as células de cada linha
            for celula in celulas:
                celula_html = str(celula)
                celula_texto = re.search(r'<a href=".*?">(.*?)</a>', celula_html)
                # Adiciona o texto da célula ao registro
                registro.append(celula_texto.group(1) if celula_texto else celula.text.strip())
                
            # Adiciona o registro à lista de resultados
            resultados.append(registro)
    
    # Converte os resultados em um DataFrame pandas
    df = pd.DataFrame(resultados)
    
    # Extrai a primeira linha como nomes das colunas
    nomes_colunas = df.iloc[0]
    df.columns = nomes_colunas
    # Remove a primeira linha do DataFrame
    df = df[1:] 
    return df

# Função para extrair dados do URL fornecido
def extrair(url: str) -> pd.DataFrame:
    resposta = requests.get(url, timeout=20)
    conteudo_html = resposta.text
    return extrair_dados_de_conteudo_html(conteudo_html)

# Configurando logging
logging.basicConfig(filename='/extrair_erro.log', level=logging.ERROR)

# Criando uma sessão Spark
spark = SparkSession.builder.appName("Extrair_dados").getOrCreate()

# URL da página de estatísticas da NBA
link_nba = 'https://www.basketball-reference.com/leagues/NBA_2024_per_game.html#per_game_stats'

# Chamando a função de extração para obter os dados
dados = extrair(link_nba)

# Processando os nomes das colunas
nomes_colunas = [nome.replace('%', 'Perc') if nome else 'ID' for nome in dados.columns]

# Substituir o início da string se for um número
nomes_colunas_processadas = [f"{nome[1:]}{nome[0]}" if nome[0].isdigit() else nome for nome in nomes_colunas]

# Atualiza os nomes das colunas no DataFrame
dados.columns = nomes_colunas_processadas

# Filtra as linhas que não são títulos
dados = dados[dados['Rk'] != 'Rk']

# Definindo variáveis usadas no código abaixo
caminho_delta = "hive_metastore/default/caminho/delta"
caminho_checkpoint = "/caminho/checkpoint"

# Convertendo o DataFrame pandas para DataFrame PySpark
df_ = spark.createDataFrame(dados)
    
# Transformando colunas de string para tipos apropriados
colunas_inteiras = ['Age', 'G', 'GS']
colunas_floats = ['MP', 'FG', 'FGA', 'FGPerc', 'P3', 'PA3', 'PPerc3', 'P2', 'PA2',
                 'PPerc2', 'eFGPerc', 'FT', 'FTA', 'FTPerc', 'ORB', 'DRB', 'TRB',
                 'AST', 'STL', 'BLK', 'TOV', 'PF', 'PTS']

# Convertendo colunas inteiras
for nome_coluna in colunas_inteiras:
    df_ = df_.withColumn(nome_coluna, df_[nome_coluna].cast(IntegerType()))

# Convertendo colunas flutuantes
for nome_coluna in colunas_floats:
    df_ = df_.withColumn(nome_coluna, df_[nome_coluna].cast(DoubleType()))

# Salvando o DataFrame como uma tabela Delta no Hive Metastore
df_.write.mode("overwrite").format("delta").saveAsTable("Dados_Jogadores_NBA_24")




In [0]:
%sql
-- Criação ou substituição de uma tabela chamada 'dados_nba_preparados'
CREATE OR REPLACE TABLE
   dados_nba_preparados (
     Classificacao_Equipe int,
     Nome_Equipe string,
     Media_Pontos double,
     Maximo_Pontos double,
     Media_Percentage_Acerto double,
     Media_Rebotes_Defensivos double,
     Media_Rebotes_Ofensivos double,
     Media_TurnOver double,
     Media_Classificacao_Jogador double,
     Minima_Classificacao_Jogador double,
     Metricas_Personalizadas double
   );

-- Inserção de dados na tabela 'dados_nba_preparados'
INSERT INTO
   dados_nba_preparados

-- Definição de uma CTE (Common Table Expression) para calcular estatísticas médias para cada equipe
WITH estatisticas_equipes AS (
     SELECT
         Tm AS Equipe,
         AVG(PTS) AS media_pontos,
         AVG(FGPerc) AS media_percentage_acerto,
         AVG(DRB) AS media_rebotes_defensivos,
         AVG(ORB) AS media_rebotes_ofensivos,
         AVG(TOV) AS media_turnover,
         AVG(Rk) AS media_classificacao_jogador
     FROM Dados_Jogadores_NBA_24
     GROUP BY Tm
 ),

-- Definição de uma CTE para calcular os valores mínimos e máximos de cada estatística por equipe
min_max_valores AS (
     SELECT
         Tm AS Equipe,
         MIN(PTS) AS min_pontos,
         MAX(PTS) AS max_pontos,
         MIN(FGPerc) AS min_percentage_acerto,
         MAX(FGPerc) AS max_percentage_acerto,
         MIN(DRB) AS min_rebotes_defensivos,
         MAX(DRB) AS max_rebotes_defensivos,
         MIN(ORB) AS min_rebotes_ofensivos,
         MAX(ORB) AS max_rebotes_ofensivos,
         MIN(TOV) AS min_turnover,
         MAX(TOV) AS max_turnover,
         MIN(RK) AS min_classificacao_jogador,
         MAX(RK) AS max_classificacao_jogador
     FROM Dados_Jogadores_NBA_24
     GROUP BY Tm
 ),

-- Definição de uma CTE para calcular os valores normalizados de cada estatística por equipe
equipes_rankeadas AS (
     SELECT
         e.Equipe,
         e.media_pontos,
         e.media_percentage_acerto,
         e.media_rebotes_defensivos,
         e.media_rebotes_ofensivos,
         e.media_turnover,
         e.media_classificacao_jogador,
         (
         e.media_pontos - mmv.min_pontos
         ) / (
         mmv.max_pontos - mmv.min_pontos
         ) AS pontos_normalizados,
         (
         e.media_percentage_acerto - mmv.min_percentage_acerto
         ) / (
         mmv.max_percentage_acerto - mmv.min_percentage_acerto
         ) AS percentage_acerto_normalizado,
         (
         e.media_rebotes_defensivos - mmv.min_rebotes_defensivos
         ) / (
         mmv.max_rebotes_defensivos - mmv.min_rebotes_defensivos
         ) AS rebotes_defensivos_normalizados,
         (
         e.media_rebotes_ofensivos - mmv.min_rebotes_ofensivos
         ) / (
         mmv.max_rebotes_ofensivos - mmv.min_rebotes_ofensivos
         ) AS rebotes_ofensivos_normalizados,
         (
         e.media_turnover - mmv.min_turnover
         ) / (
         mmv.max_turnover - mmv.min_turnover
         ) AS turnover_normalizado,
         (
         e.media_classificacao_jogador - mmv.min_classificacao_jogador
         ) / (
         mmv.max_classificacao_jogador - mmv.min_classificacao_jogador
         ) AS classificacao_jogador_normalizado,
         RANK() OVER (ORDER BY e.media_pontos DESC) AS classificacao_equipes
     FROM estatisticas_equipes e
     JOIN min_max_valores mmv ON e.Equipe = mmv.Equipe
 ),

-- Definição de uma CTE para rankear as equipes com base em uma métrica personalizada
equipes_rankeadas_2 AS (
     SELECT
         Equipe,
         media_pontos,
         media_percentage_acerto,
         media_rebotes_defensivos,
         media_rebotes_ofensivos,
         media_turnover,
         pontos_normalizados,
         media_classificacao_jogador,
         percentage_acerto_normalizado,
         rebotes_defensivos_normalizados,
         rebotes_ofensivos_normalizados,
         turnover_normalizado,
         classificacao_jogador_normalizado,
         RANK() OVER (ORDER BY pontos_normalizados - turnover_normalizado + rebotes_defensivos_normalizados DESC) AS classificacao_equipes
     FROM equipes_rankeadas
 )

-- Output dos resultados unindo os dados das CTEs 'equipes_rankeadas_2' e 'min_max_valores' e filtrando as top 100 equipes
SELECT
     eqr2.classificacao_equipes,
     eqr2.Equipe,
     ROUND(eqr2.media_pontos, 2),
     ROUND(mmv.max_pontos, 2) AS max_pontos,
     ROUND(eqr2.media_percentage_acerto, 2),
     ROUND(eqr2.media_rebotes_defensivos, 2) AS media_reb_defensivos,
     ROUND(eqr2.media_rebotes_ofensivos, 2) AS media_reb_ofensivos,
     ROUND(eqr2.media_turnover, 2),
     ROUND(eqr2.media_classificacao_jogador, 2) AS media_classificacao,
     ROUND(mmv.min_classificacao_jogador, 2) AS min_classificacao,
     ROUND(pontos_normalizados - turnover_normalizado + rebotes_defensivos_normalizados, 2) AS metricas_personalizadas
FROM
    equipes_rankeadas_2 eqr2
    LEFT JOIN min_max_valores mmv ON mmv.Equipe = eqr2.Equipe
WHERE
     eqr2.classificacao_equipes <= 100;


num_affected_rows,num_inserted_rows
31,31


In [0]:
%sql
CREATE TABLE spark_catalog.default.prepared_nba_data
USING DELTA
LOCATION 'dbfs:/user/hive/warehouse/novo_prepared_nba_data'
