## üî∂ Leitura dos Arquivos no DBFS

In [0]:
# Ler os dados do DBFS em vez do S3
df_estatisticas = spark.read.parquet("dbfs:/mnt/silver_temp/estatisticas")

df_estatisticas.createOrReplaceTempView("estatisticas")

print('‚úÖ Dataframes criado com sucesso a partir do DBFS')

‚úÖ Dataframes criado com sucesso a partir do DBFS


### üîπExplodir as posi√ß√µes em campo


In [0]:
%sql
-- Explode as posi√ß√µes separadas por v√≠rgula
CREATE OR REPLACE TEMP VIEW posicoes_explodidas AS
SELECT 
    Jogador,
    Clube,
    Numero_Camisa,
    Nacionalidade,
    Data,
    TRIM(posicao) AS Posicao
FROM (
    SELECT *,
        EXPLODE(SPLIT(Posicao_em_Campo, ',')) AS posicao
    FROM estatisticas
);


### üîπContar frequ√™ncia das posi√ß√µes por jogador


In [0]:
%sql
-- Atualizado para considerar Clube
CREATE OR REPLACE TEMP VIEW frequencia_posicoes AS
SELECT 
    Jogador,
    Clube,
    Nacionalidade,
    Posicao,
    COUNT(*) AS frequencia
FROM posicoes_explodidas
GROUP BY Jogador, Clube, Nacionalidade, Posicao;


### üîπAplicar ranking (posi√ß√£o mais jogada = rank 1)

In [0]:
%sql
-- Agora o ranking √© por Jogador + Clube
CREATE OR REPLACE TEMP VIEW ranking_posicoes AS
SELECT *,
    ROW_NUMBER() OVER (
        PARTITION BY Jogador, Clube
        ORDER BY frequencia DESC
    ) AS pos_rank
FROM frequencia_posicoes;


### üîπSelecionar posi√ß√£o principal


In [0]:
%sql
-- Principal
CREATE OR REPLACE TEMP VIEW principal AS
SELECT 
    Jogador,
    Clube,
    Nacionalidade,
    Posicao AS Posicao_Principal,
    frequencia AS jogos_posicao_principal
FROM ranking_posicoes
WHERE pos_rank = 1;

### üîπSelecionar improvisa√ß√£o (segunda mais jogada)


In [0]:
%sql
-- Improvisa√ß√£o
CREATE OR REPLACE TEMP VIEW improvisacao AS
SELECT 
    Jogador,
    Clube,
    Posicao AS Improvisacao,
    frequencia AS jogos_improvisados
FROM ranking_posicoes
WHERE pos_rank = 2;

### üîπAplicar um JOIN nas duas tabelas (Posi√ß√£o Principal e Improvisa√ß√£o)


In [0]:
%sql
CREATE OR REPLACE TEMP VIEW Mart_Info_Jogadores AS
SELECT 
    p.Jogador,
    p.Clube,
    p.Nacionalidade,
    
    p.Posicao_Principal,
    CASE p.Posicao_Principal
        WHEN 'CB' THEN 'Zagueiro'
        WHEN 'FW' THEN 'Atacante'
        WHEN 'GK' THEN 'Goleiro'
        WHEN 'RW' THEN 'Ponta Direita'
        WHEN 'RB' THEN 'Lateral Direito'
        WHEN 'CM' THEN 'Meio-Campista Central'
        WHEN 'AM' THEN 'Meia Ofensivo'
        WHEN 'LB' THEN 'Lateral Esquerdo'
        WHEN 'LM' THEN 'Meia Esquerda'
        WHEN 'LW' THEN 'Ponta Esquerda'
        WHEN 'DM' THEN 'Volante'
        WHEN 'WB' THEN 'Ala'
        WHEN 'RM' THEN 'Meia Direita'
        ELSE NULL
    END AS Nome_Posicao_Principal,
    
    p.jogos_posicao_principal,

    i.Improvisacao,
    CASE i.Improvisacao
        WHEN 'CB' THEN 'Zagueiro'
        WHEN 'FW' THEN 'Atacante'
        WHEN 'GK' THEN 'Goleiro'
        WHEN 'RW' THEN 'Ponta Direita'
        WHEN 'RB' THEN 'Lateral Direito'
        WHEN 'CM' THEN 'Meio-Campista Central'
        WHEN 'AM' THEN 'Meia Ofensivo'
        WHEN 'LB' THEN 'Lateral Esquerdo'
        WHEN 'LM' THEN 'Meia Esquerda'
        WHEN 'LW' THEN 'Ponta Esquerda'
        WHEN 'DM' THEN 'Volante'
        WHEN 'WB' THEN 'Ala'
        WHEN 'RM' THEN 'Meia Direita'
        ELSE NULL
    END AS Nome_Improvisacao,

    i.jogos_improvisados

FROM principal p
LEFT JOIN improvisacao i
  ON p.Jogador = i.Jogador AND p.Clube = i.Clube
ORDER BY p.Jogador;


## üî∂ Conferencias finais

### üîπConferindo se temos Mais de 1 jogador com o mesmo nome no mesmo clube

In [0]:
%sql
-- Combina√ß√µes √∫nicas de jogador e clube (removendo duplicatas)
SELECT 
    Jogador,
    Clube,
    COUNT(*) AS ocorrencias
FROM (
    SELECT DISTINCT Jogador, Clube
    FROM estatisticas
) AS unicos
GROUP BY Jogador, Clube
ORDER BY Jogador;


Jogador,Clube,ocorrencias
Abner,Juventude,1
Ademir Santos,Bahia,1
Adriano Martins,Atl√©tico-GO,1
Adriel,Bahia,1
Adryelson,Botafogo,1
Adson,Vasco da Gama,1
Agust√≠n Canobbio,Athletico-PR,1
Agust√≠n Giay,Palmeiras,1
Agust√≠n Marches√≠n,Gr√™mio,1
Agust√≠n Rogel,Internacional,1


### üîπConferindo se temos Jogadores com mesmo nome no mesmo clube, mas camisas diferentes

In [0]:
%sql
-- Jogadores com mesmo nome no mesmo clube, mas camisas diferentes
SELECT 
    Jogador,
    Clube,
    COUNT(DISTINCT Numero_Camisa) AS qtd_camisas_diferentes
FROM estatisticas
GROUP BY Jogador, Clube
HAVING COUNT(DISTINCT Numero_Camisa) > 1
ORDER BY qtd_camisas_diferentes DESC;


Jogador,Clube,qtd_camisas_diferentes
Alejo Cruz,Atl√©tico-GO,10
Budiga Roni,Atl√©tico-GO,7
Rhaldney,Atl√©tico-GO,6
Mat√≠as Lacava,Atl√©tico-GO,6
Lucas Kal,Atl√©tico-GO,6
Joel Campbell,Atl√©tico-GO,6
Shaylon,Atl√©tico-GO,6
Derek,Atl√©tico-GO,6
Luiz Felipe,Atl√©tico-GO,6
Janderson,Atl√©tico-GO,5


## üìå Salvando os Arquivs na Camada Gold 

In [0]:
df_gold = spark.sql("SELECT * FROM Mart_Info_Jogadores")

df_gold.write.mode("overwrite").parquet("s3a://mvp-brasileirao-2024/gold/Mart_Info_Jogadores")