# <center>Rocket Lab Dados - 2025.2</center>
# <center> Introdu√ß√£o √† Pyspark</center>
___
Todo o conte√∫do que voc√™ ter√° acesso ao longo desse per√≠odo √© confidencial, n√£o sendo poss√≠vel compartilhar ou comercializar os links ou os materiais recebidos que sejam de propriedade do Programa Rocket Lab da V(dev)

Dessa forma, ao participar do curso voc√™ est√° aceitando os termos de confidencialidade e n√£o-comercializa√ß√£o dos conte√∫dos que ser√£o recebidos.
___

# <center> Objetivos de aprendizado </center>
- Familiarizar-se com as funcionalidades b√°sicas do PySpark
- Ser capaz de carregar dados em um DataFrame
- Ser capaz de realizar manipula√ß√µes b√°sicas de dados
___


### 1. Juntando DataFrames

√â muito comum ter a necessidade de juntar *DataFrames* diferentes. Se voc√™ j√° utilizou SQL ou qualquer outro banco de dados relacional, deve conhecer isso como *join*. O Pandas tamb√©m tem a mesma fun√ß√£o utilizando o m√©todo *.merge()*. Antes do exemplo, vamos aprender/relembrar os tipos de *joins* mais comuns:<br>
![Joining Methods](https://i.imgur.com/HaSBT91.jpg) <br>
Agora, vamos carregar um DataFrame mais simples para testar os tipos de *merge*.

Para os exemplos abaixo iremos utilizar o Datafram: **metal_bands**, contendo as informa√ß√µes sobre bandas de metal do mundo todo, suas origens e estilos musicais.

Principais colunas:
- Band ‚Äî nome da banda
- Origin ‚Äî pa√≠s de origem
- Fans ‚Äî n√∫mero aproximado de f√£s
- Formed ‚Äî ano de forma√ß√£o
- Split ‚Äî ano de separa√ß√£o ('-', se ainda ativa)
- Style ‚Äî subg√™nero do metal (ex: Heavy Metal, Black Metal, Thrash Metal)

In [0]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql.window import Window

#Criar sess√£o spark
spark = SparkSession.builder.appName("AtividadePraticaSpark").getOrCreate()

# Execute esta c√©lula para carregar o dataframe metal_bands com dados de bandas de metal
metal_bands = spark.table("workspace.default.metal_bands")

metal_bands.printSchema()
display(metal_bands.limit(5))

Vamos separar alguns dataframes a partir de *metal_bands* para testar os merges. Observe a c√©lula abaixo.

In [0]:
# ano de forma√ß√£o e pa√≠s das bandas
bands_origin = metal_bands.select('id','band_name','formed','origin')

# estilo das bandas
bands_style = metal_bands.select('id','band_name','style') # estilo das bandas

# bandas que se separaram
bands_split = (metal_bands
               .select('id','band_name','split')
               .where(F.column('split') != "-")
               )

# bandas com mais de 4000 fans
bands_4000_fans = (metal_bands
                   .select('id','band_name','fans')
                   .where(F.column('fans') > 4000)
                   )

# bandas formadas nos EUA
bands_USA = (metal_bands
             .select('id','band_name','formed','origin')
             .where(F.column('origin') == "USA")
             )

# bandas formadas na Su√©cia
bands_Sweden = (metal_bands
                .select('id','band_name','formed','origin')
                .where(F.column('origin') == 'Sweden')
                )

Vamos criar um DataFrame a partir de ```bands_origin``` e ```bands_split```, utilizando *merge*.

In [0]:
origin_split = (bands_origin # o DataFrame da esquerda
                .join(bands_split, # o DataFrame da direita
                      on=['id', 'band_name'], # baseado em quais valores em comum (chave)
                      how='inner' # o tipo de join que queremos fazer
                      )
                )
display(origin_split.limit(5))

√ìtimo! Conseguimos fazer o *Join* de dois *DataFrames*. Observe que utilizamos o argumento ```how='inner'```. Lembre-se que *inner*, *left*, *right* e *outer* ter√£o resultados diferentes, observe os merges abaixo e a explica√ß√£o ao final.

In [0]:
left_origin_split = (bands_origin
                     .join(bands_split,
                           on= ['id', 'band_name'],
                           how="left"
                           )
                     )
display(left_origin_split.limit(5))

In [0]:
right_origin_split = (bands_origin
                     .join(bands_split,
                           on= ['id', 'band_name'],
                           how="right"
                           )
                     )
display(right_origin_split.limit(5))

In [0]:
print('Numero de linhas do DataFrame bands_4000_fans:', bands_4000_fans.count())
print('Numero de linhas do DataFrame bands_USA:', bands_USA.count())
print('----------------------------------------------')

outer_origin_split = (bands_4000_fans
                     .join(bands_USA,
                           on= ['id', 'band_name'],
                           how="outer"
                           )
                     )

print('Numero de linhas do DataFrame ap√≥s Outer entre bands_4000_fans & bands_USA:', outer_origin_split.count())
display(outer_origin_split.limit(5))

Como podemos ver, os resultados s√£o de fato bem diferentes.

O *inner* mant√©m apenas os dados das bandas encontradas nos dois dataframes (onde h√° correspond√™ncia de *id*), dessa forma, a posi√ß√£o do dataframe n√£o faz diferen√ßa.

No *left*, mantemos os dados do dataframe √† esquerda, e trazemos os dados do dataframe √† direita no qual encontrou-se a chave (neste exemplo, o *id* da banda).

Por outro lado, no *right* ocorre o contr√°rio, mantemos os dados do dataframe √† direita e, quando h√° correspond√™ncia da chave, trazemos os dados do dataframe √† esquerda. Note que o n√∫mero de entradas (*entries*) √© diferente do caso com o *left*. Isso ocorre porque no *left* mantemos os dados de forma√ß√£o das bandas (ou seja, o dataframe cont√©m todas as bandas do .csv), enquanto no *right*, mantemos apenas os dados de bandas que se separaram (e existem muitas bandas que ainda continuam juntas).

Por fim, no *outer* utilizamos dois dataframes diferentes dos anteriores para facilitar o entendimento. Observe pelos prints que existem apenas 4 bandas com mais de 4000 fans e 1139 bandas formadas nos EUA. Quando fazemos o *join* com *outer*, observe que o total de linhas passa a ser 1143. O que acontece √© que esse tipo de join mant√©m os dados de ambos os dataframes, independente se houve correspond√™ncia de chave ou n√£o.

Podemos tamb√©m querer apenas concatenar dois *DataDrames*, isto √©, junt√°-los colocando um abaixo do outro. Para isso, utilizamos o m√©todo *.union()*:

In [0]:
# concatenando bandas formadas nos EUA e bandas formadas na Su√©cia
USA_Sweden = bands_USA.union(bands_Sweden)

print('Numero de linhas do DataFrame bands_USA:', bands_USA.count())
print('Numero de linhas do DataFrame bands_Sweden:', bands_Sweden.count())
print('Numero de linhas do DataFrame ap√≥s union entre bands_USA & bands_Sweden:', USA_Sweden.count())
display(USA_Sweden.limit(5))

## Exerc√≠cio 1
O Ultimate Team (FUT) √© um modo do jogo FIFA no qual o jogador monta seu pr√≥prio time adquirindo atletas virtuais.
Cada atleta possui atributos que influenciam seu desempenho em campo ‚Äî como drible, chute, passe, defesa, velocidade e f√≠sico.

Principais colunas:
- `player_id` ‚Äî identificador √∫nico do jogador
- `player_name` ‚Äî nome do atleta
- `nationality` ‚Äî pa√≠s de origem
- `club` ‚Äî clube atual
- `overall` ‚Äî nota geral do jogador
- `potential` ‚Äî potencial m√°ximo de evolu√ß√£o
- `value_eur, wage_eur` ‚Äî valor de mercado e sal√°rio
- `age, height_cm, weight_kg` ‚Äî caracter√≠sticas f√≠sicas
- `pace, shooting, passing, dribbling, defending, physic` ‚Äî atributos t√©cnicos

_**Preencha os espacos ____ para carregar os dados e realizar as consultas propostas.**_

### Exerc√≠cio 1.1 Fa√ßa a leitura do arquivo fut_players (fut_player_data.csv) e retorne as 5 primeiras linhas

In [0]:
# Fa√ßa a leitura do arquivo fut_players 
fut_players = spark.table("workspace.default.fut_players_data")

# Retorne as 5 primeiras linhas do DF
display(fut_players.limit(5))

### Exerc√≠cio 1.2 - Retorna a nacionalidade dos jogadores "The Bests"

S√£o considerados jogadores The Bests os que possuem os atributos de drible (_dribbling_) e chute (_shooting_) superior a 90. 
Ap√≥s a gera√ß√£o do DF _The_Best_ realize o join com o df _nationalities_ para obter a nacionalidade dos jogadores.

A sua tabela final deve conter as seguintes informa√ß√µes:
- `player_id`
- `player_name`
- `nationality`
- `position`
- `dribbling`
- `shooting`
- `overall`

In [0]:
# Aplique os filtros para retornar os jogadores the bests
the_best = (fut_players
            .select('player_id','position', 'dribbling', 'shooting', 'overall')
            .where(F.col('dribbling') > 90)
            .where(F.col('shooting') > 90))

# nationalities √© um DataDrame da nacionalidade dos jogadores
nationalities = (fut_players.select('player_id', 'player_name', 'nationality'))

# fa√ßa um join dos dois DataDrames, mantendo todos os jogadores de the_best e obtendo suas nacionalidades (dica: a chave √© o id)
the_best_nationality = the_best.join(nationalities, on='player_id', how='inner')

the_best_nationality.display()

## 2. Alterando o dataframe


Agora iremos utilizar o DataFrame _**pokemon_data**_. Essa base re√∫ne informa√ß√µes sobre os Pok√©mons das diversas gera√ß√µes da franquia, contendo atributos, classifica√ß√µes e estat√≠sticas de batalha.

Principais Colunas:
- Name ‚Äî nome do Pok√©mon 
- Type 1, Type 2 ‚Äî tipos prim√°rio e secund√°rio (ex: Fire, Water, Grass) 
- HP, Attack, Defense, Sp. Atk, Sp. Def, Speed ‚Äî atributos de combate 
- Generation ‚Äî gera√ß√£o √† qual pertence
- Legendary - Se e ou n√£o um Pok√©mon lend√°rio

In [0]:
pkmn = spark.table("workspace.default.pokemon_data")

display(pkmn.limit(5))

At√© o momento apenas utilizamos os dados da forma que nos foram fornecidos, mas e se precis√°ssemos criar alguma coluna que fosse a combina√ß√£o das demais? Por exemplo, caso eu deseje criar uma coluna que corresponde √† soma do ataque e velocidade dos Pok√©mons? Observe abaixo:

In [0]:
# Criando a coluna desejada
pkmn = pkmn.withColumn("Sum_Attack_Speed", F.col("Attack") + F.col("Speed"))
display(pkmn.limit(5))

Observe como foi f√°cil! Apenas utilizamos o operador de soma com as duas colunas necess√°rias. Voc√™ pode fazer isso com outras opera√ß√µes tamb√©m, basta utilizar ```-```, ```/``` ou ```*```. Al√©m disso, voc√™ pode combinar quantas colunas quiser!

Mas e se precisarmos alterar apenas algumas linhas do nosso DataFrame?

Por exemplo, suponha que voc√™ percebeu que seus dados est√£o errados, e todos os Pok√©mons com velocidade acima de 100 deveriam estar marcados como Type_1 = 'Fire', podemos seguir o procedimento abaixo:

In [0]:
# Observe os valores unicos da coluna Type_1 para os Pok√©mons com mais de 100 de velocidade
pkmn.filter(pkmn["Speed"] > 100).select("Type 1").distinct().display()

In [0]:
# Vamos alterar os casos onde Speed √© superior a 100 para Fire
pkmn = pkmn.withColumn(
    "Type 1",
    F.when(pkmn["Speed"] > 100, "Fire").otherwise(pkmn["Type 1"])
)

In [0]:
# Observe como os valores mudaram
pkmn.filter(pkmn["Speed"] > 100).select("Type 1").distinct().display()

Relendo o arquivo para desconsiderar os tratamentos de exemplos que fizemos acima

In [0]:

pkmn = spark.table("workspace.default.pokemon_data")

# Renomeando as colunas
pkmn = (
    pkmn
    .withColumnRenamed("Type 1", "Type_1")
    .withColumnRenamed("Type 2", "Type_2")
    .withColumnRenamed("Sp. Atk", "Sp_Atk")
    .withColumnRenamed("Sp. Def", "Sp_Def")
)



## 3. Opera√ß√µes em grupo

Com PySpark n√≥s podemos aplicar opera√ß√µes em grupos usando o m√©todo *.groupby()*. Ele √© muito √∫til por ser uma forma bem simples de extrair informa√ß√£o de dados agregados. Para utiliz√°-lo, passamos as colunas nas quais queremos agrupar os dados e a opera√ß√£o que queremos fazer. Para exemplificar, vamos ver quantos Pok√©mons lend√°rios cada gera√ß√£o tem:

In [0]:
pkmn_soma = (pkmn
            .groupBy("Generation") # Campo que sera agrupado
            .agg(
                F.sum(F.col("Legendary").cast("int")) # Converte a coluna "Legendary" em inteiro e faz a soma
                .alias("Qtd_Legendary") # Nomeando a coluna que receber√° o resultado da soma
                )
            )
pkmn_soma.display()

Podemos obter um relat√≥rio da m√©dia de diversas colunas para cada tipo de Pok√©mon:

In [0]:
pkmn_media = (pkmn
                .groupBy("Type_1")
                .agg(
                    F.mean("HP").alias("HP_medio"),
                    F.mean("Attack").alias("Attack_medio"),
                    F.mean("Defense").alias("Defense_medio")
                    )
                )
pkmn_media.display()



###  Exerc√≠cio 2
Use o m√©todo *.groupby()* para descobrir qual pa√≠s tem o melhor *overall* m√©dio. Crie a coluna 'avg_overall'

Seu df country_avg_overall deve conter as seguintes colunas:
- `nationality`
- `overall`
- `avg_overall`

In [0]:
country_avg_overall = (
    fut_players
    .groupBy("nationality")
    .agg(
        F.mean("overall").alias("avg_overall")
        ))

# Retornar a nacionalidade com maior overall m√©dio e o overall m√©dio do brasil
melhor = (
    country_avg_overall
    .orderBy(F.col("avg_overall").desc())
    .limit(1)
    .collect()[0]
)

brasil = (
    country_avg_overall
    .filter(F.col("nationality") == "Brazil")
    .collect()[0]
)

display({
    "Melhor overall m√©dio": f"{melhor['nationality']}: {melhor['avg_overall']:.2f}",
    "Overall m√©dio do Brasil": round(brasil['avg_overall'], 2)
})

Agora n√≥s j√° cobrimos toda a parte b√°sica do Spark! Vamos praticar essa √∫ltima parte!

### Exerc√≠cio 2.1
Crie um racional que retorne a classifica√ß√£o para o jogador de acordo com as instru√ß√µes abaixo, ent√£o aplique isso para o dataframe fut_players.

*Observa√ß√£o:* considere os limites dentro do intervalo de classifica√ß√£o.
exemplo

-50 cont√©m todos os valores menores que 50 e o valor 50 incluso;


51-60 cont√©m todos os valores entre 51 e 60 com os limites [51,60] inclusos no grupo;


e assim por diante ...

In [0]:

"""
    Atrav√©s do overall do jogador retorne a classifica√ß√£o conforme a seguir:
    Overall -> classification
    -50     -> "Amador"
    51-60   -> "Ruim"
    61-70   -> "Ok"
    71-80   -> "Bom"
    81-90   -> "√ìtimo"
    91+     -> "Lenda"
    
    I: int overall
    O: string
"""
# Dica utilize as clasulas when e otherwise
fut_players = (fut_players
               .select('player_id', 'overall')
               .withColumn('classification', 
                                      F.when(F.col('overall') <= 50, 'Amador')
                                       .when((F.col('overall') >= 51) & (F.col('overall') <= 60), 'Ruim')
                                       .when((F.col('overall') >= 61) & (F.col('overall') <= 70), 'Ok')
                                       .when((F.col('overall') >= 71) & (F.col('overall') <= 80), 'Bom')
                                       .when((F.col('overall') >= 81) & (F.col('overall') <= 90), 'Otimo')
                                       .otherwise('Lenda')
                                       
               ))

# Contar quantos jogadores h√° em cada classifica√ß√£o
fut_players.groupBy("classification").count().orderBy("count", ascending=False).display()

## Desafio ‚Äî Montando o Time dos Sonhos do üáßüá∑

Ainda utilizando a base **`fut_players_data`**, imagine que voc√™ √© um grande f√£ do jogo *FIFA*, e deseja montar o **Time dos Sonhos (Dream Team)** do **Brasil**, selecionando os **melhores jogadores por posi√ß√£o**, ou seja, aqueles com o **maior overall** dentro de cada grupo de posi√ß√£o.

Para isso, adote a **forma√ß√£o t√°tica 4-4-2**, composta por:

- **1 Goleiro (GK)**  
- **4 Defensores (Defesa)**  
- **4 Meio-campistas (Meio)**  
- **2 Atacantes (Ataque)**  

### Objetivo
Criar um *DataFrame* com **11 linhas**, representando o **melhor jogador de cada posi√ß√£o dentro da forma√ß√£o 4-4-2**, com as seguintes colunas:

- `nationality` ‚Äî nacionalidade do jogador  
- `position_group` ‚Äî posi√ß√£o agrupada (Goleiro, Defesa, Meio, Ataque)  
- `player_name` ‚Äî nome do jogador  
- `overall` ‚Äî nota geral (overall)

---

### Agrupamento de posi√ß√µes
Para facilitar a an√°lise, agrupe as posi√ß√µes originais da base conforme a tabela abaixo:

| **position_group** | **Posi√ß√µes inclu√≠das (`position`)** | **Descri√ß√£o** |
|:--------------------|:------------------------------------|:---------------|
| **Goleiro** | `GK` | Jogadores que atuam exclusivamente no gol. |
| **Defesa** | `CB`, `LB`, `RB`, `LWB`, `RWB` | Zagueiros e laterais (defensores). |
| **Meio** | `CM`, `CDM`, `CAM`, `LM`, `RM` | Meio-campistas centrais, volantes e meias ofensivos/laterais. |
| **Ataque** | `ST`, `CF`, `LW`, `RW`, `LF`, `RF` | Atacantes e pontas. |
| **Outros** | *(demais posi√ß√µes n√£o classificadas)* | Jogadores fora do esquema t√°tico principal (ex: cartas especiais). |

---

### üèÅ Entrega esperada
Seu *DataFrame final* deve retornar **11 jogadores**, representando o **Time dos Sonhos do Brasil (forma√ß√£o 4-4-2)**, conforme os crit√©rios acima.

In [0]:
from pyspark.sql import Window
from pyspark.sql import functions as F

fut_players_01 = spark.table("workspace.default.fut_players_data")

fut_players_01 = fut_players_01.filter(F.col("nationality") == "Brazil") 


window_pg_01 = Window.partitionBy("position_group").orderBy(F.desc("overall"))

br_dream_team = (
    (
        fut_players_01
        .select("player_id", "player_name", "nationality", "overall", "position")
        .withColumn('position_group',
            F.when(F.col('position') == 'GK', 'Goleiro')
            .when(F.col('position').isin('CB','LB','RB','LWB','RWB'), 'Defesa')
            .when(F.col('position').isin('CM','CDM','CAM','LM','RM'), 'Meio')
            .when(F.col('position').isin('ST','CF','LW','RW','LF','RF'), 'Ataque')
            .otherwise('Outros')
        )
    )
    .select('*')
    .withColumn('rn', F.row_number().over(window_pg_01))
    .filter(
        (F.col("position_group") == "Goleiro") & (F.col("rn") <= 1) | 
        (F.col("position_group") == "Meio") & (F.col("rn") <= 4) |
        (F.col("position_group") == "Defesa") & (F.col("rn") <= 4) | 
        (F.col("position_group") == "Ataque") & (F.col("rn") <= 2) 
    )
).drop('rn')

br_dream_team = br_dream_team.orderBy(F.desc("overall"))

br_dream_team.display()

### Desafio B√¥nus

Voc√™ deve ter notado que **Neymar** aparece tanto entre os melhores jogadores de **ataque** quanto do **meio-campo**.  
Isso acontece porque o dataset cont√©m **m√∫ltiplas vers√µes do mesmo jogador**, inclusive atuando em **outras posi√ß√µes**, o que √© t√≠pico dos modos do *FIFA/Ultimate Team*.

O seu desafio agora √© **refazer o exerc√≠cio anterior**, garantindo que **cada jogador apare√ßa apenas uma vez** no *DataFrame final*.

- Caso o jogador possua mais de uma vers√£o (carta), **considere apenas aquela com o maior valor de `overall`**.  
- Em seguida, **reaplique a l√≥gica da forma√ß√£o 4-4-2**, selecionando os melhores por grupo de posi√ß√£o.

---

### üèÅ Entrega Esperada
Seu *DataFrame final* deve retornar **11 jogadores √∫nicos**, representando o **Dream Team do Brasil** na **forma√ß√£o t√°tica 4-4-2**, **sem repeti√ß√£o de atletas**, conforme os crit√©rios estabelecidos acima.


In [0]:
from pyspark.sql import Window
from pyspark.sql import functions as F

fut_players_02 = spark.table("workspace.default.fut_players_data")

fut_players_02 = fut_players_02.filter(F.col("nationality") == "Brazil") 

window_pg_02 = Window.partitionBy("position_group").orderBy(F.desc("overall"))

all_player_ranks = (
    fut_players_02
    .select("player_id", "player_name", "nationality", "overall", "position")
    .withColumn('position_group',
        F.when(F.col('position') == 'GK', 'Goleiro')
        .when(F.col('position').isin('CB','LB','RB','LWB','RWB'), 'Defesa')
        .when(F.col('position').isin('CM','CDM','CAM','LM','RM'), 'Meio')
        .when(F.col('position').isin('ST','CF','LW','RW','LF','RF'), 'Ataque')
        .otherwise('Outros')
    )
    .select('*')
    .withColumn('rn', F.row_number().over(window_pg_02)) 
)

window_best_player_role = Window.partitionBy("player_name").orderBy(F.col("rn").asc(), F.desc("overall"))

deduped_players = (
    all_player_ranks
    .withColumn("player_best_role_rn", F.row_number().over(window_best_player_role))
    .filter(F.col("player_best_role_rn") == 1)
    .drop("player_best_role_rn")
)

br_dream_team_02 = (
    deduped_players
    .filter(
        (F.col("position_group") == "Goleiro") & (F.col("rn") <= 1) | 
        (F.col("position_group") == "Meio") & (F.col("rn") <= 4) |
        (F.col("position_group") == "Defesa") & (F.col("rn") <= 4) | 
        (F.col("position_group") == "Ataque") & (F.col("rn") <= 2) 
    )
).drop('rn') 

br_dream_team_02 = br_dream_team_02.orderBy(F.desc("overall"))

br_dream_team_02.display()

# Declara√ß√£o de Inexist√™ncia de Pl√°gio:

1. Eu sei que pl√°gio √© utilizar o trabalho de outra pessoa e apresentar como meu.
2. Eu sei que pl√°gio √© errado e declaro que este notebook foi feito por mim.
3. Tenho consci√™ncia de que a utiliza√ß√£o do trabalho de terceiros √© anti√©tico e est√° sujeito a medidas administrativas.
4. Declaro tamb√©m que n√£o compartilhei e n√£o compartilharei meu trabalho com o intuito de que seja copiado e submetido por outra pessoa.

# Fim da aula!

Obrigado por participar do curso, voc√™ acaba de finalizar o M√≥dulo de Pyspark. Neste momento voc√™ j√° deve ser capaz de manipular seus dados no Spark, utilizando as bibliotecas que acabamos de aprender!

Lembre-se que sempre que surgir alguma d√∫vida, voc√™ pode olhar a documenta√ß√£o do [PySpark](https://spark.apache.org/docs/latest/api/python/reference).