# Projeto 02 - Exercícios Spark - Lendo no Banco de Dados de Pokemon - Exploração

## Bilbliotecas

In [1]:
from pyspark.sql.types import *
from pyspark.sql.window import Window
import pyspark.sql.functions as fn
from pyspark.sql import SparkSession
from IPython.core.display import HTML
display(HTML("<style>pre { white-space: pre !important; }</style>"))

## Spark Session

In [2]:
spark = (SparkSession.builder
         .config("spark.jars","""/home/jovyan/jars/aws-java-sdk-core-1.11.534.jar,
                                 /home/jovyan/jars/aws-java-sdk-dynamodb-1.11.534.jar,
                                 /home/jovyan/jars/aws-java-sdk-s3-1.11.534.jar,
                                 /home/jovyan/jars/hadoop-aws-3.2.2.jar""")
         .config("spark.hadoop.fs.s3a.endpoint", "http://minio:9000")
         .config("spark.hadoop.fs.s3a.access.key", "aulafia")
         .config("spark.hadoop.fs.s3a.secret.key", "aulafia@123")
         .config("spark.hadoop.fs.s3a.path.style.access", True)
         .config("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
         .config("spark.hadoop.fs.s3a.aws.credentials.provider", "org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider")
         .getOrCreate()
        )

## Carregando Dataframes

### Pokemon

In [3]:
dfPokemon = spark.read.format('parquet').load('s3a://raw/projeto02/mongodb/pokemon')
dfPokemon.dtypes

[('_id', 'bigint'),
 ('altura', 'bigint'),
 ('experiencia', 'bigint'),
 ('formas', 'array<struct<name:string,url:string>>'),
 ('nome', 'string'),
 ('peso', 'bigint'),
 ('type', 'string')]

In [4]:
dfPokemon = (dfPokemon.select(fn.col('_id').alias('id'),
                              fn.col('nome'),
                              fn.col('experiencia'),
                              fn.col('altura'),
                              fn.col('peso'),
                              fn.col('formas'),                                                  
                              fn.col('type')
                             )
            )
dfPokemon.show(12, False)

+---+----------+-----------+------+----+----------------------------------------------------------+-----+
|id |nome      |experiencia|altura|peso|formas                                                    |type |
+---+----------+-----------+------+----+----------------------------------------------------------+-----+
|1  |bulbasaur |64         |7     |69  |[{bulbasaur, https://pokeapi.co/api/v2/pokemon-form/1/}]  |grass|
|2  |ivysaur   |142        |10    |130 |[{ivysaur, https://pokeapi.co/api/v2/pokemon-form/2/}]    |grass|
|3  |venusaur  |263        |20    |1000|[{venusaur, https://pokeapi.co/api/v2/pokemon-form/3/}]   |grass|
|4  |charmander|62         |6     |85  |[{charmander, https://pokeapi.co/api/v2/pokemon-form/4/}] |fire |
|5  |charmeleon|142        |11    |190 |[{charmeleon, https://pokeapi.co/api/v2/pokemon-form/5/}] |fire |
|6  |charizard |267        |17    |905 |[{charizard, https://pokeapi.co/api/v2/pokemon-form/6/}]  |fire |
|7  |squirtle  |63         |5     |90  |[{squi

### Type

In [5]:
dfTypes = spark.read.format('parquet').load('s3a://raw/projeto02/mongodb/type')
dfTypes.dtypes

[('_id', 'string'), ('moves', 'array<struct<name:string,url:string>>')]

In [6]:
dfTypes = (dfTypes.select(fn.col('_id').alias('name'),
                              fn.col('moves')
                             )
            )
dfTypes.show(10, False)

+------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

In [7]:
dfPokemon.join(dfTypes, dfPokemon.type == dfTypes.name, how='inner').show()

+---+----------+-----------+------+----+--------------------+------+------+--------------------+
| id|      nome|experiencia|altura|peso|              formas|  type|  name|               moves|
+---+----------+-----------+------+----+--------------------+------+------+--------------------+
|  1| bulbasaur|         64|     7|  69|[{bulbasaur, http...| grass| grass|[{vine-whip, http...|
|  2|   ivysaur|        142|    10| 130|[{ivysaur, https:...| grass| grass|[{vine-whip, http...|
|  3|  venusaur|        263|    20|1000|[{venusaur, https...| grass| grass|[{vine-whip, http...|
|  4|charmander|         62|     6|  85|[{charmander, htt...|  fire|  fire|[{fire-punch, htt...|
|  5|charmeleon|        142|    11| 190|[{charmeleon, htt...|  fire|  fire|[{fire-punch, htt...|
|  6| charizard|        267|    17| 905|[{charizard, http...|  fire|  fire|[{fire-punch, htt...|
|  7|  squirtle|         63|     5|  90|[{squirtle, https...| water| water|[{water-gun, http...|
|  8| wartortle|        142|  

# Exercícios - Exploração

## Exercício 01 - Mostre na tela 10 pokemons e sua lista de movimentos

In [8]:
# POKEMOM MOVES
df_exercicio_01 = (dfPokemon.join(dfTypes, dfPokemon.type == dfTypes.name , 'inner') # Realiza um join entre os DataFrames dfPokemon e dfTypes, combinando as linhas com base na coluna 'type' igual à coluna 'name'
                            .select('nome', 'moves')                                 # Seleciona as colunas 'nome' e 'moves'
                            .limit(10)                                               # Limita o resultado a 10 linhas
                  )
df_exercicio_01.show(10,False)                                                       # Mostra o resultado com as 10 linhas

+----------+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

## Exercício 02 - mostre um explode SOMENTE dos pokemons que possuem mais de uma forma

### v1

In [9]:
# POKEMON MAIS DE UMA FORMA - V1
df_exercicio_02 = (dfPokemon.filter(fn.size('formas') > 1)                             # Filtra apenas os Pokémon com mais de uma forma
                            .select('nome', fn.explode_outer('formas').alias('forma')) # Seleciona o nome e explode a coluna 'formas'
                            .select('nome', 'forma.name')                              # Seleciona o nome e a forma específica do Pokémon   
                            .orderBy('nome')                                           # Ordena em ordem alfabética pelo nome do Pokémon
                  )
df_exercicio_02.show(50, False)                                                        # Mostra o resultado com as 50 primeiras linhas

+--------+----------------------+
|nome    |name                  |
+--------+----------------------+
|alcremie|alcremie-matcha-cream |
|alcremie|alcremie-ruby-swirl   |
|alcremie|alcremie-caramel-swirl|
|alcremie|alcremie-mint-cream   |
|alcremie|alcremie-rainbow-swirl|
|alcremie|alcremie-lemon-cream  |
|alcremie|alcremie-vanilla-cream|
|alcremie|alcremie-ruby-cream   |
|alcremie|alcremie-salted-cream |
|arceus  |arceus-water          |
|arceus  |arceus-dragon         |
|arceus  |arceus-grass          |
|arceus  |arceus-fighting       |
|arceus  |arceus-ground         |
|arceus  |arceus-dark           |
|arceus  |arceus-unknown        |
|arceus  |arceus-fairy          |
|arceus  |arceus-electric       |
|arceus  |arceus-bug            |
|arceus  |arceus-fire           |
|arceus  |arceus-normal         |
|arceus  |arceus-flying         |
|arceus  |arceus-ghost          |
|arceus  |arceus-ice            |
|arceus  |arceus-poison         |
|arceus  |arceus-psychic        |
|arceus  |arce

### v2

In [10]:
# POKEMON MAIS DE UMA FORMA - V2
df_exercicio_02v2 = (dfPokemon.filter(fn.size('formas') > 1)                                # Filtra apenas os Pokémon com mais de uma forma
                              .select('nome', fn.explode_outer('formas').alias('forma'))    # Seleciona o nome e explode a coluna 'formas'
                              .select('nome', 'forma.name')                                 # Seleciona o nome e a forma específica do Pokémon
                              .groupBy('nome').agg(fn.collect_list('name').alias('formas')) # Agrupa pelo nome e coleta as formas em uma lista
                              .orderBy('nome')                                              # Ordena em ordem alfabética pelo nome do Pokémon
                              )
df_exercicio_02v2.show(50, False)                                                           # Mostra o resultado com as 50 primeiras linhas

+-----------+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|nome       |formas                                                                                                                                                                                                                                                                                                                                                                                                         |
+-----------+---------------------------------------------------------------------------------------------------------------------------------------------------------------

## Exercício 03 - Mostre o nome dos pokemons e uma lista com o nome de seus movimentos

In [11]:
# POKEMON MOVIMENTOS
df_exercicio_03 = (dfPokemon.join(dfTypes, dfPokemon.type == dfTypes.name, 'inner')      # Realiza um join entre os DataFrames dfPokemon e dfTypes, combinando as linhas com base na coluna 'type' igual à coluna 'name'
                            .select('nome', fn.col('moves')['name'].alias('movimentos')) # Seleciona o nome do Pokémon e os nomes dos movimentos
                            .orderBy('nome')                                             # Ordena em ordem alfabética pelo nome do Pokémon
                  )
df_exercicio_03.show(50,False)                                                           # Mostra o resultado com as 50 primeiras linhas

+----------------+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

## Exercício 04 - Dos pokemons do tipo 'rock', quantos movimentos possuem os pokemons mais pesados?

### v1

In [12]:
# POKEMONS ROCK MAIS PESADOS
# Realiza um join entre os DataFrames dfPokemon e dfTypes, combinando as linhas com base na coluna 'type' igual à coluna 'name',
# e remove a coluna 'name' duplicada resultante do join
df_exercicio_04 = (dfPokemon.join(dfTypes, dfPokemon.type == dfTypes.name, 'inner').drop('name')
                            .filter(fn.upper(fn.col('type')) == 'ROCK')                            # Filtra apenas os Pokémon do tipo 'ROCK' (ignorando maiúsculas/minúsculas)   
                            .orderBy(fn.col('peso').desc())                                        # Ordena em ordem decrescente com base na coluna 'peso'
                            .select('nome', 'peso', fn.explode_outer('moves').alias('move'))       # Seleciona o nome, peso e explode a coluna 'moves'
                            .select('nome', 'peso', 'move.name')                                   # Seleciona o nome, peso e o nome do movimento
                            .groupBy('nome', 'peso').agg(fn.count('name').alias('qtde_movimento')) # Agrupa por nome e peso, e conta a quantidade de movimentos
            )
df_exercicio_04.show(15, False)                                                                    # Mostra o resultado com as 15 primeiras linhas

+--------------+-----+--------------+
|nome          |peso |qtde_movimento|
+--------------+-----+--------------+
|coalossal-gmax|10000|25            |
|stakataka     |8200 |25            |
|stonjourner   |5200 |25            |
|probopass     |3400 |25            |
|golem-alola   |3160 |25            |
|coalossal     |3105 |25            |
|iron-thorns   |3030 |25            |
|golem         |3000 |25            |
|tyrantrum     |2700 |25            |
|gigalith      |2600 |25            |
|terrakion     |2600 |25            |
|tyranitar-mega|2550 |25            |
|garganacl     |2400 |25            |
|regirock      |2300 |25            |
|aurorus       |2250 |25            |
+--------------+-----+--------------+
only showing top 15 rows



### v2

In [13]:
# POKEMONS ROCK MAIS PESADOS V2
# Filtra o DataFrame dfPokemon para reter apenas os Pokémon do tipo 'rock'
filtered_df = dfPokemon.filter(fn.col('type') == 'rock')

# Obtém o valor máximo da coluna 'peso' no DataFrame filtrado
max_peso = filtered_df.select(fn.max('peso')).first()[0]

# Filtra novamente o DataFrame para reter apenas os Pokémon com o peso máximo
filtered_df = filtered_df.filter(fn.col('peso') == max_peso)

# Realiza um inner join entre o DataFrame filtrado e o DataFrame dfTypes, combinando as linhas com base na coluna 'type' igual à coluna 'name'   
df_exercicio_04v2 = filtered_df.join(dfTypes, filtered_df.type == dfTypes.name, 'inner')

# Adiciona uma nova coluna 'qtd_movimentos' que representa a contagem de elementos na coluna 'moves'
df_exercicio_04v2 = df_exercicio_04v2.withColumn('qtd_movimentos', fn.size('moves'))

# Seleciona as colunas 'nome', 'type', 'peso' e 'qtd_movimentos' do DataFrame resultante
df_exercicio_04v2 = df_exercicio_04v2.select('nome', 'type', 'peso', 'qtd_movimentos')

# Mostra o resultado com as 15 primeiras linhas
df_exercicio_04v2.show(15, False)

+--------------+----+-----+--------------+
|nome          |type|peso |qtd_movimentos|
+--------------+----+-----+--------------+
|coalossal-gmax|rock|10000|25            |
+--------------+----+-----+--------------+



## Exercício 05 - Considerando que pokemons leves estão abaixo de 1000kg, mostre quantos pokemos leves e pesados existem em cada categoria de peso

In [14]:
# Adiciona uma nova coluna 'categoria_peso' com base em uma condição: se o valor da coluna 'peso' for menor que 1000, será atribuído 'LEVE', 
# caso contrário, 'PESADO'
df_exercicio_05 = (dfPokemon.withColumn('categoria_peso', 
                                        fn.when(fn.col('peso') < 1000, fn.lit('LEVE'))
                                          .otherwise(fn.lit('PESADO')))
                            .select('nome', 'peso', 'categoria_peso')                             # Seleciona as colunas 'nome', 'peso' e 'categoria_peso'
                            .groupBy('categoria_peso').agg(fn.count('nome').alias('qtd_pokemon')) # Agrupa por 'categoria_peso' e conta a quantidade de Pokémon
                            .orderBy('categoria_peso')                                            # Ordena em ordem alfabética pela coluna 'categoria_peso'
                  )
df_exercicio_05.show()                                                                            # Mostra o resultado

+--------------+-----------+
|categoria_peso|qtd_pokemon|
+--------------+-----------+
|          LEVE|       1011|
|        PESADO|        270|
+--------------+-----------+



## Exercício 06 - Mostrar na tela um ranking dos 3 pokemons mais experientes de cada tipo, o ranking deve estar agrupado e para cada pokemon mostrar o nome e sua posição

In [15]:
# Preparação de Janela de Classificação pela Partição TYPE. Ordenar por experiência dentro de cada partição de 'type'
windowSpec = Window.partitionBy('type').orderBy(fn.col('experiencia').desc())

dfFiltered = dfPokemon.filter(fn.col('experiencia').isNotNull())                                 # Filtrar registros com experiência não nula

dfRanked = dfFiltered.withColumn('rank', fn.rank().over(windowSpec))                             # Adicionar a coluna 'rank' usando a função 'row_number' em vez de 'rank'

dfTop3 = dfRanked.filter(fn.col('rank') <= 3)                                                    # Filtrar os três primeiros registros em cada partição

dfSelected = dfTop3.select('nome', 'type', 'experiencia', 'rank')                                # Selecionar as colunas desejadas

dfConcatenated = dfSelected.withColumn('nome_rank', fn.concat_ws('-', 'nome', 'rank'))           # Concatenar 'nome' e 'rank' separados por '-' em uma única coluna

df_exercicio_05 = dfConcatenated.groupBy('type').agg(fn.collect_list('nome_rank').alias('nome')) # Agrupar por 'type' e coletar a lista concatenada de nomes e ranks

df_exercicio_05.show(50, False)                                                                  # Mostrar os resultados

+--------+----------------------------------------------------------------------------------------------------------------------------------------------+
|type    |nome                                                                                                                                          |
+--------+----------------------------------------------------------------------------------------------------------------------------------------------+
|bug     |[genesect-1, buzzwole-2, pheromosa-2]                                                                                                         |
|dark    |[yveltal-1, hydreigon-2, zarude-2, zarude-dada-2]                                                                                             |
|dragon  |[zygarde-complete-1, rayquaza-mega-2, kyurem-black-3, kyurem-white-3]                                                                         |
|electric|[zeraora-1, zapdos-2, raikou-2, thundurus-incarnate-2, regieleki-2

# Estudo Exploração Airflow

## Carga da Camada CONTEXT

### Carregando os dados de Pokemon e Type da Camada RAW

### Pokemon

In [17]:
print('############ Leitura do DataFrame df_pokemon a partir do arquivo Parquet da camada RAW ############')
# Carrega os dados do arquivo parquet no caminho 's3a://raw/projeto02/mongodb/pokemon' e cria o DataFrame df_pokemon     
df_pokemon = (spark.read.format('parquet').load('s3a://raw/projeto02/mongodb/pokemon'))
# Ajusta coluna _id para id e seleciona os campos da sequência desejada para o processamento
df_pokemon = (df_pokemon.select(fn.col('_id').alias('id'),
                              fn.col('nome'),
                              fn.col('experiencia'),
                              fn.col('altura'),
                              fn.col('peso'),
                              fn.col('formas'),                                                  
                              fn.col('type')
                             )
            )
print('df_pokemon', df_pokemon.count())                                                  # Imprime a contagem de linhas do DataFrame df_pokemon
df_pokemon.printSchema()                                                                 # Imprime o esquema (schema) do DataFrame df_pokemon
df_pokemon.show(12,False)                                                                # Mostra as 12 primeiras linhas do DataFrame df_pokemon

############ Leitura do DataFrame df_pokemon a partir do arquivo Parquet da camada RAW ############
df_pokemon 1281
root
 |-- id: long (nullable = true)
 |-- nome: string (nullable = true)
 |-- experiencia: long (nullable = true)
 |-- altura: long (nullable = true)
 |-- peso: long (nullable = true)
 |-- formas: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- name: string (nullable = true)
 |    |    |-- url: string (nullable = true)
 |-- type: string (nullable = true)

+---+----------+-----------+------+----+----------------------------------------------------------+-----+
|id |nome      |experiencia|altura|peso|formas                                                    |type |
+---+----------+-----------+------+----+----------------------------------------------------------+-----+
|1  |bulbasaur |64         |7     |69  |[{bulbasaur, https://pokeapi.co/api/v2/pokemon-form/1/}]  |grass|
|2  |ivysaur   |142        |10    |130 |[{ivysaur, https://poke

### Type

In [18]:
print('############ Leitura do DataFrame df_type a partir do arquivo Parquet da camada RAW ############')
# Carrega os dados do arquivo parquet no caminho 's3a://raw/projeto02/mongodb/type' e cria o DataFrame df_type      
df_type = (spark.read.format('parquet').load('s3a://raw/projeto02/mongodb/type'))
# Ajusta coluna _id para name
df_type = (df_type.select(fn.col('_id').alias('name'),
                              fn.col('moves')
                             )
            )
print('df_type', df_type.count())                                                  # Imprime a contagem de linhas do DataFrame df_type
df_type.printSchema()                                                              # Imprime o esquema (schema) do DataFrame df_type
df_type.show(12,False)                                                             # Mostra as 12 primeiras linhas do DataFrame df_type

############ Leitura do DataFrame df_type a partir do arquivo Parquet da camada RAW ############
df_type 20
root
 |-- name: string (nullable = true)
 |-- moves: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- name: string (nullable = true)
 |    |    |-- url: string (nullable = true)

+-------+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

### Transformações - Pokemon

In [19]:
print('############ Transfommação do df_pokemon: df_pokemon_transform - Aplicando EXPLODE_OUTER na coluna formas e renomeando para FORMA_NOME ############')
# Seleciona as colunas desejadas do DataFrame df_pokemon e explode a coluna 'formas' em linhas separadas
df_pokemon_transform = (df_pokemon.select('id', 
                               'nome', 
                               'experiencia', 
                               'altura', 
                               'peso', fn.explode_outer('formas').alias('formas'), 'type') # Explode a coluna 'formas'

                        .select('id', 
                               'nome', 
                               'experiencia', 
                               'altura', 
                               'peso', 
                               'type',
                               fn.col('formas')['name'].alias('forma_nome')                # Seleciona o nome da forma
                              )
             )
print('df_pokemon_transform', df_pokemon_transform.count())                                # Imprime a contagem de linhas do DataFrame df_pokemon_transform
df_pokemon_transform.printSchema()                                                         # Imprime o esquema (schema) do DataFrame df_pokemon_transform
df_pokemon_transform.show(12,False)                                                        # Mostra as 12 primeiras linhas do DataFrame df_type

############ Transfommação do df_pokemon: df_pokemon_transform - Aplicando EXPLODE_OUTER na coluna formas e renomeando para FORMA_NOME ############
df_pokemon_transform 1450
root
 |-- id: long (nullable = true)
 |-- nome: string (nullable = true)
 |-- experiencia: long (nullable = true)
 |-- altura: long (nullable = true)
 |-- peso: long (nullable = true)
 |-- type: string (nullable = true)
 |-- forma_nome: string (nullable = true)

+---+----------+-----------+------+----+-----+----------+
|id |nome      |experiencia|altura|peso|type |forma_nome|
+---+----------+-----------+------+----+-----+----------+
|1  |bulbasaur |64         |7     |69  |grass|bulbasaur |
|2  |ivysaur   |142        |10    |130 |grass|ivysaur   |
|3  |venusaur  |263        |20    |1000|grass|venusaur  |
|4  |charmander|62         |6     |85  |fire |charmander|
|5  |charmeleon|142        |11    |190 |fire |charmeleon|
|6  |charizard |267        |17    |905 |fire |charizard |
|7  |squirtle  |63         |5     |90  |w

### Transformações - Type

In [20]:
print('############ Transfommação do df_type: df_type_transform - Extração dos movimentos da Coluna MOVES e Aplicação de EXPLODE_OUTER para geração de linhas com os movimentos  ############')
# Seleciona as colunas desejadas do DataFrame df_type e renomeia a coluna 'name' para 'type'
df_type_transform = (df_type.select(fn.col('name').alias('type'),
                          fn.col('moves'))
                  .select('type',
                          fn.col('moves')['name'].alias('movimentos'))        # Seleciona o nome dos movimentos
                  .select('type',
                          fn.explode_outer('movimentos').alias('movimentos')) # Explode a coluna 'movimentos' em linhas separadas
          )
print('df_type_transform', df_type_transform.count())                         # Imprime a contagem de linhas do DataFrame df_type_transform
df_type_transform.printSchema()                                               # Imprime o esquema (schema) do DataFrame df_type_transform
df_type_transform.show(12,False)                                              # Mostra as 12 primeiras linhas do DataFrame df_type_transform

############ Transfommação do df_type: df_type_transform - Extração dos movimentos da Coluna MOVES e Aplicação de EXPLODE_OUTER para geração de linhas com os movimentos  ############
df_type_transform 921
root
 |-- type: string (nullable = true)
 |-- movimentos: string (nullable = true)

+------+-------------+
|type  |movimentos   |
+------+-------------+
|flying|gust         |
|flying|wing-attack  |
|flying|fly          |
|flying|peck         |
|flying|drill-peck   |
|flying|mirror-move  |
|flying|sky-attack   |
|flying|aeroblast    |
|flying|feather-dance|
|flying|air-cutter   |
|flying|aerial-ace   |
|flying|bounce       |
+------+-------------+
only showing top 12 rows



### Join Pokemon e Type já transformados

In [21]:
print('############ JOIN df_pokemon_transform e df_type_transform: Unindo numa única base as informações de pokemon e type. ############')
# Realiza um inner join entre os DataFrames df_pokemon_transform e df_type_transform, combinando as linhas com base na coluna 'type'
df_pokemon_type = (df_pokemon_transform.join(df_type_transform, df_pokemon_transform.type == df_type_transform.type, how='inner')
                             .select(df_pokemon_transform.id,
                                     df_pokemon_transform.nome,
                                     df_pokemon_transform.experiencia,
                                     df_pokemon_transform.altura,
                                     df_pokemon_transform.peso,
                                     df_pokemon_transform.forma_nome,
                                     df_pokemon_transform.type,
                                     df_type_transform.movimentos
                                   )                                    # Seleciona as colunas desejadas
                  )
print('df_pokemon_type', df_pokemon_type.count())                       # Imprime a contagem de linhas do DataFrame df_pokemon_type
df_pokemon_type.printSchema()                                           # Imprime o esquema (schema) do DataFrame df_pokemon_type
df_pokemon_type.show(12,False)                                          # Mostra as 12 primeiras linhas do DataFrame df_pokemon_type

############ JOIN df_pokemon_transform e df_type_transform: Unindo numa única base as informações de pokemon e type. ############
df_pokemon_type 92844
root
 |-- id: long (nullable = true)
 |-- nome: string (nullable = true)
 |-- experiencia: long (nullable = true)
 |-- altura: long (nullable = true)
 |-- peso: long (nullable = true)
 |-- forma_nome: string (nullable = true)
 |-- type: string (nullable = true)
 |-- movimentos: string (nullable = true)

+---+---------+-----------+------+----+----------+-----+--------------+
|id |nome     |experiencia|altura|peso|forma_nome|type |movimentos    |
+---+---------+-----------+------+----+----------+-----+--------------+
|1  |bulbasaur|64         |7     |69  |bulbasaur |grass|trailblaze    |
|1  |bulbasaur|64         |7     |69  |bulbasaur |grass|flower-trick  |
|1  |bulbasaur|64         |7     |69  |bulbasaur |grass|spicy-extract |
|1  |bulbasaur|64         |7     |69  |bulbasaur |grass|chloroblast   |
|1  |bulbasaur|64         |7     |69  |

## Carga da base na Camada Trust (Evolução da Camada Context)

### Carregando os dados de Pokemon e Type Transformados da Camada CONTEXT

In [22]:
print('############ Leitura do DataFrame df_pokemon_type a partir do arquivo Parquet da camada CONTEXT ############')
# Carrega os dados do arquivo parquet no caminho 's3a://context/projeto02/pokemon_type' e cria o DataFrame df_pokemon_type
df_pokemon_type = (spark.read.format('parquet').load('s3a://context/projeto02/pokemon_type'))
print('df_pokemon_type', df_pokemon_type.count())                                              # Imprime a contagem de linhas do DataFrame df_pokemon_type     
df_pokemon_type.printSchema()                                                                  # Imprime o esquema (schema) do DataFrame df_pokemon_type
df_pokemon_type.show(12,False)                                                                 # Mostra as 12 primeiras linhas do DataFrame df_pokemon_type

############ Leitura do DataFrame df_pokemon_type a partir do arquivo Parquet da camada CONTEXT ############
df_pokemon_type 92844
root
 |-- id: long (nullable = true)
 |-- nome: string (nullable = true)
 |-- experiencia: long (nullable = true)
 |-- altura: long (nullable = true)
 |-- peso: long (nullable = true)
 |-- forma_nome: string (nullable = true)
 |-- type: string (nullable = true)
 |-- movimentos: string (nullable = true)

+---+---------+-----------+------+----+----------+-----+--------------+
|id |nome     |experiencia|altura|peso|forma_nome|type |movimentos    |
+---+---------+-----------+------+----+----------+-----+--------------+
|1  |bulbasaur|64         |7     |69  |bulbasaur |grass|trailblaze    |
|1  |bulbasaur|64         |7     |69  |bulbasaur |grass|flower-trick  |
|1  |bulbasaur|64         |7     |69  |bulbasaur |grass|spicy-extract |
|1  |bulbasaur|64         |7     |69  |bulbasaur |grass|chloroblast   |
|1  |bulbasaur|64         |7     |69  |bulbasaur |grass|jung

### Geração da base de dados com Resumo das características dos Pokemons - Estatísticas Pokemon

In [23]:
print('############ Transfommação do df_pokemon_type: df_pokemon_summary - Geração de Dataframe com resumo da experiência, altura, peso, forma, tipo e movimento dos POKEMONs ############')
# Realiza uma operação de agrupamento no DataFrame df_pokemon_type, agrupando por 'id', 'nome' e 'type'
# e calculando algumas agregações nos outros campos
df_pokemon_summary = (df_pokemon_type.groupBy('id', 'nome', 'type')
                                   .agg(fn.max('experiencia').alias('experiencia'),                    # Obtém o valor máximo da coluna 'experiencia'
                                        fn.max('altura').alias('altura'),                              # Obtém o valor máximo da coluna 'altura'
                                        fn.max('peso').alias('peso'),                                  # Obtém o valor máximo da coluna 'peso'
                                        fn.countDistinct('forma_nome').alias('Quantidade_Formas'),     # Calcula a quantidade distintas de 'forma_nome'
                                        fn.countDistinct('movimentos').alias('Quantidade_Movimentos')  # Calcula a quantidade distintas de 'movimentos'
                                       )

                    ) 
print('df_pokemon_summary', df_pokemon_summary.count())                                                # Imprime a contagem de linhas do DataFrame df_pokemon_summary      
df_pokemon_summary.printSchema()                                                                       # Imprime o esquema (schema) do DataFrame df_pokemon_summary
df_pokemon_summary.show(12,False)                                                                      # Mostra as 12 primeiras linhas do DataFrame df_pokemon_summary

############ Transfommação do df_pokemon_type: df_pokemon_summary - Geração de Dataframe com resumo da experiência, altura, peso, forma, tipo e movimento dos POKEMONs ############
df_pokemon_summary 1281
root
 |-- id: long (nullable = true)
 |-- nome: string (nullable = true)
 |-- type: string (nullable = true)
 |-- experiencia: long (nullable = true)
 |-- altura: long (nullable = true)
 |-- peso: long (nullable = true)
 |-- Quantidade_Formas: long (nullable = false)
 |-- Quantidade_Movimentos: long (nullable = false)

+-----+-------------+--------+-----------+------+-----+-----------------+---------------------+
|id   |nome         |type    |experiencia|altura|peso |Quantidade_Formas|Quantidade_Movimentos|
+-----+-------------+--------+-----------+------+-----+-----------------+---------------------+
|113  |chansey      |normal  |395        |11    |346  |1                |198                  |
|496  |servine      |grass   |145        |8     |160  |1                |56                