# Introdu√ß√£o √† an√°lise de dados com PySpark utilizando os dados dos campe√µes de League of Legends

O [League of Legends](https://www.leagueoflegends.com/pt-br/), tamb√©m conhecido como lolzinho, para os √≠ntimos, √© um jogo ambientado no mundo fantasioso de Runeterra, com batalhas sangrentas e muita magia. Em League of Legends, os jogadores controlam personagens conhecidos como campe√µes, cada um com suas habilidades e diferentes estilos de jogo.

Neste artigo, iremos analisar algumas estat√≠sticas desses campe√µes fazendo o uso do [PySpark](https://spark.apache.org/docs/latest/api/python/index.html), uma API do framework Apache Spark desenvolvida para a linguagem de programa√ß√£o Python üêç. Os dados ser√£o extra√≠dos da web API [Data Dragon](https://developer.riotgames.com/docs/lol#data-dragon), uma API p√∫blica da Riot Games.

Para isso, vamos desenvolver um notebook no [Google Colab](https://colab.research.google.com/), um servi√ßo de nuvem gratuito criado pelo Google para incentivar pesquisas na √°rea de machine learning e intelig√™ncia artificial.

Caso n√£o saiba como usar o Google Colab, confira [este excelente artigo](https://www.alura.com.br/artigos/google-colab-o-que-e-e-como-usar) da Alura escrito pelo Thiago Santos que ensina, de forma muito did√°tica, como usar o Colab e criar seus primeiros c√≥digos!

O notebook deste artigo tamb√©m est√° dispon√≠vel em meu [GitHub}(https://github.com/geazi-anc/lol-champions-analysis) üòâ.

Peguem suas espadas, preparem suas magias, e vamos come√ßar ‚öîüßôüèº‚Äç‚ôÄÔ∏è!


## Instala√ß√£o

Antes de come√ßarmos, √© necess√°rio fazer a instala√ß√£o de duas bibliotecas: [PySpark](https://spark.apache.org/docs/latest/api/python/index.html) e [Requests](https://requests.readthedocs.io/en/latest/).

A biblioteca PySpark, como foi dito, √© a API oficial do Python para o Apache Spark. √â com ela que vamos realizar nossa an√°lise de dados üé≤.

J√° a biblioteca Requests √© uma biblioteca que nos permite fazer solicita√ß√µes HTTP a um determinado website. Mediante a ela que iremos extrair os dados dos campe√µes atrav√©s da API p√∫blica da Riot Games üöÄ.


In [1]:
!pip install pyspark
!pip install requests


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pyspark
  Downloading pyspark-3.3.0.tar.gz (281.3 MB)
[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 281.3 MB 41 kB/s 
[?25hCollecting py4j==0.10.9.5
  Downloading py4j-0.10.9.5-py2.py3-none-any.whl (199 kB)
[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 199 kB 49.8 MB/s 
[?25hBuilding wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.3.0-py2.py3-none-any.whl size=281764026 sha256=68dedb91cdf197a431f84443fbe947d51bdc95c3e7ee06f60b90ffde5c095781
  Stored in directory: /root/.cache/pip/wheels/7a/8e/1b/f73a52650d2e5f337708d9f6a1750d451a7349a867f928b885
Successfully built pyspark
Installing collected packages: py4j, pyspark
Successfully installed py4j-0.10.9.5 pyspa

## Inicializa√ß√£o

Logo ap√≥s a instala√ß√£o das bibliotecas, precisamos inicializar o Apache Spark. Para isso, importamos a classe **SparkSession** dentro do m√≥dulo **sql** da biblioteca **pyspark**.

Depois da importa√ß√£o, instanciamos a classe SparkSession atrav√©s de uma s√©rie de m√©todos encadeados, como **appName** e **getOrCreate**.


In [2]:
from pyspark.sql import SparkSession

spark = (SparkSession.builder
         .appName("Introdu√ß√£o √† an√°lise de dados com PySpark utilizando os dados dos campe√µes de League of Legends")
         .getOrCreate()
         )


## Extra√ß√£o de dados dos campe√µes

A extra√ß√£o dos dados dos campe√µes de League of Legends √© feita atrav√©s de uma solicita√ß√£o HTTP √† um endpoint da API [Data Dragon](https://developer.riotgames.com/docs/lol#data-dragon), uma API p√∫blica da Riot Games que centraliza os dados do jogo, como campe√µes, itens, magias e ETC.

A resposta √© um objeto JSON semelhante a este:

```
{
    "type": "champion",
    "format": "standAloneComplex",
    "version": "12.17.1",
    "data": {
        "Aatrox": {},
        "Ahri": {...},
        "Akali": {...},
        "Akshan": {...},
        "Alistar": {...},
        ...,
    }
}
```

Observe que os dados que queremos est√° dentro da chave **data**. Vamos pegar esses dados, descartando os demais, e exibir apenas o nome de todos os campe√µes.


In [8]:
import requests

response=requests.get(
"https://ddragon.leagueoflegends.com/cdn/12.17.1/data/pt_BR/champion.json")

champions=response.json().get("data")
champions.keys()


dict_keys(['Aatrox', 'Ahri', 'Akali', 'Akshan', 'Alistar', 'Amumu', 'Anivia', 'Annie', 'Aphelios', 'Ashe', 'AurelionSol', 'Azir', 'Bard', 'Belveth', 'Blitzcrank', 'Brand', 'Braum', 'Caitlyn', 'Camille', 'Cassiopeia', 'Chogath', 'Corki', 'Darius', 'Diana', 'Draven', 'DrMundo', 'Ekko', 'Elise', 'Evelynn', 'Ezreal', 'Fiddlesticks', 'Fiora', 'Fizz', 'Galio', 'Gangplank', 'Garen', 'Gnar', 'Gragas', 'Graves', 'Gwen', 'Hecarim', 'Heimerdinger', 'Illaoi', 'Irelia', 'Ivern', 'Janna', 'JarvanIV', 'Jax', 'Jayce', 'Jhin', 'Jinx', 'Kaisa', 'Kalista', 'Karma', 'Karthus', 'Kassadin', 'Katarina', 'Kayle', 'Kayn', 'Kennen', 'Khazix', 'Kindred', 'Kled', 'KogMaw', 'Leblanc', 'LeeSin', 'Leona', 'Lillia', 'Lissandra', 'Lucian', 'Lulu', 'Lux', 'Malphite', 'Malzahar', 'Maokai', 'MasterYi', 'MissFortune', 'MonkeyKing', 'Mordekaiser', 'Morgana', 'Nami', 'Nasus', 'Nautilus', 'Neeko', 'Nidalee', 'Nilah', 'Nocturne', 'Nunu', 'Olaf', 'Orianna', 'Ornn', 'Pantheon', 'Poppy', 'Pyke', 'Qiyana', 'Quinn', 'Rakan', 'Ramm

In [5]:
champions.get("Akali")


{'version': '12.17.1',
 'id': 'Akali',
 'key': '84',
 'name': 'Akali',
 'title': 'a Assassina Renegada',
 'blurb': 'Abandonando a Ordem Kinkou e seu t√≠tulo de Punho das Sombras, Akali agora ataca sozinha, pronta para ser a arma mortal que seu povo precisa. Embora ela mantenha tudo o que aprendeu com seu mestre Shen, ela se comprometeu a defender Ionia de seus...',
 'info': {'attack': 5, 'defense': 3, 'magic': 8, 'difficulty': 7},
 'image': {'full': 'Akali.png',
  'sprite': 'champion0.png',
  'group': 'champion',
  'x': 96,
  'y': 0,
  'w': 48,
  'h': 48},
 'tags': ['Assassin'],
 'partype': 'Energia',
 'stats': {'hp': 570,
  'hpperlevel': 119,
  'mp': 200,
  'mpperlevel': 0,
  'movespeed': 345,
  'armor': 23,
  'armorperlevel': 4.7,
  'spellblock': 37,
  'spellblockperlevel': 2.05,
  'attackrange': 125,
  'hpregen': 9,
  'hpregenperlevel': 0.9,
  'mpregen': 50,
  'mpregenperlevel': 0,
  'crit': 0,
  'critperlevel': 0,
  'attackdamage': 62,
  'attackdamageperlevel': 3.3,
  'attackspeedp

## Limpesa dos dados

Antes de come√ßarmos de fato com a an√°lise, √© necess√°rio fazermos uma limpesa pr√©via nos dados. Vamos pegar apenas os que nos interessa, e remover os dicion√°rios dentro de dicion√°rios, deixando um √∫nico dicion√°rio para cada campe√£o com os dados necess√°rios.


In [9]:
champions=[{'name': value['name'], 'title': value['title'], **value['info'], **value['stats']} for key, value in champions.items()]
champions[2]


{'name': 'Akali',
 'title': 'a Assassina Renegada',
 'attack': 5,
 'defense': 3,
 'magic': 8,
 'difficulty': 7,
 'hp': 570,
 'hpperlevel': 119,
 'mp': 200,
 'mpperlevel': 0,
 'movespeed': 345,
 'armor': 23,
 'armorperlevel': 4.7,
 'spellblock': 37,
 'spellblockperlevel': 2.05,
 'attackrange': 125,
 'hpregen': 9,
 'hpregenperlevel': 0.9,
 'mpregen': 50,
 'mpregenperlevel': 0,
 'crit': 0,
 'critperlevel': 0,
 'attackdamage': 62,
 'attackdamageperlevel': 3.3,
 'attackspeedperlevel': 3.2,
 'attackspeed': 0.625}

## Criando o DataFrame

Agora sim! Os dados dos campe√µes est√£o limpos, ent√£o j√° podemos criar nosso DataFrame com o Spark.

Infelizmente, o Spark √© um tanto... seletivo com o tipo de objeto que passamos a ele para criar um DataFrame. Logo, nosso objeto atual champions, que √© composto de uma lista de dicion√°rios, n√£o √© aceito pelo Spark.

Mas existe uma solu√ß√£oüëèüèº. A biblioteca Pandas √© muito mais flex√≠vel no que se refere a cria√ß√£o de um novo DataFrame. Portanto, √© poss√≠vel criar um DataFrame do Pandas com nosso objeto champions atual, e em seguida criar um DataFrame do Spark com base no DataFrame criado pelo Pandas.


In [12]:
import pandas as pd

df = spark.createDataFrame(pd.DataFrame(champions))

df.select("name", "title").show(5, False)


+-------+-----------------------+
|name   |title                  |
+-------+-----------------------+
|Aatrox |a Espada Darkin        |
|Ahri   |a Raposa de Nove Caudas|
|Akali  |a Assassina Renegada   |
|Akshan |o Sentinela Rebelde    |
|Alistar|o Minotauro            |
+-------+-----------------------+
only showing top 5 rows



## Concatena√ß√£o de colunas

N√£o sei voc√™s, mas acho um tanto inc√¥modo ficar selecionando o nome e os t√≠tulos dos campe√µes cada vez que formos visualisar seus dados. Ent√£o, vamos concatenar as colunas **name** e **title** em uma nova coluna, chamada **full_name**.

Para isso, vamos primeiramente utilizar o m√©todo **withColumn**. Em resumo, esse m√©todo nos permite criar uma nova coluna em nosso DataFrame.

O primeiro par√¢metro do m√©todo √© o nome da nossa coluna. J√° o segundo par√¢metro s√£o os dados que queremos popular nossa nova coluna. Nesse caso, a concatena√ß√£o da coluna **name** com a coluna **title**.

Para concatenar as colunas de strings, vamos utilizar a fun√ß√£o **concat**.
Esta fun√ß√£o recebe como par√¢metros o nome das colunas que queremos concatenar. Contudo, n√£o podemos passar apenas o nome dessas colunas. Caso contr√°rio o nome e os t√≠tulos ficariam colados um ao outro. Ent√£o tamb√©m usamos a fun√ß√£o **lit**, que cria uma nova coluna literal com o valor que passamos a ela, isto √©: ", ".


In [14]:
from pyspark.sql import functions as F

df = df.withColumn("full_name", F.concat(df.name, F.lit(", "), df.title))
df.select("full_name").show(5, False)


+-----------------------------+
|full_name                    |
+-----------------------------+
|Aatrox, a Espada Darkin      |
|Ahri, a Raposa de Nove Caudas|
|Akali, a Assassina Renegada  |
|Akshan, o Sentinela Rebelde  |
|Alistar, o Minotauro         |
+-----------------------------+
only showing top 5 rows



## Quem s√£o os campe√µes mais poderosos de League of Legends?

Curioso para saber quem s√£o os campe√µes mais poderosos de League of Legends? Pois √©, eu tamb√©m estou. Vamos descobrir üëÄ!

Para esta an√°lise, considere que o que determina o n√≠vel de poder de um campe√£o s√£o seus valores de ataque, armadura, vida e mana.

Ent√£o, para vermos quem s√£o os campe√µes mais poderosos, basta ordenarmos nosso DataFframe com base nessas colunas, de modo decrescente.

> Uma pequena observa√ß√£o: atualmente todos os campe√µes est√£o no n√≠vel um.


In [20]:
base_columns = ["attackdamage", "armor", "hp", "mp"]

(df.orderBy(*base_columns, ascending=False)
 .select("full_name", *base_columns)
 .show(5, False)
 )


+---------------------------------+------------+-----+-----+-----+
|full_name                        |attackdamage|armor|hp   |mp   |
+---------------------------------+------------+-----+-----+-----+
|Tryndamere, o Rei B√°rbaro        |72.0        |33   |696.0|100.0|
|Cho'Gath, o Terror do Vazio      |69.0        |38   |644.0|270.0|
|Renekton, o Carniceiro das Areias|69.0        |35   |660.0|100.0|
|Ornn, O Fogo sob a Montanha      |69.0        |33   |660.0|340.6|
|Kayn, o Ceifador das Sombras     |68.0        |38   |655.0|410.0|
+---------------------------------+------------+-----+-----+-----+
only showing top 5 rows



## Level up!

Como dito, atualmente nossos campe√µes est√£o no n√≠vel 1. Vamos alterar o n√≠vel deles para o n√≠vel 10.

Observe que as estat√≠sticas dos campe√µes devem acompanhar seus crescimentos conforme o passar dos n√≠veis. Nesta an√°lise, vamos alterar apenas os valores de dano, armadura, vida e mana.

Para alterarmos esses valores, vamos fazer o uso do m√©todo **withColumns**.
Este m√©todo recebe um objeto do tipo dicion√°rio, onde as chaves s√£o os nomes das colunas, e seus valores s√£o as colunas com os dados alterados.


In [22]:
level = 10

df2 = df.withColumns({
    "attackdamage": df.attackdamage+df.attackdamageperlevel*level,
    "armor": df.armor+df.armorperlevel*level,
    "hp": df.hp+df.hpperlevel*level,
    "mp": df.mp+df.mpperlevel*level
})


## Quem s√£o os campe√µes mais poderosos de League of Legends (de novo)?

Com todos os campe√µes j√° no n√≠vel 10, vamos ver se o rank de poder da an√°lise anterior se manteve ou se houve mudan√ßa.
Lembrando que ainda estamos analisando o n√≠vel de poder apenas com base nas colunas dano, armadura, vida e mana.


In [24]:
(df2.orderBy(*base_columns, ascending=False)
 .select("full_name", *base_columns)
 .show(5, False)
 )


+-----------------------------+------------+-----+------+-----+
|full_name                    |attackdamage|armor|hp    |mp   |
+-----------------------------+------------+-----+------+-----+
|Illaoi, a Sacerdotisa Cr√°quem|118.0       |85.0 |1746.0|800.0|
|Olaf, o Berserker            |115.0       |77.0 |1835.0|816.0|
|Darius, a M√£o de Noxus       |114.0       |91.0 |1792.0|838.0|
|Yorick, o Pastor de Almas    |112.0       |91.0 |1790.0|900.0|
|Cho'Gath, o Terror do Vazio  |111.0       |85.0 |1584.0|870.0|
+-----------------------------+------------+-----+------+-----+
only showing top 5 rows



## Estat√≠sticas dos n√≠veis de poderes

Para finalizar, vamos ver algumas estat√≠sticas simples de todos os nossos campe√µes no n√≠vel 10.

Vamos determinar a m√©dia do dano, o m√°ximo do hp e da mana, e o m√≠nimo da armadura.

Utilizaremos o m√©todo **agg**. Este m√©todo recebe como par√¢metro um dicion√°rio, onde as chaves s√£o o nome das colunas que queremos analisar e os valores s√£o as fun√ß√µes que queremos aplicar sobre elas.


In [25]:
(df2.agg({
    "attackdamage": "mean",
    "hp": "max",
    "mp": "max",
    "armor": "min"
})
    .show()
)


+-------+----------+-----------------+-------+
|max(mp)|min(armor)|avg(attackdamage)|max(hp)|
+-------+----------+-----------------+-------+
|10000.0|      28.0|91.40481987577641| 1892.0|
+-------+----------+-----------------+-------+



## Considera√ß√µes finais

√â isso, meus amigos. Finalizamos nossa an√°lise por aqui üéÜ.

Neste artigo demonstrei como aplicar uma an√°lise bem simples sobre os dados dos campe√µes de League of Legends. Fizemos a extra√ß√£o dos dados por meio da API p√∫blilca da Riot Games; fizemos uma limpesa pr√©via nos dados; criamos uma nova coluna com o resultado da concatena√ß√£o dos nomes dos campe√µes e seus t√≠tulos; ranqueamos os campe√µes mais poderosos com base em seus n√≠veis de poder; e, por fim, fizemos uma an√°lise das estat√≠sticas dos campe√µes tanto no n√≠vel 1 quanto no n√≠vel 10.

Espero que tenham gostado. At√© a pr√≥xima üíö!
