In [69]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Análise Rápida dos Dados

In [70]:
# Lendo o DF e assimilando a uma variavel para ficar mais fácil de manipular
dados = pd.read_csv('https://raw.githubusercontent.com/RanierDC/Valorant-Champions-Analise-de-Dados/main/dados/valorant_2022.csv')

In [None]:
# Conhecendo um pouco sobre os dados do DF
dados.head(19)

In [None]:
# Tendo um "overview" estatístico para sabermos média, desvio padrão e dispersão dos dados
dados.describe().round(2)

In [None]:
# Saber quantidade de linhas e colunas do DF
dados.shape

In [None]:
# Obter informações dos tipos de dados que vão ser trabalhados e se existe alguma
# info nula
dados.info()

In [75]:
# Limpando a coluna de Premiação (Prize)
dados.Prize= dados['Prize'].str.replace('$','')
dados.Prize= dados['Prize'].str.replace('\t','')
dados.Prize= dados['Prize'].str.replace(',','')

# Mudando o tipo de dado (object/string -> float)
dados.Prize = dados['Prize'].astype(float)

# Limpando e mudando o tipo de dado da coluna KAST (object/string -> float)
dados.KAST = dados['KAST'].str.replace('%','')
dados.KAST = dados['KAST'].astype(float)

Perguntas para responder:

- Qual função, além de Duelista, teve mais Kills (abates)?

- Qual função tem mais impacto?

- Qual função tem a maior porcentagem de headshots?

In [None]:
# Questão 1
# Verificando todas as funções (role) existem no DF
dados.Role.unique()

# Plotando em um gráfico de barras com informações de Kills por Função
# Chegando na resposta de a segunda Role com mais abate são os Controladores
ax = sns.barplot(data = dados, y = 'Kill', x = 'Role', errorbar=None)
ax.set_xlabel('Função', fontsize = 12)
ax.set_ylabel('Quantidade de Kills', fontsize = 12)
ax.set_title('Quantidade de Kills por função', fontsize = 20)

In [None]:
# Questão 2

# Usando a mesma lógica do anterior, foi só substituir as colunas
# Assim, constatando uma leve superioridade da função de Controlador (desconsiderando uma possível margem de erro)
ax = sns.barplot(data = dados, y = 'KAST', x = 'Role', errorbar=None, )
ax.set_xlabel('Função', fontsize = 12)
ax.set_ylabel('Impacto por partida (%)', fontsize = 12)
ax.set_title('Porcentagem de KAST (impacto) por Função', fontsize = 18)

In [None]:
# Questão 3

# Continuando a lógica aplicada, a função com mais taxas de HS também foram os controladores
# Podendo-se analiser uma incrível importância desta função dentro do game
ax = sns.barplot(data = dados, y = 'HS %', x = 'Role', errorbar=None, )
ax.set_xlabel('Função', fontsize = 12)
ax.set_ylabel('Headshots (%)', fontsize = 12)
ax.set_title('Porcentagem de Headshots por Função', fontsize = 20)

## Experimentos com Data Vizualization e Regressão de Dados





In [None]:
# Os dados que mais se correlecionam para realizar uma análise "freestyle"
# O que mais tem possíveis combinações para análise é a coluna Kill
dados.corr(method='pearson', min_periods=1, numeric_only=True)

In [None]:
# Vizualizo os 10 primeiros dados para ter mais noção
dados.head(10)

In [None]:
# Plotando informações de kill dos jogadores do campeonato
# Tendência a queda com um pico muito acentuado, podendo ser uma possível relação
# a poucos jogos dos jogadores para poderem ter dados melhores ou por "falta" de habilidade
fig, ax = plt.subplots(figsize = (15, 6))

ax.set_title('Comparação de Kills', fontsize = 20)
ax.set_ylabel('Quantidade de Kills', fontsize = 16)
ax.set_xlabel('Quantidade de Jogadores', fontsize = 16)
ax = dados['Kill'].plot()


In [None]:
"""
  Um boxplot para ver a dispersão das kills em todos os jogadores em um geral.Como
o gráfico anterior mostrou, muitos players tiveram menos que 150 kills no camp
deixando a mediana descentralizada.
  Porém, houve um Outliner de +300 kills, porém não desconsiderarei este único
dado.
"""
ax = sns.boxplot(data = dados['Kill'], orient = 'h')

ax.figure.set_size_inches(13, 6)
ax.set_title('Dispersão de Kills', fontsize = 20)
ax.set_xlabel('Quantidades de Kills', fontsize = 16)

In [None]:
"""
  Para ter uma visão mais específica de dentro do jogo, fiz um boxplot para comparar
as kills por função. Observei que os duelistas tem uma natural diferença no quesito kills,
explicando o fato de duelistas (em uma visão superficial) seja uma função impactante em rounds
clutch (decisivos) que precisem de uma vantagem numérica adquirido ao abater um inimigo.

  Iniciadores e Controladores se comportam de forma muito semenlhantes, com uma
diferença de uma maior dispersão por parte dos iniciadores.

  Os jogadores que são Flex (realizam multiplas funções) tendem a serem mais
limitados no quesito de quantidade de abates, mas no geral, possuem uma taxa de
HS boa e tem a 3ª melhor taxa de impacto nas partidas, podendo significar um possível
foco em organizar em completar o time em outros quesitos que não sejam a mira,
tendo como opções: Liderança, estratégia ou extração de 100% do uso de recursos (habilidades).

  Já os Sentinelas, ao que tudo indicam, possuem uma dispersão de dados bem peculiar,
além de outros dados serem bem decepcionates, são a função com menor impacto,
2ª no quesito de abates e possuem a menor taxa de HS. Consolidando uma possível
mudança de mais profissionais flex, já que de acordo com os dados, não é uma
função com muitos benefícios.
"""

ax = sns.boxplot(y='Role', x= 'Kill', data = dados, orient = 'h')

ax.figure.set_size_inches(15, 8)
ax.set_title('Dispersão de Kills por Role', fontsize = 20)
ax.set_xlabel('Quantidades de Kills', fontsize = 16)
ax.set_ylabel('Funções', fontsize = 16)

In [None]:
"""
  Analisando os dados individuais dos Sentinelas do campeonato, verificou-se que
5 de 8 times da competição utilizaram um jogador fixo dessa Role, e que em um
overview, possuem 2 jogadores que tiveram desempenhos péssimos (comparado com os
outros jogadores do campeonato), podendo ter uma possível alteração nos resultados
dos sentinelas por conta deles.
"""
dados.query('Role == "Sentinel"')


In [None]:
# Neste Histograma, se assemelha a uma distribuição normal, porém possui muitas variações

sns.set_style("darkgrid")
ax = sns.distplot(dados['Kill'])

ax.figure.set_size_inches(12, 6)
ax.set_title('Histograma das Kills', fontsize=20)
ax.set_ylabel('Incidência', fontsize=16)
ax.set_xlabel('Quantidade de Kills', fontsize=16)

In [None]:
# Para poder ter uma visão melhor de quais dados podem ser comparados para poder ter um gráfico de regressão de dados fiel
ax = sns.pairplot(dados)

In [None]:
"""
  Ao ver que ainda assim a kill é muito impactante nessa análise, realizo uma linha
de gráficos só para analisar as kills com todos as outras informações.

  Tem 3 que são bem claros de serem analisados pela regressão de dados: Death, Rank e Rounds Played.
"""
ax = sns.pairplot(dados, y_vars='Kill', x_vars=['Death', 'K/D', 'Role', 'Rank', 'Rounds Played', 'KAST'])

ax.fig.suptitle('Regressão dos dados em relação as Kills', fontsize = 18, y=1.10)
ax

In [None]:
"""
  Começando com Death, é possível perceber que quantos mais kills alguém tem,
mais esse jogador morre, indicando uma junção de 2 situações, a busca pela Kill gera
um risco maior de morte e quantos mais Rounds são jogados, maior o números de Abates
e Mortes consequentemente.
"""
ax= sns.lmplot(x="Death", y="Kill", data=dados)

ax.fig.suptitle('Reta de Regressão - Kills X Deaths', fontsize=16, y=1.02)
ax.set_xlabels("Quantidade de Mortes", fontsize=14)
ax.set_ylabels("Quantidades de Kills", fontsize=14)
ax

In [None]:
"""
  Anteriormente, foi observado a alta taxa de abates que um duelista possui, por isso,
separei novamente entre funções para poder ver melhor quais funções tem mais riscos de
morrer e chances de matar.

  Em suma, parece que em todas as Roles tem uma alta chance de que quanto mais tendência
a ter abates, mais mortaliadade, principalmente os duelistas, onde a maioria tem mais
mortes do que kills. Podendo ser do fato de se arriscarem bastante, diferente dos outros, que tendem
a ter uma taxa de mortalidade moderada, com excessão dos players Flex, onde eles
possuem poucas mortes, mas também poucos abates, reforçando o papel deles de outras formas.
"""

ax= sns.lmplot(x="Death", y="Kill", data=dados, col='Role')

ax.fig.suptitle('Reta de Regressao - Kills X Deaths', fontsize=16, y=1.02)
ax.set_xlabels("Quantidade de Mortes", fontsize=14)
ax.set_ylabels("Quantidades de Kills", fontsize=14)
ax



In [None]:
"""
  Esse gráfico evidencia que quanto mais Rounds jogados, mais chances de se ter
boas performance por meio das kills.
"""
ax= sns.lmplot(x="Rounds Played", y="Kill", data=dados)

ax.fig.suptitle('Reta de Regressão - Kills X Rounds Jogados', fontsize=16, y=1.02)
ax.set_xlabels("Quantidade de Rounds Jogados", fontsize=14)
ax.set_ylabels("Quantidades de Kills", fontsize=14)
ax

In [91]:
# Percebi somente agora que o Rank está em str e possui o separador de casas decimais pela vígula
dados.Rank = dados['Rank'].str.replace(',','.')
dados.Rank = dados['Rank'].astype(float)

In [None]:
"""
  Com a lógica de Rounds Jogados ser grande para obter um maior desempenho em kills,
esse gráfico evidencia ainda mais, já que os times eliminados de forma precoce tem bem menos
Rounds. Porém há uma certa discrepancia, pois o top 2 e top 3 tem uma clara diferença de kills
comparado com o time top 1. Por que será?
"""
ax= sns.lmplot(x="Rank", y="Kill", data=dados)

ax.fig.suptitle('Reta de Regressão - Kills X Rank', fontsize=16, y=1.02)
ax.set_xlabels("Rank dos Players no campeonato", fontsize=14)
ax.set_ylabels("Quantidades de Kills", fontsize=14)
ax

In [None]:
dados_podio = dados.query('Rank == 1 or Rank == 2 or Rank == 3')

dados_podio

In [None]:
ax = sns.barplot(data = dados_podio, y = 'Kill', x = 'Team', errorbar=None, )
ax.set_xlabel('Times', fontsize = 12)
ax.set_ylabel('Quantidade de Kills', fontsize = 12)
ax.set_title('Quantidade de Kills por Time', fontsize = 20)

In [None]:
ax = sns.barplot(data = dados_podio, y = 'Death', x = 'Team', errorbar=None, )
ax.set_xlabel('Time', fontsize = 12)
ax.set_ylabel('Quantidade de Mortes', fontsize = 12)
ax.set_title('Quantidade de Mortes por time', fontsize = 20)

In [None]:
ax = sns.barplot(data = dados_podio, y = 'Rounds Played', x = 'Team', errorbar=None, )
ax.set_xlabel('Times', fontsize = 12)
ax.set_ylabel('Quantidade de Rounds Jogados', fontsize = 12)
ax.set_title('Quantidade de Rounds Jogados por Time', fontsize = 20)

In [None]:
ax = sns.barplot(data = dados_podio, y = 'Rounds Lose', x = 'Team', errorbar=None, )
ax.set_xlabel('Times', fontsize = 12)
ax.set_ylabel('Quantidade de Rounds Perdidos', fontsize = 12)
ax.set_title('Quantidade de Rounds Perdidos por Time', fontsize = 20)

Com uma análise bem superficial pegando quase todas as estatísticas dos times no TOP 3 do campeonato (LOUD, OPTIC e DRX), constatei que, como dito anteriormente, a quantidade de rounds jogado afeta diretamnete na quantidade de kills e morte. Portanto, depois de analisar os gráficos sobre Rounds Jogados e Rounds Perdidos, ficou claro que os times TOP 2 e TOP 3 tiveram mais kills porque tiveram mais oportunidades de jogar mais mapas e assim elevando o número de Rounds Jogados e assim as kills, e também deixando o número de mortes ficarem bem parelhos aos de kills.

A diferença para a LOUD é de certa forma gritante, pois a LOUD com mais de 100 rounds de diferença, teve BEM menos Rounds perdidos, uma quantidade mínima de mortes e uma taxa de Kill compatível com a quantidade de jogos.

Essa é aminha visão sobre essa diferença de Kills entre as equipes do Pódio, explicando um pouco a sobre eles terem mais kills no gráfico de regressão.

In [98]:
# Realização de testes com 2 espaços amostrais (treino e teste)
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn import metrics
import statsmodels.api as sm

In [148]:
# separendo a variavel dependente (y) das explicativas (X)
y = dados['Kill']
X = dados[['Death', 'Rounds Played', 'Rounds Win', 'HS %', 'KAST']]

In [None]:
ax = sns.pairplot(dados, y_vars='Kill', x_vars = ['Death', 'Rounds Played', 'Rounds Win', 'Rounds Win', 'HS %', 'KAST'], height=5)
ax.fig.suptitle('Dispersão entre as Variáveis', fontsize=20, y=1.05)
ax

Não vou transformar todos os valores em logaritmo pois o histograma possui uma distribuição simétrica dos dados, mesmo que não seja totalmente uma distribuição normal.

In [None]:
# separando os espaços amostrais entre treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)

print(X_train.shape, X_test.shape)

In [None]:
# estimar nosso modelo linear utilizando os dados de treino (y_train e X_train)
modelo = LinearRegression()
modelo.fit(X_train, y_train)

In [None]:
# Obtendo o coeficiente de determinação (R²) do modelo estimado com os dados de treino
print('R² = {}'.format(modelo.score(X_train, y_train).round(2)))

Uma porcentagem bem bem alta, para um espaço amostral de somente 24

In [154]:
# Gerando previsões para os dados de teste
y_previsto = modelo.predict(X_test)

In [156]:
# Obtendo o R² para as previsões do nosso modelo (62%, abaixou muito o valor, isto é preocupante)
print('R² = %s' %metrics.r2_score(y_test, y_previsto).round(2))

R² = 0.62


In [None]:
# Fora o R², tem mais 2 estatísticas para a realização de testes formais, e elas aparentam ter bons valores
from sklearn import metrics

EQM = metrics.mean_squared_error(y_test, y_previsto).round(2)
REQM = np.sqrt(metrics.mean_squared_error(y_test, y_previsto)).round(2)
R2 = metrics.r2_score(y_test, y_previsto).round(2)

pd.DataFrame([EQM, REQM, R2], ['EQM', 'REQM', 'R²'], columns = ['Métricas'])

In [None]:
X_train_com_const = sm.add_constant(X_train)
modelo_statsmodels = sm.OLS(y_train, X_train_com_const, hasconst = True).fit()

# Vizualizando as informções do modelo
print(modelo_statsmodels.summary())


De acordo com a análise dos valores de Prob(F) e P>|t|, constata-se que este
modelo e as variaveis "Rounds Win" e "HS %" não passaram no teste, ou seja, ele não são estatisticamente significativos.

Então para tentar fazer o próximo modelo ser estatisticamente significativo, vou retirar as variaveis "Rounds Win" e "HS %" e fazer o experimento novamente.

In [None]:
y = dados['Kill']
X = dados[['Death', 'Rounds Played', 'KAST']]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)

modelo.fit(X_train, y_train)
print('R² = {}'.format(modelo.score(X_train, y_train).round(2)))

Uma porcentagem parecida com a anterior

In [None]:
# Gerando previsões para os dados de teste
y_previsto = modelo.predict(X_test)
print('R² = %s' %metrics.r2_score(y_test, y_previsto).round(2))

In [None]:
X_train_com_const = sm.add_constant(X_train)
modelo_statsmodels = sm.OLS(y_train, X_train_com_const, hasconst = True).fit()

# Vizualizando as informções do modelo
print(modelo_statsmodels.summary())


Reprovamos no teste novamente, isto pode indicar que para realizar um modelo mais relevante, deve-se trocar a variavel dependente, assim tentando ter um ponto de vista diferente

In [None]:
y = dados['Rounds Played']
X = dados[['Death', 'Kill', 'Rounds Win', 'KAST']]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)

modelo.fit(X_train, y_train)
print('R² = {}'.format(modelo.score(X_train, y_train).round(2)))

In [None]:
# Gerando previsões para os dados de teste
y_previsto = modelo.predict(X_test)
print('R² = %s' %metrics.r2_score(y_test, y_previsto).round(2))

Teve uma porcentagem maior no teste do R² testando com o y_previsto do que anteriormente

In [None]:
X_train_com_const = sm.add_constant(X_train)
modelo_statsmodels = sm.OLS(y_train, X_train_com_const, hasconst = True).fit()

# Vizualizando as informções do modelo
print(modelo_statsmodels.summary())


Todas as estatísticas informais e o P|t| informam que os dados são bons, porém o modelo ainda reprova no Prob(F). Estão o que resta é descarta-lo para utilização na Regressão Linear.
