# Estatistica de Campeões de League of Legends

Trabalho 1 de Mineração de Dados para a FATEC de Itapira - Curso de Desenvolvimento de Sistemas Multiplataforma.
Desenvolvido por: Gabriel Almir Pereira Ribeiro.

In [22]:
import pandas as pd
df = pd.read_csv("champions.csv", sep=";", dtype={"jogos_jogados": str, "ouro": str, "taxa_vitoria": str, "taxa_escolha": str, "taxa_banimento": str})

Primeiro vamos realizar a análise da estrutura dos dados atualmente.

In [23]:
print("Primeiras linhas do dataset")
print(df.head())

Primeiras linhas do dataset
           nome jogos_jogados     ama taxa_vitoria taxa_escolha  \
0  Miss Fortune        18.164  2.19:1       48.79%       27.64%   
1           Lux        17.346  2.37:1       48.58%        26.4%   
2          Kayn        12.893  1.82:1       46.89%       19.62%   
3       Caitlyn        12.526  1.97:1       47.28%       19.06%   
4       Morgana        12.418  2.50:1       49.65%        18.9%   

  taxa_banimento      cs    ouro region  tier  
0         13.87%  154.79  12.410     br  iron  
1         38.62%   91.24  10.420     br  iron  
2          17.1%  156.88  11.846     br  iron  
3         37.02%  160.68  11.902     br  iron  
4         32.35%   66.49   9.927     br  iron  


In [24]:
print("Formato do dataset (linhas, colunas)")
print(df.shape)

Formato do dataset (linhas, colunas)
(1712, 10)


In [25]:
print("Resumo estatísticos")
print(df.describe(include='all'))

Resumo estatísticos
                nome jogos_jogados     ama taxa_vitoria taxa_escolha  \
count           1710          1705    1712         1712         1705   
unique           171          1465     250          868          920   
top     Miss Fortune            11  2.30:1          50%        3.59%   
freq              10             8      24           20            8   
mean             NaN           NaN     NaN          NaN          NaN   
std              NaN           NaN     NaN          NaN          NaN   
min              NaN           NaN     NaN          NaN          NaN   
25%              NaN           NaN     NaN          NaN          NaN   
50%              NaN           NaN     NaN          NaN          NaN   
75%              NaN           NaN     NaN          NaN          NaN   
max              NaN           NaN     NaN          NaN          NaN   

       taxa_banimento           cs    ouro region      tier  
count            1712  1705.000000    1705   1712    

In [26]:
print("\nVerificação de valores ausentes:")
print(df.isnull().sum())


Verificação de valores ausentes:
nome              2
jogos_jogados     7
ama               0
taxa_vitoria      0
taxa_escolha      7
taxa_banimento    0
cs                7
ouro              7
region            0
tier              0
dtype: int64


In [27]:
print("\nVerificação de registros duplicados:")
print(df.duplicated().sum())


Verificação de registros duplicados:
0


# Limpeza de Dados

Vamos realizar as principais limpezas dos dados.

In [28]:
print(df.dtypes)  # conferindo os tipos
print(df.head())

nome               object
jogos_jogados      object
ama                object
taxa_vitoria       object
taxa_escolha       object
taxa_banimento     object
cs                float64
ouro               object
region             object
tier               object
dtype: object
           nome jogos_jogados     ama taxa_vitoria taxa_escolha  \
0  Miss Fortune        18.164  2.19:1       48.79%       27.64%   
1           Lux        17.346  2.37:1       48.58%        26.4%   
2          Kayn        12.893  1.82:1       46.89%       19.62%   
3       Caitlyn        12.526  1.97:1       47.28%       19.06%   
4       Morgana        12.418  2.50:1       49.65%        18.9%   

  taxa_banimento      cs    ouro region  tier  
0         13.87%  154.79  12.410     br  iron  
1         38.62%   91.24  10.420     br  iron  
2          17.1%  156.88  11.846     br  iron  
3         37.02%  160.68  11.902     br  iron  
4         32.35%   66.49   9.927     br  iron  


In [29]:
df['jogos_jogados'] = pd.to_numeric(df['jogos_jogados'].str.replace('.', ''), errors='coerce')
df['ouro'] = pd.to_numeric(df['ouro'].str.replace('.', ''), errors='coerce')
df['taxa_vitoria'] = pd.to_numeric(df['taxa_vitoria'].str.replace('%', ''), errors='coerce')
df['taxa_escolha'] = pd.to_numeric(df['taxa_escolha'].str.replace('%', ''), errors='coerce')
df['taxa_banimento'] = pd.to_numeric(df['taxa_banimento'].str.replace('%', ''), errors='coerce')

In [31]:
# Remover duplicados, não necessário nesse caso
df = df.drop_duplicates()

# preencher valores nulos com a mediana
df = df.fillna(df.median(numeric_only=True))

# Análise de Limpeza

In [33]:
print("Dataset após limpeza:")
print(df.head())

print("Resumo estatístico após limpeza:")
print(df.describe())

Dataset após limpeza:
           nome  jogos_jogados     ama  taxa_vitoria  taxa_escolha  \
0  Miss Fortune        18164.0  2.19:1         48.79         27.64   
1           Lux        17346.0  2.37:1         48.58         26.40   
2          Kayn        12893.0  1.82:1         46.89         19.62   
3       Caitlyn        12526.0  1.97:1         47.28         19.06   
4       Morgana        12418.0  2.50:1         49.65         18.90   

   taxa_banimento      cs     ouro region  tier  
0           13.87  154.79  12410.0     br  iron  
1           38.62   91.24  10420.0     br  iron  
2           17.10  156.88  11846.0     br  iron  
3           37.02  160.68  11902.0     br  iron  
4           32.35   66.49   9927.0     br  iron  
Resumo estatístico após limpeza:
       jogos_jogados  taxa_vitoria  taxa_escolha  taxa_banimento           cs  \
count    1712.000000   1712.000000   1712.000000     1712.000000  1712.000000   
mean     5988.477220     49.341688      5.917640        5.1588

In [35]:
print("Média da taxa de vitória por região/tier:")
print(df.groupby(['region','tier'])['taxa_vitoria'].mean())

Média da taxa de vitória por região/tier:
region  tier       
br      bronze         48.717135
        challenger     46.822807
        diamond        50.484737
        emerald        50.444302
        gold           50.032047
        grandmaster    49.507076
        iron           46.470058
        master         51.405146
        platinum       50.202849
        silver         49.319240
Name: taxa_vitoria, dtype: float64


In [None]:
# Calculando a média da taxa de vitória por campeão e elo
performance_por_elo = df.groupby(['nome', 'tier'])['taxa_vitoria'].mean().unstack()

# Selecionando alguns campeões populares para visualização
campeoes_populares = ['Miss Fortune', 'Lux', 'Caitlyn', 'Morgana', 'Kayn', 'Ahri']
performance_populares = performance_por_elo.loc[campeoes_populares]

print(performance_populares)

# Calculando a tendência de vitória por elo para cada campeão popular
tendencia_populares = performance_populares.apply(lambda x: x.diff().fillna(0), axis=1)

print("Tendência de vitória por elo para campeões populares:")
print(tendencia_populares)

tier          bronze  challenger  diamond  emerald   gold  grandmaster   iron  \
nome                                                                            
Miss Fortune   51.47       58.33    51.01    51.44  51.79        45.16  48.79   
Lux            51.31       51.43    51.42    51.42  51.54        51.79  48.58   
Caitlyn        49.00       67.74    49.37    50.36  49.96        52.24  47.28   
Morgana        51.96       52.94    49.69    52.77  52.71        55.07  49.65   
Kayn           49.93       56.07    49.19    50.77  50.50        41.88  46.89   
Ahri           48.67       50.00    50.34    49.78  49.99        51.15  46.56   

tier          master  platinum  silver  
nome                                    
Miss Fortune   50.46     50.81   51.48  
Lux            49.21     51.69   51.61  
Caitlyn        50.51     50.06   49.35  
Morgana        52.32     52.52   52.91  
Kayn           50.28     50.08   49.92  
Ahri           53.43     49.88   48.65  
Tendência de vitória po