# Proyecto Rifeco GG: Clasificación de jugadores por liga.
### Data Mining 2021 UTFSM
#### Integrantes:
* Matías Concha 201530017-8
* Jorge Fernández 2015 xd
* María Fernanda Rivas 201584033-4

## Introducción

### Objetivo
El objetivo de este proyecto es poder clasificar de manera correcta las ligas de los jugadores en LAS que es la región de america del sur y asi, poder saber si los puntajes obtenidos por los jugadores en sus partidas son suficiente para poder clasificarlos desde la mejor liga hasta la peor liga.
Además también se compararán 2 regiones importantes en el juego, las cuales son Corea y Brasil para saber si es posible clasificar por región y si los jugadores de estas regiones tienen puntajes demasiado distinto entre ellos.

# Bibliotecas

In [22]:
# Python basic libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import time
from matplotlib.colors import ListedColormap

In [23]:
# Data Preprocessing libraries

# for splitting data into training and testing
from sklearn.model_selection import train_test_split

# standardize features removing the mean and scaling to unit variance
from sklearn.preprocessing import StandardScaler

# metris for classifiers evaluation
from sklearn import metrics

In [24]:
# Classifiers

# multilayer perceptron classifier
from sklearn.neural_network import MLPClassifier

# K nearest neighbors classifier
from sklearn.neighbors import KNeighborsClassifier

# Support vector machine, C-support vector classifier
from sklearn.svm import SVC

# Gaussian process classifier
from sklearn.gaussian_process import GaussianProcessClassifier

# radial basis function kernel (squared exponential kernel)
from sklearn.gaussian_process.kernels import RBF

# Decision tree classifier
from sklearn.tree import DecisionTreeClassifier

# Ensemble classifiers: Random forest and AdaBoost
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier

# Naive Bayes classifier
from sklearn.naive_bayes import GaussianNB

# Quadratic Discriminant Analysis classifier
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis

# Adquisición de datos

In [25]:
# Reading the data
# df = pd.read_csv('la2_rankIIIonly_extended.csv')
df = pd.read_csv('csv/la2_50matchs.csv')
df.describe()

Unnamed: 0,gameId,wins,losses,championId,spell1Id,spell2Id,kills,deaths,assists,largestKillingSpree,...,totalMinionsKilled,goldEarned,goldSpent,visionScore,team-towerKills,team-inhibitorKills,team-baronKills,team-dragonKills,team-vilemawKills,team-riftHeraldKills
count,118292.0,118292.0,118292.0,118292.0,118292.0,118292.0,118292.0,118292.0,118292.0,118292.0,...,118292.0,118292.0,118292.0,118292.0,118292.0,118292.0,118292.0,118292.0,118292.0,118292.0
mean,1038999000.0,84.46266,83.969863,150.837926,9.715205,10.84802,6.568196,6.515166,9.274414,2.776621,...,90.415277,11207.835475,10226.299843,18.704359,4.836853,0.904719,0.332609,1.629916,0.0,0.62989
std,35598390.0,102.635851,97.707496,181.910544,10.872346,11.287127,5.421333,3.700414,7.39026,2.761656,...,68.023163,4344.813449,4222.167591,17.389994,3.651228,1.169749,0.586446,1.483679,0.0,0.730798
min,723087600.0,1.0,2.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,664.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,1033424000.0,14.0,18.0,40.0,4.0,4.0,3.0,4.0,4.0,0.0,...,32.0,8260.0,7430.0,7.0,2.0,0.0,0.0,0.0,0.0,0.0
50%,1053863000.0,48.0,50.0,89.0,4.0,7.0,5.0,6.0,8.0,2.0,...,74.0,10946.0,9975.0,16.0,4.0,0.0,0.0,1.0,0.0,0.0
75%,1059435000.0,112.0,111.0,164.0,12.0,14.0,9.0,9.0,13.0,4.0,...,142.0,13843.0,12750.0,26.0,8.0,2.0,1.0,3.0,0.0,1.0
max,1063092000.0,829.0,844.0,887.0,54.0,54.0,69.0,52.0,73.0,69.0,...,443.0,39981.0,63620.0,190.0,11.0,13.0,4.0,8.0,0.0,2.0


In [26]:
# Review missing data
print(df.isnull().sum())

gameId                         0
region                         0
summonerName                   0
tier                           0
rank                           0
tierRank                       0
wins                           0
losses                         0
win                            0
lane                           0
role                           0
championId                     0
spell1Id                       0
spell2Id                       0
kills                          0
deaths                         0
assists                        0
largestKillingSpree            0
largestMultiKill               0
killingSprees                  0
longestTimeSpentLiving         0
doubleKills                    0
tripleKills                    0
quadraKills                    0
pentaKills                     0
totalDamageDealt               0
totalDamageDealtToChampions    0
totalHeal                      0
totalUnitsHealed               0
damageDealtToObjectives        0
timeCCingO

In [27]:
# Eliminate rows with missing values
df.dropna(inplace=True)

# Selección de datos útiles
## Para la matriz de datos de análisis 'X' se seleccionan todos los datos excepto los siguientes: 
* **tier**: Liga, dado que nuestra variable objetivo
* **rank**: Dado que es una variable que subdivide las ligas, no es de interés para este caso.
* **tierRank**: Fusión de las dos variables anteriores.
* **summonerName**: Nombre del jugador, irrelevante.
* **lane**: Posición del jugador en el mapa del juego al inicio del juego, irrelevante.
* **role**: Rol del jugador durante el juego, irrelevante.
## Estos se descartan debido a que no entregan información relevante en la partida de los jugadores.

In [28]:
X = df.drop(['tier', 'rank', 'tierRank', 'region', 'summonerName', 'lane', 'role'], axis=1).values
X_columns = df.drop(['tier', 'rank', 'tierRank', 'region', 'summonerName', 'lane', 'role'], axis=1).columns
y = df[['tier']].to_numpy().ravel()

In [29]:
# encoding categorical data e.g. tier as a dummy variable
from sklearn.preprocessing import LabelEncoder
labelencoder_X = LabelEncoder()
X[:,1] = labelencoder_X.fit_transform(X[:,1])

# encoding categorical data e.g. tier as a dummy variable
y,class_names = pd.factorize(y)

In [30]:
# Splitting the dataset into the Training set and Test set
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, stratify=y, random_state = 42)

In [31]:
names = [
            # "Nearest Neighbors",
            # "SVM Linear",
            # "SVM rbf",
            # "GP",
            " Decision Tree ",
            " Random Forest ",
            # "Neural Net", 
            "== Ada Boost ==",
            # "Naive Bayes",
            "===== QDA ====="
        ]        
        
classifiers = [
    # KNeighborsClassifier(500),
    # SVC(kernel="linear", C=0.03, probability = True),
    # SVC(gamma=1.5, C=1, probability = True),
    # GaussianProcessClassifier(1.0 * RBF(1.0), warm_start=True),
    DecisionTreeClassifier(criterion='gini', max_depth=8, random_state=3),
    RandomForestClassifier(criterion='gini', max_depth=8, n_estimators=100, random_state=3),
    # MLPClassifier(alpha=1),
    AdaBoostClassifier(),
    # GaussianNB(),
    QuadraticDiscriminantAnalysis()
    ]

In [32]:
from sklearn import metrics
from sklearn.metrics import confusion_matrix, classification_report

In [33]:
i=1
models=[]
for name, clf in zip(names, classifiers):
        print('========================'+ name + '========================')
        # fit the model using the training set
        models.append(clf.fit(X_train, y_train))
        
        y_pred = clf.predict(X_test)

        y_pred_labeled, y_test_labeled = class_names[y_pred], class_names[y_test]

        print("Confusion matrix:")
        print(pd.crosstab(y_test_labeled, y_pred_labeled, rownames=['Actual'], colnames=['Predicted']))
        print("Classification report:")
        print(classification_report(y_test, y_pred, target_names=class_names))

        print('===============================================================\n')
        print(' ')

        i += 1

Confusion matrix:
Predicted  BRONZE  DIAMOND  GOLD  IRON  PLATINUM  SILVER
Actual                                                  
BRONZE       2585      280   480   995        79     500
DIAMOND       136     3120   811    95       428     334
GOLD          883      996  2231   271       144     437
IRON          851       75   177  3584        17     250
PLATINUM      773     1186  1280   243      1073     382
SILVER       1320      608   981   665       129    1174
Classification report:
              precision    recall  f1-score   support

        IRON       0.61      0.72      0.66      4954
      BRONZE       0.39      0.53      0.45      4919
      SILVER       0.38      0.24      0.30      4877
        GOLD       0.37      0.45      0.41      4962
    PLATINUM       0.57      0.22      0.32      4937
     DIAMOND       0.50      0.63      0.56      4924

    accuracy                           0.47     29573
   macro avg       0.47      0.47      0.45     29573
weighted avg   



Confusion matrix:
Predicted  BRONZE  DIAMOND  GOLD  IRON  PLATINUM  SILVER
Actual                                                  
BRONZE       2255      585   370  1356        91     262
DIAMOND       466     3750   378    99       109     122
GOLD         1427     1749   818   457       172     339
IRON         1390      376   195  2734        66     193
PLATINUM      980     2384   700   346       236     291
SILVER       1912     1079   568   806       130     382
Classification report:
              precision    recall  f1-score   support

        IRON       0.47      0.55      0.51      4954
      BRONZE       0.27      0.46      0.34      4919
      SILVER       0.24      0.08      0.12      4877
        GOLD       0.27      0.16      0.20      4962
    PLATINUM       0.29      0.05      0.08      4937
     DIAMOND       0.38      0.76      0.51      4924

    accuracy                           0.34     29573
   macro avg       0.32      0.34      0.29     29573
weighted avg   

Estos primeros resultados, se puede apreciar que el clasificador que mejor funciona es Decision Tree, esto se debe a que............
Seguidamente el 2do mejor es Random Forest ........
Se hicieron diferentes pruebas cambiando los parametros de los clasificadores, como por ejemplo en decision tree se cambio repetidas veces el parametro de "random_state" debido a que nos entregaba una mejor clasificación y se queria comprobar si ese parametro era decisivo al momento de clasificar las ligas de los jugadores. 

In [34]:
df.iloc[32]

gameId                             983190808
region                                   la2
summonerName                   PaposDelCente
tier                                    IRON
rank                                      II
tierRank                             IRON-II
wins                                       9
losses                                    14
win                                    False
lane                                  BOTTOM
role                             DUO_SUPPORT
championId                                99
spell1Id                                   4
spell2Id                                  14
kills                                      2
deaths                                     8
assists                                    6
largestKillingSpree                        2
largestMultiKill                           1
killingSprees                              1
longestTimeSpentLiving                   415
doubleKills                                0
tripleKill

In [35]:
df.iloc[114647]


gameId                               1062058286
region                                      la2
summonerName                   SOY UN ENE A Z I
tier                                    DIAMOND
rank                                         II
tierRank                             DIAMOND-II
wins                                         18
losses                                       10
win                                       False
lane                                     BOTTOM
role                                  DUO_CARRY
championId                                  166
spell1Id                                      4
spell2Id                                      7
kills                                        10
deaths                                       10
assists                                       6
largestKillingSpree                           3
largestMultiKill                              2
killingSprees                                 3
longestTimeSpentLiving                  

Como conclusiónes podemos determinar que los datos entregados por la API de riot games son suficientes para poder clasificar al jugador con respecto a su liga, esto se debe que a nivel de juego los jugadores de ligas más altas toman distintas decisiones y cumplen diferentes objetivos. Una de las decisiones más notorias al momento de clasificar es la cantidad de minions que consiguen los jugadores de ligas más altas como por ejemplo en diamante que podemos notar que hizo un total de 171 minions vs un iron que hizo 22 en total, estos son elementos importantes debido a que los hace ganar más oro lo que permite que se compren items que les  mejoran sus habilidades como jugador. 



In [36]:
# # Visualize the tree by graphiz
# import graphviz
# from sklearn import tree
# import os
# os.environ["PATH"] += os.pathsep + 'C:/Users/matia/anaconda3/Library/bin/graphviz/'
# feature_names = X_columns
# dot_data = tree.export_graphviz(classifier, out_file=None, filled=True, rounded = True, feature_names=feature_names, class_names=class_names)
# graph = graphviz.Source(dot_data)
# graph