In [None]:
# Manipulación y visualización
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Preprocesamiento
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.utils import resample
from sklearn.preprocessing import LabelEncoder

# Métrica de evaluación
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Modificar máximo de columnas
pd.set_option('display.max_columns', None)

In [4]:
data = pd.read_csv('high_diamond_ranked_10min.csv')

In [None]:
print(data.head)

In [29]:
print(data.describe())

             gameId     blueWins  blueWardsPlaced  blueWardsDestroyed  \
count  9.879000e+03  9879.000000      9879.000000         9879.000000   
mean   4.500084e+09     0.499038        22.288288            2.824881   
std    2.757328e+07     0.500024        18.019177            2.174998   
min    4.295358e+09     0.000000         5.000000            0.000000   
25%    4.483301e+09     0.000000        14.000000            1.000000   
50%    4.510920e+09     0.000000        16.000000            3.000000   
75%    4.521733e+09     1.000000        20.000000            4.000000   
max    4.527991e+09     1.000000       250.000000           27.000000   

       blueFirstBlood    blueKills   blueDeaths  blueAssists  \
count     9879.000000  9879.000000  9879.000000  9879.000000   
mean         0.504808     6.183925     6.137666     6.645106   
std          0.500002     3.011028     2.933818     4.064520   
min          0.000000     0.000000     0.000000     0.000000   
25%          0.000000 

In [None]:
# Verificar si hay valores nulos
print(data.isnull().sum())

In [None]:
# Verificar si hay valores duplicados
print(data.duplicated().sum())

In [34]:
# Buscar partida donde se usaron  más red wards
print(data.loc[data['redWardsPlaced'].idxmax()])

gameId                          4.495730e+09
blueWins                        0.000000e+00
blueWardsPlaced                 1.600000e+01
blueWardsDestroyed              3.000000e+00
blueFirstBlood                  0.000000e+00
blueKills                       5.000000e+00
blueDeaths                      8.000000e+00
blueAssists                     3.000000e+00
blueEliteMonsters               0.000000e+00
blueDragons                     0.000000e+00
blueHeralds                     0.000000e+00
blueTowersDestroyed             0.000000e+00
blueTotalGold                   1.596700e+04
blueAvgLevel                    6.400000e+00
blueTotalExperience             1.696400e+04
blueTotalMinionsKilled          2.230000e+02
blueTotalJungleMinionsKilled    4.400000e+01
blueGoldDiff                   -1.578000e+03
blueExperienceDiff             -5.980000e+02
blueCSPerMin                    2.230000e+01
blueGoldPerMin                  1.596700e+03
redWardsPlaced                  2.760000e+02
redWardsDe

### Observaciones
* Se encontraron 2 columnas categóricas: ```blueWins``` y ```blueFirstBlood```, donde la variable objetivo será ```blueWins```.
Como ambas columnas ya están codificadas, no hace falta hacer ningún cambio.
* La columna de ```gameId``` no es necesaria para el análisis de datos.
* Las columnas de oro por minuto como ```blueGoldPerMin``` y ```redGoldPerMin``` son innecesarias ya que únicamente son los valores de ```blueTotalGold``` y ```redTotalGold``` pero dividido en **10**
* Aunque las columnas que describen la diferencia de ```oro``` y ```experiencia``` entre ambos equipos son una diferencia de las columnas del total de ambos equipos, consideramos que sigue siendo información importante por lo que si son columnas necesarias.
* Las columnas que nos benefician más escalar debido a la diferencia de escala con el resto de datos son las siguientes
    * ```blueTotalGold``` y ```redTotalGold```
    * ```blueTotalExperience``` y ```redTotalExperience```
    * ```blueExperienceDiff``` y ```redExperienceDiff```

#### Excluir columnas innecesarias

In [None]:
df = data.drop(["gameId","blueGoldPerMin","redGoldPerMin"], axis=1)
print(df.columns.values)

### Separar la variable objetivo

In [73]:
np.set_printoptions(suppress=True)

X = df.iloc[:, 1:].values
Y = df.iloc[:, 0].values

print(X)
print(Y)

[[  28.     2.     1.  ... -643.     8.    19.7]
 [  12.     1.     0.  ... 2908.  1173.    24. ]
 [  15.     0.     0.  ... 1172.  1033.    20.3]
 ...
 [  23.     1.     0.  ... 2416.  1877.    26.1]
 [  14.     4.     1.  ...  839.  1085.    24.7]
 [  18.     0.     1.  ... -927.    58.    20.1]]
[0 0 0 ... 0 0 1]
