In [26]:
import category_encoders
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.base import TransformerMixin
from sklearn import preprocessing
from sklearn import neighbors
from sklearn.pipeline import Pipeline
from sklearn import set_config
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
import category_encoders as ce
from sklearn.impute import KNNImputer
from sklearn.preprocessing import MinMaxScaler

**AQUÍ SOLO SE MUESTRAN TRATAMIENTOS QUE HAY QUE HACERLE A LOS DATOS CON SUS RESPECTIVOS RESULTADOS. NO OBSTANTE, LUEGO HAY QUE METER ESTO EN UN COLUMN TRANSFORMER Y DESPUÉS EN UNA PIPELINE.**

In [None]:
#Primero, leemos el archivo csv. Está separado por puntos y comas.

datos = pd.read_csv('pokemon-data.csv',delimiter =';')
y = datos.loc[:,'Tier'].copy()
X = datos.loc[:,datos.columns != 'Tier'].copy()
X

In [28]:
#Vamos a modificar el índice de las filas
X.index = X['Name']

Para reducir el numero de clases para la variable de salida, juntamos los Pokemons en "Buenos" y "Malos".

In [29]:
class TierCathegorizer(TransformerMixin):
    def transform(self,X,y=None):
        X = pd.DataFrame(X)
        yaux = X.copy()
        tiers = np.where(np.logical_or(yaux.loc[:,'Tier'] == 'OU', yaux.loc[:,'Tier'] == 'Uber'),'bueno','malo')
        yaux.loc[:,'Tier'] = tiers
        return yaux


In [30]:
pipe = Pipeline([('tier',TierCathegorizer())])
pipe.transform(y)

Unnamed: 0,Tier
0,malo
1,malo
2,malo
3,malo
4,malo
5,malo
6,bueno
7,bueno
8,malo
9,malo


Nos interesa desdoblar las columnas de los tipos, ya que hay muchas combinaciones de tipos diferentes. Al desdoblar la columna de tipos, obtenemos dos variables que sólo pueden tener 18 categorías (tipo 2 19 categorías), lo cual nos va a dar más información sobre lo bueno que es cada tipo a la hora
de  determinar el potencial competitivo de un Pokémon. Para ello, creamos una clase `TypeCategorizer()`que se va a encargar de esto. Tiene los métodos `fit` y `transform`para poder utilziarse en una *Pipeline*.

In [31]:
class TypeCategorizer():
    # Constructor de la clase
    def __init__(self, columns=None): #Si recibimos algo
        self.columns = columns

    #Fit
    def fit(self, X):
        X=pd.DataFrame(X) #Por si recibiéramos un array de numpy
        if self.columns == None:
            self.columns=X.columns
        return self

    #Transform
    def transform(self, X):
        #Creamos una copia de X para no perder los datos originales
        Xaux=X.copy()
        #Accedemos a la columna de tipos, y rellenamos las columnas acorde
        for c in self.columns:
            caracteresAEliminar = ["[", "]", "'"]
            for char in caracteresAEliminar:
                Xaux.loc[:,c]= Xaux.loc[:,c].str.replace(char,'')
            #Después, para los Pokémon que solo tienen un tipo, vamos a añadirles un segundo tipo "nulo"
            Xaux[['Type 1', 'Type 2']] = Xaux.loc[:,c].str.split(',', expand=True) #Expand true para que cree dos nuevas columnas

            #Por último, hay que borrar la columna de "Types" original
            Xaux=Xaux.drop(["Types"], axis=1)
        return Xaux

In [32]:
categorizadorDeTipos = TypeCategorizer(columns = ["Types"])
categorizadorDeTipos.fit(X)
X_ConTipos = categorizadorDeTipos.transform(X)
X_ConTipos

Unnamed: 0_level_0,Name,Abilities,HP,Attack,Defense,Special Attack,Special Defense,Speed,Next Evolution(s),Moves,Type 1,Type 2
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Abomasnow,Abomasnow,"['Snow Warning', 'Soundproof']",90,92,75,92,85,60,[],"['Ice Punch', 'Powder Snow', 'Leer', 'Razor Le...",Grass,Ice
Abomasnow-Mega,Abomasnow-Mega,['Snow Warning'],90,132,105,132,105,30,[],"['Ice Punch', 'Powder Snow', 'Leer', 'Razor Le...",Grass,Ice
Abra,Abra,"['Inner Focus', 'Magic Guard', 'Synchronize']",25,20,15,105,55,90,['Kadabra'],"['Teleport', 'Ally Switch', 'Barrier', 'Encore...",‘Psychic’,
Absol,Absol,"['Justified', 'Pressure', 'Super Luck']",65,130,60,75,60,75,[],"['Perish Song', 'Future Sight', 'Me First', 'R...",Dark,
Absol-Mega,Absol-Mega,['Magic Bounce'],65,150,60,115,60,115,[],"['Perish Song', 'Future Sight', 'Me First', 'R...",Dark,
Accelgor,Accelgor,"['Hydration', 'Sticky Hold', 'Unburden']",80,70,40,100,60,145,[],"['Water Shuriken', 'Final Gambit', 'Power Swap...",Bug,
Aegislash,Aegislash,['Stance Change'],60,50,150,50,150,60,[],"['Fury Cutter', 'Pursuit', 'Autotomize', 'Shad...",Steel,Ghost
Aegislash-Blade,Aegislash-Blade,['Stance Change'],60,150,50,150,50,60,[],"['Fury Cutter', 'Pursuit', 'Autotomize', 'Shad...",Steel,Ghost
Aerodactyl,Aerodactyl,"['Pressure', 'Rock Head', 'Unnerve']",80,105,65,60,75,130,[],"['Iron Head', 'Ice Fang', 'Fire Fang', 'Thunde...",Rock,Flying
Aerodactyl-Mega,Aerodactyl-Mega,['Tough Claws'],80,135,85,70,95,150,[],"['Iron Head', 'Ice Fang', 'Fire Fang', 'Thunde...",Rock,Flying


Vamos a realizar el mismo tratamiento para las habilidades. Es decir, vamos a generar tres columnas, una por cada habilidad (un Pokémon puede tener 1,2 ó 3 habilidades de las que escoger).

In [33]:
def countCaracter(text, character):
    apariciones=0
    for char in text:
        if char==character:
            apariciones+=1
    return apariciones

class AbilityCategorizer():
    # Constructor de la clase
    def __init__(self, columns=None): #Si recibimos algo
        self.columns = columns

    #Fit
    def fit(self, X):
        X=pd.DataFrame(X) #Por si recibiéramos un array de numpy
        if self.columns == None:
            self.columns=X.columns
        return self

    #Transform
    def transform(self, X):
        #Creamos una copia de X para no perder los datos originales
        Xaux=X.copy()
        #Accedemos a la columna de habilidades, y modificamos las columnas acorde
        for c in self.columns:
            caracteresAEliminar = ["[", "]", "'"]
            for char in caracteresAEliminar:
                Xaux.loc[:,c]= Xaux.loc[:,c].str.replace(char,'')
            #Para los Pokémon que tienen sólo una habilidad, vamos a añadirles dos habilidades nulas; y para los
            #que tengan 2 habilidades, les añadimos una extra.
            for poke in Xaux.loc[:,c].index:
                if countCaracter(Xaux.loc[poke,c], ",")==0:
                    Xaux.loc[poke,c]=Xaux.loc[poke,c]+", None, None"
                elif countCaracter(Xaux.loc[poke,c], ",")==1:
                    Xaux.loc[poke,c]=Xaux.loc[poke,c]+", None"
            #Creamos tres columnas nuevas
            Xaux[['Ability 1', 'Ability 2', 'Ability 3']] = Xaux.loc[:,c].str.split(',', expand=True) #Expand true para que cree dos nuevas columnas
            #Por último, hay que borrar la columna de "Abilities" original
            Xaux=Xaux.drop(["Abilities"], axis=1)
        return Xaux

In [34]:
categorizadorDeHabilidades = AbilityCategorizer(columns = ["Abilities"])
categorizadorDeHabilidades.fit(X_ConTipos)
X_ConTiposHabilidades = categorizadorDeHabilidades.transform(X_ConTipos)
X_ConTiposHabilidades

Unnamed: 0_level_0,Name,HP,Attack,Defense,Special Attack,Special Defense,Speed,Next Evolution(s),Moves,Type 1,Type 2,Ability 1,Ability 2,Ability 3
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Abomasnow,Abomasnow,90,92,75,92,85,60,[],"['Ice Punch', 'Powder Snow', 'Leer', 'Razor Le...",Grass,Ice,Snow Warning,Soundproof,
Abomasnow-Mega,Abomasnow-Mega,90,132,105,132,105,30,[],"['Ice Punch', 'Powder Snow', 'Leer', 'Razor Le...",Grass,Ice,Snow Warning,,
Abra,Abra,25,20,15,105,55,90,['Kadabra'],"['Teleport', 'Ally Switch', 'Barrier', 'Encore...",‘Psychic’,,Inner Focus,Magic Guard,Synchronize
Absol,Absol,65,130,60,75,60,75,[],"['Perish Song', 'Future Sight', 'Me First', 'R...",Dark,,Justified,Pressure,Super Luck
Absol-Mega,Absol-Mega,65,150,60,115,60,115,[],"['Perish Song', 'Future Sight', 'Me First', 'R...",Dark,,Magic Bounce,,
Accelgor,Accelgor,80,70,40,100,60,145,[],"['Water Shuriken', 'Final Gambit', 'Power Swap...",Bug,,Hydration,Sticky Hold,Unburden
Aegislash,Aegislash,60,50,150,50,150,60,[],"['Fury Cutter', 'Pursuit', 'Autotomize', 'Shad...",Steel,Ghost,Stance Change,,
Aegislash-Blade,Aegislash-Blade,60,150,50,150,50,60,[],"['Fury Cutter', 'Pursuit', 'Autotomize', 'Shad...",Steel,Ghost,Stance Change,,
Aerodactyl,Aerodactyl,80,105,65,60,75,130,[],"['Iron Head', 'Ice Fang', 'Fire Fang', 'Thunde...",Rock,Flying,Pressure,Rock Head,Unnerve
Aerodactyl-Mega,Aerodactyl-Mega,80,135,85,70,95,150,[],"['Iron Head', 'Ice Fang', 'Fire Fang', 'Thunde...",Rock,Flying,Tough Claws,,


Los nombres de los Pokémon no tienen relevancia competitiva, por lo que simplemente vamos a aplicar una codificación ordinal sobre esta columnna. Previsiblemente, al realizar la selección de variables, esta variable no será escogida, pero de igual forma necesitamos codificarla.

In [35]:
encodificadorOrdinal = ce.OrdinalEncoder(cols=["Name"])
#La entrenamos con el DataFrame sin datos faltantes
encodificadorOrdinal.fit(X_ConTiposHabilidades)
#Hacemos la transformación
X_ConTiposHabilidadesNombres=encodificadorOrdinal.transform(X_ConTiposHabilidades)
X_ConTiposHabilidadesNombres

Unnamed: 0_level_0,Name,HP,Attack,Defense,Special Attack,Special Defense,Speed,Next Evolution(s),Moves,Type 1,Type 2,Ability 1,Ability 2,Ability 3
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Abomasnow,1,90,92,75,92,85,60,[],"['Ice Punch', 'Powder Snow', 'Leer', 'Razor Le...",Grass,Ice,Snow Warning,Soundproof,
Abomasnow-Mega,2,90,132,105,132,105,30,[],"['Ice Punch', 'Powder Snow', 'Leer', 'Razor Le...",Grass,Ice,Snow Warning,,
Abra,3,25,20,15,105,55,90,['Kadabra'],"['Teleport', 'Ally Switch', 'Barrier', 'Encore...",‘Psychic’,,Inner Focus,Magic Guard,Synchronize
Absol,4,65,130,60,75,60,75,[],"['Perish Song', 'Future Sight', 'Me First', 'R...",Dark,,Justified,Pressure,Super Luck
Absol-Mega,5,65,150,60,115,60,115,[],"['Perish Song', 'Future Sight', 'Me First', 'R...",Dark,,Magic Bounce,,
Accelgor,6,80,70,40,100,60,145,[],"['Water Shuriken', 'Final Gambit', 'Power Swap...",Bug,,Hydration,Sticky Hold,Unburden
Aegislash,7,60,50,150,50,150,60,[],"['Fury Cutter', 'Pursuit', 'Autotomize', 'Shad...",Steel,Ghost,Stance Change,,
Aegislash-Blade,8,60,150,50,150,50,60,[],"['Fury Cutter', 'Pursuit', 'Autotomize', 'Shad...",Steel,Ghost,Stance Change,,
Aerodactyl,9,80,105,65,60,75,130,[],"['Iron Head', 'Ice Fang', 'Fire Fang', 'Thunde...",Rock,Flying,Pressure,Rock Head,Unnerve
Aerodactyl-Mega,10,80,135,85,70,95,150,[],"['Iron Head', 'Ice Fang', 'Fire Fang', 'Thunde...",Rock,Flying,Tough Claws,,


La columna de "siguientes evoluciones" puede tener relevancia ya que los Pokémon que todavía pueden evolucionar pueden utilizar un objeto llamado Mineral Evolutivo, que aumenta sus defensas en un 50%. No nos importa tanto si el Pokémon puede evolucionar una vez, dos veces o si tiene diferentes posibles evoluciones; solo si es capaz de evolucionar. Por lo tanto, codificaremos esta columna de la siguiente manera: si el Pokémon tiene alguna evolución posible, le asignaremos el valor 1; en caso contrario, le asignaremos el valor 0. Para ello, vamos a modificar la columna aplicándole dos tratamientos. Si la fila correspondiente es "[]", pondremos "´No", y en caso contrario pondremos "Si". Después, aplicaremos una codificación One Hot, adecuada ya que sólo generará una columna adicional al poder tomar esta variable solo dos valores.

Además, hay algunos Pokémon que pueden tener formas alternativas (que no se consideran evoluciones, por lo que no permiten el uso del Mineral Evolutivo) y que en el dataset presentan una lista no vacía en la columna de "siguientes evoluciones". Como no hay ningún criterio para detectar estos casos, los vamos a tratar manualmente. Estos Pokémon son **Giratina**, **Greninja**, **Kyurem**, **Landorus**, **Oricorio**, **Rotom**, **Shaymin**, **Thundurus**, **Tornadus** y **Zygarde**. Pese a que tengan una lista vacía, estos Pokémon los vamos a codificar como que **no** tienen evolución.

In [36]:
class EvolutionCategorizer(TransformerMixin):
    # Constructor de la clase
    def __init__(self, columns=None): #Si recibimos algo
        self.columns = columns

    #Fit
    def fit(self, X, y=0):
        X=pd.DataFrame(X) #Por si recibiéramos un array de numpy
        if self.columns == None:
            self.columns=X.columns
        return self

    #Transform
    def transform(self, X, y=0):
        #Creamos una copia de X para no perder los datos originales
        Xaux=X.copy()
        #Accedemos a la columna de tipos, y rellenamos las columnas acorde
        for c in self.columns:
            Xaux.loc[:,c] = np.where(Xaux.loc[:,c]=="[]", "No", "Si")
            #Ahora, consideramos las excepciones consideradas arriba
            pokemonEquivocados = ["Giratina", "Greninja", "Kyurem", "Landorus", "Oriciorio", "Rotom", "Shaymin", "Thundurus", "Tornaous", "Zygarde"]
            for poke in pokemonEquivocados:
                Xaux.loc[poke,c]="No"
        return Xaux

    #set_params
    def set_params(self, **parameters):
        for parameter, value in parameters.items():
            setattr(self, parameter, value)
        return self

#Una vez aplicamos el EvolutionCategorizer(), aplicamos el One Hot Encoding. Para ello, hacemos una PipeLine
pipe_Evol =  Pipeline([('Categorizador de Evoluciones', EvolutionCategorizer(columns=["Next Evolution(s)"])), 
                       ('One Hot Encoding', ce.OneHotEncoder(cols = ["Next Evolution(s)"], handle_unknown="ignore"))])

In [37]:
pd.options.display.max_rows = 1000
pipe_Evol.fit(X_ConTiposHabilidadesNombres)
datosTiposHabilidadesNombresEvol = pipe_Evol.transform(X_ConTiposHabilidadesNombres)
datosTiposHabilidadesNombresEvol

Unnamed: 0_level_0,Name,HP,Attack,Defense,Special Attack,Special Defense,Speed,Next Evolution(s)_1,Next Evolution(s)_2,Moves,Type 1,Type 2,Ability 1,Ability 2,Ability 3
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
Abomasnow,1.0,90.0,92.0,75.0,92.0,85.0,60.0,1,0,"['Ice Punch', 'Powder Snow', 'Leer', 'Razor Le...",Grass,Ice,Snow Warning,Soundproof,
Abomasnow-Mega,2.0,90.0,132.0,105.0,132.0,105.0,30.0,1,0,"['Ice Punch', 'Powder Snow', 'Leer', 'Razor Le...",Grass,Ice,Snow Warning,,
Abra,3.0,25.0,20.0,15.0,105.0,55.0,90.0,0,1,"['Teleport', 'Ally Switch', 'Barrier', 'Encore...",‘Psychic’,,Inner Focus,Magic Guard,Synchronize
Absol,4.0,65.0,130.0,60.0,75.0,60.0,75.0,1,0,"['Perish Song', 'Future Sight', 'Me First', 'R...",Dark,,Justified,Pressure,Super Luck
Absol-Mega,5.0,65.0,150.0,60.0,115.0,60.0,115.0,1,0,"['Perish Song', 'Future Sight', 'Me First', 'R...",Dark,,Magic Bounce,,
Accelgor,6.0,80.0,70.0,40.0,100.0,60.0,145.0,1,0,"['Water Shuriken', 'Final Gambit', 'Power Swap...",Bug,,Hydration,Sticky Hold,Unburden
Aegislash,7.0,60.0,50.0,150.0,50.0,150.0,60.0,1,0,"['Fury Cutter', 'Pursuit', 'Autotomize', 'Shad...",Steel,Ghost,Stance Change,,
Aegislash-Blade,8.0,60.0,150.0,50.0,150.0,50.0,60.0,1,0,"['Fury Cutter', 'Pursuit', 'Autotomize', 'Shad...",Steel,Ghost,Stance Change,,
Aerodactyl,9.0,80.0,105.0,65.0,60.0,75.0,130.0,1,0,"['Iron Head', 'Ice Fang', 'Fire Fang', 'Thunde...",Rock,Flying,Pressure,Rock Head,Unnerve
Aerodactyl-Mega,10.0,80.0,135.0,85.0,70.0,95.0,150.0,1,0,"['Iron Head', 'Ice Fang', 'Fire Fang', 'Thunde...",Rock,Flying,Tough Claws,,


Dividimos los datos en: Conjunto de entrenamiento, validación y test.

In [38]:
# Creación de los conjuntos de test (10% de los ejemplos) y el resto de ejemplos
restoEjemplos_X, X_test, restoEjemplos_y, y_test =  train_test_split(X.loc[:,:],y.loc[:], test_size=0.10, random_state=123)

# Creación de los conjuntos de train (80% de los ejemplos) y de validación (resto de los ejemplos)
X_train, X_val, y_train, y_val =  train_test_split(restoEjemplos_X,restoEjemplos_y, train_size=0.80, test_size=0.20, random_state=123)
print(f"X_test: {X_test}, y_test: {y_test},X_train: {X_val}, y_train: {y_val}")

X_test:                                                 Name                   Types  \
Name                                                                           
Hoopa                                          Hoopa    ['Psychic', 'Ghost']   
Riolu                                          Riolu            ['Fighting']   
Aegislash-Blade                      Aegislash-Blade      ['Steel', 'Ghost']   
Pansear                                      Pansear                ['Fire']   
Deoxys-Attack                          Deoxys-Attack             ['Psychic']   
Dhelmise                                    Dhelmise      ['Ghost', 'Grass']   
Noctowl                                      Noctowl    ['Flying', 'Normal']   
Combee                                        Combee       ['Bug', 'Flying']   
Wishiwashi                                Wishiwashi               ['Water']   
Petilil                                      Petilil               ['Grass']   
Necrozma-Dawn Wings             