# Notebook para la creación de datasets
- Alvarado Morán Óscar

In [2]:
# Bibliotecas básicas para el uso de python
import pandas as pd # Para procesamiento de datos
import numpy as np # Para las operaciones vectoriales

from selenium import webdriver # Para abrir y extraer información desde sitios web
# Las siguientes tres líneas nos sirven para que al acceder a una página, la ventana no se abra 
# y sólo se extraiga la información.
from selenium.webdriver.firefox.options import Options 
options = Options()
options.add_argument('--headless')

# Biblioteca para la manipulación de archivos tipo html o xml muy utilizados en las páginas web.
import bs4
from bs4 import BeautifulSoup

ModuleNotFoundError: No module named 'selenium'

# Datasets existentes

El siguiente conjunto de datos se obtuvo desde kaggel y contiene estadísticas de los pokémon (sí, así se escribe en plural, no es equivocación mía) desde la primera hasta la séptima generación (los primeros 7 videojuegos).

https://www.kaggle.com/rounakbanik/pokemon

In [19]:
# Importando el conjunto de datos mediante pandas. El archivo se encuentra dentro de otra carpeta que es padre 
# de la carpeta actual.
gen_1_7 = pd.read_csv('../datos/pokemon.csv')
# Se crean los índices de la tabla, éstos corresponden al número en la pokedex nacional (dispositivo de los juegos
# que contiene información de cada pokémon) de cada pokemon.
index = pd.Series(range(1, len(gen_1_7)+1))
gen_1_7 = gen_1_7.set_index([index])
gen_1_7

Unnamed: 0,abilities,against_bug,against_dark,against_dragon,against_electric,against_fairy,against_fight,against_fire,against_flying,against_ghost,...,percentage_male,pokedex_number,sp_attack,sp_defense,speed,type1,type2,weight_kg,generation,is_legendary
1,"['Overgrow', 'Chlorophyll']",1.00,1.0,1.0,0.5,0.5,0.5,2.0,2.0,1.0,...,88.1,1,65,65,45,grass,poison,6.9,1,0
2,"['Overgrow', 'Chlorophyll']",1.00,1.0,1.0,0.5,0.5,0.5,2.0,2.0,1.0,...,88.1,2,80,80,60,grass,poison,13.0,1,0
3,"['Overgrow', 'Chlorophyll']",1.00,1.0,1.0,0.5,0.5,0.5,2.0,2.0,1.0,...,88.1,3,122,120,80,grass,poison,100.0,1,0
4,"['Blaze', 'Solar Power']",0.50,1.0,1.0,1.0,0.5,1.0,0.5,1.0,1.0,...,88.1,4,60,50,65,fire,,8.5,1,0
5,"['Blaze', 'Solar Power']",0.50,1.0,1.0,1.0,0.5,1.0,0.5,1.0,1.0,...,88.1,5,80,65,80,fire,,19.0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
797,['Beast Boost'],0.25,1.0,0.5,2.0,0.5,1.0,2.0,0.5,1.0,...,,797,107,101,61,steel,flying,999.9,7,1
798,['Beast Boost'],1.00,1.0,0.5,0.5,0.5,2.0,4.0,1.0,1.0,...,,798,59,31,109,grass,steel,0.1,7,1
799,['Beast Boost'],2.00,0.5,2.0,0.5,4.0,2.0,0.5,1.0,0.5,...,,799,97,53,43,dark,dragon,888.0,7,1
800,['Prism Armor'],2.00,2.0,1.0,1.0,1.0,0.5,1.0,1.0,2.0,...,,800,127,89,79,psychic,,230.0,7,1


El siguiente conjunto de datos se obtuvo desde un repositorio de GitHub y contiene estadísticas de los pokémon disponibles para la octava generación (el último juego, salió a la venta a finales del año pasado):

https://www.kaggle.com/edgaro/pokedex-gen8

In [1]:
# Leyendo los datos de la octava generación
gen_8_disponibles = pd.read_csv('../datos/PokeDex8.csv')
gen_8_disponibles

NameError: name 'pd' is not defined

# Web Scrapping

- BeautifulSoup, biblioteca para manejar datos provenientes de HTML o xml:
    https://www.crummy.com/software/BeautifulSoup/bs4/doc/
    
    
- Selenium, biblioteca para conectarse a sitios web:
    https://www.selenium.dev/documentation/en/

In [6]:
class iniciador_ws():
    """
    Clase inicializadora de Selenium para abrir sitios web y extraer información de éstos.
    """
    def __init__(self, url):
        """
        Método que se inicializa al invocar la clase 'iniciador_ws'. Al ser invocada entra a la página solicitada 
        y obtiene la información que ésta contiene. La información de la página web se guarda en la variable a la que 
        sea igualada.
        
        Parámetros
        ------
        url: string
            La dirección web a la que se quiere acceder.
        """
        # Se invoca la información necesaria para el explorador que se desee utilizar.
        profile = webdriver.FirefoxProfile()
        # La siguiente línea funciona para el caso en que se desee abrir en una pestaña de incógnito o no.
        # Como no se necesita abrir la página solicitada, se comentó.
        #profile.set_preference("browser.privatebrowsing.autostart", False)
        # Se configura el explorador que se vaya a utilizar, aquí se ponen las opciones para no abrir la ventana del sitio
        # web al que se esté ingresando
        self.browser = webdriver.Firefox(firefox_profile = profile, options = options)
        # Tiempo de espera para que se pueda entrar bien a la página.
        self.browser.implicitly_wait(10)
        # Se le indica el sitio web al que se desea entrar.
        self.browser.get(url)
        
    def iniciar(self):
        """
        Método para iniciar el manipularo de archivos html o xml del sitio web al que se quiere ingresar
        
        Returns
        ------
        Objeto soup
            Objeto que se puede manipular con los propios métodos de la biblioteca BeautifulSoup
        """
        # Todo el contennido de la página se guarda en una variable
        content = self.browser.page_source
        # El contenido se transforma en un formato que se pueda manenar por BeautifulSoup
        soup = BeautifulSoup(content)
        
        return soup
        
    def cerrar(self):
        """
        Método que cierra el explorador de donde se estaba obteniendo información.
        """
        # Se utiliza el método de quit() propio de la biblioteca de Selenium.
        self.browser.quit()

### Tabla de tipos

La tabla de tipos nos dice cuánto afecta un ataque de un tipo en específico cuando se es utilizado sobre un pokémon de tipos específicos. Por ejemplo, un ataque tipo eléctrico afectará más a un pokémon tipo agua que un pokémon tipo fuego.
Se utiliza web scrapping para obtener datos de una figura con la tabla de los tipos hasta la séptima generación. Disponible en https://www.serebii.net/games/type.shtml 

**Unas líneas abajo se encuentra el código para descargar directamente el archivo csv y no tener que correr la siguiente celda, ya que puede resultar tardado hacer la consulta (1-2) minutos**

In [562]:
# Se asocia a una variable el url del que se quiere obtener información.
url = 'https://www.serebii.net/games/type.shtml'
# Se instancia un objeto desde la clase 'iniciador_ws'.
ws = iniciador_ws(url)
# Toda la información de la página web se asocia a una variable.
soup = ws.iniciar()

# Aquí se seleccionan los datos que se necesitan.
lista = [] # Lista en donde se pondrán los objetos necesarios.
# Se buscarn etiquetas específicas en la información de la página y se obtienen los datos de estas etiquetas
for idx, a in enumerate(soup.findAll('table', attrs = {'class': 'dextable'})):
    # Para cada etiqueta se buscan objetos especiales, en este caso se buscan los símbolos de la tabla que está en la página
    for name in a.findAll('td', attrs = {'class': 'cen'}):
        # Aquí se obtienen los tipos de la tabla de tipos
        if name.a:
            # Si se tiene dos tipos por pokemon, agrega los 2 a la lista
            if len(name.findAll('a')) == 2:
                # Extend es como 'append' pero sólo que aquí se agrega una lista descompuesta por todos sus elementos a otra
                # lista
                lista.extend([name.findAll('a')[0].contents[0]['title'], 
                              name.findAll('a')[1].contents[0]['title']])
            # Si se tiene sólo un tipo, se agrea uno a la tabla y como segundo tipo lo dejamos como 
            # NaN (Not Available Number)
            else:
                lista.extend([name.a.contents[0]['title'], np.nan])
        # Aquí vemos el datos que causa cada tipo sobre pokémon de los distintos tipos.
        else:
            # Cuando es daño distinto a uno, vemos cada figura y dependiendo de lo que sea, le asignamos daño de 2, 0.5,
            # 0.25 o 4
            if type(name.contents[0]) == bs4.element.Tag:
                # Esta condición se cumple cada vez que no es daño = 1
                if name.contents[0].contents == []:
                    # Sin daño
                    if 'No ' in name.contents[0]['title']:
                        lista.append(0)
                    # Daño de 0.5
                    elif '0.5 ' in name.contents[0]['title']:
                        lista.append(0.5)
                    # Daños de 0.25
                    elif '0.25 ' in name.contents[0]['title']:
                        lista.append(0.25)
                    # Daño de 4
                    else:
                        lista.append(name.contents[0]['title'][1:2])
            #Aquí metemos el daño *1
            elif type(name.contents[0]) == bs4.element.NavigableString:
                lista.append(1)
# Esto cierra el explorador del que estemos obteniendo información           
ws.cerrar()
# Convertimos la lista en un arreglo para poder manipular mejor con operaciones de numpy
lista = np.asarray(lista)

In [563]:
# Volvemos a nuestra lista una matriz de modo que nos quede una tabla de tipos como coordenadas, en el eje 'x' tendremos
# el tipo del ataque y en el eje 'y' los tipos del pokémon que esté recibiendo el ataque.
matriz = lista.reshape((len(lista)//19, 19))
# Hacemos el arreglo un 'dataframe' de pandas para poder manipular mejor con los índices que se 
# le están indicando (Tipo 1 y tipo2)
df_types = pd.DataFrame(matriz, columns = ['type1', 'type2'] + list(matriz[:17,0]))
# Guardamos un archivo .cvs con la información obtenida, sin índices
df_types.to_csv('../datos/Type_chart0.csv', index = False)

Se agregan datos de las nuevas generaciones tales como el tipo hada y las nuevas combinaciones de tipos. Se agregaron manualmente las combinaciones de tipos que faltaban.

In [620]:
# Leyendo el archivo
df_type = pd.read_csv('../datos/Type_chart.csv')
# Poniéndole los índices necesarios
df_type = df_type.set_index(['type1','type2'])
# Aquí se pone el daño que hace un ataque tipo haga contra los tipos principales (19), los demás se dejan como nulos.
hada = [1., 0.5, 1., 1., 1., 1., 2., 0.5, 1., 1., 1., 1., 1., 1., 2., 2., 0.5] + [np.nan for _ in range(len(df_type) - 17)]
# Se agrega una columna de tipo haga con los valores creados arriba
df_type['Fairy'] = hada
# Se agregan las nuevas combinaciones de tipos agregadas en la octava generación
new_comb =  [['Bug', 'Psychic'], ['Dark', 'Fairy'], ['Dark', 'Normal'], ['Dragon', 'Ghost'], 
             ['Electric', 'Dark'], ['Electric', 'Dragon'], ['Electric', 'Poison'], ['Fairy', np.nan], 
             ['Fighting', 'Ghost'], ['Fire', 'Bug'], ['Fire', 'Ghost'], 
             ['Flying', 'Steel'], ['Flying', 'Water'], ['Grass', 'Dragon'], ['Ice', 'Bug'],
             ['Poison', 'Dragon'], ['Psychic', 'Fairy'], ['Psychic', 'Normal'],
             ['Rock', 'Fire'], ['Rock', 'Steel']]
# Se agregan los daños que hace el tipo hada sobre las combinaciones de tipos
for idx, row in df_type[17:].iterrows():
    try: # El manejador de errores se utiliza para los valores que no son nulos, ya que esta no es la forma de 
         # reemplazar valores no nulos
        df_type.loc[idx[0], idx[1]]['Fairy'] = df_type.loc[idx[0], np.nan]['Fairy'].values[0]*df_type.loc[idx[1], np.nan]['Fairy'].values[0]
    except:
        pass
# Se agrega el daño que le hace cada tipo a un pokemon de tipo hada puro
df_type.loc['Fairy', np.nan].values[0] = [1., 1., 1., 1., 1., 1., 0.5, 2., 1., 1., 1., 0.5, 1., 1., 0., 0.5, 2., 1.]

  df_type.loc[idx[0], idx[1]]['Fairy'] = df_type.loc[idx[0], np.nan]['Fairy'].values[0]*df_type.loc[idx[1], np.nan]['Fairy'].values[0]
  df_type.loc['Fairy', np.nan].values[0] = [1., 1., 1., 1., 1., 1., 0.5, 2., 1., 1., 1., 0.5, 1., 1., 0., 0.5, 2., 1.]


In [622]:
# Se agregan los daños que se hacen a las nuevas c ombinaciones de tipos
for nuevo in new_comb:
    for columna in df_type.columns:
        try: # El manejador de errores se utiliza para los valores que no son nulos, ya que esta no es la forma de 
             # reemplazar valores no nulos
            # Para el daño se toma en cuenta el daño que hace el ataque contra el tipo 1 solo y se multiplica por el 
            # daño que hace el ataque sobre un tipo 2 puro.
            df_type.loc[nuevo[0], nuevo[1]][columna] = df_type.loc[nuevo[0],np.nan][columna].values[0]*df_type.loc[nuevo[1],np.nan][columna].values[0]
        except:
            pass

  df_type.loc[nuevo[0], nuevo[1]][columna] = df_type.loc[nuevo[0],np.nan][columna].values[0]*df_type.loc[nuevo[1],np.nan][columna].values[0]


In [625]:
# Guardamos la nueva tabla de tipos actualizada a la octava generación
df_type.to_csv('datos/Type_chart.csv')

### Dataframe de la tabla de tipos desde archivo csv

In [631]:
df_type = pd.read_csv('../datos/Type_chart.csv')
df_type = df_type.set_index(['type1','type2'])

### Nutriendo datasets

Código para obtener nombres de los pokemon faltantes de las séptima generación

In [206]:
# Dirección web de la página donde están todos los pokémon que se requieren saber sus nombres ya que hacen falta 
# en el conjunto de datos que se obtuvo de la web.
url_new_gen7 = 'https://www.serebii.net/pokedex-sm'
# Instancimos el objeto que tiene la información de la página web
ws = iniciador_ws(url_new_gen7)
# Concentramos la información en una variable,
soup = ws.iniciar()

dic_nombres = {}
# Se hace la exploración de la página web con las etiquetas en donde sabemos que se enucuentran los datos.
for form in soup.findAll('form', attrs = {'name': 'nav8'}):
    for poke in form.findAll('option'):
        try:
            # Sabemos que los pokemon que nos hacen falta tiene número de pokedex mayor a 801
            if int(poke.contents[0][:3]) >= 802:
                dic_nombres[poke.contents[0][5:]] = {'pokedex_number': int(poke.contents[0][:3])}
        except:
            pass
# Cerramos el navegador web de donde se obtuvo la información
ws.cerrar()

Código para obtener nombres de los pokemon de octava generación.

In [207]:
# Hacemos lo mismo de arriba, inicializamos el explorador web con la página que se desea visitar y guardamos la información 
# en una variable
url_gen8 = 'https://www.serebii.net/pokedex-swsh'
ws = iniciador_ws(url_gen8)
soup = ws.iniciar()
# Buscamos por las etiquetas en donde se sabe que está la información
for form in soup.findAll('form', attrs = {'name': 'nav9'}):
    for poke in form.findAll('option'):
        # Hay objetios que tienen las mismas etiqeutas que pedimos arriba, sin embargo sabemos que buscamos a los pokémon
        # con un 8 en su número o signos de interrogación ya que no se le asignaba aún un número específico en la pokedex
        if poke.contents[0][0] == '8' or poke.contents[0][0] == '?':
            try: #Utilizamos el manejador de errores ya que cuando tenemos signos de interrogación no se puede convertir a 
                # entero
                dic_nombres[str(poke.contents[0][4:]).lower().replace(' ', '')] = {'pokedex_number': int(poke.contents[0][:3])}
            except:
                dic_nombres[str(poke.contents[0][4:]).lower().replace(' ', '')] = {'pokedex_number': poke.contents[0][:3]}
                
ws.cerrar()

### Extrayendo datos para el dataset

In [61]:
def limpiar(elemento):
    """
    Función muy específica para limpiar datos obtenidos de la página. El web scrapping no es tan limpio y no nos arroja 
    de manera tan amable la información que se necesita, por lo que se hizo esta función para limpiar los objetios que nos 
    arroja. Cada manejador de erores significa que si le podemos hacer la operación dentro de cada uno, la haga; esto debido
    a que ya se conocía la información que se arrojaba y cómo se debía limpiar.
    
    Parámetros
    ------
    elemento: objetos soup
        Objetos de la biblioteca de BeautifulSoup que se pueden manipular mediante los métodos de dicha librería
        
    Returns
    ------
    elemeto: Objeto soup
        Objeto tipo soup pero con la infromación necesaria
    """
    try:
        elemento = elemento.tbody.tr.contents[2].get_text()
    except:
        pass
    try:
        elemento = elemento.img.attrs['alt']
    except:
        pass
    try:
        elemento = elemento.b.get_text()
    except:
        pass
   
    if 'Base Stats' in elemento:
        elemento = elemento[-3:]

    return elemento

In [230]:
def limpiar2(lista):
    """
    Esta es otra función de limpieza pero en una segunda etapa cuando ya se tienen los objetos tipo soup que se quieren pero 
    que pueden tener un mejor formato para manipular mejor desde órdenes normales de python
    
    Parámetros
    ------
    lista: lista con cadenas o enteros
        Lista con objetos que se limpian dependiendo de la ubicación en la que estén.
        
    Returns
    ------
    lista: lista con cadenas o enteros
        Lista con los objetos ya manipulables fácilmente en python y que tienen un sentido con todo lo que es pokémon.
        
    """
    # Aquí se quitan los objetos de la lista que no se necesitan
    boolean_array = np.array([True for _ in range(22)])
    boolean_array[[-9,-8]] = False
    lista = list(np.array(lista)[boolean_array])
    # Se corta la cadena para obtener solo los valores necesarios
    lista[2] = lista[2][1:]
    try: # Se usa el manejador de errores porque no se puede volver flotante a un np.nan
        lista[3] = np.float(lista[3][:-1])
    except:
        lista[3] = np.nan
    # Quitamos unos símbolos innecesarios
    lista[5] = lista[5][2].replace('\n\t\t\t','')[:-1]
    lista[6] = lista[6][2].replace('\n\t\t\t','')[:-2]
    # Cambiamos una cadena por un entero
    lista[8] = int(lista[8].replace(',',''))
    # Teniendo una lista la desempaquetamos
    if len(lista[9]) > 1:
        lista.insert(10, lista[9][2])
        lista[10] = lista[10][:-5].lower()
    # Si no era lista, sólo llenamos con nulo lo que se debió de ocupar al desempaquetar.
    else:
        lista.insert(10, np.nan)
    # Cortamos una cadena y volvemos minúsculas sus elementos.
    lista[9] = lista[9][0][:-5].lower()
    # Volvemos entero una cadena
    lista[12] = int(lista[12][0][:-7].replace(',',''))
    
    return lista

Se extrae la información de la página web https://www.serebii.net/ para los pokémon faltantes de la séptima generación del dataset `gen_1_7` y además la de los pokémon de la octava generación.

In [231]:
# Caracte´risticas que se están obteniendo del Web Scrapping
caracteristicas = ['name', 'japanese_name', 'pokedex_number', 'percentage_male', 'classification', 'height_m', 
                   'weight_kg', 'capture_rate', 'base_egg_steps', 'type1', 'type2', 'abilities', 'experience_growth', 
                   'base_happiness', 'base_total', 'hp', 'attack', 'defense', 'sp_attack', 'sp_defense', 'speed',
                   'generation', 'is_legendary']
diccionario_nuevos = {}
for num, name in enumerate(list(dic_nombres.keys())[:-4]):
    num = num + 802
    if num < 810:
        ws = iniciador_ws(f'https://www.serebii.net/pokedex-sm/{num}.shtml')
        gen, leg = [7, 1]
    else:
        ws = iniciador_ws(f'https://www.serebii.net/pokedex-swsh/{name}')
        gen = 8
        if num < 888:
            leg = 0
        else:
            leg = 1
    soup = ws.iniciar()
    
    a = soup.findAll('table', attrs = {'class': 'dextable'})
    b = [elm for elm in a]
    c = [len(elm.findAll('td', attrs = {'class': 'fooevo', 'colspan': '8'})) for elm in b]
    variable = np.argmax(c)
    if (num == 808) or (num == 809):
        variable = 10
            
    lista = []
    for idx, table in enumerate(soup.findAll('table', attrs = {'class': 'dextable'})):
        if idx == 1 or idx == 2 or idx == variable:
            for indice, info in enumerate(table.findAll('td', attrs = {'class': 'fooinfo'})):
                try:
                    if str(info.contents[0]) == 'Max Stats':
                        break
                    if len(info.contents) > 1:
                        if len(info.findAll('a')) > 0:
                            habilidades = []
                            for elm in info.findAll('a'):
                                try:
                                    habilidades.append(elm.b.get_text())
                                except:
                                    pass
                            lista.append(habilidades)
                        else:
                            lista.append([limpiar(inf) for inf in info.contents])
                    else: 
                        lista.append(limpiar(info.contents[0]))
                except:
                    lista.append(np.nan)
            for cen in table.findAll('td', attrs = {'class': 'cen'}):
                lista.append([limpiar(c) for c in cen.contents])
                   
    
    lista = limpiar2(lista) + [gen, leg]
    print(f'{lista}\n-----------------------------------------------------------------------------')
    diccionario_nuevos[f'{num}'] = dict(zip(caracteristicas, lista))
    ws.cerrar()

['Marshadow', 'Marshadowマーシャドー', '802', nan, 'Gloomdweller Pokémon', '0.7', '22.2', '3', 30720, 'fighting', 'ghost', ['Technician'], 1250000, '0', '600', '90', '125', '80', '90', '90', '125', 7, 1]
-----------------------------------------------------------------------------
['Poipole', 'Bevenomベベノム', '803', nan, 'Poison Pin Pokémon', '0.6', '1.8', '3', 30720, 'poison', nan, ['Beast Boost'], 1250000, '0', '420', '67', '73', '67', '73', '67', '73', 7, 1]
-----------------------------------------------------------------------------
['Naganadel', 'Agoyonアーゴヨン', '804', nan, 'Poison Pin Pokémon', '3.6', '150', '3', 30720, 'poison', 'dragon', ['Beast Boost'], 1250000, '0', '540', '73', '73', '73', '127', '73', '121', 7, 1]
-----------------------------------------------------------------------------
['Stakataka', 'Tsundetsundeツンデツンデ', '805', nan, 'Rampart Pokémon', '5.5', '820', '3', 30720, 'rock', 'steel', ['Beast Boost'], 1250000, '0', '570', '61', '131', '211', '53', '101', '13', 7, 1]
--

['Chewtle', 'カムカメ', '833', 50.2, 'Snapping Pokémon', '0.3', '8.5', '255', 5120, 'water', nan, ['Strong Jaw', 'Shell Armor', 'Swift Swim'], 1000000, nan, '284', '50', '64', '50', '38', '38', '44', 8, 0]
-----------------------------------------------------------------------------
['Drednaw', 'カジリガメ', '834', 50.2, 'Bite Pokémon', '1', '115.5', '75', 5120, 'water', 'rock', ['Strong Jaw', 'Shell Armor', 'Swift Swim'], 1000000, nan, '485', '90', '115', '90', '48', '68', '74', 8, 0]
-----------------------------------------------------------------------------
['Yamper', 'ワンパチ', '835', 50.2, 'Puppy Pokémon', '0.3', '13.5', '255', 5120, 'electric', nan, ['Ball Fetch', 'Rattled'], 800000, nan, '270', '59', '45', '50', '40', '50', '26', 8, 0]
-----------------------------------------------------------------------------
['Boltund', 'パルスワン', '836', 50.2, 'Dog Pokémon', '1', '34', '45', 5120, 'electric', nan, ['Strong Jaw', 'Competitive'], 800000, nan, '490', '69', '90', '60', '90', '60', '121', 8,

['Perrserker', 'ニャイキング', '863', 50.2, 'Viking Pokémon', '0.8', '28', '90', 5120, 'steel', nan, ['Battle Armor', 'Tough Claws', 'Steely Spirit'], 1000000, nan, '440', '70', '110', '100', '50', '60', '50', 8, 0]
-----------------------------------------------------------------------------
['Cursola', 'サニゴーン', '864', 24.9, 'Coral Pokémon', '1', '0.4', '30', 5120, 'ghost', nan, ['Weak Armor', 'Perish Body'], 800000, nan, '510', '60', '95', '50', '145', '130', '30', 8, 0]
-----------------------------------------------------------------------------
["Sirfetch'd", 'ネギガナイト', '865', 50.2, 'Wild Duck Pokémon', '0.8', '117', '45', 5120, 'fighting', nan, ['Steadfast', 'Scrappy'], 1000000, nan, '507', '62', '135', '95', '68', '82', '65', 8, 0]
-----------------------------------------------------------------------------
['Mr. Rime', 'バリコオル', '866', 50.2, 'Comedian Pokémon', '1.5', '58.2', '45', 6400, 'ice', 'psychic', ['Tangled Feet', 'Screen Cleaner', 'Ice Body'], 1000000, nan, '520', '80', '85',

## Creando dataset completo

Aquí se juntan los datos obtenidos del web scraping

In [635]:
df_maestro = gen_1_7
for llave in list(diccionario_nuevos.keys()):
    df_maestro = df_maestro.append(diccionario_nuevos[llave], ignore_index = True)

Se nota que desde el conjunto de datos original hay un mal formato en los datos de la columna "abilities", se corrige a continuación

In [636]:
serie = []
for idx in range(len(df_maestro)):
    try:
        serie.append(eval(df_maestro.iloc[idx,0]))
    except:
        serie.append(df_maestro.iloc[idx,0])
arreglo = np.vstack((serie, df_maestro.iloc[:,1:].T)).T
df_maestro1 = pd.DataFrame(arreglo, columns = df_maestro.columns, index = range(1,891))
df_maestro1.to_csv('../datos/pokemon_completo.csv')

Se tiene que completar el conjunto de datos con la tabla de tipos creada arriba.

In [647]:
for idx, row in df_maestro1.loc[802:, :].iterrows():
    tipo1 = row.type1.capitalize()
    try:
        tipo2 = row.type2.capitalize()
    except:
        tipo2 = np.nan
    for columna in df_maestro1.columns[1:19]:
        if columna[8:] == 'fight':
            columna = 'against_fighting'
            row['against_fight'] = df_type.loc[tipo1, tipo2][columna[8:].capitalize()].values[0]
        else:
            row[columna] = df_type.loc[tipo1, tipo2][columna[8:].capitalize()].values[0]


  row[columna] = df_type.loc[tipo1, tipo2][columna[8:].capitalize()].values[0]
  row['against_fight'] = df_type.loc[tipo1, tipo2][columna[8:].capitalize()].values[0]


In [649]:
# Guardamos los datos en un .csv 'maestro' que tiene todos los datos necesarios de todas las generaciones
df_maestro1.to_csv('../datos/pokemon_completo.csv', index = False)

Se observó que los datos no están en un formato en que al leerlos se sepa algo de éstos, por lo que se mueven las columans para mejorar esto

In [13]:
df = pd.read_csv('../datos/pokemon_completo.csv')

In [15]:
orden = ['pokedex_number', 'name', 'type1', 'type2', 'abilities', 'classification', 'capture_rate', 
         'experience_growth', 'percentage_male', 'height_m', 'weight_kg', 'base_happiness', 'base_egg_steps', 
         'generation', 'is_legendary', 'base_total', 'hp',  'attack', 'defense', 'sp_attack', 'sp_defense', 
         'speed', 'against_bug', 'against_dark', 'against_dragon', 'against_electric', 'against_fairy',
         'against_fight', 'against_fire', 'against_flying', 'against_ghost', 'against_grass', 'against_ground',
         'against_ice', 'against_normal', 'against_poison', 'against_psychic', 'against_rock', 'against_steel',
         'against_water']
df = df[orden]
df.to_csv('../datos/pokemon_completo_ordenado.csv', index = False)