# Web Scrapping



In [1]:
import os
from bs4 import BeautifulSoup
import requests
import time
import sqlite3
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import re
import sqlite3

## Hacemos web scrapping de una página para obtener la lista con la que haremos el scrapping principal

In [2]:
url_list = 'https://pokemondb.net/pokedex/all'
list_response = requests.get(url_list)
if list_response:
    list_soup = BeautifulSoup(list_response.text, 'html')

pokenombre = list_soup.find_all('a', class_= 'ent-name')
pokelista = [name.get_text().strip() for name in pokenombre]
pokeset = set(pokelista)
pokeset

{'Banette',
 'Yamask',
 'Trapinch',
 'Sandslash',
 'Ariados',
 'Delibird',
 'Pachirisu',
 'Crabominable',
 'Oranguru',
 'Noivern',
 'Poliwag',
 'Emboar',
 'Skuntank',
 'Sobble',
 'Illumise',
 'Simisage',
 'Brute Bonnet',
 'Pancham',
 'Blaziken',
 'Rhyhorn',
 'Kingdra',
 'Stufful',
 'Lycanroc',
 'Quaquaval',
 'Servine',
 'Pangoro',
 'Frosmoth',
 'Omastar',
 'Vanilluxe',
 'Crabrawler',
 'Plusle',
 'Volbeat',
 'Gliscor',
 'Hoopa',
 'Frigibax',
 'Latias',
 'Arctozolt',
 'Girafarig',
 'Victreebel',
 'Toucannon',
 'Vespiquen',
 'Archeops',
 'Spinda',
 'Haxorus',
 'Chi-Yu',
 'Gengar',
 'Spidops',
 'Flamigo',
 'Bellsprout',
 'Amoonguss',
 'Tepig',
 'Clefairy',
 'Zubat',
 'Electabuzz',
 'Seviper',
 'Leafeon',
 'Kricketune',
 'Arbok',
 'Corviknight',
 'Trevenant',
 'Weedle',
 'Dodrio',
 'Koffing',
 'Cacnea',
 'Drowzee',
 'Lickilicky',
 'Cranidos',
 'Gouging Fire',
 'Remoraid',
 'Krokorok',
 'Wobbuffet',
 'Escavalier',
 'Monferno',
 'Delcatty',
 'Polteageist',
 'Darkrai',
 'Pawmi',
 'Turtwig',
 '

## Inicializamos una lista de la que sacaremos el DataFrame

In [3]:
ds = []

## Hacemos Web Scrapping saltando de página en página con los elementos obtenidos antes y añadimos a la lista como diccionarios

In [None]:
for n in pokeset:
    resourece_url = f'https://pokemondb.net/pokedex/{n}'

    response = requests.get(resourece_url)
    
    if response:
        soup = BeautifulSoup(response.text, 'html')

    number_element = soup.find("th", string="National №").find_next_sibling("td")
    number = int(number_element.text.strip())
    name = n
    height_element = soup.find(string="Height").find_next()
    height = re.search(r"\d+\.\d+", height_element.text).group()
    weight_element = soup.find(string="Weight").find_next()
    weight = re.search(r"\d+\.\d+", weight_element.text).group()
    type_elements = soup.find("th", string="Type").find_next_sibling("td").find_all("a")
    types = [t.text for t in type_elements]
    types_str = ", ".join(types)  # Para mostrarlo como cadena
    abilities_element = soup.find("th", string="Abilities").find_next_sibling("td").find("a")
    first_ability = abilities_element.text.strip()
    ds.append({'Name': n, 
               'Number' : number, 
               'Height (m)' : height, 
               'Weight (Kg)': weight, 
               'Types' : types_str, 
               'Ability' : first_ability})

In [5]:
ds

[{'Name': 'Banette',
  'Number': 354,
  'Height (m)': '1.1',
  'Weight (Kg)': '12.5',
  'Types': 'Ghost',
  'Ability': 'Insomnia'},
 {'Name': 'Yamask',
  'Number': 562,
  'Height (m)': '0.5',
  'Weight (Kg)': '1.5',
  'Types': 'Ghost',
  'Ability': 'Mummy'},
 {'Name': 'Trapinch',
  'Number': 328,
  'Height (m)': '0.7',
  'Weight (Kg)': '15.0',
  'Types': 'Ground',
  'Ability': 'Hyper Cutter'},
 {'Name': 'Sandslash',
  'Number': 28,
  'Height (m)': '1.0',
  'Weight (Kg)': '29.5',
  'Types': 'Ground',
  'Ability': 'Sand Veil'},
 {'Name': 'Ariados',
  'Number': 168,
  'Height (m)': '1.1',
  'Weight (Kg)': '33.5',
  'Types': 'Bug, Poison',
  'Ability': 'Swarm'},
 {'Name': 'Delibird',
  'Number': 225,
  'Height (m)': '0.9',
  'Weight (Kg)': '16.0',
  'Types': 'Ice, Flying',
  'Ability': 'Vital Spirit'},
 {'Name': 'Pachirisu',
  'Number': 417,
  'Height (m)': '0.4',
  'Weight (Kg)': '3.9',
  'Types': 'Electric',
  'Ability': 'Run Away'},
 {'Name': 'Crabominable',
  'Number': 740,
  'Height (

## Convertimos la lista de diccionarios en DataFrame y lo ordenamos por Número de Pokédex, poniendolo además como indice

In [6]:
df = pd.DataFrame(ds)
df = df.sort_values(by = ['Number'])
df.set_index('Number', drop = False, inplace = True)
df

Unnamed: 0_level_0,Name,Number,Height (m),Weight (Kg),Types,Ability
Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,Bulbasaur,1,0.7,6.9,"Grass, Poison",Overgrow
2,Ivysaur,2,1.0,13.0,"Grass, Poison",Overgrow
3,Venusaur,3,2.0,100.0,"Grass, Poison",Overgrow
4,Charmander,4,0.6,8.5,Fire,Blaze
5,Charmeleon,5,1.1,19.0,Fire,Blaze
...,...,...,...,...,...,...
1017,Ogerpon,1017,1.2,39.8,Grass,Defiant
1018,Archaludon,1018,2.0,60.0,"Steel, Dragon",Stamina
1019,Hydrapple,1019,1.8,93.0,"Grass, Dragon",Supersweet Syrup
1024,Terapagos,1024,0.2,6.5,Normal,Tera Shift


## Conectamos con SQLite y creamos la tabla con la información obtenida

In [7]:
conn = sqlite3.connect('pokedex.db')
df.to_sql('pokedex', conn, if_exists = 'replace', index = False)
conn.commit()
conn.close()

## Conclusión
> He creado una tabla de SQL con SQLite de la pokédex de Pokémon con los 1025 pokémon a través de un DataFrame de Pandas creado mediante una lista de diccionarios cuya información ha sido obtenida haciendo web scrapping de la página https://pokemondb.net/pokedex/ primero sacando los nombres con la página https://pokemondb.net/pokedex/all donde aparecen los nombres de los 1025 y después a través de estos nombres accediendo a f'https://pokemondb.net/pokedex/{nombre}' consiguiendo así información como el número de pokedex, altura, peso, tipos y habilidad principal (en inglés) de los 1025 pokemon existentes hasta el momento. Como al obtener los nombres estos estaban desordenados los he ordenado una vez estaban en el DataFrame poniendo también como indice de este el número de pokédex.