# Proyecto de Scrapping de Estadísticas de Videojuegos - Hugo Peralta Muñoz

En este proyecto se desarrollará el *scrapping* de una página web de videojuegos, la cual también actúa como base de datos para almacenar cada uno de ellos. La página es la siguiente: <a>https://www.vgchartz.com/</a>.  

El scrapeo se realizará con la biblioteca `BeautifulSoup4` en *Python*. Podrás encontrar información útil de su aplicación y la misma documentación en la página de *Python Packages Index*: <a>https://pypi.org/project/beautifulsoup4/</a>.

## Importación de librerías

In [46]:
from bs4 import BeautifulSoup
import requests
import pandas as pd
import numpy as np

## Inicialización de datos 

In [47]:
# Inicializacion de variables
pages = 2

rank = []
game_name = []
platform = []
year = []
genre = []
publisher = []
na_sales = []
eu_sales = []
jp_sales = []
other_sales = []
global_sales = []

Tendremos almacenadas las URLs que usaremos para acceder a la página y scrapear su contenido.

In [48]:
raw_url = "https://www.vgchartz.com/games/games.php?page=1&order=Sales&ownership=Both&showpublisher=1&showreleasedate=1&showlastupdate=1&showvgchartzscore=1&showcriticscore=1&showuserscore=1&showshipped=1"
urlhead = "https://www.vgchartz.com/games/games.php?page="
urltail = "&order=Sales&ownership=Both&showpublisher=1&showreleasedate=1&showlastupdate=1&showvgchartzscore=1&showcriticscore=1&showuserscore=1&showshipped=1"

## Scrapeo de datos

### Scrapeo de las paginas

Cada página de la base de datos muestra $50$ juegos, scrapearemos primero las entradas de estos videojuegos. 

In [49]:
game_pages = []

for page in range(1, pages + 1):
    game_pages.append(urlhead + str(page) + urltail)

game_pages

['https://www.vgchartz.com/games/games.php?page=1&order=Sales&ownership=Both&showpublisher=1&showreleasedate=1&showlastupdate=1&showvgchartzscore=1&showcriticscore=1&showuserscore=1&showshipped=1',
 'https://www.vgchartz.com/games/games.php?page=2&order=Sales&ownership=Both&showpublisher=1&showreleasedate=1&showlastupdate=1&showvgchartzscore=1&showcriticscore=1&showuserscore=1&showshipped=1']

Una vez tengamos las urls de las páginas, tendremos que sacar las entradas de cada videojuegos.

In [51]:
game_links = []

for page in game_pages:
    response = requests.get(page)
    soup = BeautifulSoup(response.content, "html.parser")
    table = soup.find("div", {"id": "generalBody"}).find("table")

    if table:
        for row in table.find_all("td"):  # Buscar todas las filas de la tabla
            link = row.find("a", href=True)  # Buscar el enlace en la fila
            if link and link["href"].startswith("https://www.vgchartz.com/game/"):  # Verificar que el enlace envia a la pagina del videojuego
                game_links.append(link["href"])

game_links

['https://www.vgchartz.com/game/226237/tetris/?region=All',
 'https://www.vgchartz.com/game/226036/call-of-duty/?region=All',
 'https://www.vgchartz.com/game/226034/pokemon/?region=All',
 'https://www.vgchartz.com/game/226037/grand-theft-auto/?region=All',
 'https://www.vgchartz.com/game/226187/super-mario/?region=All',
 'https://www.vgchartz.com/game/226038/fifa/?region=All',
 'https://www.vgchartz.com/game/226085/minecraft/?region=All',
 'https://www.vgchartz.com/game/227428/minecraft/?region=All',
 'https://www.vgchartz.com/game/227429/grand-theft-auto-v/?region=All',
 'https://www.vgchartz.com/game/226259/lego/?region=All',
 'https://www.vgchartz.com/game/226103/assassins-creed/?region=All',
 'https://www.vgchartz.com/game/226166/the-sims/?region=All',
 'https://www.vgchartz.com/game/226241/final-fantasy/?region=All',
 'https://www.vgchartz.com/game/226188/mario-kart/?region=All',
 'https://www.vgchartz.com/game/226039/resident-evil/?region=All',
 'https://www.vgchartz.com/game/226