### **INFORMACIÓN SOBRE EL DATASET**

##### **TEMÁTICA**  

Videojuegos populares 1980 - 2023

#### **INFORMACIÓN**

-  Dataset encontrado en [Kaggle](https://www.kaggle.com/datasets/arnabchaki/popular-video-games-1980-2023/data), por un usuario con un perfil muy popular dentro de la plataforma
-  Información obtenida mediante scraping de [Backloggd](https://www.backloggd.com/games/lib/played/), página web popular que recopila información relevante sobre videojuegos además de servir a modo de red social en la que los usuarios pueden 
añadir y compartir información sobre sus videojuegos, hacer ratings, etc

#### **PROCESO DE PRE-ANÁLISIS** 

- Con el objetivo de realizar un primer análisis sobre el contenido y veracidad de las fuentes utlizadas:  

    - He descubierto que Backloggd se alimenta de la famosa plataforma [Internet Games Database](https://www.igdb.com) (IGDB):

        - IGBD es la mayor base de datos de videojuegos de internet

        - EN 2019 [fue adquirida por Twitch](https://www.hobbyconsolas.com/noticias/twitch-hace-internet-games-database-imdb-videojuegos-495023), que a su vez pertenece a Amazon. (Dato curioso) Esta última, ya era dueña de [Internet Movie Database](https://es.wikipedia.org/wiki/Internet_Movie_Database) (IMDb) que también es la base de datos más grande y popular de películas

    - He tratado de relaizar un primer análisis para entender la estructura del dataset y comprobar si podría funcionar con las hipótesis que quiero tratar de validar:  

        - Quiero entender cuál es el criterio que se ha elegido para incluir los 1512 videojuegos, ya que tanto en Backloggd y IGDB existen muchos más videojuegos:  

            - Hago pruebas y descubro que hay videojuegos de mi interés que no están incluidos  

            - Reviso los comentarios y el owner del dataset explica que ha hecho un mix entre videojuegos populares e "indies" (menos conocidos)  
            
        - Descubro que el dataset se creó hace 9 meses y no se ha relalizado ninguna actualización, por lo que varios juegos populares de estos últimos meses no están añadidos



#### **CONCLUSIONES**

- Aunque tengo un database con el que puedo empezar a trabajar, no está en línea al 100% con lo que necesito, por lo que tengo que tomar una decisión respecto a qué hacer


#### **OPCIONES**

- Tomar una decisión respecto a qué hacer. Posibles opciones:  

    -  **Trabajar directamente con el dataset sin nigún tipo de manipulación** --> en ese caso tendré que adaptar las hipótesis a validar teniendo en cuenta la información disponible

    -  **Manipular el dataset actual** --> Contactar con el autor del dataset y entender cómo ha llevado a cabo el scraping, para realizar una nueva versión del dataset ajustada a mis necesidades (**EN PROCESO DE RESPUESTA**)

    - **Crear un dataset desde cero** --> He descubierto que IGDB ofrece una [API](https://api-docs.igdb.com/#getting-started), tal vez podría tratar de crear un dataset desde cero a partir de la BBDD más grande de videojuegos del mundo. He comprobado que actualmente [tienen casi 500.000 juegos](https://www.igdb.com/about). El problema es qe me llevaría mucho más tiempo entender la API, ver cómo crear el dataset, etc. Además existe la posibilidad que las llamadas estén limitadas a un número concreto o que sea muy difícil recopilar la info en base a la estructra de sus colecciones y respuestas



#### **DECISIÓN FINAL**

- Tras haber podido contactar con el propietario del Dataset, he conseguido que me pase el script que ha utilizado para realizar el web scraping

- De esta manera **he decido crear mi propio Dataset**. Para ello, he tenido que estudiar y adaptar el código, utilizando una estructura parecida pero adaptada a mis necesidades:

    - Contar con muchos más videojuegos, y por lo tanto más información, a la hora de realizar el análisis

    - Disponer de los datos más actualizados (además de todos los videojuegos nuevos), ya que el dataset original no contaba con información de las actualizaciones realizadas en la web en los últimos 9 meses

    - Hacer scraping de datos adicionales, con los que el dataset original no contaba, y que me servirán para tener nuevas columnas/variables sobre las que trabajar

    - Ignorar ciertos datos, que para la base de mi análisis no son procedentes, y por lo tanto ser más eficiente a la hora de comenzar la limpieza de datos detallada



#### **COMENTARIOS**

- Aunque ya cuento con la primera versión de mi propio dataset ("./backloggd_progreso.csv") actualmente me encuentro mejorando el código del web scrapring para arreglar ciertos errores y manejar ciertas excepciones pendientes

- Dicho esto, se puede comprobar algunos de los cambios ya implementados frente al dataset original ("./data/games.csv")


#### **OBJETO DE ESTUDIO**

- El objeto de estudio principal es el de analizar los videojuegos más populares desde 1980 hasta la actualidad, teniendo en cuenta todas las variables más relevantes (Popularidad por plataformas, género, décadas, compañías, etc)

- Dada la gran cantidad de información disponible, presentaré y trataré de validar una serie de hipótesis no sólo desde el punto de vista aprendizaje sino también de negocio, tratándome de poner en la piel de una compañia de videojuegos 
que quiera obtener insights interesantes  a la hora de formar estrategias de cara a posibles productos que puedan ser relevantes para la compañía:  
       
    -  ¿Cuáles son los videojuegos más jugados en la historia?
    -  ¿Cuáles son las tendencias más populares para cada género?
    -  ¿Existe alguna relación entre trama y éxito? 
    -  ¿Cualés son las compañías más existosas del mercado? ¿Se especializan en un sólo genero?
    -  ¿Tiene sentido hacer 'remakes' de juegos que en su día fueron exitosos adaptados a las nuevas tecnologías?
    -  ¿Cuál es la razón para que un juego tenga muchos 'wishlists'? ¿Tal vez el precio?  




- Estas sólo son algunas ideas sobre las que poder trabajar, pero el conjunto final de hipótesis a validar se realizará una vez se termine el procesado y limpieza de datos final

- Una vez tenga una selección de los datos más interesantes, trataré de incorporar nueva información que puedan ayudar al análisis final, como el nº de copias vendidas, ingresos, etc.






### **INFORMACIÓN BÁSICA SOBRE EL DATASET ACTUAL**

In [3]:
import pandas as pd

# Comprobar que el DataFrame funciona correctamente
df = pd.read_csv("./backloggd_progreso.csv")

In [4]:
# info básica sobre el df

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16819 entries, 0 to 16818
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Title              16819 non-null  object 
 1   Release Date       16819 non-null  object 
 2   Team               13827 non-null  object 
 3   Rating             11346 non-null  float64
 4   Times Listed       16819 non-null  object 
 5   Number of Reviews  16819 non-null  object 
 6   Genres             16819 non-null  object 
 7   Summary            15937 non-null  object 
 8   Reviews            16819 non-null  object 
 9   Platforms          16819 non-null  object 
 10  Plays              16819 non-null  object 
 11  Playing            16819 non-null  object 
 12  Backlogs           16819 non-null  object 
 13  Wishlist           16819 non-null  object 
dtypes: float64(1), object(13)
memory usage: 1.8+ MB


In [6]:
# % de nulos actual por columna

null_percentage = df.isnull().mean() * 100

# Crea un nuevo DataFrame con los resultados
null_percentage_df = pd.DataFrame({'Columna': null_percentage.index, 'Porcentaje Nulo': null_percentage.values})

# Muestra el DataFrame resultante
print(null_percentage_df)


              Columna  Porcentaje Nulo
0               Title         0.000000
1        Release Date         0.000000
2                Team        17.789405
3              Rating        32.540579
4        Times Listed         0.000000
5   Number of Reviews         0.000000
6              Genres         0.000000
7             Summary         5.244069
8             Reviews         0.000000
9           Platforms         0.000000
10              Plays         0.000000
11            Playing         0.000000
12           Backlogs         0.000000
13           Wishlist         0.000000


In [3]:
df.head(20)

Unnamed: 0.1,Unnamed: 0,Title,Release Date,Team,Rating,Times Listed,Number of Reviews,Genres,Summary,Reviews,Plays,Playing,Backlogs,Wishlist
0,0,Elden Ring,"Feb 25, 2022","['Bandai Namco Entertainment', 'FromSoftware']",4.5,3.9K,3.9K,"['Adventure', 'RPG']","Elden Ring is a fantasy, action and open world...","[""The first playthrough of elden ring is one o...",17K,3.8K,4.6K,4.8K
1,1,Hades,"Dec 10, 2019",['Supergiant Games'],4.3,2.9K,2.9K,"['Adventure', 'Brawler', 'Indie', 'RPG']",A rogue-lite hack and slash dungeon crawler in...,['convinced this is a roguelike for people who...,21K,3.2K,6.3K,3.6K
2,2,The Legend of Zelda: Breath of the Wild,"Mar 03, 2017","['Nintendo', 'Nintendo EPD Production Group No...",4.4,4.3K,4.3K,"['Adventure', 'RPG']",The Legend of Zelda: Breath of the Wild is the...,['This game is the game (that is not CS:GO) th...,30K,2.5K,5K,2.6K
3,3,Undertale,"Sep 15, 2015","['tobyfox', '8-4']",4.2,3.5K,3.5K,"['Adventure', 'Indie', 'RPG', 'Turn Based Stra...","A small child falls into the Underground, wher...",['soundtrack is tied for #1 with nier automata...,28K,679,4.9K,1.8K
4,4,Hollow Knight,"Feb 24, 2017",['Team Cherry'],4.4,3K,3K,"['Adventure', 'Indie', 'Platform']",A 2D metroidvania with an emphasis on close co...,"[""this games worldbuilding is incredible, with...",21K,2.4K,8.3K,2.3K
5,5,Minecraft,"Nov 18, 2011",['Mojang Studios'],4.3,2.3K,2.3K,"['Adventure', 'Simulator']",Minecraft focuses on allowing the player to ex...,['Minecraft is what you make of it. Unfortunat...,33K,1.8K,1.1K,230
6,6,Omori,"Dec 25, 2020","['OMOCAT', 'PLAYISM']",4.2,1.6K,1.6K,"['Adventure', 'Indie', 'RPG', 'Turn Based Stra...",A turn-based surreal horror RPG in which a chi...,"[""The best game I've played in my life"", ""omor...",7.2K,1.1K,4.5K,3.8K
7,7,Metroid Dread,"Oct 07, 2021","['Nintendo', 'MercurySteam']",4.3,2.1K,2.1K,"['Adventure', 'Platform']",Join intergalactic bounty hunter Samus Aran in...,['Have only been a Metroid fan for couple of y...,9.2K,759,3.4K,3.3K
8,8,Among Us,"Jun 15, 2018",['InnerSloth'],3.0,867,867,"['Indie', 'Strategy']",Join your crew-mates in a multiplayer game of ...,"[""it's a solid party game. i'm bad at lying th...",25K,470,776,126
9,9,NieR: Automata,"Feb 23, 2017","['PlatinumGames', 'Square Enix']",4.3,2.9K,2.9K,"['Brawler', 'RPG']","NieR: Automata tells the story of androids 2B,...","['Holy shit', 'im carrying the weight of the w...",18K,1.1K,6.2K,3.6K


In [5]:
df.tail()

Unnamed: 0,Title,Release Date,Team,Rating,Times Listed,Number of Reviews,Genres,Summary,Reviews,Platforms,Plays,Playing,Backlogs,Wishlist
16814,Nitro Nation Online,releases on TBD,,,0,0,['Racing'],,[],[''],0,0,0,0
16815,Dungeon Robber,releases on TBD,,,0,0,[],Dungeon Robber is a web roguelike/dungeon craw...,[],[''],0,0,0,0
16816,Divine Sealing,"Dec 31, 1991",,1.2,12,12,['Shooter'],Falchion is an ace pilot in the Space Defense ...,"[""It's such a bad game, for starters you don't...",['Sega Mega Drive/Genesis'],24,0,9,10
16817,Madagascar 3: Europe's Most Wanted,releases on TBD,['VTech'],,0,0,[],,[],[''],0,0,0,0
16818,SacriFire,"Dec 31, 2023",['Pixelated Milk'],,48,48,"['Adventure', 'Indie', 'RPG']",A modern JRPG-inspired game with a unique batt...,[],"['Windows PC, PlayStation 4, Xbox One, PlaySta...",3,0,36,183


In [7]:
#df.describe()

#### **DESCRIPCIÓN BÁSICA DEL DATASET**


- **IMPORTANTE**: Cierta información podrá variar una vez se complete el dataset con la información final, ya que se están realizando ciertas adaptaciones en el código 

- Actualmente, el dataset cuenta con 16.818 videojuegos

- Para la gran cantidad de datos, existen muy pocos nulos por el momento, tan sólo tres columnas --> Team 17.8%, 'Rating' 32.5% y 'Summery' 5.2%

- Es necesaria una transformación del tipo en ciertas columnas para poder trabajar con ellas correctamente:

    - Object --> int:  
    
        -  'Number of reviews'

        - 'Plays'

        - 'Playing'

        - 'Backlogs'

        - 'Wishlist'

    - Object --> date: Release Date


- Ciertas columnas, a priori no son relevantes:

    - 'Reviews', ya que la inforción es muy parecida a Rating, y con el conocimento actual es preferible trabajar con números

    - 'Unamed' --> borrar ya que no aporta nada