In [1]:
import numpy as np 
import pandas as pd 
import matplotlib as plt

# Definición del Problema

En los últimos años hemos visto un crecimiento exponencial en la venta de videojuegos, aumentando en un 46.43%. Esto nos hizo preguntarnos: ***¿Qué atributos influyen en el desempeño de un videojuego en la industria global?*** En otras palabras ¿Tiene alguna relación las ventas de un videojuego y otros datos considerados (*Platforma*, *Genero*, *Quien lo publica*, ect.)? 

El proposito de este proyecto es para ver si es que podemos predicir el rendimiento (En terminos de ventas globales) de un videojuego teniendo caracteristicas cualitativas.

# Impacto del Trabajo

La industria de los videojuegos es una de las más rentables del mundo. Solo en 2022 se registraron beneficios de [347 billones de dólares](https://www.statista.com/topics/868/video-games/#), lo que la convierte en un negocio aún mayor que el de los [deportes y la música juntos ](https://www.marketwatch.com/story/videogames-are-a-bigger-industry-than-sports-and-movies-combined-thanks-to-the-pandemic-11608654990). Esto se debe a que su popularidad no ha dejado de aumentar a lo largo de los años. En 2022, [Deloitte](https://www2.deloitte.com/us/en/insights/industry/technology/digital-media-trends-consumption-habits-survey/summary.html) realizó una encuesta en la que el 80 % de los estadounidenses afirmaba jugar a videojuegos. 

Esta área del mercado siempre está evolucionando y cambiando para ofrecer productos de mejor calidad y juegos más realistas e inversivos. En el documental [How Video Games Changed the World ](https://www.bing.com/search?q=How+Video+Games+Have+Changed+The+World&FORM=SSQNT1&PC=U531) se explica cómo los videojuegos influyen profundamente en el avance de la tecnología, potenciando la creación de tarjetas gráficas, tarjetas de sonido, aceleradores gráficos, etc.   

Consideramos extremadamente importante intentar predecir el comportamiento de las ventas de videojuegos y tener en cuenta los factores que pueden ayudar o perjudicar la rentabilidad de esta industria. De esta manera, la tecnología podrá adaptarse a los juegos más populares y podremos saber cómo mantener estable una industria tan importante. 

# Datos

El DataSet que vamos a ocupar es una fusión entre dos DataSet que recuperamos de Kaggle que se llaman: [Video Game Sales](https://www.kaggle.com/datasets/gregorut/videogamesales) y [Video Game Sales with Ratings](https://www.kaggle.com/datasets/rush4ratio/video-game-sales-with-ratings)

In [2]:
VGSales =  pd.read_csv('DataSets/VGSales.csv')
print('Nuestro dataset tiene:',VGSales.shape[0], 'juegos')
VGSales.isna().sum()

Nuestro dataset tiene: 16598 juegos


Rank              0
Name              0
Platform          0
Year            271
Genre             0
Publisher        58
NA_Sales          0
EU_Sales          0
JP_Sales          0
Other_Sales       0
Global_Sales      0
dtype: int64

In [3]:
VGSalesRatings =  pd.read_csv('DataSets/VideoGameSaleswRatings.csv')
print('En este caso tenemos: ', VGSalesRatings.shape[0], 'juegos')
VGSalesRatings.isna().sum()

En este caso tenemos:  16719 juegos


Name                  2
Platform              0
Year_of_Release     269
Genre                 2
Publisher            54
NA_Sales              0
EU_Sales              0
JP_Sales              0
Other_Sales           0
Global_Sales          0
Critic_Score       8582
Critic_Count       8582
User_Score         6704
User_Count         9129
Developer          6623
Rating             6769
dtype: int64

Como la mayor cantidad de NaN que aparecen son por parte del segundo DataSet, así que sería mejor rescatar los datos que nos sirvan de este y quedarnos con el primero como una base para el DataSet.

In [4]:
#Droppeamos los NaN en nuestro dataset de ratings
VGSalesRatings_noNaN = VGSalesRatings.dropna()
#Creamos un nuevo dataset quedandonos con los datos que no estan en el primer DataSet
CleanData = VGSalesRatings_noNaN[['Name', 'Critic_Score', 'Critic_Count','User_Score', 'User_Count', 'Developer','Rating']]


In [5]:
#Unimos los dataset con el mismo nombre
Merge = pd.merge(CleanData, VGSales, on = 'Name')
#Revisamos los NaN que tienen
Merge.isna().sum()

Name              0
Critic_Score      0
Critic_Count      0
User_Score        0
User_Count        0
Developer         0
Rating            0
Rank              0
Platform          0
Year            173
Genre             0
Publisher         4
NA_Sales          0
EU_Sales          0
JP_Sales          0
Other_Sales       0
Global_Sales      0
dtype: int64

In [6]:
#Como los NaN se pueden arreglar, reemplazamos que los publishers desconocidos son Unknown y los años desconocidos por 0

Final = Merge.assign(Publisher=Merge['Publisher'].fillna('Unknown'))
Final = Final.assign(Year=Merge['Year'].fillna(0))

Final.isna().sum()

Name            0
Critic_Score    0
Critic_Count    0
User_Score      0
User_Count      0
Developer       0
Rating          0
Rank            0
Platform        0
Year            0
Genre           0
Publisher       0
NA_Sales        0
EU_Sales        0
JP_Sales        0
Other_Sales     0
Global_Sales    0
dtype: int64

In [7]:
#Así que la versión final es está
Final

Unnamed: 0,Name,Critic_Score,Critic_Count,User_Score,User_Count,Developer,Rating,Rank,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,Wii Sports,76.0,51.0,8,322.0,Nintendo,E,1,Wii,2006.0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,Mario Kart Wii,82.0,73.0,8.3,709.0,Nintendo,E,3,Wii,2008.0,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
2,Wii Sports Resort,80.0,73.0,8,192.0,Nintendo,E,4,Wii,2009.0,Sports,Nintendo,15.75,11.01,3.28,2.96,33.00
3,New Super Mario Bros.,89.0,65.0,8.5,431.0,Nintendo,E,7,DS,2006.0,Platform,Nintendo,11.38,9.23,6.50,2.90,30.01
4,Wii Play,58.0,41.0,6.6,129.0,Nintendo,E,8,Wii,2006.0,Misc,Nintendo,14.03,9.20,2.93,2.85,29.02
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17431,Metal Gear Solid V: Ground Zeroes,80.0,20.0,7.6,412.0,Kojima Productions,M,3267,PS3,2014.0,Action,Konami Digital Entertainment,0.14,0.14,0.27,0.06,0.62
17432,Metal Gear Solid V: Ground Zeroes,80.0,20.0,7.6,412.0,Kojima Productions,M,6120,XOne,2014.0,Action,Konami Digital Entertainment,0.15,0.11,0.00,0.02,0.28
17433,Metal Gear Solid V: Ground Zeroes,80.0,20.0,7.6,412.0,Kojima Productions,M,8755,X360,2014.0,Action,Konami Digital Entertainment,0.07,0.06,0.01,0.01,0.15
17434,Breach,61.0,12.0,5.8,43.0,Atomic Games,T,16588,PC,2011.0,Shooter,Destineer,0.01,0.00,0.00,0.00,0.01


# Análisis Exploratorio de los Datos

# Primera Respuesta al Problema o Pregunta
- ¿Por qué era adecuado el trabajo realizado para mi proyecto?
- ¿Qué limitaciones tiene mi análisis? ¿Cómo se podría mejorar o solventar algunas de esas limitaciones?
- ¿Necesito más datos para mi proyecto?
- ¿Necesito más análisis para mi proyecto?