Actualmente, la mayoría de las personas piensan que la industria de los videojuegos se ha incrementado con el paso del tiempo, debido a la influencia de la tecnología, ya que cuanto más avanza, mejor es el ocio para los individuos.

Por ende, en este proyecto vamos a estudiar como evolucionan las ventas de este campo de trabajo a nivel global y por zonas geográficas, las 20 mejores ventas de videojuegos, y un estudio de una plataforma al azar y su comparación con otra.

Comenzamos el análisis de nuestra base de datos, cargando los correspondietes comandos que vamos a utilizar y la base de datos "videogamesales" de la plataforma "Kaggle". Cabe resaltar, que el valor de las ventas está expresado en millones, de forma simplificada, y en dólares.

In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load


import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt
import seaborn as sns

videojuegos= pd.read_csv('../input/videogamesales/vgsales.csv') 
print(videojuegos.isnull().sum(), videojuegos.shape)
videojuegos = videojuegos.dropna()
display(videojuegos.head())
display(videojuegos.tail())

Nuestro primer paso ha sido cargar la base de datos y almacenarla en nuestro Data frame "videojuegos" ,para poder hacer uso de él cuando la necesitemos. A continuación, observamos cuantos valores nulos contiene este ejemplo y los limpiamos para poder obtener un mejor estudio. Finalizado este proceso, imprimimos los cinco primeros valores y los cinco finales para observar como se estructura este conjuto de datos.

Mediante un análisis rápido, se puede apreciar que los videojuegos están ordenados de mayor a menor, en cuanto a ventas globales obtenidas. Siendo el primero "Wii Sports" por un valor de 82,74 millones de dólares.

Para poder visualizar de forma más intuitiva como evolucionan dichos ingresos, vamos a ordenar los datos en base al año de su puesta en venta. 

In [None]:
videojuegos = videojuegos.sort_values(by='Year', ascending=True)
videojuegos= videojuegos[['Year', 'Rank', 'Name', 'Platform','Genre','Publisher','NA_Sales','EU_Sales','JP_Sales','Other_Sales','Global_Sales']]
display(videojuegos.head())
display(videojuegos.tail())

Ordenados nuestros datos, nos ponemos manos a la obra con nuestro análisis. Como paso previo, vamos a observar la correlación existente entre las distintas variables que conforman esta base de datos. 

In [None]:
correlacion= videojuegos.corr()

fig, ax = plt.subplots(figsize=(10,5))

sns.heatmap(correlacion,annot=True, cmap= 'Reds')
plt.show()

Como se puede apreciar en el cuadro anterior, existe una gran correlación entre las ventas de las distintas zonas geográficas y las ventas globales, dando lugar a que si se produce un aumento de una unida monetaria en cualquiera de estas variables, se producirá también un aumento en la otra variable. Por ejemplo, si se produce un incremento de un dolar en las ventas en Europa, se producirá un aumento de las ventas globales.

Ahora, vamos a estudiar la evolución de las ventas globales a lo largo de los años.

In [None]:
fig,ax = plt.subplots(figsize=(13,7))

ax.plot(videojuegos['Year'], videojuegos['Global_Sales'], linestyle='solid')
ax.set_xlabel('Año')
ax.set_ylabel('Ventas Globales')
plt.show()

Ejecutado nuestro código, nos encontramos ante una extraña situación donde no se puede percibir con claridad dicho estudio, debido a que se tiene en cuenta con una amplia cantidad de datos. Para solventar este problema, vamos a examinar la evolución mediante la suma de todas las ventas de videojuegos obtenidas por cada año.

In [None]:
year= list(videojuegos.Year.unique())
global_sales=[]

for i in year:
    val=videojuegos[videojuegos.Year == i]
    x= val.Global_Sales.sum()
    global_sales.append(x)

d1 = pd.DataFrame({'Year':year, 'Global_Sales':global_sales})

fig,ax= plt.subplots(figsize=(13,7))
ax.plot(d1['Year'], d1['Global_Sales'], color='purple')
ax.set_xlabel('Año')
ax.set_ylabel('Ventas Globales')
ax.set_title('Ventas Globales totales por año')
plt.show()

A la vista de los resultados obtenidos, podemos ver que la evolución es muy favorable llegando a registrar en 2006 un ingreso de casi 700 millones de dólares. Los años posteriores a este, no son tan favorables por lo cual el nivel de ventas va disminuyendo registrando ingresos inferiores a los obtenidos en el 2002.

Finalizado nuestra indagación, vamos a ver cómo se han desarrollado las ventas de las diferentes zonas geográficas. Este conjuto de datos recoge 4 tipos ventas, las ventas de Norte América, las de Europa, las de Japón y  las del resto de países.

In [None]:
year_per_sales=list(videojuegos.Year.unique())
na_sales=[]
eu_sales=[]
jp_sales=[]
other_sales=[]



for i in year_per_sales:
    val=videojuegos[videojuegos.Year==i]
    na_sales.append(val.NA_Sales.sum())
    eu_sales.append(val.EU_Sales.sum())
    jp_sales.append(val.JP_Sales.sum())
    other_sales.append(val.Other_Sales.sum())

d2= pd.DataFrame({'Year': year_per_sales, 'NA_Sales': na_sales, 'EU_Sales': eu_sales, 'JP_Sales': jp_sales, 'Other_Sales': other_sales})
    
fig, ax = plt.subplots(2,2,figsize=(14,9))
ax[0,0].plot(d2['Year'], d2['NA_Sales'], color='blue')
ax[0,1].plot(d2['Year'], d2['EU_Sales'], color='red')
ax[1,0].plot(d2['Year'], d2['JP_Sales'], color='green')
ax[1,1].plot(d2['Year'], d2['Other_Sales'], color='yellow')

ax[0,0].set_xlabel('Año')
ax[0,1].set_xlabel('Año')
ax[1,0].set_xlabel('Año')
ax[1,1].set_xlabel('Año')

ax[0,0].set_ylabel('Ventas NA')
ax[0,1].set_ylabel('Ventas EU')
ax[1,0].set_ylabel('Ventas JP')
ax[1,1].set_ylabel('Ventas Other')


plt.show()

Como se puede apreciar en las diferentes gráficas, la mayoría de las ventas se registran en la zona de Norte América, seguido de Europa, el resto de países del mundo y Japón, siendo el 2006 el año donde se registran las mayores niveles de ventas. A partir de ese año, las ventas empiezan a disminuir, siendo la zona de Norte América la mayor afectada entre el 2012-2013, donde se puede ver una caída aproximada de 200 millones de dólares.

En este apartado, vamos a estudiar cuales han sido las 20 mejores ventas de videojuegos a lo largo de los años y quienes ha sido los encargados de la realización de dicho proyecto.

In [None]:
top20_videojuegos = videojuegos[videojuegos['Rank'] <= 20]

from bokeh.io import output_notebook, show
from bokeh.plotting import figure
from bokeh.models import HoverTool, ColumnDataSource

output_notebook()
source= ColumnDataSource(top20_videojuegos)
hover= HoverTool(tooltips=[('Name','@Name'),('Rank','@Rank'),('Sales','@Global_Sales'),('Publisher', '@Publisher')])

plot = figure(tools=[hover, 'crosshair'], x_axis_label='Año', y_axis_label='Ventas Globales',y_axis_type='linear', title='Top 20 mejores ventas videojugos')
plot.add_tools(hover)
plot.line(x='Year', y='Global_Sales', line_width=3, line_color='blue', source=source )
plot.circle(x='Year', y='Global_Sales', size=5, source=source, color='purple' )

show(plot)


Los resultados obtenidos, nos demuestran que la mayoria de los videojuegos han sido publicados por la editorial "Nintendo", registrando esta compañía en el año 2006 un ingreso global de 82,74 millones de dólares por su videojuego de "Wii Sport", otorgando a este año el mayor nivel de ventas en la historia.

En el siguiente apartado de este estudio, selecionaremos una plataforma al azar, a la cual le realizaremos un análisis del género de videjuegos, cuáles son los ingresos de estos, y las ventas de los videojuegos de dicho género.

In [None]:
xbox_360 = videojuegos[(videojuegos.Platform == 'X360')]
xbox_360.Genre.unique()
display(xbox_360.head())
print(xbox_360.shape)

plt.figure(figsize=(13,7))
sns.countplot(x='Genre', data=xbox_360)
plt.xlabel('Género')
plt.ylabel('Cantidad')
plt.title('Géneros XBOX 360')
plt.show()

La plataforma que hemos escogido para nuestro análisis es "XBOX 360", que se compone de 1.234 videojuegos, que encontramos repartidos entre los siguientes géneros. Tal y como se puede apreciar en la gráfica, vemos que los videojuegos de acción son los que mayor presencia tienen en esta plataforma, pero ¿Es esta categoría la que mayor ventas presenta? Para responder a esta pregunta, vamos a examinar las ventas generadas por cada género.  

In [None]:
genre= list(xbox_360.Genre.unique())
global_sales=[]

for i in genre:
    val=xbox_360[xbox_360.Genre==i]
    x=val.Global_Sales.sum()
    global_sales.append(x)

d3= pd.DataFrame({'Genre':genre, 'Global_Sales':global_sales})

sns.catplot(x= 'Genre', y='Global_Sales', data=d3, kind='bar', ci=None, aspect=2.2)
plt.xlabel('Género')
plt.ylabel('Ventas Globales')
plt.title('Ventas Globales por cada Género')
plt.show()


Los resultados obtenidos en el gráfico de barras, nos permite observar que el género "Action" no es el más vendido, esto recae sobre "Shooter" por un valor superior a los 250 millones de dólares.

Una vez visualizado que género es el que más ingresos ha generado, a continuación vamos a examinar que videojuegos son los que más ventas presentan.


In [None]:
juegos_shooter= xbox_360[xbox_360['Genre'] == 'Shooter']
display(juegos_shooter.head())
      

from bokeh.io import output_notebook, show
from bokeh.plotting import figure
from bokeh.models import HoverTool, ColumnDataSource
output_notebook()
source= ColumnDataSource(juegos_shooter)
hover= HoverTool(tooltips=[('Name','@Name'),('Sales','@Global_Sales')])

plot = figure(tools=[hover, 'crosshair'], x_axis_label='Año', y_axis_label='Ventas Globales', title='Ventas totales videojuegos shooter')
plot.add_tools(hover)
plot.circle(x='Year', y='Global_Sales', size=10, source=source )

show(plot)

Los videojuegos "Shooter" que mayor nivel de ingresos han generado son "Call of Duty: Modern Warfare 3" por un importe de 14,76 millones de dólares y "Call of Duty: Black Ops" por un valor de 14,64 millones de dólares.  

Para finalizar nuestro estudio, vamos a realizar una comparación entre las plataformas "XBOX 360" y "PS3",donde examinaremos cual de las dos plataformas ha generado mayores ingresos por zona geográfica.

In [None]:
x_vs_p = videojuegos [videojuegos["Platform"].isin(['X360', 'PS3'])]
display(x_vs_p.head())

platform=list(x_vs_p.Platform.unique())
na_sales=[]
eu_sales=[]
jp_sales=[]
other_sales=[]

for i in platform:
    val=x_vs_p[x_vs_p.Platform==i]
    na_sales.append(val.NA_Sales.sum())
    eu_sales.append(val.EU_Sales.sum())
    jp_sales.append(val.JP_Sales.sum())
    other_sales.append(val.Other_Sales.sum())
    
    
f,ax = plt.subplots(figsize = (13,7))
sns.barplot(x=platform,y=na_sales,color= 'red',alpha =0.8,label='NA_Sales' )
sns.barplot(x=platform,y=eu_sales,color='orange',alpha = 0.7,label='EU_Sales')
sns.barplot(x=platform,y=jp_sales,color='blue',alpha = 0.8,label='JP_Sales')
sns.barplot(x=platform,y=other_sales,color='green',alpha = 0.6,label='Other_Sales')


ax.legend(loc='upper right',frameon = True)
ax.set(xlabel='Platforma', ylabel='Ventas',title = "Ventas totales por zonas geográficas para XBOX 360 y PS3")


Como podemos observar, los ingresos obtenidos por "XBOX 360" son superiores a los de "PS3", registrando casi un valor de 600 millones de dólares en su totalidad. Casi la mitad de dichos ingresos corresponde a las ventas obtenidas en Norte América y en cierta medida por las ventas de Europa. A diferencia de su competidor, esta plataforma no ha tenido un buen nivel de ventas en la región de Japón, siendo las recaudaciones de "PS3" aproximadamente de 100 millones de dólares. Cabe destacar que ambas plataformas tienen un recaudación similar en los países Europeos.