# EDA VIDEOGAMES

## Imports

Importamos las librerias necesarias

In [98]:
import pandas as pd
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.graph_objects as go

Leemos el csv y establecemos la primera columna como index

In [99]:
videogames = pd.read_csv("./datasets/vgsales_dirty.csv", index_col=0)


## Estructura de los datos

Antes de visualizar los datos vamos a ver como es la estructura de los datos de nuestro dataset

In [100]:
videogames.head()

Unnamed: 0,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
12040,Crayon Shin-Chan: Densetsu o Yobu Omake no To ...,GBA,2006.0,Action,Banpresto,0.0,0.0,0.07,0.0,0.07
9557,Cabela's Dangerous Hunts 2009,PS3,2008.0,Sports,Activision Value,0.12,0.0,0.0,0.01,0.13
4144,Emergency Heroes,Wii,2008.0,Racing,Ubisoft,0.15,0.27,0.0,0.06,0.48
1279,WWF WrestleMania 2000,N64,1999.0,Fighting,THQ,1.2,0.25,0.02,0.02,1.48
266,Daxter,PSP,2006.0,Platform,Sony Computer Entertainment,2.45,1.02,0.0,0.75,4.22


In [101]:
columns = list(videogames.columns)
columns

['Name',
 'Platform',
 'Year',
 'Genre',
 'Publisher',
 'NA_Sales',
 'EU_Sales',
 'JP_Sales',
 'Other_Sales',
 'Global_Sales']

Como vemos tenemos un total de 10 columnas:


1. **Rank:** Ranking de ventas totales
2. **Nombre:** Nombre del juego
3. **Plataforma:** Plataforma de lanzamiento del juego
4. **Año:** Año de lanzamiento del juego
5. **Género:** Género del juego
6. **Desarrolladora:** Editor del juego
7. **Ventas NA:** Ventas en América del Norte (en millones)
8. **Ventas EU:** Ventas en Europa (en millones)
9. **Ventas JP:** Ventas en Japón (en millones)
10. **Ventas Resto del Mundo:** Ventas en el resto del mundo (en millones)
11. **Ventas Globales:** Ventas totales en todo el mundo (en millones)


Vamos a ver cuantas filas  y cuantas columnas tiene nuestro dataset

In [102]:
videogames.shape

(16661, 10)

Y comprobamos el tipo de dato ademas de poder ver si existe algun tipo de nulo

In [103]:
videogames.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16661 entries, 12040 to 10147
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Name          16565 non-null  object 
 1   Platform      16661 non-null  object 
 2   Year          16389 non-null  float64
 3   Genre         16661 non-null  object 
 4   Publisher     16513 non-null  object 
 5   NA_Sales      16661 non-null  float64
 6   EU_Sales      16630 non-null  float64
 7   JP_Sales      16661 non-null  float64
 8   Other_Sales   16624 non-null  float64
 9   Global_Sales  16661 non-null  float64
dtypes: float64(6), object(4)
memory usage: 1.4+ MB


Creamos dos listas diferentes con los diferentes tipos de datos


In [104]:
videogames_nums = list(videogames.select_dtypes(exclude="object").columns)
videogames_objects =  list(videogames.select_dtypes(include="object").columns)

print(f'Columnas numéricas: {videogames_nums}')
print(f'Columnas categóricas: {videogames_objects}')

Columnas numéricas: ['Year', 'NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales']
Columnas categóricas: ['Name', 'Platform', 'Genre', 'Publisher']


## Limpieza de los datos

Una vez visualizada la estructura vamos a comenzar con la limpieza de los datos





Comprobamos cuantos valores unicos existen en cada una de las columnas

In [105]:
videogames.nunique()

Name            11443
Platform           31
Year               39
Genre              12
Publisher         578
NA_Sales          409
EU_Sales          304
JP_Sales          244
Other_Sales       157
Global_Sales      623
dtype: int64

Podemos obtener los valores únicos de las columnas 'Platform' y 'Genre' para poder revisarlos. Ver los valores de cada columna nos permitirá explorar y entender mejor la distribución de las plataformas y géneros en el conjunto de datos de videojuegos.

In [106]:
videogames['Platform'].unique()

array(['GBA', 'PS3', 'Wii', 'N64', 'PSP', 'PSV', 'DS', 'WiiU', 'PS2',
       'GC', 'PC', '3DS', 'SNES', 'XOne', 'XB', 'X360', 'PS4', 'NES',
       '2600', 'PS', 'SAT', 'GB', 'GEN', 'DC', 'NG', 'WS', 'TG16', '3DO',
       'SCD', 'GG', 'PCFX'], dtype=object)

In [107]:
videogames['Genre'].unique()

array(['Action', 'Sports', 'Racing', 'Fighting', 'Platform', 'Puzzle',
       'Shooter', 'Role-Playing', 'Adventure', 'Simulation', 'Misc',
       'Strategy'], dtype=object)

Comprobamos cuántas veces aparece cada año en el dataset.

In [108]:
videogames['Year'].value_counts()

Year
2008.0    1437
2009.0    1436
2010.0    1263
2007.0    1207
2011.0    1142
2006.0    1008
2005.0     946
2002.0     832
2003.0     782
2004.0     766
2012.0     661
2015.0     615
2014.0     586
2013.0     548
2001.0     483
1998.0     380
2000.0     349
2016.0     346
1999.0     338
1997.0     289
1996.0     264
1995.0     221
1994.0     121
1993.0      60
1981.0      46
1992.0      43
1991.0      41
1982.0      36
1986.0      21
1983.0      17
1989.0      17
1990.0      16
1987.0      16
1988.0      15
1985.0      14
1984.0      14
1980.0       9
2017.0       3
2020.0       1
Name: count, dtype: int64

Como los años 2017, 2020, 1980 aparecen solo 3, 1 y 9 veces, borramos las filas del dataframe

In [109]:
videogame_years = (videogames['Year'] == 2017) | (videogames['Year'] == 2020) | (videogames['Year'] == 1980)

videogames = videogames.drop(videogames[videogame_years].index)

Una vez visto los valores unicos de las tablas, buscaremos a ver si existe algun tipo de **columna duplicada**.

In [110]:
print(f'Total de filas duplicadas: {videogames.duplicated().sum()}')

Total de filas duplicadas: 64


Como vemos, hay **64** filas duplicadas. Procederemos a borrar esas filas.

In [111]:
videogames = videogames.drop_duplicates()
print(f'Total de filas duplicadas: {videogames.duplicated().sum()}')

Total de filas duplicadas: 0


Una vez hayamos visto los valores unicos de las tablas, vamos a mirar el **porcentaje de nulos** que contiene nuestro dataset

In [112]:
nulls = videogames.isnull().sum()
rows = videogames.shape[0]

percentage = nulls / rows
table = pd.concat([nulls, percentage], axis=1, keys=['Nulls', 'Percentage %'])
nulls_table = table.sort_values(by='Percentage %', ascending=False)

nulls_table

Unnamed: 0,Nulls,Percentage %
Year,270,0.016281
Publisher,148,0.008924
Name,93,0.005608
Other_Sales,36,0.002171
EU_Sales,31,0.001869
Platform,0,0.0
Genre,0,0.0
NA_Sales,0,0.0
JP_Sales,0,0.0
Global_Sales,0,0.0


Como vemos el porcentaje de nulos que hay en las columnas es muy bajo (solo hay una columna que llega a 1% de datos nulos) asique procederemos con la eliminacion de estas columnas.

In [113]:
videogames.dropna(inplace=True)
videogames.reset_index(drop=True, inplace=True)

In [114]:
nulls = videogames.isnull().sum()
rows = videogames.shape[0]

percentage = nulls / rows
table = pd.concat([nulls, percentage], axis=1, keys=['Nulls', 'Percentage %'])
nulls_table = table.sort_values(by='Percentage %', ascending=False)

nulls_table

Unnamed: 0,Nulls,Percentage %
Name,0,0.0
Platform,0,0.0
Year,0,0.0
Genre,0,0.0
Publisher,0,0.0
NA_Sales,0,0.0
EU_Sales,0,0.0
JP_Sales,0,0.0
Other_Sales,0,0.0
Global_Sales,0,0.0


In [131]:
videogames = videogames.sort_values(by=['Global_Sales'], ascending=False)
videogames = videogames.reset_index(drop=True)
videogames

Unnamed: 0,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,Wii Sports,Wii,2006.0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.75,11.01,3.28,2.96,33.00
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.00,31.37
...,...,...,...,...,...,...,...,...,...,...
16031,Gokuhou!! Mecha Mote Iinchou: Girls Motekawa Box,DS,2009.0,Simulation,Konami Digital Entertainment,0.00,0.00,0.01,0.00,0.01
16032,Unending Bloody Call,PSP,2012.0,Action,Asgard,0.00,0.00,0.01,0.00,0.01
16033,Entaku no Seito: Students of Round,X360,2011.0,Role-Playing,ChunSoft,0.00,0.00,0.01,0.00,0.01
16034,Datenshi no Amai Yuuwaku x Kaikan Phrase,DS,2010.0,Adventure,FuRyu,0.00,0.00,0.01,0.00,0.01


## Visualización de los datos


In [115]:
videogames.head(20)

Unnamed: 0,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,Crayon Shin-Chan: Densetsu o Yobu Omake no To ...,GBA,2006.0,Action,Banpresto,0.0,0.0,0.07,0.0,0.07
1,Cabela's Dangerous Hunts 2009,PS3,2008.0,Sports,Activision Value,0.12,0.0,0.0,0.01,0.13
2,Emergency Heroes,Wii,2008.0,Racing,Ubisoft,0.15,0.27,0.0,0.06,0.48
3,WWF WrestleMania 2000,N64,1999.0,Fighting,THQ,1.2,0.25,0.02,0.02,1.48
4,Daxter,PSP,2006.0,Platform,Sony Computer Entertainment,2.45,1.02,0.0,0.75,4.22
5,FIFA Soccer,PSV,2012.0,Sports,Electronic Arts,0.17,0.34,0.02,0.09,0.62
6,Professor Layton and the Curious Village,DS,2007.0,Puzzle,Nintendo,1.22,2.48,1.03,0.52,5.26
7,Sniper Elite V2,WiiU,2013.0,Shooter,505 Games,0.0,0.02,0.0,0.0,0.02
8,Ragnarok DS,DS,2008.0,Role-Playing,GungHo,0.1,0.0,0.11,0.01,0.22
9,Mai-Otome Hime: Otome Butou Shi,PS2,2006.0,Fighting,Sunrise Interactive,0.0,0.0,0.02,0.0,0.02


### Que género fue el mas vendido vs que genero fue el mas desarrollado

In [117]:
fig1 = px.pie(videogames, values=videogames['Genre'].value_counts().values, names=videogames['Genre'].value_counts().index)

fig2 = px.pie(videogames, values='Global_Sales', names='Genre', title='Géneros más vendidos')

fig = make_subplots(1, 2, specs=[[{'type': 'domain'}, {'type': 'domain'}]],
                    subplot_titles=['Géneros más desarrollados', 'Géneros más vendidos'])

fig.add_trace(fig1['data'][0], 1, 1)
fig.add_trace(fig2['data'][0], 1, 2)

fig.update_layout(showlegend=True)

fig.show()


### Cuales son los videojuegos mas vendidos?




In [118]:
top_10_games = videogames.head(20)

fig = px.bar(top_10_games, x='Name', y='Global_Sales', title='Top 10 Juegos más Vendidos',
            labels={'Sales': 'Ventas (millones)', 'Name': 'Juego'},
            color='Global_Sales', color_continuous_scale='agsunset',
            width=1300, height=800)

fig.update_layout(xaxis_tickangle=-45)
fig.show()


### Cuales son los videojuegos mas vendidos de cada plataforma plataforma?


In [119]:
top_games = videogames.nlargest(30, 'Global_Sales').sort_values('Global_Sales', ascending=False)

fig = px.bar(top_games, x="Name", y="Global_Sales", color='Platform',
            title='Ventas totales de videojuegos agrupados por plataforma',
            labels={"Global_Sales": "Ventas Globales", "Name": "Videojuego"},
            width=1300, height=800)

fig.update_layout(xaxis_tickangle=-45)

fig.show()






### Ventas totales de cada plataforma

In [120]:
vid_platform = videogames.groupby(by=['Platform'])['Global_Sales'].sum().reset_index()
vid_platform = vid_platform.sort_values(by='Global_Sales', ascending=False).head(10)

fig = px.bar(vid_platform, x='Platform', y='Global_Sales',
             title='Ventas Globales por Plataforma',
             labels={'Platform': 'Plataforma', 'Global_Sales': 'Ventas Globales'},
             template='plotly', width=1300, height=800, color ="Global_Sales")

fig.update_xaxes(tickangle=90)

fig.show()


### Cuales son los videojuegos mas vendidos en cada region?


In [121]:
top_games = videogames.head(20)
fig = go.Figure()

for region in ['NA_Sales', 'EU_Sales', 'JP_Sales']:
    fig.add_trace(go.Bar(
        x=top_games['Name'],
        y=top_games[region],
        name=region
    ))


fig.update_layout(barmode='stack', title='Ventas de Juegos por Región', xaxis_title='Juegos', yaxis_title='Ventas', width=1300, height=800,)

fig.show()


### Que desarrolladora tuvo mas ventas?

In [129]:
empresas_mas_ventas = videogames.groupby('Publisher')['Global_Sales'].sum().sort_values(ascending=False).head(10)

fig = px.bar(x=empresas_mas_ventas.index, y=empresas_mas_ventas.values, labels={'x': 'Desarrolladora', 'y': 'Ventas Globales'},
             title='Empresas con mayores ventas de videojuegos',
             width=1300, height=800,)

fig.show()




### Cuales fueron los juegos mas vendidos de las 5 empresas principales?

In [130]:
top_publishers = videogames.groupby('Publisher')['Global_Sales'].sum().nlargest(5).index
top_publishers_games = videogames[videogames['Publisher'].isin(top_publishers)]

top_games_by_publisher = top_publishers_games.groupby('Publisher').head(3)

fig = px.bar(top_games_by_publisher, x="Publisher", y="Global_Sales", color='Name',
             labels={"Global_Sales": "Ventas Globales", "Publisher": "Desarrolladora", "Name": "Nombre del Juego"},
             title='Los 3 Juegos Más Vendidos de las Cinco Empresas Principales',
             category_orders={"Publisher": top_games_by_publisher.groupby('Publisher')['Global_Sales'].sum().sort_values(ascending=False).index},
             width=1300, height=800,)


fig.show()






Como podemos ver, esta grafica tiene los valores ordenados casi de la misma manera que que la grafica de arriba, lo unico que cambia es que en Electronic Arts en vez de estar de 2º, esta de 5º. Esto se debe a que Electronic Arts tiene mas ventas totales porque tiene muchos mas juegos desarrollados que otras compañias.

In [124]:
empresas_mas_juegos = videogames['Publisher'].value_counts().sort_values(ascending=False).head(10)

lista_labels = list(empresas_mas_juegos.index)

empresas_mas_ventas = videogames.groupby('Publisher')['Global_Sales'].sum().sort_values(ascending=False).head(10)
empresas_mas_ventas = empresas_mas_ventas.loc[lista_labels]

fig1 = px.bar(x=empresas_mas_juegos.index, y=empresas_mas_juegos.values,
              labels={'x': 'Empresas', 'y': 'Número de Juegos Desarrollados'},
              title='Empresas con Mayor Número de Juegos Desarrollados')

fig2 = px.bar(x=empresas_mas_ventas.index, y=empresas_mas_ventas.values,
              labels={'x': 'Empresas', 'y': 'Ventas Globales'},
              title='Empresas con Mayor Ventas Globales',
)

fig = make_subplots(rows=1, cols=2, subplot_titles=['Empresas con Mayor Número de Juegos Desarrollados', 'Empresas con Mayor Ventas Globales'])

fig.add_trace(fig1['data'][0], row=1, col=1, )
fig.add_trace(fig2['data'][0], row=1, col=2)

fig.update_layout(height=800, width=1300)
fig.show()


### Evolucion tiempo

In [125]:
fig = px.line(videogames.groupby('Year')['Global_Sales'].sum().reset_index(),
              x='Year', y='Global_Sales', title='Tendencia de Ventas Globales a lo largo de los Años')
fig.show()


In [126]:

videogames_by_year = videogames.groupby('Year')['Name'].count().sort_values(ascending=False).reset_index()

fig = px.bar(videogames_by_year, x='Year', y='Name', title='Juegos desarrollados por año',
             labels={'Year': 'Año', 'Name': 'Numero de juegos'},
             template='plotly',height=500)

fig.update_xaxes(tickangle=90)

fig.show()



In [127]:
fig = px.line(videogames.groupby('Year')[['NA_Sales', 'EU_Sales', 'JP_Sales','Other_Sales']].sum().reset_index(),
              x='Year', y=['NA_Sales', 'EU_Sales', 'JP_Sales','Other_Sales'],
              title='Tendencia de Ventas Regionales a lo largo de los Años',
              labels={'value': 'Ventas', 'variable': 'Región'},
              line_shape='spline')
fig.show()


### Cuales fueron las ventas totales en cada region?

In [128]:
top_sale_reg = videogames[['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales']]
total_sales_by_region = top_sale_reg.sum().reset_index()
total_sales_by_region = total_sales_by_region.rename(columns={"index": "Region", 0: "Ventas Totales"})

fig = px.bar(total_sales_by_region, x='Region', y='Ventas Totales',
             labels={'Ventas Totales': 'Ventas Totales', 'Region': 'Región'},
             title='Ventas Totales por Región')

fig.show()
