In [2]:
import pandas as pd
import seaborn as sns
import numpy as np
from matplotlib import pyplot as plt
from math import factorial
from scipy import stats as st

In [3]:
df = pd.read_csv('games.csv') 

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16715 entries, 0 to 16714
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16713 non-null  object 
 1   Platform         16715 non-null  object 
 2   Year_of_Release  16446 non-null  float64
 3   Genre            16713 non-null  object 
 4   NA_sales         16715 non-null  float64
 5   EU_sales         16715 non-null  float64
 6   JP_sales         16715 non-null  float64
 7   Other_sales      16715 non-null  float64
 8   Critic_Score     8137 non-null   float64
 9   User_Score       10014 non-null  object 
 10  Rating           9949 non-null   object 
dtypes: float64(6), object(5)
memory usage: 1.4+ MB


Se realiza un reemplazo a los nombres de las columnas, se colocaran ern minusculas, esto ayudará a trabajr mejor con ellos.

In [6]:
df.columns = [col.lower() for col in df.columns]

df.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


In [7]:
df.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

Se va a realizar una inspección a la base de datos, para ver si hay datos faltantes.

In [7]:
print(df.isnull().sum())

name                  2
platform              0
year_of_release     269
genre                 2
na_sales              0
eu_sales              0
jp_sales              0
other_sales           0
critic_score       8578
user_score         6701
rating             6766
dtype: int64


Se encuentran demasiados datos faltantes en algunas columnas, esto pudiera ser por que al momento de tomar la información no se capturo correctamente, se omitió en el momento de su recopilación, no se solicitó al departamento encargado, se perdió.

Se realizará una inspección para ver si existen datos duplicados.

In [8]:
df.duplicated().sum()

np.int64(0)

Se colocará '-1' en los datos faltantes de las columnas "critic_score" y "user_score ", esto ayudará a evitar resultados erroneos en el analisis de promedios y estadisticos.

In [9]:
df.loc[:, ['critic_score', 'user_score']] = df[['critic_score', 'user_score']].fillna(-1)
print(df.head())

                       name platform  year_of_release         genre  na_sales  \
0                Wii Sports      Wii           2006.0        Sports     41.36   
1         Super Mario Bros.      NES           1985.0      Platform     29.08   
2            Mario Kart Wii      Wii           2008.0        Racing     15.68   
3         Wii Sports Resort      Wii           2009.0        Sports     15.61   
4  Pokemon Red/Pokemon Blue       GB           1996.0  Role-Playing     11.27   

   eu_sales  jp_sales  other_sales  critic_score user_score rating  
0     28.96      3.77         8.45          76.0          8      E  
1      3.58      6.81         0.77          -1.0         -1    NaN  
2     12.76      3.79         3.29          82.0        8.3      E  
3     10.93      3.28         2.95          80.0          8      E  
4      8.89     10.22         1.00          -1.0         -1    NaN  


Se colocará "sin clasificación" a los datos faltantes de la columna 'rating' para que no afecte en el momento de realizar analisis diversos como promedios o gráficos

In [10]:
df['rating'] = df['rating'].fillna('sin clasificación')

df.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,-1.0,-1.0,sin clasificación
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,-1.0,-1.0,sin clasificación


Se convertirá a enteros la columna 'year_of_release' para una mejor presentación

In [11]:
df['year_of_release'] = df['year_of_release'].fillna(0).astype(int)
print(df.head())

                       name platform  year_of_release         genre  na_sales  \
0                Wii Sports      Wii             2006        Sports     41.36   
1         Super Mario Bros.      NES             1985      Platform     29.08   
2            Mario Kart Wii      Wii             2008        Racing     15.68   
3         Wii Sports Resort      Wii             2009        Sports     15.61   
4  Pokemon Red/Pokemon Blue       GB             1996  Role-Playing     11.27   

   eu_sales  jp_sales  other_sales  critic_score user_score             rating  
0     28.96      3.77         8.45          76.0          8                  E  
1      3.58      6.81         0.77          -1.0         -1  sin clasificación  
2     12.76      3.79         3.29          82.0        8.3                  E  
3     10.93      3.28         2.95          80.0          8                  E  
4      8.89     10.22         1.00          -1.0         -1  sin clasificación  


Se detecta dentro de la columna 'user_score' una abreviatura "TBD" esta se mantendrá así, no se le realizará nada.

Se realizará el cálculo de las ventas totales en todas las regiones para cada juego y estos valores se colocarán en una nueva columna que se va a llamar 'total_sales' para el posterior trabajo que se realizará con estos datos.

In [13]:
df['total_sales']= df['na_sales'] + df['eu_sales'] + df['jp_sales'] + df['other_sales']
total_sales = df['total_sales']
print(total_sales.head())

0    82.54
1    40.24
2    35.52
3    32.77
4    31.38
Name: total_sales, dtype: float64


Se realizará un deglose de los juegos por año de lanzamiento y se iniciará por el año en que más juegos fueron lanzados al mercado.

In [14]:
df_year_of_release = df['year_of_release'].value_counts().sort_values(ascending=False)

print(df_year_of_release)

year_of_release
2008.0    1427
2009.0    1426
2010.0    1255
2007.0    1197
2011.0    1136
2006.0    1006
2005.0     939
2002.0     829
2003.0     775
2004.0     762
2012.0     653
2015.0     606
2014.0     581
2013.0     544
2016.0     502
2001.0     482
1998.0     379
2000.0     350
1999.0     338
1997.0     289
1996.0     263
1995.0     219
1994.0     121
1993.0      62
1981.0      46
1992.0      43
1991.0      41
1982.0      36
1986.0      21
1989.0      17
1983.0      17
1987.0      16
1990.0      16
1988.0      15
1985.0      14
1984.0      14
1980.0       9
Name: count, dtype: int64


Se va a realizar un desglose para ver que plataforma ha tenido más ventas

In [15]:
total_sales_platform = df.groupby('platform')['total_sales'].sum().reset_index()
total_sales_platform = total_sales_platform.sort_values(by='total_sales', ascending=False)
top_10_platforms = total_sales_platform['platform'].head(10).tolist()

total_sales_platform.head(10)

Unnamed: 0,platform,total_sales
16,PS2,1255.77
28,X360,971.42
17,PS3,939.65
26,Wii,907.51
4,DS,806.12
15,PS,730.86
6,GBA,317.85
18,PS4,314.14
19,PSP,294.05
13,PC,259.52


Se va a realizar un analisis para detectar la duración o actividad que resulta en ventas de las diferentes plataformas, de la más reciente a la más antigua

In [16]:
df = df.dropna(subset=['platform', 'year_of_release'])

platform_active = df.groupby('platform')['year_of_release'].agg(['min','max'])
platform_active['year_activity'] = platform_active['max'] - platform_active['min']
platform_active.columns = ['inicio', 'fin', 'duración']
platform_durability = platform_active.sort_values(by='inicio', ascending=False)

print(platform_durability.head())

          inicio     fin  duración
platform                          
PS4       2013.0  2016.0       3.0
XOne      2013.0  2016.0       3.0
WiiU      2012.0  2016.0       4.0
PSV       2011.0  2016.0       5.0
3DS       2011.0  2016.0       5.0


Se va a realizar un desglose para ver que plataforma ha tenido más ventas

In [17]:
total_sales_platform = df.groupby('platform')['total_sales'].sum().reset_index()
total_sales_platform = total_sales_platform.sort_values(by='total_sales', ascending=False)
top_10_platforms = total_sales_platform['platform'].head(10).tolist()

print(total_sales_platform.head(10))

   platform  total_sales
16      PS2      1233.56
28     X360       961.24
17      PS3       931.34
26      Wii       891.18
4        DS       802.78
15       PS       727.58
18      PS4       314.14
6       GBA       312.88
19      PSP       289.53
2       3DS       257.81


Se va a realizar un analisis para detectar la duración o actividad que resulta en ventas de las diferentes plataformas, de la más reciente a la más antigua

In [18]:
platform_active = df.groupby('platform')['year_of_release'].agg(year_start='min', year_end='max')
platform_active['year_activity'] = platform_active['year_end'] - platform_active['year_start']
platform_durability = platform_active.sort_values(by='year_start', ascending=False)
print(platform_durability)


          year_start  year_end  year_activity
platform                                     
PS4           2013.0    2016.0            3.0
XOne          2013.0    2016.0            3.0
WiiU          2012.0    2016.0            4.0
PSV           2011.0    2016.0            5.0
3DS           2011.0    2016.0            5.0
Wii           2006.0    2016.0           10.0
PS3           2006.0    2016.0           10.0
X360          2005.0    2016.0           11.0
PSP           2004.0    2015.0           11.0
GC            2001.0    2007.0            6.0
GBA           2000.0    2007.0            7.0
PS2           2000.0    2011.0           11.0
XB            2000.0    2008.0            8.0
WS            1999.0    2001.0            2.0
DC            1998.0    2008.0           10.0
N64           1996.0    2002.0            6.0
PCFX          1996.0    1996.0            0.0
TG16          1995.0    1995.0            0.0
3DO           1994.0    1995.0            1.0
PS            1994.0    2003.0    

Identificar plataformas que solían ser populares pero ahora tienen ventas nulas

In [19]:
active_platforms = df[df['year_of_release'] >= 2016]['platform'].unique()  
inactive_platforms = total_sales_platform[~total_sales_platform['platform'].isin(active_platforms)]

print(inactive_platforms)  

   platform  total_sales
16      PS2      1233.56
4        DS       802.78
15       PS       727.58
6       GBA       312.88
19      PSP       289.53
5        GB       254.43
29       XB       251.57
11      NES       251.05
10      N64       218.01
23     SNES       200.04
7        GC       196.73
0      2600        86.48
21      SAT        33.59
8       GEN        30.77
3        DC        15.95
22      SCD         1.86
12       NG         1.44
25       WS         1.42
24     TG16         0.16
1       3DO         0.10
9        GG         0.04
14     PCFX         0.03


Se va a realizar un desglose para conocer las plataformas con mas juegos

In [20]:
df_platform = df['platform'].value_counts().sort_values(ascending=False)

df_platform.head()

platform
PS2     2127
DS      2121
PS3     1306
Wii     1286
X360    1232
Name: count, dtype: int64

Se hará un estudio de las 10 plataformas con mayor venta actualmente

In [21]:
top_platforms = total_sales_platform.head(10)['platform'].tolist()
df_top = df[df['platform'].isin(top_platforms)]
sales_by_platform = df_top.groupby('platform')['total_sales'].sum()
sales_by_platform.head()

platform
3DS     257.81
DS      802.78
GBA     312.88
PS      727.58
PS2    1233.56
Name: total_sales, dtype: float64