## Análisis de datos de ventas de videojuegos utilizando NumPy

https://www.kaggle.com/gregorut/videogamesales

 El objetivo de este caso práctico es analizar un conjunto de datos de ventas de videojuegos utilizando NumPy para calcular estadísticas básicas, identificar tendencias y detectar patrones.



Rank - Ranking of overall sales

Name - The games name

Platform - Platform of the games release (i.e. PC,PS4, etc.)

Year - Year of the game's release

Genre - Genre of the game

Publisher - Publisher of the game

NA_Sales - Sales in North America (in millions)

EU_Sales - Sales in Europe (in millions)

JP_Sales - Sales in Japan (in millions)

Other_Sales - Sales in the rest of the world (in millions)

Global_Sales - Total worldwide sales.


* cargar el archivo csv
* Calcular ventas totales
* Estadísticas básicas sobre ventas totales
* Calcular ventas totales por plataforma y género
* Ventas totales por año
* Año con mayores ventas

In [64]:
import numpy as np

In [124]:
names = np.genfromtxt('../../data/vgsales.csv', 
              usecols=(1), dtype=str, skip_header=1, delimiter=',')
names.shape

(16598,)

In [159]:
platform = np.genfromtxt('../../data/vgsales.csv', 
              usecols=(2), dtype=str, skip_header=1, 
              delimiter=',')
platform.shape

(16598,)

In [28]:
year = np.genfromtxt('../../data/vgsales.csv', 
              usecols=(3), dtype=int, skip_header=1, delimiter=',')
year.shape

(16598,)

In [161]:
genres = np.genfromtxt('../../data/vgsales.csv', 
              usecols=(4), dtype=str, skip_header=1, delimiter=',')
genres.shape

(16598,)

In [30]:
publishers = np.genfromtxt('../../data/vgsales.csv', 
              usecols=(5), dtype=str, skip_header=1, delimiter=',')
publishers.shape

(16598,)

In [114]:
# NA_Sales,EU_Sales,JP_Sales,Other_Sales
sales = np.genfromtxt('../../data/vgsales.csv', 
              usecols=(6, 7, 8, 9), dtype=float, skip_header=1, delimiter=',')
sales.shape

(16598, 4)

In [109]:
np.set_printoptions(suppress=True)
sales

array([[41.49, 29.02,  3.77,  8.46],
       [29.08,  3.58,  6.81,  0.77],
       [15.85, 12.88,  3.79,  3.31],
       ...,
       [ 0.  ,  0.  ,  0.  ,  0.  ],
       [ 0.  ,  0.01,  0.  ,  0.  ],
       [ 0.01,  0.  ,  0.  ,  0.  ]])

In [74]:
# Calcular ventas totales
total_sales = np.sum(sales, axis=1)
total_sales

array([82.74, 40.24, 35.83, ...,  0.  ,  0.01,  0.01])

In [77]:
# estadísticas sobre total_sales
print(f"{np.mean(total_sales)}")
print(f"{np.median(total_sales)}")
print(f"{np.max(total_sales)}")
print(f"{np.min(total_sales)}")
print(f"{np.std(total_sales)}")
#sale nan porque sales tiene elementos nan, por tanto no se pueden calcular 
# estadísticas correctamente


nan
nan
nan
nan
nan


In [83]:
# Detectar si hay nan (missing values o valores faltantes):
# isnan = np.isnan(total_sales)
# isnan[isnan == True]

print(f"Hay NaN: {np.isnan(total_sales).any()}")
print(f"Hay Infinito: {np.isinf(total_sales).any()}")
print(f"Hay Infinito neg: {np.isneginf(total_sales).any()}")

Hay NaN: True
Hay Infinito: False
Hay Infinito neg: False


In [85]:
# Contar cuántos nan hay
len(total_sales[np.isnan(total_sales)])

123

In [88]:
# Reemplazar por 0 o -1
total_sales2 = np.nan_to_num(total_sales, nan=0)
print(f"{len(total_sales2)}")
print(f"{np.isnan(total_sales2).any()}") # False


16598
False


axis=0: La operación se realiza a lo largo de las filas. En otras palabras, si tienes un array bidimensional (una matriz), axis=0 indica que la operación se realizará de forma independiente para cada columna, lo que resultará en un valor por columna. Por ejemplo, np.nanmean(sales, axis=0) calculará la media de cada columna, ignorando los NaN.

axis=1: La operación se realiza a lo largo de las columnas. En un array bidimensional, axis=1 indica que la operación se realizará de forma independiente para cada fila, lo que resultará en un valor por fila. Por ejemplo, np.nanmean(sales, axis=1) calculará la media de cada fila, ignorando los NaN.

Si no especificas el argumento axis, la operación se realizará en todos los elementos del array, independientemente de su forma. Por ejemplo, np.nanmean(sales) calcularía la media de todos los elementos en sales, ignorando los NaN.

In [115]:
print(sales.shape)
print(np.isnan(sales).any()) # True significa que hay nulos

(16598, 4)
True


In [116]:
# Calcular la media de cada columna ignorando los NaN
mean_per_column = np.nanmean(sales, axis=0)

# Crear una máscara booleana de los NaN en el array
mask = np.isnan(sales) # Array de 4 columnas mask[:, 3]

# Usar la máscara para reemplazar los NaN con la media de la columna correspondiente
# shape: (16598, 4). shape[1] 
#           0    1
for i in range(sales.shape[1]): # 0, 1, 2, 3
    sales[mask[:, i], i] = mean_per_column[i]

In [117]:
print(sales.shape)
print(np.isnan(sales).any()) # False significa que no hay nan

(16598, 4)
False


In [118]:
# Calcular ventas totales
total_sales = np.sum(sales, axis=1)
total_sales

array([82.74, 40.24, 35.83, ...,  0.  ,  0.01,  0.01])

In [119]:
# estadísticas sobre total_sales
print(f"{np.mean(total_sales)}")
print(f"{np.median(total_sales)}")
print(f"{np.max(total_sales)}")
print(f"{np.min(total_sales)}")
print(f"{np.std(total_sales)}")
#sale nan porque sales tiene elementos nan, por tanto no se pueden calcular 
# estadísticas correctamente


1.2698508442537844
0.18
2008.2250012846616
0.0
38.18775137708344


In [145]:
# Identificar los 10 videojuegos más vendidos
total_sales = np.genfromtxt('../../data/vgsales.csv', 
              usecols=(10), dtype=float, skip_header=1, delimiter=',')

indices = np.argsort(total_sales)[::-1]
names[indices][:10]


array(['Wii Sports', 'Super Mario Bros.', 'Mario Kart Wii',
       'Wii Sports Resort', 'Pokemon Red/Pokemon Blue', 'Tetris',
       'New Super Mario Bros.', 'Wii Play', 'New Super Mario Bros. Wii',
       'Duck Hunt'], dtype='<U132')

In [170]:
# Calcular ventas totales por plataforma
platform = np.genfromtxt('../../data/vgsales.csv', 
              usecols=(2), dtype=str, skip_header=1, delimiter=';', encoding="utf-8")
platform = np.unique(platform)
platform

array([' Yourself"', '2600', '3DO', '3DS', 'Birth 2"', 'Birth 3"',
       'Child"', 'DC', 'DS', 'GB', 'GBA', 'GC', 'GEN', 'GG', 'Gate 0"',
       'Gate"', 'Gate: Hiyoku Renri no Darling"',
       'Gate: Senkei Kousoku no Phonogram"', 'Head - Love Chu*Chu!"',
       'Head Noah"', 'N64', 'NES', 'NG', 'Notes"', 'PC', 'PCFX', 'PS',
       'PS2', 'PS3', 'PS4', 'PSP', 'PSV', 'SAT', 'SCD', 'SNES', 'TG16',
       'WS', 'Wii', 'WiiU', 'X360', 'XB', 'XOne'], dtype='<U34')