## Análisis de datos de ventas de videojuegos utilizando NumPy

https://www.kaggle.com/gregorut/videogamesales

 El objetivo de este caso práctico es analizar un conjunto de datos de ventas de videojuegos utilizando NumPy para calcular estadísticas básicas, identificar tendencias y detectar patrones.



Rank - Ranking of overall sales

Name - The games name

Platform - Platform of the games release (i.e. PC,PS4, etc.)

Year - Year of the game's release

Genre - Genre of the game

Publisher - Publisher of the game

NA_Sales - Sales in North America (in millions)

EU_Sales - Sales in Europe (in millions)

JP_Sales - Sales in Japan (in millions)

Other_Sales - Sales in the rest of the world (in millions)

Global_Sales - Total worldwide sales.


* cargar el archivo csv
* Calcular ventas totales
* Estadísticas básicas sobre ventas totales
* Calcular ventas totales por plataforma y género
* Ventas totales por año
* Año con mayores ventas

In [1]:
import numpy as np

In [2]:
names = np.genfromtxt('../../data/vgsales.csv', 
              usecols=(1), dtype=str, skip_header=1, delimiter=',')
names.shape

(16598,)

In [3]:
platform = np.genfromtxt('../../data/vgsales.csv', 
              usecols=(2), dtype=str, skip_header=1, 
              delimiter=',')
platform.shape

ValueError: Some errors were detected !
    Line #3552 (got 2 columns instead of 1)
    Line #8988 (got 2 columns instead of 1)
    Line #10381 (got 2 columns instead of 1)
    Line #14590 (got 2 columns instead of 1)
    Line #15808 (got 2 columns instead of 1)
    Line #16109 (got 2 columns instead of 1)
    Line #16163 (got 2 columns instead of 1)
    Line #16469 (got 2 columns instead of 1)

In [None]:
year = np.genfromtxt('../../data/vgsales.csv', 
              usecols=(3), dtype=int, skip_header=1, delimiter=',')
year.shape

In [None]:
genres = np.genfromtxt('../../data/vgsales.csv', 
              usecols=(4), dtype=str, skip_header=1, delimiter=',')
genres.shape

In [None]:
publishers = np.genfromtxt('../../data/vgsales.csv', 
              usecols=(5), dtype=str, skip_header=1, delimiter=',')
publishers.shape

In [None]:
# NA_Sales,EU_Sales,JP_Sales,Other_Sales
sales = np.genfromtxt('../../data/vgsales.csv', 
              usecols=(6, 7, 8, 9), dtype=float, skip_header=1, delimiter=',')
sales.shape

In [None]:
np.set_printoptions(suppress=True)
sales

In [None]:
# Calcular ventas totales
total_sales = np.sum(sales, axis=1)
total_sales

In [None]:
# estadísticas sobre total_sales
print(f"{np.mean(total_sales)}")
print(f"{np.median(total_sales)}")
print(f"{np.max(total_sales)}")
print(f"{np.min(total_sales)}")
print(f"{np.std(total_sales)}")
#sale nan porque sales tiene elementos nan, por tanto no se pueden calcular 
# estadísticas correctamente


In [None]:
# Detectar si hay nan (missing values o valores faltantes):
# isnan = np.isnan(total_sales)
# isnan[isnan == True]

print(f"Hay NaN: {np.isnan(total_sales).any()}")
print(f"Hay Infinito: {np.isinf(total_sales).any()}")
print(f"Hay Infinito neg: {np.isneginf(total_sales).any()}")

In [None]:
# Contar cuántos nan hay
len(total_sales[np.isnan(total_sales)])

In [None]:
# Reemplazar por 0 o -1
total_sales2 = np.nan_to_num(total_sales, nan=0)
print(f"{len(total_sales2)}")
print(f"{np.isnan(total_sales2).any()}") # False


axis=0: La operación se realiza a lo largo de las filas. En otras palabras, si tienes un array bidimensional (una matriz), axis=0 indica que la operación se realizará de forma independiente para cada columna, lo que resultará en un valor por columna. Por ejemplo, np.nanmean(sales, axis=0) calculará la media de cada columna, ignorando los NaN.

axis=1: La operación se realiza a lo largo de las columnas. En un array bidimensional, axis=1 indica que la operación se realizará de forma independiente para cada fila, lo que resultará en un valor por fila. Por ejemplo, np.nanmean(sales, axis=1) calculará la media de cada fila, ignorando los NaN.

Si no especificas el argumento axis, la operación se realizará en todos los elementos del array, independientemente de su forma. Por ejemplo, np.nanmean(sales) calcularía la media de todos los elementos en sales, ignorando los NaN.

In [None]:
print(sales.shape)
print(np.isnan(sales).any()) # True significa que hay nulos

In [None]:
# Calcular la media de cada columna ignorando los NaN
mean_per_column = np.nanmean(sales, axis=0)

# Crear una máscara booleana de los NaN en el array
mask = np.isnan(sales) # Array de 4 columnas mask[:, 3]

# Usar la máscara para reemplazar los NaN con la media de la columna correspondiente
# shape: (16598, 4). shape[1] 
#           0    1
for i in range(sales.shape[1]): # 0, 1, 2, 3
    sales[mask[:, i], i] = mean_per_column[i]

In [None]:
print(sales.shape)
print(np.isnan(sales).any()) # False significa que no hay nan

In [None]:
# Calcular ventas totales
total_sales = np.sum(sales, axis=1)
total_sales

In [None]:
# estadísticas sobre total_sales
print(f"{np.mean(total_sales)}")
print(f"{np.median(total_sales)}")
print(f"{np.max(total_sales)}")
print(f"{np.min(total_sales)}")
print(f"{np.std(total_sales)}")
#sale nan porque sales tiene elementos nan, por tanto no se pueden calcular 
# estadísticas correctamente


In [None]:
# Identificar los 10 videojuegos más vendidos
total_sales = np.genfromtxt('../../data/vgsales.csv', 
              usecols=(10), dtype=float, skip_header=1, delimiter=',')

indices = np.argsort(total_sales)[::-1]
names[indices][:10]


In [None]:
# Calcular ventas totales por plataforma
platform = np.genfromtxt('../../data/vgsales.csv', 
              usecols=(2), dtype=str, skip_header=1, delimiter=';', encoding="utf-8")
platform = np.unique(platform)
platform