<a href="https://colab.research.google.com/github/d-tomas/data-mining/blob/main/notebooks/data_mining_2.3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tendencia central

Este *notebook* explora las medidas de tendencia central utilizando un conjunto de datos de ventas de videojuegos. Utilizando las librerías *Pandas* y *Scipy*, muestra cómo cargar un conjunto de datos que contiene información sobre videojuegos y calcular varias estadísticas descriptivas, incluyendo la media, mediana, moda y el coeficiente de asimetría.

Además, muestra cómo manejar los valores ausentes en los datos, como en el caso del cálculo del coeficiente de asimetría para la distribución de juegos por años.

## Pasos previos

In [None]:
# Importamos las librerías de Python que necesitaremos en este notebook

import pandas as pd
from scipy import stats

Vamos a trabajar con un conjunto de datos en formato CSV que contiene estadísticas sobre ventas históricas de videojuegos.

Cada fila contiene la siguiente información:

* `Rank`: ranking de ventas totales
* `Name`: nombre del videojuego
* `Platform`: plataforma en la que se publicó el juego (e.g. PC, PS4, ...)
* `Year`: año de publicación del juego
* `Genre`: género (e.g. acción, aventuras, ...)
* `Publisher`: compañía distribuidora
* `NA_Sales`: ventas en Norte América (en millones)
* `EU_Sales`: ventas en Europa (en millones)
* `JP_Sales`: ventas en Japón (en millones)
* `Other_Sales`: ventas en el resto del mundo (en millones)
* `Global_Sales`: ventas mundiales totales (en millones)

In [None]:
# Obtención del fichero CSV con los datos

!wget https://raw.githubusercontent.com/d-tomas/data-mining/main/datasets/video_game_sales.csv

In [None]:
# Cargamos los datos en formato CSV

data = pd.read_csv('video_game_sales.csv')
data

## Medidas

In [None]:
# Número de valores de cada columna (sin contar ausentes)

data.count()

In [None]:
# Suma total de valores de un DataFrame, por columna
# Nos quedamos solo con columnas numéricas

numeric_data = data.select_dtypes(include=['number'])
numeric_data.sum()

In [None]:
# Media de cada columna

numeric_data.mean()

In [None]:
# Media truncada de las ventas globales

stats.trim_mean(data['Global_Sales'], proportiontocut=0.02)  # Eliminamos el 2% de valores más extremos

In [None]:
# Mediana

numeric_data.median()

In [None]:
# Moda

data.drop('Rank', axis=1).mode()  # Eliminamos la columna 'Ranking' porque no tiene sentido calcular su moda (no se repite nunca)

In [None]:
# ¿Qué coeficiente de asimetría tiene el conjunto de ventas globales?

stats.skew(data['Global_Sales'])

In [None]:
# ¿Y la distribución de juegos por años?

stats.skew(data['Year'].dropna())  # Eliminamos valores ausentes

# Referencias

* [Video Game Sales](https://www.kaggle.com/gregorut/videogamesales)
* "*Python for Data Analysis*", Wes McKinney (2017)
* "*Data Mining: Concepts and Techniques*", Jiawei Han et al. (2011)