<a href="https://colab.research.google.com/github/d-tomas/data-mining/blob/main/notebooks/data_mining_2.4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Dispersión

Este *notebook* explora las medidas básicas de dispersión mediante *Pandas* sobre un conjunto de datos de ventas históricas de videojuegos. Explora estadísticas descriptivas básicas, incluyendo valores mínimos y máximos, rango, cuantiles y rango intercuartílico.

Además, el *notebook* utiliza métodos para discretizar datos continuos y calcular medidas de dispersión como la desviación media absoluta, la varianza y la desviación estándar para el conjunto de datos.

## Pasos previos

In [None]:
# Importamos las librerías de Python que necesitaremos en este notebook

import pandas as pd

Vamos a trabajar con un conjunto de datos en formato CSV que contiene estadísticas sobre ventas históricas de videojuegos.

Cada fila contiene la siguiente información:

* `Rank`: ranking de ventas totales
* `Name`: nombre del videojuego
* `Platform`: plataforma en la que se publicó el juego (e.g. PC, PS4, ...)
* `Year`: año de publicación del juego
* `Genre`: género (e.g. acción, aventuras, ...)
* `Publisher`: compañía distribuidora
* `NA_Sales`: ventas en Norte América (en millones)
* `EU_Sales`: ventas en Europa (en millones)
* `JP_Sales`: ventas en Japón (en millones)
* `Other_Sales`: ventas en el resto del mundo (en millones)
* `Global_Sales`: ventas mundiales totales (en millones)

In [None]:
# Obtención del fichero CSV con los datos

!wget https://raw.githubusercontent.com/d-tomas/data-mining/main/datasets/video_game_sales.csv

In [None]:
# Cargamos los datos en formato CSV

data = pd.read_csv('video_game_sales.csv')
data

## Medidas

In [None]:
# Valor mínimo

data.min()

In [None]:
# Con 'argmin' podemos obtener el índice donde está el valor mínimo de una serie
# La serie tiene que ser de valores numéricos

data.iloc[data['Global_Sales'].argmin()]  # Juego con menos ventas

In [None]:
# Con 'idxmin' podemos obtener los índices donde están los valores mínimos de un DataFrame
# Las columnas deben ser todas de tipo numérico

data.select_dtypes(exclude='object').idxmin()  # Nos quedamos solo con columnas numéricas

In [None]:
# Valor máximo

data.max()

In [None]:
# Con 'argmax' podemos obtener el índice donde está el valor máximo de una serie

data.iloc[data['Year'].argmax()]  # Juego más reciente

In [None]:
# Con 'idxmax' podemos obtener el índice donde están los valores máximos de un DataFrame

data.select_dtypes(exclude='object').idxmax()  # Nos quedamos solo con columnas numéricas

In [None]:
# Rango de años

data['Year'].max() - data['Year'].min()

In [None]:
# Rango de ventas en Europa

data['EU_Sales'].max() - data['EU_Sales'].min()

In [None]:
# Cuantiles

data.quantile([0.2, 0.4, 0.6, 0.8])  # Quintiles

In [None]:
# Rango intercuartílico de ventas globales

data['Global_Sales'].quantile(0.75) - data['Global_Sales'].quantile(0.25)

In [None]:
# Podemos definir intervalos para discretizar datos continuos

bins = [0, 30, 60, 90]
pd.cut(data['Global_Sales'], bins)

In [None]:
# Se pueden asignar etiquetas a cada uno de los intervalos

sale_intervals = pd.cut(data['Global_Sales'], bins, labels=['Low', 'Medium', 'High'])
sale_intervals

In [None]:
# Cuántos entran en cada categoría

sale_intervals.value_counts()

In [None]:
# Podemos decirle que nos calcule intervalos del mismo tamaño

sale_intervals = pd.cut(data['Global_Sales'], 5, precision=2)  # Calcula 5 intervalos con una precisión de 2 decimales
sale_intervals

In [None]:
# Seguimos teniendo intervalos con un número de muestra muy dispar

sale_intervals.value_counts()

In [None]:
# Podemos usar 'qcut' si queremos tener (aproximadamente) las mismas muestras en cada intervalo

sale_intervals = pd.qcut(data['Global_Sales'], 5, precision=2)
sale_intervals

In [None]:
# Ahora la distribución es más similar

sale_intervals.value_counts()

In [None]:
# Desviación media (Mean Absolute Deviation)
# Distancia promedio entre cada punto y la media

data.mad()

In [None]:
# Varianza

data.var()

In [None]:
# Desviación estándar

data.std()

# Referencias

* [Video Game Sales](https://www.kaggle.com/gregorut/videogamesales)
* "*Python for Data Analysis*", Wes McKinney (2017)
* "*Data Mining: Concepts and Techniques*", Jiawei Han et al. (2011)