<a href="https://colab.research.google.com/github/d-tomas/workshops/blob/main/20220317/notebooks/estadisticas_descriptivas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Estadísticas descriptivas

En este *notebook* vamos a repasar algunos de los conceptos sobre estadísticas descriptivas: tendencial central y dispersión. Utilizaremos la librería Pandas de Python para manipular fácilmente tablas de datos y sacar estas estadísticas.

## Pasos previos

In [None]:
# Importamos ls librería de Python que necesitaremos en este notebook

import pandas as pd  # Pandas permite manipular tablas a lo bestia

# Redondeamos las salidas a dos decimales
%precision %.2f

Vamos a trabajar con un conjunto de datos en formato CSV (valores separados por comas) que contiene estadísticas sobre ventas históricas de videojuegos. Cada fila contiene la siguiente información:

* `Rank`: ranking de ventas totales
* `Name`: nombre del videojuego
* `Platform`: plataforma en la que se publicó el juego (e.g. PC, PS4, ...)
* `Year`: año de publicación del juego
* `Genre`: género (e.g. acción, aventuras, ...)
* `Publisher`: compañía distribuidora
* `NA_Sales`: ventas en Norte América (en millones de copias)
* `EU_Sales`: ventas en Europa (en millones de copias)
* `JP_Sales`: ventas en Japón (en millones de copias)
* `Other_Sales`: ventas en el resto del mundo (en millones de copias)
* `Global_Sales`: ventas mundiales totales (en millones de copias)

In [None]:
# Cargamos los datos en un DataFrame de Pandas en la variable 'data'
# El ficheros tiene formato CSV

data = pd.read_csv('https://raw.githubusercontent.com/d-tomas/workshops/main/20220317/datasets/video_game_sales.csv')
data  # Al poner el nombre de la variable se muestra su contenido por pantalla

## Tendencia central

In [None]:
# Cuántos juegos hay de cada plataforma

data['Platform'].value_counts()

In [None]:
# Valor medio de número de copias de videojuegos vendidas a nivel mundial

data['Global_Sales'].mean() * 1000000  # Multiplicamos por 1 millón

In [None]:
# Mediana de las copias de videojuegos vendidas a nivel mundial
# Si ordenamos la lista de valores, la 'mediana' es el valor que queda justo en medio

data['Global_Sales'].median() * 1000000

In [None]:
# Moda de las copias de videojuegos vendidas a nivel mundial
# La 'moda' es el valor que más se repite

data['Global_Sales'].mode() * 1000000

## Dispersión

In [None]:
# Valor mínimo de cada columna

data.min()

In [None]:
# Juego con menos ventas globales
# Con 'argmin' podemos obtener el índice donde está el valor mínimo de una columna

data.iloc[data['Global_Sales'].argmin()]  # 'iloc' localiza un elemento por su índice

In [None]:
# Valor máximo de cada columna

data.max()

In [None]:
# Juego con más ventas en Europa
# Con 'argmax' podemos obtener el índice donde está el valor máximo de cada columna

data.iloc[data['EU_Sales'].argmax()]

In [None]:
# Rango intercuartílico (IQR) de ventas globales
# Nos indica la 'distancia' que hay enre el 50% de muestras que ocupan el centro de la distribución
# Quitamos el 25% que menos ventas tiene (Q1) y el 25% que más ventas tiene (Q4)

(data['Global_Sales'].quantile(0.75) - data['Global_Sales'].quantile(0.25)) * 1000000

In [None]:
# Desviación estándar de todas las columnas

data.std()

# Referencias

* [Video Game Sales](https://www.kaggle.com/gregorut/videogamesales)