<a href="https://colab.research.google.com/github/d-tomas/data-mining/blob/main/notebooks/data_mining_3.1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Visualización

## Pasos previos

In [None]:
# Instalamos la librería para visualizar diagramas de árbol

!pip install squarify

In [None]:
# Importamos las librerías de Python que necesitaremos en este notebook

import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
from wordcloud import WordCloud  # Para crear las nubes de palabras
import spacy  # Para análisis de texto
import squarify  # Para diagramas de árbol

spacy.cli.download('en_core_web_md')  # Para instalar el modelo de Spacy y hacer análisis de texto en inglés
sns.set_style('whitegrid')  # Pone una malla de fondo bastante mona para Seaborn. El tema por defecto es 'darkgrid'

Vamos a trabajar de nuevo con un conjunto de datos en formato CSV que contiene estadísticas sobre ventas históricas de videojuegos.

Cada fila contiene la siguiente información:

* `Rank`: ranking de ventas totales
* `Name`: nombre del videojuego
* `Platform`: plataforma en la que se publicó el juego (e.g. PC, PS4, ...)
* `Year`: año de publicación del juego
* `Genre`: género (e.g. acción, aventuras, ...)
* `Publisher`: compañía distribuidora
* `NA_Sales`: ventas en Norte América (en millones)
* `EU_Sales`: ventas en Europa (en millones)
* `JP_Sales`: ventas en Japón (en millones)
* `Other_Sales`: ventas en el resto del mundo (en millones)
* `Global_Sales`: ventas mundiales totales (en millones)

In [None]:
# Obtención de los ficheros CSV con los datos

!wget https://raw.githubusercontent.com/d-tomas/data-mining/main/datasets/video_game_sales.csv

In [None]:
# Cargamos los datos en formato CSV

data = pd.read_csv('video_game_sales.csv')
data

## Cuarteto de Anscombe

Antes de empezar a trabajar con los datos sobre venta de videojuegos, vamos a ver un ejemplo práctico de la importancia de la visualización en la interpretación de los datos.

In [None]:
# Descargamos los dos conjuntos de datos

!wget https://raw.githubusercontent.com/d-tomas/data-mining/main/datasets/anscombe_1.csv
!wget https://raw.githubusercontent.com/d-tomas/data-mining/main/datasets/anscombe_2.csv

In [None]:
# Creamos un DataFrame para cada uno de ellos

anscombe_1 = pd.read_csv('anscombe_1.csv')
anscombe_2 = pd.read_csv('anscombe_2.csv')

In [None]:
# Los mostramos a ver qué pinta tienen

anscombe_1

In [None]:
# Y el otro

anscombe_2

In [None]:
# Calculamos sus estadísticas básicas: media, desviación estándar y correlación

print('Dataset Anscombe 1')
print('Muestras: ' + str())
print('Media x: ' + '{:.3f}'.format(anscombe_1.mean()['x']))
print('Media y: ' + '{:.3f}'.format(anscombe_1.mean()['y']))
print('Desviación x: ' + '{:.3f}'.format(anscombe_1.std()['x']))
print('Desviación y: ' + '{:.3f}'.format(anscombe_1.std()['y']))
print('Correlación: ' + '{:.3f}'.format(anscombe_1.corr()['x']['y']))

In [None]:
# Lo mismo para el segundo dataset

print('Dataset Anscombe 2')
print('Media x: ' + '{:.3f}'.format(anscombe_2.mean()['x']))
print('Media y: ' + '{:.3f}'.format(anscombe_2.mean()['y']))
print('Desviación x: ' + '{:.3f}'.format(anscombe_2.std()['x']))
print('Desviación y: ' + '{:.3f}'.format(anscombe_2.std()['y']))
print('Correlación: ' + '{:.3f}'.format(anscombe_2.corr()['x']['y']))

In [None]:
# Visualizamos el primer dataset

sns.scatterplot(data=anscombe_1, x='x', y='y')
plt.show()

In [None]:
# Visualizamos el segundo dataset

sns.scatterplot(data=anscombe_2, x='x', y='y', color='green')
plt.show()

## Diagrama de barras

In [None]:
# ¿Qué año se vendieron más videojuegos?
# Se puede considerar 'Year' como un valor discreto, por lo que un diagrama de barras es adecuado

plt.figure(figsize=(14,7))
sns.countplot(x='Year', data=data)
plt.xticks(rotation=-45)  # Rotamos las etiquetas para que no se solapen
plt.show()

In [None]:
# Por cierto, los diagramas se pueden guardar en fichero

plt.figure(figsize=(14,7))
sns.countplot(x='Year', data=data)
plt.xticks(rotation=-45)  # Rotamos las etiquetas para que no se solapen
plt.savefig('grafico.png')  # Fichero de salida

In [None]:
# ¡Un diagrama de barras se puede ordenar!

plt.figure(figsize=(14, 7))
sns.countplot(x='Year', data=data, order=data['Year'].value_counts().index)
# Si además queremos quitar la molesta parte decimal de las etiquetas del eje x...
locs, labels = plt.xticks()
labels = [int(t) for t in data['Year'].value_counts().index]
plt.xticks(locs, labels, rotation=-45)
plt.show()


In [None]:
# Otro ejemplo: ¿qué plataforma tiene más juegos en este ranking?

plt.figure(figsize=(14,7))
sns.countplot(x='Platform', data=data, order=data['Platform'].value_counts().index)
plt.xticks(rotation=-45)
plt.show()

In [None]:
# Y ya que estamos, ¿qué género es el más popular?

plt.figure(figsize=(14,7))
sns.countplot(x='Genre', data=data, order=data['Genre'].value_counts().index)
plt.xticks(rotation=-45)
plt.show()

In [None]:
# Número de juegos por género en los tres años con más juegos publicados
# Podemos añadir una dimensión más a la visualización con el parámetro 'hue'

plt.figure(figsize=(14, 7))
sns.countplot(x='Year', data=data, hue='Genre', order=data['Year'].value_counts().iloc[:3].index)
plt.legend(bbox_to_anchor=(1.01, 1.01), loc=2)  # Para sacar la leyenda fuera del gráfico
plt.show()

In [None]:
# ¿Y qué compañía ha lanzado más juegos al mercado?
# Usamos 'barplot' en lugar de 'countplot' porque en 'publisher_counts' ya tenemos la cuenta hecha

publisher_counts = data['Publisher'].value_counts()[:20]  # Nos quedamos con los veinte primeros

plt.figure(figsize=(14,7))
sns.barplot(x=publisher_counts.index, y=publisher_counts.values)
plt.xticks(rotation=90)  # Rotamos las etiquetas para que no se solapen
plt.show()

In [None]:
# Lo realmente importantes: ¿qué compañía ha vendido más juegos todos estos años?
# Podemos usar 'barplot' de nuevo para eso

publisher_sales = data.groupby(by=['Publisher'])['Global_Sales'].sum()  # Agrupamos ventas por compañía
publisher_sales = publisher_sales.sort_values(ascending=False)[:20]  # Nos quedamos con el Top 20

plt.figure(figsize=(14, 7))
sns.barplot(x=publisher_sales.index, y=publisher_sales.values)
plt.xticks(rotation=90)
plt.show()

## Histograma

In [None]:
# ¿Qué año se vendieron más videojuegos?
# Los años se pueden considerar valores discretos, por lo que mejor un diagrama de barras que un histograma, pero bueno

plt.figure(figsize=(14,7))  # Fijamos el tamaño de la figura con Matplotlib
sns.histplot(x='Year', data=data)
plt.show()

In [None]:
# Podemos definir el conjunto de contenedores (bins) del eje x

plt.figure(figsize=(14,7))
sns.histplot(x='Year', data=data, bins=[x for x in range(1980,2020)])
plt.show()

In [None]:
# Podemos tener un gráfico apilado (multiple='stack') donde se distingan los juegos de cada género por año
# Otra opción interesante de visualización es multiple='fill'
# El parámetro 'hue' permite añadir una dimensión más al gráfico

plt.figure(figsize=(14, 7))
sns.histplot(x='Year', data=data, bins=[x for x in range(1980,2020)], hue='Genre', multiple='stack')
plt.show()

## Diagrama de densidad

In [None]:
# Podemos usar la estimación de densidad de kernel para obtener un gráfico más suavizado
# Ya no hay que preocuparse del número de contenedores (bins)

plt.figure(figsize=(14,7))
sns.kdeplot(data=data, x='Year')
plt.show()

In [None]:
# Podemos superponer el gráfico de densidad al histograma anterior
# Añadimos al 'histplot' el parámetro 'kde=True'

plt.figure(figsize=(14,7))
sns.histplot(x='Year', data=data, bins=[x for x in range(1980,2020)], kde=True)
plt.show()

## Diagrama de líneas

In [None]:
# Comparamos cómo evolucionan las ventas en los distintos países a lo largo de los años

year_sales = data[['Year', 'NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales']].groupby(by='Year').sum()

plt.figure(figsize=(14, 7))
sns.lineplot(data=year_sales)
plt.show()

In [None]:
# Podemos superponer el diagrama de líneas a un gráfico de barras para comparar diferentes dimensiones
# En este caso, comparamos el número de juegos publicados en un género (barras) con sus ventas (líneas)

# Diagrama de barras
genre_sales = data['Genre'].value_counts()
fig, ax = plt.subplots(figsize=(14,7))  # Vamos a superponer dos gráficas
sns.countplot(x='Genre', data=data, order=genre_sales.index)  # Ordenamos por mayor ventas
plt.xticks(rotation=-45)  # Rotamos las etiquetas para que no se solapen

# Diagrama de líneas
genre_sales2 = data.groupby(by=['Genre'])['Global_Sales'].sum()  # Agrupamos ventas por género
genre_sales2 = genre_sales2.sort_values(ascending=False)
genre_sales2 = genre_sales2.reindex(index = genre_sales.index)
ax.grid(False)  # Evitamos que se muestren dos mayas
ax.twinx()
sns.lineplot(x=genre_sales2.index, y=genre_sales2.values)
plt.xticks(rotation=-45)
plt.show()

## Diagrama de dispersión

In [None]:
# ¿Qué relación hay entre número de lanzamientos y las ventas globales?
# De nuevo, el argumento 'hue' de 'relplot' nos permite expresar una tercera dimensión mediante el color

combined = pd.concat([publisher_counts, publisher_sales], axis=1).dropna()

sns.relplot(x='count', y='Global_Sales', hue='Publisher', data=combined, height=7)
plt.show()

# También se puede usar 'lmplot' y 'scatterplot' para comparar variables numéricas
# Lo mismo con 'lmplot': sns.lmplot(x='count', y='Global_Sales', hue='Publisher', data=combined, height=7)
# Lo mismo con 'scatterplot': sns.scatterplot(x='count', y='Global_Sales', hue='Publisher', data=combined)

In [None]:
# ¿Qué relación hay entre ventas en Europa y Estados Unidos?

sns.relplot(x='EU_Sales', y='NA_Sales', hue='Genre', data=data, height=7)
plt.show()

In [None]:
# Si cambiamos los límites de los ejes, se ve mejor el mogollón

sns.relplot(x='EU_Sales', y='NA_Sales', hue='Genre', data=data, height=7)
plt.ylim(0, 2)  # Valores límite del eje y
plt.xlim(0, 2)
plt.show()

## Mapa de calor

In [None]:
# Ventas globales por plataforma

platform_sales = data[['Platform', 'Global_Sales', 'NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales']].groupby(by=['Platform']).sum()
platform_sales = platform_sales.sort_values(by='Global_Sales', ascending=False)[:10]  # Nos quedamos con el Top 10

plt.figure(figsize=(14, 10))
sns.heatmap(platform_sales, annot=True, fmt='.2f', linewidth=3, cmap='Blues')
plt.yticks(rotation=0)
plt.show()

In [None]:
# Calculamos la correlación entre ventas con 'corr'
# Usamos 'spearman' en lugar de 'pearson' para la correlación porque las variables no siguen una distribución normal

plt.figure(figsize=(14,10))
sns.heatmap(data[['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales']].corr('spearman'), annot=True, linewidth=3)
plt.show()

## Diagrama de caja

In [None]:
# Para cada año contamos cuántos juegos hay de cada género y creamos un nuevo DataFrame

data2 = pd.DataFrame(columns=data['Genre'].unique())
for column in data2:
  data2[column] = data[data['Genre'] == column].groupby(by=['Year']).count()['Rank']  # 'Rank' o cualquier otra
data2

In [None]:
# Mostramos la distribución de número de juegos por género a lo largo de los años

plt.figure(figsize=(15, 10))
sns.boxplot(data=data2)
plt.show()

In [None]:
# Resumen de cinco números de la distribución

data2.describe()

## Diagrama de enjambre

In [None]:
# Para el caso de número de juegos por plataforma y año no tenemos muchas muestras (40 por género, más o menos)
# El diagrama de enjambre permite ver cómo se distribuyen los puntos concretos en la gráfica
# Cada punto representa el número de juegos vendido uno de los años

plt.figure(figsize=(15, 10))
sns.swarmplot(data=data2)
plt.show()

In [None]:
# Podemos superponer el gráfico de enjambre sobre el diagrama de caja para ver mejor cómo se distribuyen los puntos

plt.figure(figsize=(15, 10))
sns.boxplot(data=data2)
sns.swarmplot(data=data2, color='black', alpha=0.7)  # Puntos negros y ligeramente transparentes
plt.show()

## Diagrama de violín

In [None]:
# Seguimos con la distribución de géneros a lo largo de los años

plt.figure(figsize=(15, 10))
sns.violinplot(data=data2)
plt.show()

In [None]:
# Podemos rizar el rizo combinando el diagrama de violín y el gráfico de enjambre

plt.figure(figsize=(15,10))
sns.violinplot(data=data2, inner=None)  # Ocultamos las barras dentro del gráfico
sns.swarmplot(data=data2, color='black', alpha=0.7)
plt.show()

## Diagrama de árbol

In [None]:
# Creamos un diagrama de árbol donde se vea la distribución de juegos por plataforma
# Limitamos a las 20 plataformas con más juegos, para no saturar el diagrama

games_platform = data['Platform'].value_counts()[:20]

plt.figure(figsize=(14,10))
squarify.plot(sizes=games_platform.values, label=games_platform.index, alpha=.8)
plt.axis('off')  # Ocultamos los valores de los ejes
plt.show()

## Nube de palabras

In [None]:
# Vamos a sacar todas las palabras individuales que aparecen en los nombres de los videojuegos
# La librería SpaCy nos va a ayudar a extraer las palabras

nlp = spacy.load('en_core_web_md')  # Cargamos el modelo en inglés para que Spacy use las herramientas lingüísticas de este idioma

list_words = [x.split() for x in data['Name'].values]  # Obtenemos todas las palabras individuales para cada nombre
list_words = ' '.join([word for sublist in list_words for word in sublist])  # Las juntamos todas en un único texto

corpus = nlp(list_words)  # Procesamos las palabras con SpaCy
tokens = [w.lower_ for w in corpus if (not w.is_space and not w.is_punct)]  # Eliminamos espacios en blanco y signos de puntuación
corpus = ' '.join(tokens)  # Ya tenemos la lista de palabras limpia

In [None]:
# Mostramos la nube de palabras en una imagen

wordcloud = WordCloud(width=800, height=800, background_color='white', min_font_size=10).generate(corpus)
plt.figure(figsize=(7, 7), facecolor=None)
plt.imshow(wordcloud)
plt.axis('off')
plt.tight_layout(pad=0)
plt.show()

# Referencias

* [Video Game Sales](https://www.kaggle.com/gregorut/videogamesales)
* [Pyplot tutorial](https://matplotlib.org/tutorials/introductory/pyplot.html)
* [Datasaurus](http://www.thefunctionalart.com/2016/08/download-datasaurus-never-trust-summary.html)