<a href="https://colab.research.google.com/github/d-tomas/data-mining/blob/main/notebooks/data_mining_2.2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Limpieza y preparación de los datos

Este *notebook* explora un conjunto de datos de ventas históricas de videojuegos, que abarca varias plataformas, géneros y editores. El objetivo es poner en práctica las operaciones fundamentales de la librería *Pandas*.

Empezaremos con la carga y la limpieza de los datos, mostrando cómo manejar valores faltantes y duplicados. Luego, profundizaremos en el análisis descriptivo de los datos utilizando varias funciones de *Pandas* para obtener información sobre la distribución de los datos, las tendencias centrales y otras estadísticas. Además, estos ejemplos representan cómo realizar operaciones y manipulaciones en los datos, incluyendo filtrado, agrupación y transformación de datos.

## Pasos previos

In [None]:
# Importamos las librerías de Python que necesitaremos en este notebook

import pandas as pd

Vamos a trabajar con un conjunto de datos en formato CSV que contiene estadísticas sobre ventas históricas de videojuegos.

Cada fila contiene la siguiente información:

* `Rank`: ranking de ventas totales
* `Name`: nombre del videojuego
* `Platform`: plataforma en la que se publicó el juego (e.g. PC, PS4, ...)
* `Year`: año de publicación del juego
* `Genre`: género (e.g. acción, aventuras, ...)
* `Publisher`: compañía distribuidora
* `NA_Sales`: ventas en Norte América (en millones)
* `EU_Sales`: ventas en Europa (en millones)
* `JP_Sales`: ventas en Japón (en millones)
* `Other_Sales`: ventas en el resto del mundo (en millones)
* `Global_Sales`: ventas mundiales totales (en millones)

In [None]:
# Obtención del fichero CSV con los datos

!wget https://raw.githubusercontent.com/d-tomas/data-mining/main/datasets/video_game_sales.csv

## Lectura y escritura de datos

In [None]:
# Cargamos los datos en formato CSV
# Se podría también pasar directamente la URL del dataset a 'read_csv'

data = pd.read_csv('video_game_sales.csv')
data  # Para mostrar los datos y ver qué pinta tienen

In [None]:
# El método 'read_csv' cuenta con unos cuantos parámetros adicionales
# Si no asignamos la salida a una variable se pierde

pd.read_csv('video_game_sales.csv', header=None)  # No usar la primera línea como cabecera

In [None]:
# Usar una columna del fichero CSV como índice
# También se puede usar el número de columna. Ej. "index_col=0"

pd.read_csv('video_game_sales.csv', index_col='Rank')

In [None]:
# Incluir nuestros propios nombres de columnas

pd.read_csv('video_game_sales.csv', skiprows=1,
            names=['Posición', 'Nombre', 'Plataforma', 'Año', 'Género', 'Distribuidora',
                   'Ventas NA', 'Ventas EU', 'Ventas JP', 'Ventas Otros', 'Ventas Globales'])

In [None]:
# Leer solo una parte del fichero (útil para ficheros grandes)

pd.read_csv('video_game_sales.csv', nrows=7)

Hay muchas otras funciones de parsing en Pandas. Algunas de las más populares son:

* `read_table`: lee datos con columnas delimitadas, usando el tabulador (`\t`) como carácter separador por defecto
* `read_fwf`: lee datos separados por columnas de anchura fija (sin delimitadores)
* `read_excel`: lee datos tabulares de ficheros Excel (XLS or XLSX)
* `read_hdf`: lee ficheros en formato HDF5
* `read_html`: lee las tablas de un documento HTML
* `read_json`: lee datos en formato JSON
* `read_sql`: lee los resultados de una consulta SQL

In [None]:
# También se pueden escribir los datos en fichero
# Podemos indicar el carácter separador, el subconjunto de columnas, si queremos índice o no,...

data[:25].to_csv('subset.csv', sep='|', columns=['Name','Year'], index=False)
!cat subset.csv

## Descripción de los datos

In [None]:
# El método 'info' muestra un resumen del DataFrame

data.info()

In [None]:
# El método 'describe' genera estadísticas descriptivas: tendencia central, dispersión y forma de la distribución
# No tiene en cuenta los valores NaN en los cálculos

data.describe()

In [None]:
# Se puede incluir en la descripción solo aquellas columnas de un determinado tipo

data.describe(include=['object'])

In [None]:
# Descripción de los datos de una columna (serie)

genre = data['Genre']  # Vamos a trastear con la columna 'Genre'
genre.describe()

In [None]:
# Número de veces se repite cada valor de la serie

genre.value_counts()

In [None]:
# Podemos ordenar por el índice (en este caso, cada uno de los géneros)

genre.value_counts().sort_index()

In [None]:
# Y también podemos ordenar por los valores

genre.value_counts().sort_values(ascending=True)

In [None]:
# Valores únicos de una serie

genre.unique()

## Operaciones sobre Series

In [None]:
# Reemplazar valores de la serie

genre = genre.replace('Role-Playing', 'RPG')
genre.unique()

In [None]:
# Podemos aplicar operaciones simultáneas a todos los elementos de la serie

global_sales = data['Global_Sales']  # Nos quedamos con la columna de ventas globales
global_sales.describe()

In [None]:
# Multiplicamos todas las ventas por 1 millón

global_sales = global_sales * 1000000
global_sales.describe()

In [None]:
# Si queremos ver la salida con un formato más amigable para los humanos

pd.set_option('float_format', '{:.2f}'.format)
global_sales.describe()

In [None]:
# También podemos aplicar operaciones a datos textuales, como concatenar una cadena

genre = 'Cat_' + genre
genre.unique()

In [None]:
# También hay funciones de cadenas para series
# Si no asignamos la salida a una variable se pierde

genre.str.split('_').str[-1]  # Podemos quitar el 'Cat_' que hemos añadido antes

In [None]:
# Podemos pasar todos los valores a minúsculas

genre.str.lower()

Algunos otros métodos útiles para la manipulación de cadenas son:

* `count`: devuelve el número de ocurrencias de una subcadena dentro de una cadena
* `endswith`: devuelve `True` si la cadena acaba con el sufijo indicado
* `startswith`: devuelve `True` si la cadena empieza con el prefijo indicaco
* `join`: usa una cadena como delimitador para unir un conjunto de cadenas
* `find`: devuelve la posición del primer carácter de la primera ocurrencia de una subcadena dentro de una cadena
* `rfind`: como `find` pero empezando por el final de la cadena
* `replace`: sustituye la ocurrencia de una cadena con otra
* `strip`: elimina espacios en blanco (y saltos de línea) antes y después de cadena
* `upper`: convierte los caracteres de la cadena a mayúsculas

In [None]:
# Las series se alinéan por índice en las operaciones aritméticas

data['NA_Sales'] + data['EU_Sales']

## Filtrado

In [None]:
# Podemos quedarnos solo con las columnas de un determinado tipo
# También podemos excluir las que no queramos con 'exclude'
# Si no asignamos el resultado a una variable se pierde

data.select_dtypes(include=['int64', 'float64'])  # Nos quedamos solo con columnas numéricas

In [None]:
# Podemos sacar una serie booleana mediante comparaciones

oldies = data['Year'] < 1990
oldies

In [None]:
# Cuántos cumplen la condición

oldies.sum()

In [None]:
# Podemos usar una serie booleana para filtrar valores de otra serie

oldies_data = data[oldies]  # Solo se quedará con las filas que estén a True en 'oldies'
oldies_data.head(10)

In [None]:
# Ventas globales solo de los videojuegos más antiguos

global_sales[oldies].describe()

In [None]:
# Podemos quedarnos fácilmente solo con los más recientes, negando la serie anterior

global_sales[~oldies].describe()  # Ventas de los más nuevos

In [None]:
# Se puede usar 'drop' para eliminar filas a partir de una lista de índices

data.drop(data[data['Year'] < 2012].index)  # Eliminamos todos los juegos anteriores a 2012

## Valores ausentes

In [None]:
# Cuántos datos ausentes hay en una columna

data['Year'].isna().sum()  # También me vale: pd.isna(data['Year']).sum()

In [None]:
# A la inversa, podemos ver cuántos datos no son nulos

data['Year'].notna().sum()

In [None]:
# Y mejor aún, de una tacada para toda la tabla...

data.isna().sum()

In [None]:
# Podemos usar operadores booleanos para ver las filas que tienen tanto 'Year' como 'Publisher' vacíos

condition = data['Year'].isna() & data['Publisher'].isna()  # Hacemos un AND
data[condition]

In [None]:
# Hacemos lo mismo pero para ver aquellos que tienen alguno de los dos valores vacíos

condition = data['Year'].isna() | data['Publisher'].isna()  # Hacemos un OR
data[condition]

In [None]:
# Se pueden eliminar fácilmente las filas que contengan algún valor vacío
# Si no asignamos la salida a una variable se pierde
# Muchos métodos de Pandas admiten el parámetro "inplace=True" para que los cambios se guarden

data.dropna()

In [None]:
# Alternativamente, podemos eliminar las columnas que tengan algún valor vacío

data.dropna(axis=1)

In [None]:
# Eliminar solo en caso de que toda la fila (o columna) sea NaN

data.dropna(how='all')

## Eliminar duplicados

In [None]:
# Obtener una serie booleana identidicando duplicados

data.duplicated().sum()

In [None]:
# Duplicados teniendo en cuenta algunas de las columnas

data.duplicated(['Name', 'Year', 'Platform']).sum()

In [None]:
# Podemos usar 'drop_duplicates' para eliminar duplicados

data.drop_duplicates(['Name', 'Year', 'Platform'])  # Si no ponemos nada mira todas las columnas

# Referencias

* [Video Game Sales](https://www.kaggle.com/gregorut/videogamesales)
* [Working with missing data](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html)