# Limpieza base de datos #

Saludos. El dia de hoy haremos la limpieza de la base de datos llamada "Video Game Sales" proveniente de Kaggle, una plataforma que permite acceder a diferentes datasets. En esta se analizan los datos de venta de mas de 16,500 videojuegos. Contiene la lista de los videojuegos con ventas mayores a 100,000. A continuacion una descripcion breve de cada columna:

1.-Rank: Ranking en base a las ventas totales

2.-Name: Nombre del videojuego

3.-Platform: Plataforma en la cual se lanzo el videojuego

4.-Year: Año en el que se lanzo el videojuego

5.-Genre: Genero del videojuego

6.-Publisher: Publisher del videojuego

7.-NA_Sales: Ventas en Norteamerica (en millones)

8.-EU_Sales: Ventas en europa (en millones)

9.-JP_Sales: Ventas en japon (en millones)

10.-Other_Sales: Ventas en el resto del mundo (en millones)

11.-Global_Sales: Ventas mundiales totales

Se narrara mediante markdowns y comentarios el proceso de limpieza de cada una de las columnas.

# Vistazos iniciales #

Antes de comenzar a limpiar, empezaremos por lo basico: importar nuestras librerias, nuestra base de datos y ver con cuantos datos totales contamos

In [48]:
# Importamos nuestras librerias
import pandas as pd 
import numpy as np

#Importamos nuestra base de datos
df = pd.read_csv("df_sucio.csv")
df

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,,Wii,2006.0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.75,11.01,3.28,2.96,33.00
4,5,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.00,31.37
...,...,...,...,...,...,...,...,...,...,...,...
19580,,MotoGP 07,PS2,2007.0,Racing,Capcom,0.05,0.04,0.00,0.01,0.10
19581,12130,Secret Service: Ultimate Sacrifice,PS2,2008.0,,Activision,0.03,0.03,0.00,0.01,0.07
19582,5887,Monster Truck Madness 64,N64,1999.0,Racing,Take-Two Interactive,0.24,0.06,,0.00,0.30
19583,10408,,PSV,2014.0,Role-Playing,Ubisoft,0.00,0.07,0.02,0.02,0.11


Ahora que tenemos nuestra base de datos, observamosla cantidad de datos con la que contamos, el tipo de dato de cada columna y con cuantos datos nulos contamos en cada una de nuestras columnas siendo estos nuestra mayor prioridad para, posteriormente, comenzar con la limpieza

In [None]:
#Verificar cuantos datos tenemos
df.shape

(19585, 11)

In [None]:
#Verificamos cuantos datos nulos tenemos en cada columna
df.isnull().sum()

Rank            587
Name            587
Platform        587
Year            898
Genre           587
Publisher       654
NA_Sales        587
EU_Sales        587
JP_Sales        587
Other_Sales     587
Global_Sales    970
dtype: int64

In [None]:
#Verificamos cuales son los tipos de datos de cada columna
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19585 entries, 0 to 19584
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Rank          18998 non-null  object 
 1   Name          18998 non-null  object 
 2   Platform      18998 non-null  object 
 3   Year          18687 non-null  object 
 4   Genre         18998 non-null  object 
 5   Publisher     18931 non-null  object 
 6   NA_Sales      18998 non-null  float64
 7   EU_Sales      18998 non-null  float64
 8   JP_Sales      18998 non-null  float64
 9   Other_Sales   18998 non-null  float64
 10  Global_Sales  18615 non-null  float64
dtypes: float64(5), object(6)
memory usage: 1.6+ MB


# Limpieza incial #

Antes de comenzar con la limpieza de la base de datos por columna, aplicaremos un comando bastante general para deshacernos de datos innecesarios en momentos tempranos. 
Hablo del comando drop_duplicates(), el cual se deshara de todos los datos duplicados con los cuales contemos en la base de datos.

In [49]:
df = df.drop_duplicates()
df

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,,Wii,2006.0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.75,11.01,3.28,2.96,33.00
4,5,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.00,31.37
...,...,...,...,...,...,...,...,...,...,...,...
19580,,MotoGP 07,PS2,2007.0,Racing,Capcom,0.05,0.04,0.00,0.01,0.10
19581,12130,Secret Service: Ultimate Sacrifice,PS2,2008.0,,Activision,0.03,0.03,0.00,0.01,0.07
19582,5887,Monster Truck Madness 64,N64,1999.0,Racing,Take-Two Interactive,0.24,0.06,,0.00,0.30
19583,10408,,PSV,2014.0,Role-Playing,Ubisoft,0.00,0.07,0.02,0.02,0.11


In [14]:
df.shape

(18301, 11)

De esta forma podemos observar como pasamos de 19,585 datos a 18,301. Es decir, nos deshicimos de 1284 datos duplicados

----------------------------------------------------------------------------------------------------------------------------------------

# Limpieza columna "Rank" #

Para empezar con la limpieza de la columna rank nos encontramos con un problema bastante obvio, y es que esta definido como una columna de tipo "object" cuando deberia ser "int", esto debido a que en esta columna 
se clasifican los juegos del mayor al menor en ventas. 

Si bien podriamos cambiar el tipo de dato de esta columna, al ser esta misma practicamente irrelevante para nuestro analisis, optaremos por ignorar ese detalle y procederemos directamente con la limpieza

Como se menciono anteriormente esta columna no es vital para nuestro analisis, lo que significa que el registro no pierde valor aunque no cuente con este dato, ademas de que en caso de necesitarlo, este se podria inferir facilmente por medio de sus ventas globales.

Entonces para limpiar esta columna de datos nulos e invalidos, se opto por convertir los datos invalidos a datos nulos (NaN) para posteriormente rellenarlos con el numero 0

In [None]:
# 1.- Verificar los datos invalidos con los que se cuentan
df["Rank"].value_counts()

Rank
Auto%#    381
11937       3
12869       3
10521       3
9250        3
         ... 
8213        1
11938       1
28          1
11          1
10          1
Name: count, Length: 15916, dtype: int64

In [50]:
#2.- Una vez identificados los datos invalidos con los que se cuentan, procedemos a reemplazarlos por datos nulos
df["Rank"] = df["Rank"].replace("Auto%#", np.nan)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["Rank"] = df["Rank"].replace("Auto%#", np.nan)


In [51]:
#3.- Una vez sin datos invalidos, procedemos a rellenar los datos NaN con el numero 0
df["Rank"] = df["Rank"].fillna(0)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["Rank"] = df["Rank"].fillna(0)


In [52]:
#4.- Finalmente, procedemos a verificar que ya no contamos con ningun dato nulo
df["Rank"].isnull().sum()

np.int64(0)

-------------------------------------------------------------------------------------

# Limpieza columna "Name" #

La limpieza de esta columna resulta bastante sencilla en cuanto a los datos nulos e invalidos, ya que esta columna es VITAL para el analisis. Por lo tanto, si un registro cuenta con un dato NaN o invalido

en esta columna, automaticamente pierde todo el valor. Por lo tanto se tomo la desicion de dropear estos registros

In [None]:
#identificamos datos invalidos
df["Name"].unique()

array(['Super Mario Bros.', 'Mario Kart Wii', 'Wii Sports Resort', ...,
       'Doom 64', 'The Sims 2: Nightlife',
       'Naruto Shippuden: Ninja Destiny 2'], shape=(10449,), dtype=object)

In [94]:
#1.- Una vez identificados los datos invalidos con los que se cuentan, procedemos a reemplazarlos por datos nulos
df["Name"] = df["Name"].replace("Auto%#", np.nan)

In [95]:
#2.- Dropeamos los datos NaN
df = df.dropna(subset=['Name'])

In [None]:
#3.- Comprobamos que ya no contamos con datos nulos
df["Name"].isnull().sum()

np.int64(0)

-------------------------------------------------------

# Limpieza columnas de ventas #

Al todas contener un mismo tipo de datos las englobare todas en una sola seccion

Para la limpieza y posterior recuperacion de la mayor cantidad de datos posibles se hara lo siguiente:

La columna global sales se basa en la suma de las demas columnas de ventas, por lo tanto, podemos calcular facilmente cualquier dato faltante en alguna de estas columnas SIEMPRE Y CUANDO no se cuente con mas de un dato nan. Entonces lo que se hara a continuacion sera eso mismo: filtrar para quedarnos solamente con los registros que cuentan solamente con 1 o ningun dato nulo en estas columnas, para posteriormente calcularos y rellenarlos.

In [54]:
# 1.- Crear una lista con las columnas de ventas
columnas_ventas = ['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales']

In [55]:
#2.- Creamos una columna que contara cuantos datos NaN tiene un registro en las columnas de ventas
df["NaN_Counts"] = df[columnas_ventas].isna().sum(axis=1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["NaN_Counts"] = df[columnas_ventas].isna().sum(axis=1)


In [56]:
#3.- Ahora conservamos solo los registros que contengan 1 o menos datos NaN en las columnas de ventas
df = df[df['NaN_Counts'] <= 1]

In [57]:
#4.- Nos deshacemos de la columna que nos auxilio
df = df.drop(columns="NaN_Counts")

Una vez que ya solamente nos quedamos con los registros de ventas de los cuales podemos calcular cualquiera de sus columnas en caso de tener datos NaN, procedemos a calcularlos.

### Relleno de datos NaN en columnas de ventas ###

In [58]:
#1.- Crear una lista con los registros NaN de global sales
global_nan = df["Global_Sales"].isna()

In [59]:
#2.- Tomamos los registros nulos con .loc y aplicamos la formula
#(Se añade .loc a cada uno de los registros a sumarse para aegurarnos que solo se sumen los registros de una misma fila)
df.loc[global_nan, "Global_Sales"] = (
    df.loc[global_nan, 'EU_Sales'] +
    df.loc[global_nan, 'JP_Sales'] +
    df.loc[global_nan, 'NA_Sales'] +
    df.loc[global_nan, 'Other_Sales']
)


In [60]:
#3.- Procedemos a hacer lo mismo  con el resto de las columnas de ventas
eu_nan = df["EU_Sales"].isna()

df.loc[eu_nan, "EU_Sales"] = (
    df.loc[eu_nan, "Global_Sales"]-
    df.loc[eu_nan,"Other_Sales"]-
    df.loc[eu_nan,"JP_Sales"]-
    df.loc[eu_nan, "NA_Sales"]
)

In [61]:
jp_nan = df["JP_Sales"].isna()

df.loc[jp_nan, "JP_Sales"] = (
    df.loc[jp_nan, "Global_Sales"]-
    df.loc[jp_nan,"Other_Sales"]-
    df.loc[jp_nan,"EU_Sales"]-
    df.loc[jp_nan, "NA_Sales"]
)

In [62]:
na_nan = df["NA_Sales"].isna()

df.loc[na_nan, "NA_Sales"] = (
    df.loc[na_nan, "Global_Sales"]-
    df.loc[na_nan,"Other_Sales"]-
    df.loc[na_nan,"EU_Sales"]-
    df.loc[na_nan, "JP_Sales"]
)

In [63]:
other_nan = df["Other_Sales"].isna()

df.loc[other_nan, "Other_Sales"] = (
    df.loc[other_nan, "Global_Sales"]-
    df.loc[other_nan,"NA_Sales"]-
    df.loc[other_nan,"EU_Sales"]-
    df.loc[other_nan, "JP_Sales"]
)

In [74]:
#Ahora corroboramos que ya no tenemos datos nulos
df.isnull().sum()

Rank              0
Name              0
Platform        563
Year            848
Genre           570
Publisher       622
NA_Sales          0
EU_Sales          0
JP_Sales          0
Other_Sales       0
Global_Sales      0
dtype: int64

---------------------------------------

# Limpieza columna "Genre" #

La limpieza de esta columna en particular es complicada, ya que no podemos imputar manualmente tantos datos nulos. Entonces lo que se intento hacer fue lo siguiente:

Hay videojuegos que aparecen varias veces pero fueron lanzados en plataformas diferentes. Sin embargo, datos como el publisher o el genero son el mismo, entonces lo que se intento fue rellenar
columnas de juegos que ya estaban repetidos para asi de esa manera no perder tantos registros. A pesar de eso, no todos los juegos cuentan con datos repetidos, por lo tanto los videojuegos de los cuales no se pudo recuperar el genero, fueron dropeados.

In [75]:
df['Genre'] = df.groupby('Name')['Genre'].transform(lambda x: x.fillna(method='ffill').fillna(method='bfill'))
#df.groupby('Name')['Genre']: agrupa los registros por el nombre del juego.
#.transform: aplica una función y devuelve un resultado alineado con el DataFrame original.
#fillna(method='ffill') y fillna(method='bfill'):Rellenan los NaN con valores válidos del mismo grupo (mismo juego), tanto hacia adelante como hacia atrás.

  df['Genre'] = df.groupby('Name')['Genre'].transform(lambda x: x.fillna(method='ffill').fillna(method='bfill'))
  df['Genre'] = df.groupby('Name')['Genre'].transform(lambda x: x.fillna(method='ffill').fillna(method='bfill'))
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Genre'] = df.groupby('Name')['Genre'].transform(lambda x: x.fillna(method='ffill').fillna(method='bfill'))


In [None]:
#Aqui como podemos comprobar, no todos los datos nulos fueron recuperados
df.isnull().sum()

Rank              0
Name              0
Platform        563
Year            848
Genre           226
Publisher       622
NA_Sales          0
EU_Sales          0
JP_Sales          0
Other_Sales       0
Global_Sales      0
dtype: int64

In [80]:
#Procedemos a borrar los datos restantes
df = df.dropna(subset=['Genre'])

In [81]:
#Corroboramos que no haya quedado ni un dato nulo
df.isnull().sum()

Rank              0
Name              0
Platform        553
Year            840
Genre             0
Publisher       612
NA_Sales          0
EU_Sales          0
JP_Sales          0
Other_Sales       0
Global_Sales      0
dtype: int64

------------------------------------

# Limpieza columna "Publisher" #

al igual que con la columna anterior, se repetira la estrategia para tratar de recuperar la mayor cantidad posible de datos: rellenar datos faltantes con datos existentes y que son similares y dropear los datos que no se puedan recuperar

In [82]:
df['Publisher'] = df.groupby('Name')['Publisher'].transform(lambda x: x.fillna(method='ffill').fillna(method='bfill'))

  df['Publisher'] = df.groupby('Name')['Publisher'].transform(lambda x: x.fillna(method='ffill').fillna(method='bfill'))
  df['Publisher'] = df.groupby('Name')['Publisher'].transform(lambda x: x.fillna(method='ffill').fillna(method='bfill'))
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Publisher'] = df.groupby('Name')['Publisher'].transform(lambda x: x.fillna(method='ffill').fillna(method='bfill'))


In [None]:
#Comprobamos cuantos datos pudimos recuperar (en este caso fueron 360)
df["Publisher"].isnull().sum()

np.int64(252)

In [84]:
#Ahora procedemos a dropear los datos que no se pudieron recuperar
df = df.dropna(subset=["Publisher"])

In [87]:
#Corroboramos que ya no tenemos datos nulos
df["Publisher"].isnull().sum()

np.int64(0)

Ahora simplemente nos deshacemos de los datos invalidos de la misma manera (Transformando los datos invalidos en datos Nan y posteriormente rellenandolos de ser posible y en caso de que no, dropearlos)

In [88]:
#Reemplazamos los datos invalidos por datos nulos
df["Publisher"] = df["Publisher"].replace("Auto%#", np.nan)

In [89]:
df['Publisher'] = df.groupby('Name')['Publisher'].transform(lambda x: x.fillna(method='ffill').fillna(method='bfill'))

  df['Publisher'] = df.groupby('Name')['Publisher'].transform(lambda x: x.fillna(method='ffill').fillna(method='bfill'))
  df['Publisher'] = df.groupby('Name')['Publisher'].transform(lambda x: x.fillna(method='ffill').fillna(method='bfill'))


In [90]:
#Volvemos a dropear los registros sobrantes
df = df.dropna(subset=["Publisher"])

In [91]:
#Nuevamente comprobamos que no tenemos datos nulos
df["Publisher"].isnull().sum()

np.int64(0)

----------------------------------

# Limpieza columna "Platform" #

Esta limpieza fue una desicion dificil de tomar, ya que NO hay forma de recuperar este dato de ninguna forma. Por lo tanto al no haber forma de recuperar el dato, al ser informacion VITAL para el analisis y (afortunadamente) representar menos del 5% de los datos totales, se opto por dropear los registros.

In [None]:
#comprobamos la cantidad de datos nulos en la columna
df["Platform"].isnull().sum()

np.int64(531)

In [101]:
#Procedemos a dropear los registros
df = df.dropna(subset=["Platform"])

In [102]:
#Comprobamos que no tenemos ningun registro nulo
df["Platform"].isnull().sum()

np.int64(0)

------------------------------

# Limpieza columna "Year" #

Nuevamente al igual que con la columna anterior, por ser un dato sumamente importante para el analisis y no poder ser recuperado, se opto por la dificil desicion de dropear los registros. Ustedes podran preguntarse, por que no podemos usar la misma estrategia de rellenar la fecha segun el nombre del videojuego?

Si bien es posible y en varios de los casos seria un acierto, NO en todas los casos aplicaria (juegos que, por ejemplo, aunque son excepciones, fueron lanzados primero para unas consolas en particular y despues para otras)
y eso podria llevar a conclusiones erroneas o no acertadas, poniendo en peligro la integridad del analisis. Por lo tanto a pesar de que entre datos nulos y datos invalidos, representan mas del 5% de los datos (7.3%), se opto por dropearlos. (En caso de no haber sido la decision adecuada, se aceptara la penalizacion correspondiente)

In [None]:
#Corroborando la cantidad de datos invalidos (337)
df["Year"].value_counts()

Year
2008.0    1307
2009.0    1294
2010.0    1163
2007.0    1115
2011.0    1006
2006.0     912
2005.0     840
2002.0     763
2003.0     728
2004.0     664
2012.0     595
2015.0     575
2014.0     549
2013.0     497
2001.0     438
1998.0     350
Auto%#     337
2000.0     333
2016.0     322
1999.0     314
1997.0     259
1996.0     235
1995.0     200
1994.0     112
1993.0      52
1981.0      47
1991.0      40
1992.0      33
1982.0      32
1987.0      16
1989.0      16
1986.0      16
1990.0      14
1985.0      13
1983.0      12
1988.0      12
1984.0      10
1980.0       7
2017.0       4
2020.0       1
Name: count, dtype: int64

In [111]:
#Reemplazando los datos invalidos por datos nulos
df["Year"] = df["Year"].replace("Auto%#", np.nan)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["Year"] = df["Year"].replace("Auto%#", np.nan)


In [112]:
#Dropeamos todos los datos nulos
df = df.dropna(subset=["Year"])

In [113]:
#corroboramos que ya no hay ningun dato invalido en la columnna
df["Year"].isnull().sum()

np.int64(0)

----------------------------------

# Detalles extra antes de finalizar #

Un Pequeño detalle extra a nuestra limpieza es corregir el formato de una columna, siendo esta la columna de "Year" ya que esta como tipo object cuando deberia ser tipo int

In [None]:
#Al ser un object, primero lo convertimos a float
df['Year'] = df['Year'].astype(float)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Year'] = df['Year'].astype(float)


In [None]:
#Convertimos a int
df['Year'] = df['Year'].astype(int)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Year'] = df['Year'].astype(int)


Otro detalle que si bien es meramente estetico, se tomara en cuenta: Traducir los nombres de las columnas.

In [125]:
df.rename(columns={
    'Name': 'Nombre',
    'Platform': 'Plataforma',
    'Year': 'Año',
    'Genre': 'Género',
    'Publisher': 'Editorial',
    'NA_Sales': 'Ventas_NA',
    'EU_Sales': 'Ventas_EU',
    'JP_Sales': 'Ventas_JP',
    'Other_Sales': 'Ventas_Otras',
    'Global_Sales': 'Ventas_Globales'
}, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.rename(columns={


-------------------------------

# Guardar nuestra base de datos limpia #

Tras toda la limpieza que realizamos, ya podemos guardar nuestro trabajo en un csv.

In [127]:
#Comprobando que en efecto, ya no se cuenta ni con datos nulos ni datos invalidos
df.isnull().sum()

Rank               0
Nombre             0
Plataforma         0
Año                0
Género             0
Editorial          0
Ventas_NA          0
Ventas_EU          0
Ventas_JP          0
Ventas_Otras       0
Ventas_Globales    0
dtype: int64

In [129]:
#Procedemos a guardar nuestra nueva base limpia en un csv
df.to_csv("Basededatoslimpiaa.csv", index =False)