***
- ## *Captura y detalles del dato* (Extraction and Transformation)
***

In [2]:
import pandas as pd ## Importacion de pandas para una adecuada extraccion y manejo del dataset.
import numpy as np ## Importacino de numpy para manejo de arrays

In [7]:
popular_videogames = pd.read_csv('./Data/games.csv', sep=',',encoding='utf_8') # Lectura del dataset.
popular_videogames.head()

Unnamed: 0.1,Unnamed: 0,Title,Release Date,Team,Rating,Times Listed,Number of Reviews,Genres,Summary,Reviews,Plays,Playing,Backlogs,Wishlist
0,0,Elden Ring,"Feb 25, 2022","['Bandai Namco Entertainment', 'FromSoftware']",4.5,3.9K,3.9K,"['Adventure', 'RPG']","Elden Ring is a fantasy, action and open world...","[""The first playthrough of elden ring is one o...",17K,3.8K,4.6K,4.8K
1,1,Hades,"Dec 10, 2019",['Supergiant Games'],4.3,2.9K,2.9K,"['Adventure', 'Brawler', 'Indie', 'RPG']",A rogue-lite hack and slash dungeon crawler in...,['convinced this is a roguelike for people who...,21K,3.2K,6.3K,3.6K
2,2,The Legend of Zelda: Breath of the Wild,"Mar 03, 2017","['Nintendo', 'Nintendo EPD Production Group No...",4.4,4.3K,4.3K,"['Adventure', 'RPG']",The Legend of Zelda: Breath of the Wild is the...,['This game is the game (that is not CS:GO) th...,30K,2.5K,5K,2.6K
3,3,Undertale,"Sep 15, 2015","['tobyfox', '8-4']",4.2,3.5K,3.5K,"['Adventure', 'Indie', 'RPG', 'Turn Based Stra...","A small child falls into the Underground, wher...",['soundtrack is tied for #1 with nier automata...,28K,679,4.9K,1.8K
4,4,Hollow Knight,"Feb 24, 2017",['Team Cherry'],4.4,3K,3K,"['Adventure', 'Indie', 'Platform']",A 2D metroidvania with an emphasis on close co...,"[""this games worldbuilding is incredible, with...",21K,2.4K,8.3K,2.3K


- No tenemos muy claro si algunos de los registros dentro de la tabla esten duplicados, asi que si existen, los eliminaremos

In [5]:
popular_videogames.drop_duplicates(subset=['Title'],ignore_index=True,inplace=True) # Eliminado de registros duplicados

In [6]:
popular_videogames.info() ## Informacion general.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1099 entries, 0 to 1098
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Unnamed: 0         1099 non-null   int64  
 1   Title              1099 non-null   object 
 2   Release Date       1099 non-null   object 
 3   Team               1098 non-null   object 
 4   Rating             1086 non-null   float64
 5   Times Listed       1099 non-null   object 
 6   Number of Reviews  1099 non-null   object 
 7   Genres             1099 non-null   object 
 8   Summary            1098 non-null   object 
 9   Reviews            1099 non-null   object 
 10  Plays              1099 non-null   object 
 11  Playing            1099 non-null   object 
 12  Backlogs           1099 non-null   object 
 13  Wishlist           1099 non-null   object 
dtypes: float64(1), int64(1), object(12)
memory usage: 120.3+ KB


El dataframe parece tener buenas condiciones, sin embargo hay ciertos detalles a los que se deberia prestar atencion si queremos llevarlo al datawarehouse:  
    

- El nombre de las columnas son bastante claras respecto a los datos que podemos encontrar en ellas, sin embargo, la primera llamada "Unnamed" no es muy especifica, las columnas se encuentras capitalizadas y existen algunas que tienen espacios entre palabras, cambiaremos todo esto principalmente para que las consultas en nuestra base de datos a futuro sean comodas de realizar.

In [7]:
## Renombrado de columnas
popular_videogames.rename(columns={'Unnamed: 0':'Id','Team':'Teams','Release Date':'Release_Date','Times Listed':'Times_Listed','Number of Reviews':'Number_of_Reviews'},inplace=True) 

lower_case = []
for column in popular_videogames.columns:
  lower_case.append(column.casefold())

popular_videogames.columns = lower_case

- Existen columnas multivaluadas, caracteristica que debemos arreglar y que haremos mas adelante con el mismo mysql por temas de normalizacion. De momento, eliminemos los corchetes dentro de los strings para que despues no moleste demasiado a la hora de dividir los valores respectivos y aquellas listas que estan por defecto vacias se dejaran asi.

In [8]:
multivalue_columns = ['teams','genres','reviews']

for column in multivalue_columns:
  popular_videogames.loc[:,column] = popular_videogames[column].str.strip('[').str.strip(']') # Eliminacion de corchetes
  popular_videogames.loc[popular_videogames[column]=='',column] = None # Reemplazo de strings vacios a None para despues aprovechar y hacer reemplazo general de los campos nulos
  popular_videogames.loc[popular_videogames[column].isna()==True,column] = '[]' ## Reemplazo de campos nulos.


In [9]:
popular_videogames.columns

Index(['id', 'title', 'release_date', 'teams', 'rating', 'times_listed',
       'number_of_reviews', 'genres', 'summary', 'reviews', 'plays', 'playing',
       'backlogs', 'wishlist'],
      dtype='object')

- En varios campos del dataframe se puede presenciar una letra K, notacion de los miles. Para que puedan ser trabajados eso valores numericos lo sustituiremos por los ceros correspondientes al valor y haremos el casting de strings a flotantes.  

In [10]:
to_change = ['times_listed','number_of_reviews','plays','playing','backlogs','wishlist'] # Guardamos en un array aquellas columnas que necesitemos cambiar

for x in to_change: # Reemplazamos las K por los ceros respectivos y eliminamos puntos
  popular_videogames[x] = np.where(popular_videogames[x].str.find('.')!= -1, popular_videogames[x].str.replace('K','00'),popular_videogames[x]) 
  popular_videogames[x] = np.where(popular_videogames[x].str.find('.')== -1, popular_videogames[x].str.replace('K','000'),popular_videogames[x])

  popular_videogames[x] = np.where(popular_videogames[x].str.find('.')!= -1, popular_videogames[x].str.replace('.',''),popular_videogames[x]) 

popular_videogames[to_change] = popular_videogames[to_change].astype(float) # Casting

- La columna de 'Release_Date' tiene una fecha, pero no tiene un formato valido para el tipo Date dentro de Mysql asi que es necesario una transcripcion.

In [11]:
months = {   # Diccionario para reemplazar los meses
    'Jan':'01',
    'Feb':'02',
    'Mar':'03',
    'Apr':'04',
    'May':'05',
    'Jun':'06',
    'Jul':'07',
    'Aug':'08',
    'Sep':'09',
    'Oct':'10',
    'Nov':'11',
    'Dec':'12'
}

for i,x in enumerate(popular_videogames['release_date']):
    try: # Definicion del formato correspondiente
      date = f'{x[-4:]}-{months[x[:3]]}-{x[4:6]}'
    except (KeyError, TypeError): # En caso de no tener los meses se intuye que nisiquiera tiene fecha de lanzamiento asi que se configurara como nula 
      date = None
    popular_videogames.iloc[i,2] = date # Reemplazo de la fecha al formato respectivo

In [12]:
popular_videogames.head()

Unnamed: 0,id,title,release_date,teams,rating,times_listed,number_of_reviews,genres,summary,reviews,plays,playing,backlogs,wishlist
0,0,Elden Ring,2022-02-25,"'Bandai Namco Entertainment', 'FromSoftware'",4.5,3900.0,3900.0,"'Adventure', 'RPG'","Elden Ring is a fantasy, action and open world...","""The first playthrough of elden ring is one of...",17000.0,3800.0,4600.0,4800.0
1,1,Hades,2019-12-10,'Supergiant Games',4.3,2900.0,2900.0,"'Adventure', 'Brawler', 'Indie', 'RPG'",A rogue-lite hack and slash dungeon crawler in...,'convinced this is a roguelike for people who ...,21000.0,3200.0,6300.0,3600.0
2,2,The Legend of Zelda: Breath of the Wild,2017-03-03,"'Nintendo', 'Nintendo EPD Production Group No. 3'",4.4,4300.0,4300.0,"'Adventure', 'RPG'",The Legend of Zelda: Breath of the Wild is the...,'This game is the game (that is not CS:GO) tha...,30000.0,2500.0,5000.0,2600.0
3,3,Undertale,2015-09-15,"'tobyfox', '8-4'",4.2,3500.0,3500.0,"'Adventure', 'Indie', 'RPG', 'Turn Based Strat...","A small child falls into the Underground, wher...",'soundtrack is tied for #1 with nier automata....,28000.0,679.0,4900.0,1800.0
4,4,Hollow Knight,2017-02-24,'Team Cherry',4.4,3000.0,3000.0,"'Adventure', 'Indie', 'Platform'",A 2D metroidvania with an emphasis on close co...,"""this games worldbuilding is incredible, with ...",21000.0,2400.0,8300.0,2300.0


***
- ## Modelo Relacional
***

- Ahora que tenemos los datos del tipo correcto analizaremos las relaciones que deberia tener nuestra datawarehouse, principalmente para saber cuantas tablas de hechos o dimensionales extra debemos hacer por campo multivaluado.
    - 1 Juego tiene Muchos Teams y 1 Team puede crear Muchos Juegos. **Relacion:** *M:M*
    - 1 Juego tiene Muchos Generos y 1 genero puede estar en Muchos Juegos. **Relacion:** *M:M*
###### (Se medito si realmente valia la pena crear una tabla review dentro de este sistema, debido al volumen de informacion por videojuego y problemas con caracteres especiales se llego a la conclusion de que seria mejor almacenar ese tipo de informacion dentro de una base de datos NoSQL, asi que mejor de mantendra como un campo mas dentro de la tabla games)

<img src="./Relationship_M.png">

- Ya teniendo las entidades y relaciones claras adaptaremos nuestro dataframe original al modelo, dividiendo los campos multivaluados en independientes para enviarlo al mysql y allá mover los datos a tablas diferentes.

In [13]:
multivalue_columns = ['teams','genres'] ## Columnas a normalizar

for column in multivalue_columns:
  copy = popular_videogames.copy() ## Para agregar y modificar registros sin miedo alguno
  for i,x in enumerate(popular_videogames[column]): 
    array = list(x.replace("'","").split(',')) ## Para cambiar el campo de string a lista
    reg = dict(copy.iloc[i,:].copy()) ## Se castea a diccionario el registro en el que estamos dentro del bucle para despues agregarlo a la copia del df
    
    for key in reg.keys():
      reg[key] = [reg[key]] ## Para no pasarle escalares y asi que no pida ningun indice en la tranformacion a dataframe

    reg = pd.DataFrame(reg,columns=reg.keys()) ## Se castea a dataframe para concatenarlo con la copia

    for x2 in array: ## Para agregar x cantidad de registro por cada 'Team' en un videojuego
      reg.loc[:,column] = x2.strip()
      reg = pd.DataFrame(reg,columns=reg.keys())
      copy = pd.concat([copy,reg]) ## Se agrega el registro a la copia
      
  popular_videogames = copy.iloc[len(popular_videogames):,:] ## Se define como la segunda mitad para eliminar los registros viejos y utilizar los nuevos con valores independientes

In [14]:
popular_videogames.head(8)

Unnamed: 0,id,title,release_date,teams,rating,times_listed,number_of_reviews,genres,summary,reviews,plays,playing,backlogs,wishlist
0,0,Elden Ring,2022-02-25,Bandai Namco Entertainment,4.5,3900.0,3900.0,Adventure,"Elden Ring is a fantasy, action and open world...","""The first playthrough of elden ring is one of...",17000.0,3800.0,4600.0,4800.0
0,0,Elden Ring,2022-02-25,Bandai Namco Entertainment,4.5,3900.0,3900.0,RPG,"Elden Ring is a fantasy, action and open world...","""The first playthrough of elden ring is one of...",17000.0,3800.0,4600.0,4800.0
0,0,Elden Ring,2022-02-25,FromSoftware,4.5,3900.0,3900.0,Adventure,"Elden Ring is a fantasy, action and open world...","""The first playthrough of elden ring is one of...",17000.0,3800.0,4600.0,4800.0
0,0,Elden Ring,2022-02-25,FromSoftware,4.5,3900.0,3900.0,RPG,"Elden Ring is a fantasy, action and open world...","""The first playthrough of elden ring is one of...",17000.0,3800.0,4600.0,4800.0
0,1,Hades,2019-12-10,Supergiant Games,4.3,2900.0,2900.0,Adventure,A rogue-lite hack and slash dungeon crawler in...,'convinced this is a roguelike for people who ...,21000.0,3200.0,6300.0,3600.0
0,1,Hades,2019-12-10,Supergiant Games,4.3,2900.0,2900.0,Brawler,A rogue-lite hack and slash dungeon crawler in...,'convinced this is a roguelike for people who ...,21000.0,3200.0,6300.0,3600.0
0,1,Hades,2019-12-10,Supergiant Games,4.3,2900.0,2900.0,Indie,A rogue-lite hack and slash dungeon crawler in...,'convinced this is a roguelike for people who ...,21000.0,3200.0,6300.0,3600.0
0,1,Hades,2019-12-10,Supergiant Games,4.3,2900.0,2900.0,RPG,A rogue-lite hack and slash dungeon crawler in...,'convinced this is a roguelike for people who ...,21000.0,3200.0,6300.0,3600.0


***
- ## Control de campos Nulos
***

In [15]:
popular_videogames.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4799 entries, 0 to 0
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   id                 4799 non-null   int64  
 1   title              4799 non-null   object 
 2   release_date       4788 non-null   object 
 3   teams              4799 non-null   object 
 4   rating             4767 non-null   float64
 5   times_listed       4799 non-null   float64
 6   number_of_reviews  4799 non-null   float64
 7   genres             4799 non-null   object 
 8   summary            4797 non-null   object 
 9   reviews            4799 non-null   object 
 10  plays              4799 non-null   float64
 11  playing            4799 non-null   float64
 12  backlogs           4799 non-null   float64
 13  wishlist           4799 non-null   float64
dtypes: float64(7), int64(1), object(6)
memory usage: 562.4+ KB


- Hay 4799 registros dentro de nuestro dataframe, sin embargo, hay algunas columnas como "Release_Date", "Rating" o "Sumarry" que no respetan esa cantidad debido a valores nulos existentes.

In [16]:
popular_videogames.isnull().sum() # Cantidad de campos nulos por columna

id                    0
title                 0
release_date         11
teams                 0
rating               32
times_listed          0
number_of_reviews     0
genres                0
summary               2
reviews               0
plays                 0
playing               0
backlogs              0
wishlist              0
dtype: int64

In [17]:
popular_videogames[popular_videogames.isnull().sum(axis=1) != 0] ## Registros con campos nulos

Unnamed: 0,id,title,release_date,teams,rating,times_listed,number_of_reviews,genres,summary,reviews,plays,playing,backlogs,wishlist
0,587,Final Fantasy XVI,2023-06-22,Square Enix,,422.0,422.0,RPG,Final Fantasy XVI is an upcoming action role-p...,[],37.0,10.0,732.0,2400.0
0,587,Final Fantasy XVI,2023-06-22,Square Enix Creative Business Unit III,,422.0,422.0,RPG,Final Fantasy XVI is an upcoming action role-p...,[],37.0,10.0,732.0,2400.0
0,644,Deltarune,,tobyfox,4.3,313.0,313.0,Adventure,"UNDERTALE's parallel story, DELTARUNE. Meet ne...","'Spamton is so hot, I want to kiss him in the ...",1300.0,83.0,468.0,617.0
0,644,Deltarune,,tobyfox,4.3,313.0,313.0,Indie,"UNDERTALE's parallel story, DELTARUNE. Meet ne...","'Spamton is so hot, I want to kiss him in the ...",1300.0,83.0,468.0,617.0
0,644,Deltarune,,tobyfox,4.3,313.0,313.0,Music,"UNDERTALE's parallel story, DELTARUNE. Meet ne...","'Spamton is so hot, I want to kiss him in the ...",1300.0,83.0,468.0,617.0
0,644,Deltarune,,tobyfox,4.3,313.0,313.0,Puzzle,"UNDERTALE's parallel story, DELTARUNE. Meet ne...","'Spamton is so hot, I want to kiss him in the ...",1300.0,83.0,468.0,617.0
0,644,Deltarune,,tobyfox,4.3,313.0,313.0,RPG,"UNDERTALE's parallel story, DELTARUNE. Meet ne...","'Spamton is so hot, I want to kiss him in the ...",1300.0,83.0,468.0,617.0
0,649,Death Stranding 2,,Kojima Productions,,105.0,105.0,Adventure,,[],3.0,0.0,209.0,644.0
0,649,Death Stranding 2,,Kojima Productions,,105.0,105.0,Shooter,,[],3.0,0.0,209.0,644.0
0,713,Final Fantasy VII Rebirth,2023-12-31,Square Enix,,192.0,192.0,[],This next standalone chapter in the FINAL FANT...,[],20.0,3.0,354.0,1100.0


- Los campos nulos al ser pocos por registros y columnas no representan realmente un problema, asi que no es necesario que los borremos, sin embargo, si reemplazaremos aquellas listas vacias como campos nulos y los que deberian ser de tipo cuantitativo por la media, principalmente para que su presencia en el dataframe no altere procesos en un futuro.

In [18]:
popular_videogames.loc[popular_videogames['teams']=='[]','teams'] = None ## Reemplazo de listas vacias en la columna 'Team'
popular_videogames.loc[popular_videogames['reviews']=='[]','reviews'] = None ## Reemplazo listas vacias en la columna 'Summary'
popular_videogames.loc[popular_videogames['genres']=='[]','genres'] = None ## Reemplazo listas vacias en la columna 'Summary'

In [19]:
average = popular_videogames['rating'].mean() ## Promedio de la columna 
popular_videogames.loc[popular_videogames['rating'].isnull(),'rating'] = average ## Reemplazo de vacios por el promedio

***
- ## *Exportacion a la base de datos* (Load)
***

- #### Primera parte

In [2]:
from sqlalchemy import create_engine

engine = create_engine('mysql+pymysql://root:toor@localhost') ##Conexion a la base de datos "popular_videogames" ya creada en workbrench
connection = engine.raw_connection() ## Coneccion donde sacaremos el cursor
cursor = connection.cursor() ## Declaracion del cursor para ejecutar sentencias SQL

cursor.execute('CREATE DATABASE IF NOT EXISTS popular_videogames') ## Creamos la base de datos
cursor.close() ## Cerramos la conexion del cursor con la db

In [41]:
popular_videogames.to_sql(name='games',con=engine,schema='popular_videogames',if_exists='replace',index=False) ## Creacion de la tabla games junto a sus registros

4799

- Ahora con la tabla en workbrench podemos empezar a crear las tablas con sql y configurar todo lo necesario para que quede bien estructurado (Mirar el Load.sql)

***
- #### Segunda Parte

In [47]:
"""
connection = engine.raw_connection() ## Coneccion donde sacaremos el cursor
cursor = connection.cursor() ## Declaracion del cursor para ejecutar sentencias SQL

cursor.execute('USE popular_videogames') ## Seleccionamos la db a trabajar
cursor.execute('SELECT * FROM games') ## Traemos todos los datos de la tabla
games = cursor.fetchall() ## Los almacenamos en una lista iterable
df_data =[] ## Array para el almacenamiento de los datos no duplicados

for x in sorted(set(games)): 
  row = {  ## Guardamos cada registro en un diccionario para posteriormente combinar todo y transformarlo en un dataframe
    'id':x[0],
    'title':x[1],
    'release_date':x[2],
    'rating':x[3],
    'times_listed':x[4],
    'number_of_reviews':x[5],
    'summary':x[6],
    'reviews':x[7],
    'plays':x[8],
    'playing':x[9],
    'backlogs':x[10],
    'wishlist':x[11]
  }

  df_data.append(row) ## Se agregan a la lista
games = pd.DataFrame(df_data) ## Se castea esa lista de diccionarios a un df
connection.close() ## Se cierra la coneccion

games.to_sql(name='games',con=engine,schema='popular_videogames',if_exists='replace',index=False) ## Reemplazo total de la tabla games con los registros totalmente limpios y normalizados

"""

"\nconnection = engine.raw_connection() ## Coneccion donde sacaremos el cursor\ncursor = connection.cursor() ## Declaracion del cursor para ejecutar sentencias SQL\n\ncursor.execute('USE popular_videogames') ## Seleccionamos la db a trabajar\ncursor.execute('SELECT * FROM games') ## Traemos todos los datos de la tabla\ngames = cursor.fetchall() ## Los almacenamos en una lista iterable\ndf_data =[] ## Array para el almacenamiento de los datos no duplicados\n\nfor x in sorted(set(games)): \n  row = {  ## Guardamos cada registro en un diccionario para posteriormente combinar todo y transformarlo en un dataframe\n    'id':x[0],\n    'title':x[1],\n    'release_date':x[2],\n    'rating':x[3],\n    'times_listed':x[4],\n    'number_of_reviews':x[5],\n    'summary':x[6],\n    'reviews':x[7],\n    'plays':x[8],\n    'playing':x[9],\n    'backlogs':x[10],\n    'wishlist':x[11]\n  }\n\n  df_data.append(row) ## Se agregan a la lista\ngames = pd.DataFrame(df_data) ## Se castea esa lista de diccion

###### Final del ETL