# ETL 2 Proyecto Individual ML Ops STEAM, 

## Refinamiento de los Data Sets para las funciones  

---

In [1]:
# Se importan las librerías necesarias para este proceso de transformación
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Rutas de ubicación para los datasets:
ruta_reviews = 'E:\\AAADATOS\Henry\\AA_Data_Science\\MATERIAL_PI\\PI_ML_OPS_STEAM_DSFT17\\user_reviews.csv'
ruta_items = 'E:\\AAADATOS\Henry\\AA_Data_Science\\MATERIAL_PI\\PI_ML_OPS_STEAM_DSFT17\\user_items.csv'
ruta_games = 'E:\\AAADATOS\Henry\\AA_Data_Science\\MATERIAL_PI\\PI_ML_OPS_STEAM_DSFT17\\user_games.csv'

In [3]:
# Se inicializan los Data Sets 
df_reviews = pd.read_csv(ruta_reviews)
df_items = pd.read_csv(ruta_items)
df_games = pd.read_csv(ruta_games)

Se visualizan los Data Frames 

In [4]:
df_reviews.head()

Unnamed: 0,User_Id,Item_Id,Recommend,Year,Date,Sentiment_Analysis
0,76561197970982479,1250,True,2011,2011-11-05,2
1,76561197970982479,22200,True,2011,2011-07-15,2
2,76561197970982479,43110,True,2011,2011-04-21,2
3,js41637,251610,True,2014,2014-06-24,2
4,js41637,227300,True,2013,2013-09-08,2


In [5]:
df_items.head()

Unnamed: 0,User_Id,Items_Count,Steam_Id,Item_Id,Item_Name,Playtime_Forever_Hours
0,76561197970982479,277,76561197970982479,10,Counter-Strike,1
1,76561197970982479,277,76561197970982479,30,Day of Defeat,1
2,76561197970982479,277,76561197970982479,300,Day of Defeat: Source,79
3,76561197970982479,277,76561197970982479,240,Counter-Strike: Source,31
4,76561197970982479,277,76561197970982479,3830,Psychonauts,6


In [6]:
df_games.head()

Unnamed: 0,Item_Id,Title,Year,Publisher,Developer,Genres
0,761140,Lost Summoner Kitty,2018,Kotoshiro,Kotoshiro,"Simulation, Casual, Strategy, Action, Indie"
1,643980,Ironbound,2018,"Making Fun, Inc.","Making Fun, Inc.","2D, Design & Illustration, RPG, Trading Card G..."
2,670290,Real Pool 3D - Poolians,2017,Poolians.com,Poolians.com,"Sports, Free to Play, Simulation, Casual, Mult..."
3,767400,弹炸人2222,2017,彼岸领域,彼岸领域,"Adventure, Action, Casual"
4,772540,Battle Royale Trainer,2018,Trickjump Games Ltd,Trickjump Games Ltd,"Sniper, Shooter, Third Person, Simulation, Thi..."


In [7]:
print(f'El tamaño del Data Frame Reviews es de {df_reviews.shape}')
print(f'El tamaño del Data Frame Items es de {df_items.shape}')
print(f'El tamaño del Data Frame Games es de {df_games.shape}')

El tamaño del Data Frame Reviews es de (59305, 6)
El tamaño del Data Frame Items es de (3285246, 6)
El tamaño del Data Frame Games es de (28663, 6)


---

### Nuevo proceso de limpieza

Gracias al proceso anterior del **`“EDA`** se pudieron identificar unos valores en el Data Set **`“Games”`** que se perfilaron para ser eliminados.

In [8]:
# Se crea un Data Frame filtrado 
no_developer = df_games[df_games['Developer'] == '(none)']
no_developer

Unnamed: 0,Item_Id,Title,Year,Publisher,Developer,Genres
3705,253250,Stonehearth,2015,(none),(none),"RTS, Multiplayer, Building, RPG, Cute, Open Wo..."
16224,548130,Scribble Ships,2017,(none),(none),"Arcade, Action, Indie"


In [9]:
# Se hace un merge para eliminar las filas del Data Frame filtrado del Data Frame original
df_games = pd.merge(df_games, no_developer, on='Item_Id', how='left', indicator=True).query('_merge == "left_only"').drop('_merge', axis=1)
df_games.shape # Se comprueba que el tamaño del Data Frame haya cambiado

(28661, 11)

In [10]:
df_games = df_games.drop(columns=['Title_y', 'Year_y', 'Publisher_y', 'Developer_y', 'Genres_y']) # Se eliminan columnas residuales del proceso anterior

In [11]:
# Se normalizan nuevamente los nombres de las columnas del Data Frame
df_games = df_games.rename(columns={'Title_x': 'Title'})
df_games = df_games.rename(columns={'Year_x': 'Year_Launch'})
df_games = df_games.rename(columns={'Publisher_x': 'Publisher'})
df_games = df_games.rename(columns={'Developer_x': 'Developer'})
df_games = df_games.rename(columns={'Genres_x': 'Genres'})

In [12]:
df_games

Unnamed: 0,Item_Id,Title,Year_Launch,Publisher,Developer,Genres
0,761140,Lost Summoner Kitty,2018,Kotoshiro,Kotoshiro,"Simulation, Casual, Strategy, Action, Indie"
1,643980,Ironbound,2018,"Making Fun, Inc.","Making Fun, Inc.","2D, Design & Illustration, RPG, Trading Card G..."
2,670290,Real Pool 3D - Poolians,2017,Poolians.com,Poolians.com,"Sports, Free to Play, Simulation, Casual, Mult..."
3,767400,弹炸人2222,2017,彼岸领域,彼岸领域,"Adventure, Action, Casual"
4,772540,Battle Royale Trainer,2018,Trickjump Games Ltd,Trickjump Games Ltd,"Sniper, Shooter, Third Person, Simulation, Thi..."
...,...,...,...,...,...,...
28658,745400,Kebab it Up!,2018,Bidoniera Games,Bidoniera Games,"Violent, Casual, Adventure, Action, Indie"
28659,773640,Colony On Mars,2018,Ghost_RUS Games,Ghost_RUS Games,"Strategy, Simulation, Casual, Indie"
28660,733530,LOGistICAL: South Africa,2018,Sacada,Sacada,"Strategy, Casual, Indie"
28661,610660,Russian Roads,2018,Laush Studio,Laush Studio,"Simulation, Racing, Indie"


Se procede a eliminar los géneros con menos frecuencias del campo **`"Genres"`**

In [13]:
# Se crea la lista con dichos géneros
menos_frec = ['Real-Time with Pause', 'Dystopian', 'Audio Production', 'Loot', 'Arena Shooter', '2.5D', 'Rhythm', 'Experimental', 'Clicker', 'Cartoon',
              'Pirates', 'Mechs', 'Wargame', 'Otome', 'Space Sim', 'Hex Grid', 'MOBA', 'GameMaker', 'Real-Time', 'Crime', 'Episodic', 'Noir', 'Photo Editing',
              'Naval', 'Trading Card Game', 'VR', 'Ninja', 'Mod', 'Tanks', 'Split Screen', 'Tactical RPG', 'Mouse only', 'Voxel', 'Strategy RPG', '1980s',
              'Psychological', 'Dragons', 'Runner', '3D Vision', 'Western', 'CRPG', 'Alternate History', 'Dinosaurs', 'Blood', 'Real Time Tactics', 'Linear',
              'Score Attack', 'Hacking', 'Superhero', 'Demons', 'Science', 'FMV', 'Cold War', 'Comic Book', 'Parody', 'Drama', 'Time Travel', 'Underwater',
              'Psychedelic', 'Swordplay', 'e-sports', 'Politics', 'Football', 'PvE', 'Narration', 'Trading', 'God Game', 'Political', 'Games Workshop',
              'Villain Protagonist', 'Vampire', 'Assassin', 'Heist', 'Hunting', 'Programming', 'Gothic', 'Mythology', 'World War I', 'LEGO', 'Soccer',
              'Rome', 'Satire', 'Cinematic', 'Crowdfunded', 'Grid-Based Movement', 'Character Action Game', 'Agriculture', 'Class-Based', 'Supernatural',
              'Warhammer 40K', 'Silent Protagonist', 'Quick-Time Events', 'Asynchronous Multiplayer', 'Lore-Rich', 'Bullet Time', 'Time Attack', 'Pinball',
              'Time Manipulation', 'Typing', 'America', 'Based On A Novel', 'Dark Comedy', 'Chess', '6DOF', 'Star Wars', 'Conspiracy', 'Sailing',
              'Spectacle fighter', 'Offroad', 'On-Rails Shooter', 'Batman', 'Co-op Campaign', 'Thriller', 'Fishing', '', 'Martial Arts', 'Modern',
              'Capitalism', 'Mars', 'Diplomacy', 'Sniper', 'Philisophical', 'Gun Customization', 'Music-Based Procedural Generation', 'Sokoban', 'Horses',
              'Movie', 'Nonlinear', 'Word Game', 'Werewolves', 'Mining', 'Golf', 'Benchmark', 'Gambling', 'Inventory Management', 'Gaming', 'Lemmings',
              'Lara Croft', 'Mystery Dungeon', 'Experience', 'Dynamic Narration', 'Basketball', 'Mini Golf', 'Documentary', 'Investigation', 'Conversation',
              'Wrestling', 'Artificial Intelligence', 'Spelling', 'Pool', 'Steam Machine', 'Intentionally Awkward Controls', 'Underground', 'NSFW',
              'Transhumanism', 'Bowling', 'Tutorial', 'Cycling', 'Voice Control', 'Faith', 'Accounting', 'Hardware', 'Foreign']

In [14]:
# Se convierte la lista a un patrón de expresión regular
patron_regex = '|'.join(menos_frec)

In [15]:
# Se itera con un ciclo ‘for’ para comprobar que los géneros se eliminen  
for palabra in menos_frec:
    if df_games['Genres'].str.contains(palabra).any():
        print(f'La palabra "{palabra}" todavía está presente en alguna fila.')
    else:
        print(f'La palabra "{palabra}" no está presente en ninguna fila.')

La palabra "Real-Time with Pause" todavía está presente en alguna fila.
La palabra "Dystopian" todavía está presente en alguna fila.
La palabra "Audio Production" todavía está presente en alguna fila.
La palabra "Loot" todavía está presente en alguna fila.
La palabra "Arena Shooter" todavía está presente en alguna fila.
La palabra "2.5D" todavía está presente en alguna fila.
La palabra "Rhythm" todavía está presente en alguna fila.
La palabra "Experimental" todavía está presente en alguna fila.
La palabra "Clicker" todavía está presente en alguna fila.
La palabra "Cartoon" todavía está presente en alguna fila.
La palabra "Pirates" todavía está presente en alguna fila.
La palabra "Mechs" todavía está presente en alguna fila.
La palabra "Wargame" todavía está presente en alguna fila.
La palabra "Otome" todavía está presente en alguna fila.
La palabra "Space Sim" todavía está presente en alguna fila.
La palabra "Hex Grid" todavía está presente en alguna fila.
La palabra "MOBA" todavía est

In [16]:
# Se aplica la eliminación de las palbras en la columna 'Genres'
df_games['Genres'] = df_games['Genres'].str.replace(patron_regex, '', regex=True)

In [17]:
# Se itera nuevamente para comprobar que los géneros se hayan eliminado
for palabra in menos_frec:
    if df_games['Genres'].str.contains(palabra).any():
        print(f'La palabra "{palabra}" todavía está presente en alguna fila.')
    else:
        print(f'La palabra "{palabra}" no está presente en ninguna fila.')

La palabra "Real-Time with Pause" no está presente en ninguna fila.
La palabra "Dystopian" no está presente en ninguna fila.
La palabra "Audio Production" no está presente en ninguna fila.
La palabra "Loot" no está presente en ninguna fila.
La palabra "Arena Shooter" no está presente en ninguna fila.
La palabra "2.5D" no está presente en ninguna fila.
La palabra "Rhythm" no está presente en ninguna fila.
La palabra "Experimental" no está presente en ninguna fila.
La palabra "Clicker" no está presente en ninguna fila.
La palabra "Cartoon" no está presente en ninguna fila.
La palabra "Pirates" no está presente en ninguna fila.
La palabra "Mechs" no está presente en ninguna fila.
La palabra "Wargame" no está presente en ninguna fila.
La palabra "Otome" no está presente en ninguna fila.
La palabra "Space Sim" no está presente en ninguna fila.
La palabra "Hex Grid" no está presente en ninguna fila.
La palabra "MOBA" no está presente en ninguna fila.
La palabra "GameMaker" no está presente e

In [23]:
# Se eiliminan las comas duplicadas o que hayan quedado en posiciones incorrectas
df_games['Genres'] = df_games['Genres'].str.replace(r'^,\s*|\s*,\s*$', '', regex=True)
df_games['Genres'] = df_games['Genres'].str.replace(r'\s*,\s*,', ', ', regex=True)

In [24]:
# Se reemplaza las dobles comillas que puedan tener algunos géneros
df_games['Genres'] = df_games['Genres'].str.replace(r'"', '')

#### De esta manera se ha realizado el último proceso de transformación de datos a manera general en el Data Set.

---

### Primer Data Set para la función **`“PlayTimeGenre”`**

Gracias a un análisis previo de la consigna de la función se establecen los Data Sets y los campos necesarios solamente para esta función. En este caso los Data Sets serán **`“Items”`** y **`“Games”`** que tendrán una relación de **`“Uno”`** a **`“Muchos”`** y se relacionarán con el campo **`“Item_Id”`**, los campos que se incluirán serán **`“Items.Playtime_Forever_Hours”`**, **`“Games.Year”`** y **`“Games.Genres”`** por lo cual se hará un proceso de transformación para llegar a un nuevo Data Frame con los campos mencionados. 

In [25]:
# Se filtra los campos que se van a usar del Data Frame Items 
def1_df_items = df_items[['Item_Id','Playtime_Forever_Hours']]
def1_df_items

Unnamed: 0,Item_Id,Playtime_Forever_Hours
0,10,1
1,30,1
2,300,79
3,240,31
4,3830,6
...,...,...
3285241,304930,12
3285242,227940,1
3285243,388490,1
3285244,521570,1


In [26]:
# Se filtra los campos que se van a usar del Data Frame Games
def1_df_games = df_games[['Item_Id','Year_Launch','Genres']]
def1_df_games

Unnamed: 0,Item_Id,Year_Launch,Genres
0,761140,2018,"Simulation, Casual, Strategy, Action, Indie"
1,643980,2018,"2D, Design & Illustration, RPG, Free to Play,..."
2,670290,2017,"Sports, Free to Play, Simulation, Casual, Mult..."
3,767400,2017,"Adventure, Action, Casual"
4,772540,2018,"Shooter, Third Person, Simulation, Third-Perso..."
...,...,...,...
28658,745400,2018,"Violent, Casual, Adventure, Action, Indie"
28659,773640,2018,"Strategy, Simulation, Casual, Indie"
28660,733530,2018,"Strategy, Casual, Indie"
28661,610660,2018,"Simulation, Racing, Indie"


In [27]:
# Se fusionan los Data Frames filtrados por la columna 'Item_Id'
merged_df = pd.merge(def1_df_items, def1_df_games, on='Item_Id', how='inner')
merged_df

Unnamed: 0,Item_Id,Playtime_Forever_Hours,Year_Launch,Genres
0,10,1,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."
1,10,2,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."
2,10,2,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."
3,10,6,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."
4,10,105,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."
...,...,...,...,...
2797766,273800,1,2016,Simulation
2797767,354280,3,2016,"Simulation, Action, Casual, Indie"
2797768,464120,1,2016,Utilities
2797769,367090,1,2015,"Action, Indie, Sports"


In [28]:
# Se agrupan por 'Item_Id' y se suma 'Playtime_Forever_Hours'
df_PlayTimeGenre = merged_df.groupby('Item_Id').agg({ # (agg): Para cada grupo de 'Item_Id', calcula la suma de 'Playtime_Forever_Hours' 
    'Playtime_Forever_Hours': 'sum',                  # y toma el primer valor de 'Year_Launch' y 'Genres' (ya que son los mismos para todas las filas del grupo).
    'Year_Launch': 'first',
    'Genres': 'first'
}).reset_index() # Se resetea el Index

df_PlayTimeGenre # Se vizualiza el Data Frame

Unnamed: 0,Item_Id,Playtime_Forever_Hours,Year_Launch,Genres
0,10,293487,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."
1,20,17795,1999,"1990s, Casual, Team-Based, Multiplayer, Fast-P..."
2,30,13520,2003,"Multiplayer, Shooter, War, Historical, Co-op,..."
3,40,3076,2001,"Multiplayer, Shooter, First-Person, Sci-fi, FP..."
4,50,13288,1999,"Story Rich, Shooter, Puzzle, Great Soundtrack..."
...,...,...,...,...
8088,527510,4,2016,"Strategy, Simulation, Casual, Indie"
8089,527810,1,2016,"Difficult, Female Protagonist, Platformer, Ret..."
8090,527890,1,2016,"Simulation, Casual"
8091,527900,1,2016,"Hidden Object, Adventure, Casual"


In [29]:
# Se visualiza en que tipo de datos estan los valores de los campos
df_PlayTimeGenre.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8093 entries, 0 to 8092
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Item_Id                 8093 non-null   int64 
 1   Playtime_Forever_Hours  8093 non-null   int64 
 2   Year_Launch             8093 non-null   int64 
 3   Genres                  8093 non-null   object
dtypes: int64(3), object(1)
memory usage: 253.0+ KB


#### Se procede a exportar el Data Frame a otros formatos para poder ser utilizados posteriormente

In [30]:
# Se guarda el DataFrame en formato CSV
df_PlayTimeGenre.to_csv('PlayTimeGenre.csv', index=False)

In [31]:
# Se convierte el archivo CSV a parquet bajo la compresión "gzip"
ruta_csv_PlayTimeGenre = 'E:\\AAADATOS\\Henry\\AA_Data_Science\\MATERIAL_PI\\PI_ML_OPS_STEAM_DSFT17\\PlayTimeGenre.csv' # Se crea una variable con la ruta del archivo CSV
df_PlayTimeGenre_temp = pd.read_csv(ruta_csv_PlayTimeGenre) # Se lee ese CSV en un nuevo DataFrame temporal para segurar como estan los datos
df_PlayTimeGenre_temp

Unnamed: 0,Item_Id,Playtime_Forever_Hours,Year_Launch,Genres
0,10,293487,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."
1,20,17795,1999,"1990s, Casual, Team-Based, Multiplayer, Fast-P..."
2,30,13520,2003,"Multiplayer, Shooter, War, Historical, Co-op,..."
3,40,3076,2001,"Multiplayer, Shooter, First-Person, Sci-fi, FP..."
4,50,13288,1999,"Story Rich, Shooter, Puzzle, Great Soundtrack..."
...,...,...,...,...
8088,527510,4,2016,"Strategy, Simulation, Casual, Indie"
8089,527810,1,2016,"Difficult, Female Protagonist, Platformer, Ret..."
8090,527890,1,2016,"Simulation, Casual"
8091,527900,1,2016,"Hidden Object, Adventure, Casual"


In [32]:
# Se verifica el estado de sus tipos de datos 
df_PlayTimeGenre_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8093 entries, 0 to 8092
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Item_Id                 8093 non-null   int64 
 1   Playtime_Forever_Hours  8093 non-null   int64 
 2   Year_Launch             8093 non-null   int64 
 3   Genres                  8090 non-null   object
dtypes: int64(3), object(1)
memory usage: 253.0+ KB


Se guarada el DataFrame temporal en formato comprimido gzip

In [33]:
df_PlayTimeGenre_temp.to_csv('PlayTimeGenre.gzip', compression='gzip', index=False)

In [34]:
# Se verifica que el archivo gzip comprimido pueda ser leido de manera efectiva y que no hayan problemas en los datos que este arroja
df_PlayTimeGenre_parquet = pd.read_csv('PlayTimeGenre.gzip', compression='gzip')
df_PlayTimeGenre_parquet

Unnamed: 0,Item_Id,Playtime_Forever_Hours,Year_Launch,Genres
0,10,293487,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."
1,20,17795,1999,"1990s, Casual, Team-Based, Multiplayer, Fast-P..."
2,30,13520,2003,"Multiplayer, Shooter, War, Historical, Co-op,..."
3,40,3076,2001,"Multiplayer, Shooter, First-Person, Sci-fi, FP..."
4,50,13288,1999,"Story Rich, Shooter, Puzzle, Great Soundtrack..."
...,...,...,...,...
8088,527510,4,2016,"Strategy, Simulation, Casual, Indie"
8089,527810,1,2016,"Difficult, Female Protagonist, Platformer, Ret..."
8090,527890,1,2016,"Simulation, Casual"
8091,527900,1,2016,"Hidden Object, Adventure, Casual"


In [35]:
df_PlayTimeGenre_parquet.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8093 entries, 0 to 8092
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Item_Id                 8093 non-null   int64 
 1   Playtime_Forever_Hours  8093 non-null   int64 
 2   Year_Launch             8093 non-null   int64 
 3   Genres                  8090 non-null   object
dtypes: int64(3), object(1)
memory usage: 253.0+ KB


---