# ETL 2 Proyecto Individual ML Ops STEAM, 

## Refinamiento de los Data Sets para las funciones  

---

In [1]:
# Se importan las librerías necesarias para este proceso de transformación
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Rutas de ubicación para los datasets:
ruta_reviews = 'E:\\AAADATOS\Henry\\AA_Data_Science\\MATERIAL_PI\\PI_ML_OPS_STEAM_DSFT17\\user_reviews.csv'
ruta_items = 'E:\\AAADATOS\Henry\\AA_Data_Science\\MATERIAL_PI\\PI_ML_OPS_STEAM_DSFT17\\user_items.csv'
ruta_games = 'E:\\AAADATOS\Henry\\AA_Data_Science\\MATERIAL_PI\\PI_ML_OPS_STEAM_DSFT17\\user_games.csv'

In [3]:
# Se inicializan los Data Sets 
df_reviews = pd.read_csv(ruta_reviews)
df_items = pd.read_csv(ruta_items)
df_games = pd.read_csv(ruta_games)

Se visualizan los Data Frames 

In [4]:
df_reviews.head()

Unnamed: 0,User_Id,Item_Id,Recommend,Year,Date,Sentiment_Analysis
0,76561197970982479,1250,True,2011,2011-11-05,2
1,76561197970982479,22200,True,2011,2011-07-15,2
2,76561197970982479,43110,True,2011,2011-04-21,2
3,js41637,251610,True,2014,2014-06-24,2
4,js41637,227300,True,2013,2013-09-08,2


In [5]:
df_items.head()

Unnamed: 0,User_Id,Items_Count,Steam_Id,Item_Id,Item_Name,Playtime_Forever_Hours
0,76561197970982479,277,76561197970982479,10,Counter-Strike,1
1,76561197970982479,277,76561197970982479,30,Day of Defeat,1
2,76561197970982479,277,76561197970982479,300,Day of Defeat: Source,79
3,76561197970982479,277,76561197970982479,240,Counter-Strike: Source,31
4,76561197970982479,277,76561197970982479,3830,Psychonauts,6


In [6]:
df_games.head()

Unnamed: 0,Item_Id,Title,Year,Publisher,Developer,Genres
0,761140,Lost Summoner Kitty,2018,Kotoshiro,Kotoshiro,"Simulation, Casual, Strategy, Action, Indie"
1,643980,Ironbound,2018,"Making Fun, Inc.","Making Fun, Inc.","2D, Design & Illustration, RPG, Trading Card G..."
2,670290,Real Pool 3D - Poolians,2017,Poolians.com,Poolians.com,"Sports, Free to Play, Simulation, Casual, Mult..."
3,767400,弹炸人2222,2017,彼岸领域,彼岸领域,"Adventure, Action, Casual"
4,772540,Battle Royale Trainer,2018,Trickjump Games Ltd,Trickjump Games Ltd,"Sniper, Shooter, Third Person, Simulation, Thi..."


In [7]:
print(f'El tamaño del Data Frame Reviews es de {df_reviews.shape}')
print(f'El tamaño del Data Frame Items es de {df_items.shape}')
print(f'El tamaño del Data Frame Games es de {df_games.shape}')

El tamaño del Data Frame Reviews es de (59305, 6)
El tamaño del Data Frame Items es de (3285246, 6)
El tamaño del Data Frame Games es de (28663, 6)


---

### Nuevo proceso de limpieza

Gracias al proceso anterior del **`“EDA`** se pudieron identificar unos valores en el Data Set **`“Games”`** que se perfilaron para ser eliminados.

In [8]:
# Se crea un Data Frame filtrado 
no_developer = df_games[df_games['Developer'] == '(none)']
no_developer

Unnamed: 0,Item_Id,Title,Year,Publisher,Developer,Genres
3705,253250,Stonehearth,2015,(none),(none),"RTS, Multiplayer, Building, RPG, Cute, Open Wo..."
16224,548130,Scribble Ships,2017,(none),(none),"Arcade, Action, Indie"


In [9]:
# Se hace un merge para eliminar las filas del Data Frame filtrado del Data Frame original
df_games = pd.merge(df_games, no_developer, on='Item_Id', how='left', indicator=True).query('_merge == "left_only"').drop('_merge', axis=1)
df_games.shape # Se comprueba que el tamaño del Data Frame haya cambiado

(28661, 11)

In [10]:
df_games = df_games.drop(columns=['Title_y', 'Year_y', 'Publisher_y', 'Developer_y', 'Genres_y']) # Se eliminan columnas residuales del proceso anterior

In [11]:
# Se normalizan nuevamente los nombres de las columnas del Data Frame
df_games = df_games.rename(columns={'Title_x': 'Title'})
df_games = df_games.rename(columns={'Year_x': 'Year_Launch'})
df_games = df_games.rename(columns={'Publisher_x': 'Publisher'})
df_games = df_games.rename(columns={'Developer_x': 'Developer'})
df_games = df_games.rename(columns={'Genres_x': 'Genres'})

In [12]:
df_games

Unnamed: 0,Item_Id,Title,Year_Launch,Publisher,Developer,Genres
0,761140,Lost Summoner Kitty,2018,Kotoshiro,Kotoshiro,"Simulation, Casual, Strategy, Action, Indie"
1,643980,Ironbound,2018,"Making Fun, Inc.","Making Fun, Inc.","2D, Design & Illustration, RPG, Trading Card G..."
2,670290,Real Pool 3D - Poolians,2017,Poolians.com,Poolians.com,"Sports, Free to Play, Simulation, Casual, Mult..."
3,767400,弹炸人2222,2017,彼岸领域,彼岸领域,"Adventure, Action, Casual"
4,772540,Battle Royale Trainer,2018,Trickjump Games Ltd,Trickjump Games Ltd,"Sniper, Shooter, Third Person, Simulation, Thi..."
...,...,...,...,...,...,...
28658,745400,Kebab it Up!,2018,Bidoniera Games,Bidoniera Games,"Violent, Casual, Adventure, Action, Indie"
28659,773640,Colony On Mars,2018,Ghost_RUS Games,Ghost_RUS Games,"Strategy, Simulation, Casual, Indie"
28660,733530,LOGistICAL: South Africa,2018,Sacada,Sacada,"Strategy, Casual, Indie"
28661,610660,Russian Roads,2018,Laush Studio,Laush Studio,"Simulation, Racing, Indie"


Se procede a eliminar los géneros con menos frecuencias del campo **`"Genres"`**

In [13]:
# Se crea la lista con dichos géneros
menos_frec = ['Real-Time with Pause', 'Dystopian', 'Audio Production', 'Loot', 'Arena Shooter', '2.5D', 'Rhythm', 'Experimental', 'Clicker', 'Cartoon',
              'Pirates', 'Mechs', 'Wargame', 'Otome', 'Space Sim', 'Hex Grid', 'MOBA', 'GameMaker', 'Real-Time', 'Crime', 'Episodic', 'Noir', 'Photo Editing',
              'Naval', 'Trading Card Game', 'VR', 'Ninja', 'Mod', 'Tanks', 'Split Screen', 'Tactical RPG', 'Mouse only', 'Voxel', 'Strategy RPG', '1980s',
              'Psychological', 'Dragons', 'Runner', '3D Vision', 'Western', 'CRPG', 'Alternate History', 'Dinosaurs', 'Blood', 'Real Time Tactics', 'Linear',
              'Score Attack', 'Hacking', 'Superhero', 'Demons', 'Science', 'FMV', 'Cold War', 'Comic Book', 'Parody', 'Drama', 'Time Travel', 'Underwater',
              'Psychedelic', 'Swordplay', 'e-sports', 'Politics', 'Football', 'PvE', 'Narration', 'Trading', 'God Game', 'Political', 'Games Workshop',
              'Villain Protagonist', 'Vampire', 'Assassin', 'Heist', 'Hunting', 'Programming', 'Gothic', 'Mythology', 'World War I', 'LEGO', 'Soccer',
              'Rome', 'Satire', 'Cinematic', 'Crowdfunded', 'Grid-Based Movement', 'Character Action Game', 'Agriculture', 'Class-Based', 'Supernatural',
              'Warhammer 40K', 'Silent Protagonist', 'Quick-Time Events', 'Asynchronous Multiplayer', 'Lore-Rich', 'Bullet Time', 'Time Attack', 'Pinball',
              'Time Manipulation', 'Typing', 'America', 'Based On A Novel', 'Dark Comedy', 'Chess', '6DOF', 'Star Wars', 'Conspiracy', 'Sailing',
              'Spectacle fighter', 'Offroad', 'On-Rails Shooter', 'Batman', 'Co-op Campaign', 'Thriller', 'Fishing', '', 'Martial Arts', 'Modern',
              'Capitalism', 'Mars', 'Diplomacy', 'Sniper', 'Philisophical', 'Gun Customization', 'Music-Based Procedural Generation', 'Sokoban', 'Horses',
              'Movie', 'Nonlinear', 'Word Game', 'Werewolves', 'Mining', 'Golf', 'Benchmark', 'Gambling', 'Inventory Management', 'Gaming', 'Lemmings',
              'Lara Croft', 'Mystery Dungeon', 'Experience', 'Dynamic Narration', 'Basketball', 'Mini Golf', 'Documentary', 'Investigation', 'Conversation',
              'Wrestling', 'Artificial Intelligence', 'Spelling', 'Pool', 'Steam Machine', 'Intentionally Awkward Controls', 'Underground', 'NSFW',
              'Transhumanism', 'Bowling', 'Tutorial', 'Cycling', 'Voice Control', 'Faith', 'Accounting', 'Hardware', 'Foreign']

In [14]:
# Se convierte la lista a un patrón de expresión regular
patron_regex = '|'.join(menos_frec)

In [15]:
# Se itera con un ciclo ‘for’ para comprobar que los géneros se eliminen  
for palabra in menos_frec:
    if df_games['Genres'].str.contains(palabra).any():
        print(f'La palabra "{palabra}" todavía está presente en alguna fila.')
    else:
        print(f'La palabra "{palabra}" no está presente en ninguna fila.')

La palabra "Real-Time with Pause" todavía está presente en alguna fila.
La palabra "Dystopian" todavía está presente en alguna fila.
La palabra "Audio Production" todavía está presente en alguna fila.
La palabra "Loot" todavía está presente en alguna fila.
La palabra "Arena Shooter" todavía está presente en alguna fila.
La palabra "2.5D" todavía está presente en alguna fila.
La palabra "Rhythm" todavía está presente en alguna fila.
La palabra "Experimental" todavía está presente en alguna fila.
La palabra "Clicker" todavía está presente en alguna fila.
La palabra "Cartoon" todavía está presente en alguna fila.
La palabra "Pirates" todavía está presente en alguna fila.
La palabra "Mechs" todavía está presente en alguna fila.
La palabra "Wargame" todavía está presente en alguna fila.
La palabra "Otome" todavía está presente en alguna fila.
La palabra "Space Sim" todavía está presente en alguna fila.
La palabra "Hex Grid" todavía está presente en alguna fila.
La palabra "MOBA" todavía est

In [16]:
# Se aplica la eliminación de las palbras en la columna 'Genres'
df_games['Genres'] = df_games['Genres'].str.replace(patron_regex, '', regex=True)

In [17]:
# Se itera nuevamente para comprobar que los géneros se hayan eliminado
for palabra in menos_frec:
    if df_games['Genres'].str.contains(palabra).any():
        print(f'La palabra "{palabra}" todavía está presente en alguna fila.')
    else:
        print(f'La palabra "{palabra}" no está presente en ninguna fila.')

La palabra "Real-Time with Pause" no está presente en ninguna fila.
La palabra "Dystopian" no está presente en ninguna fila.
La palabra "Audio Production" no está presente en ninguna fila.
La palabra "Loot" no está presente en ninguna fila.
La palabra "Arena Shooter" no está presente en ninguna fila.
La palabra "2.5D" no está presente en ninguna fila.
La palabra "Rhythm" no está presente en ninguna fila.
La palabra "Experimental" no está presente en ninguna fila.
La palabra "Clicker" no está presente en ninguna fila.
La palabra "Cartoon" no está presente en ninguna fila.
La palabra "Pirates" no está presente en ninguna fila.
La palabra "Mechs" no está presente en ninguna fila.
La palabra "Wargame" no está presente en ninguna fila.
La palabra "Otome" no está presente en ninguna fila.
La palabra "Space Sim" no está presente en ninguna fila.
La palabra "Hex Grid" no está presente en ninguna fila.
La palabra "MOBA" no está presente en ninguna fila.
La palabra "GameMaker" no está presente e

In [23]:
# Se eiliminan las comas duplicadas o que hayan quedado en posiciones incorrectas
df_games['Genres'] = df_games['Genres'].str.replace(r'^,\s*|\s*,\s*$', '', regex=True)
df_games['Genres'] = df_games['Genres'].str.replace(r'\s*,\s*,', ', ', regex=True)

In [24]:
# Se reemplaza las dobles comillas que puedan tener algunos géneros
df_games['Genres'] = df_games['Genres'].str.replace(r'"', '')

#### De esta manera se ha realizado el último proceso de transformación de datos a manera general en el Data Set.

---

### Primer Data Set para la función **`“PlayTimeGenre”`**

Gracias a un análisis previo de la consigna de la función se establecen los Data Sets y los campos necesarios solamente para esta función. En este caso los Data Sets serán **`“Items”`** y **`“Games”`** que tendrán una relación de **`“Uno”`** a **`“Muchos”`** y se relacionarán con el campo **`“Item_Id”`**, los campos que se incluirán serán **`“Items.Playtime_Forever_Hours”`**, **`“Games.Year”`** y **`“Games.Genres”`** por lo cual se hará un proceso de transformación para llegar a un nuevo Data Frame con los campos mencionados. 

In [25]:
# Se filtra los campos que se van a usar del Data Frame Items 
def1_df_items = df_items[['Item_Id','Playtime_Forever_Hours']]
def1_df_items

Unnamed: 0,Item_Id,Playtime_Forever_Hours
0,10,1
1,30,1
2,300,79
3,240,31
4,3830,6
...,...,...
3285241,304930,12
3285242,227940,1
3285243,388490,1
3285244,521570,1


In [26]:
# Se filtra los campos que se van a usar del Data Frame Games
def1_df_games = df_games[['Item_Id','Year_Launch','Genres']]
def1_df_games

Unnamed: 0,Item_Id,Year_Launch,Genres
0,761140,2018,"Simulation, Casual, Strategy, Action, Indie"
1,643980,2018,"2D, Design & Illustration, RPG, Free to Play,..."
2,670290,2017,"Sports, Free to Play, Simulation, Casual, Mult..."
3,767400,2017,"Adventure, Action, Casual"
4,772540,2018,"Shooter, Third Person, Simulation, Third-Perso..."
...,...,...,...
28658,745400,2018,"Violent, Casual, Adventure, Action, Indie"
28659,773640,2018,"Strategy, Simulation, Casual, Indie"
28660,733530,2018,"Strategy, Casual, Indie"
28661,610660,2018,"Simulation, Racing, Indie"


In [27]:
# Se fusionan los Data Frames filtrados por la columna 'Item_Id'
merged_df = pd.merge(def1_df_items, def1_df_games, on='Item_Id', how='inner')
merged_df

Unnamed: 0,Item_Id,Playtime_Forever_Hours,Year_Launch,Genres
0,10,1,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."
1,10,2,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."
2,10,2,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."
3,10,6,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."
4,10,105,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."
...,...,...,...,...
2797766,273800,1,2016,Simulation
2797767,354280,3,2016,"Simulation, Action, Casual, Indie"
2797768,464120,1,2016,Utilities
2797769,367090,1,2015,"Action, Indie, Sports"


In [28]:
# Se agrupan por 'Item_Id' y se suma 'Playtime_Forever_Hours'
df_PlayTimeGenre = merged_df.groupby('Item_Id').agg({ # (agg): Para cada grupo de 'Item_Id', calcula la suma de 'Playtime_Forever_Hours' 
    'Playtime_Forever_Hours': 'sum',                  # y toma el primer valor de 'Year_Launch' y 'Genres' (ya que son los mismos para todas las filas del grupo).
    'Year_Launch': 'first',
    'Genres': 'first'
}).reset_index() # Se resetea el Index

df_PlayTimeGenre # Se vizualiza el Data Frame

Unnamed: 0,Item_Id,Playtime_Forever_Hours,Year_Launch,Genres
0,10,293487,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."
1,20,17795,1999,"1990s, Casual, Team-Based, Multiplayer, Fast-P..."
2,30,13520,2003,"Multiplayer, Shooter, War, Historical, Co-op,..."
3,40,3076,2001,"Multiplayer, Shooter, First-Person, Sci-fi, FP..."
4,50,13288,1999,"Story Rich, Shooter, Puzzle, Great Soundtrack..."
...,...,...,...,...
8088,527510,4,2016,"Strategy, Simulation, Casual, Indie"
8089,527810,1,2016,"Difficult, Female Protagonist, Platformer, Ret..."
8090,527890,1,2016,"Simulation, Casual"
8091,527900,1,2016,"Hidden Object, Adventure, Casual"


In [29]:
# Se visualiza en que tipo de datos estan los valores de los campos
df_PlayTimeGenre.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8093 entries, 0 to 8092
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Item_Id                 8093 non-null   int64 
 1   Playtime_Forever_Hours  8093 non-null   int64 
 2   Year_Launch             8093 non-null   int64 
 3   Genres                  8093 non-null   object
dtypes: int64(3), object(1)
memory usage: 253.0+ KB


#### Se procede a exportar el Data Frame a otros formatos para poder ser utilizados posteriormente

In [30]:
# Se guarda el DataFrame en formato CSV
df_PlayTimeGenre.to_csv('PlayTimeGenre.csv', index=False)

In [31]:
# Se convierte el archivo CSV a parquet bajo la compresión "gzip"
ruta_csv_PlayTimeGenre = 'E:\\AAADATOS\\Henry\\AA_Data_Science\\MATERIAL_PI\\PI_ML_OPS_STEAM_DSFT17\\PlayTimeGenre.csv' # Se crea una variable con la ruta del archivo CSV
df_PlayTimeGenre_temp = pd.read_csv(ruta_csv_PlayTimeGenre) # Se lee ese CSV en un nuevo DataFrame temporal para segurar como estan los datos
df_PlayTimeGenre_temp

Unnamed: 0,Item_Id,Playtime_Forever_Hours,Year_Launch,Genres
0,10,293487,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."
1,20,17795,1999,"1990s, Casual, Team-Based, Multiplayer, Fast-P..."
2,30,13520,2003,"Multiplayer, Shooter, War, Historical, Co-op,..."
3,40,3076,2001,"Multiplayer, Shooter, First-Person, Sci-fi, FP..."
4,50,13288,1999,"Story Rich, Shooter, Puzzle, Great Soundtrack..."
...,...,...,...,...
8088,527510,4,2016,"Strategy, Simulation, Casual, Indie"
8089,527810,1,2016,"Difficult, Female Protagonist, Platformer, Ret..."
8090,527890,1,2016,"Simulation, Casual"
8091,527900,1,2016,"Hidden Object, Adventure, Casual"


In [32]:
# Se verifica el estado de sus tipos de datos 
df_PlayTimeGenre_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8093 entries, 0 to 8092
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Item_Id                 8093 non-null   int64 
 1   Playtime_Forever_Hours  8093 non-null   int64 
 2   Year_Launch             8093 non-null   int64 
 3   Genres                  8090 non-null   object
dtypes: int64(3), object(1)
memory usage: 253.0+ KB


Se guarada el DataFrame temporal en formato comprimido gzip

In [33]:
df_PlayTimeGenre_temp.to_csv('PlayTimeGenre.gzip', compression='gzip', index=False)

In [34]:
# Se verifica que el archivo gzip comprimido pueda ser leido de manera efectiva y que no hayan problemas en los datos que este arroja
df_PlayTimeGenre_parquet = pd.read_csv('PlayTimeGenre.gzip', compression='gzip')
df_PlayTimeGenre_parquet

Unnamed: 0,Item_Id,Playtime_Forever_Hours,Year_Launch,Genres
0,10,293487,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."
1,20,17795,1999,"1990s, Casual, Team-Based, Multiplayer, Fast-P..."
2,30,13520,2003,"Multiplayer, Shooter, War, Historical, Co-op,..."
3,40,3076,2001,"Multiplayer, Shooter, First-Person, Sci-fi, FP..."
4,50,13288,1999,"Story Rich, Shooter, Puzzle, Great Soundtrack..."
...,...,...,...,...
8088,527510,4,2016,"Strategy, Simulation, Casual, Indie"
8089,527810,1,2016,"Difficult, Female Protagonist, Platformer, Ret..."
8090,527890,1,2016,"Simulation, Casual"
8091,527900,1,2016,"Hidden Object, Adventure, Casual"


In [35]:
df_PlayTimeGenre_parquet.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8093 entries, 0 to 8092
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Item_Id                 8093 non-null   int64 
 1   Playtime_Forever_Hours  8093 non-null   int64 
 2   Year_Launch             8093 non-null   int64 
 3   Genres                  8090 non-null   object
dtypes: int64(3), object(1)
memory usage: 253.0+ KB


---

### Segundo Data Set para la función **`“UserForGenre”`**

Gracias a un análisis previo de la consigna de la función se establecen los Data Sets y los campos necesarios solamente para esta función. En este caso los Data Sets serán **`“Items”`** y **`“Games”`** que tendrán una relación de **`“Uno”`** a **`“Muchos”`** y se relacionarán con el campo **`“Item_Id”`**, los campos que se incluirán serán **`“Items.User_Id”`**, **`“Items. Playtime_Forever_Hours”`**, **`“Games.Year”`** y **`“Games.Genres”`** por lo cual se hará un proceso de transformación para llegar a un nuevo Data Frame con los campos mencionados. 

In [37]:
# Se filtra los campos que se van a usar del Data Frame Items 
def2_df_items = df_items[['Item_Id','User_Id','Playtime_Forever_Hours']]
def2_df_items

Unnamed: 0,Item_Id,User_Id,Playtime_Forever_Hours
0,10,76561197970982479,1
1,30,76561197970982479,1
2,300,76561197970982479,79
3,240,76561197970982479,31
4,3830,76561197970982479,6
...,...,...,...
3285241,304930,76561198329548331,12
3285242,227940,76561198329548331,1
3285243,388490,76561198329548331,1
3285244,521570,76561198329548331,1


In [39]:
# Se filtra los campos que se van a usar del Data Frame Games
def2_df_games = df_games[['Item_Id','Year_Launch','Genres']]
def2_df_games

Unnamed: 0,Item_Id,Year_Launch,Genres
0,761140,2018,"Simulation, Casual, Strategy, Action, Indie"
1,643980,2018,"2D, Design & Illustration, RPG, Free to Play,..."
2,670290,2017,"Sports, Free to Play, Simulation, Casual, Mult..."
3,767400,2017,"Adventure, Action, Casual"
4,772540,2018,"Shooter, Third Person, Simulation, Third-Perso..."
...,...,...,...
28658,745400,2018,"Violent, Casual, Adventure, Action, Indie"
28659,773640,2018,"Strategy, Simulation, Casual, Indie"
28660,733530,2018,"Strategy, Casual, Indie"
28661,610660,2018,"Simulation, Racing, Indie"


In [41]:
# Se fusionan los Data Frames filtrados por la columna 'Item_Id'
merged_df = pd.merge(def2_df_items, def2_df_games, on='Item_Id', how='inner')
merged_df

Unnamed: 0,Item_Id,User_Id,Playtime_Forever_Hours,Year_Launch,Genres
0,10,76561197970982479,1,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."
1,10,doctr,2,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."
2,10,corrupted_soul,2,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."
3,10,WeiEDKrSat,6,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."
4,10,death-hunter,105,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."
...,...,...,...,...,...
2797766,273800,76561198107283457,1,2016,Simulation
2797767,354280,76561198107283457,3,2016,"Simulation, Action, Casual, Indie"
2797768,464120,Miami_Max,1,2016,Utilities
2797769,367090,76561198146468235,1,2015,"Action, Indie, Sports"


In [42]:
# Se agrupan por 'User_Id' y se suma 'UserForGenre'
df_UserForGenre = merged_df.groupby('User_Id').agg({ # (agg): Para cada grupo de 'Item_Id', calcula la suma de 'Playtime_Forever_Hours' 
    'Playtime_Forever_Hours': 'sum',                 # y toma el primer valor de 'Year_Launch' y 'Genres' (ya que son los mismos para todas las filas del grupo).
    'Year_Launch': 'first',
    'Genres': 'first'                                # Se omite el campo 'Item_Id' ya que no será necesario
}).reset_index() # Se resetea el Index

df_UserForGenre # Se vizualiza el Data Frame

Unnamed: 0,User_Id,Playtime_Forever_Hours,Year_Launch,Genres
0,--000--,2364,2009,"Survival Horror, Horror, Team-Based, Multiplay..."
1,--ace--,1190,2010,"2D, Casual, Fast-Paced, Level Editor, Comedy, ..."
2,--ionex--,654,2009,"Survival Horror, Horror, Team-Based, Multiplay..."
3,-2SV-vuLB-Kg,819,2012,"Team-Based, Multiplayer, Fast-Paced, Realistic..."
4,-404PageNotFound-,3346,2004,"Team-Based, Multiplayer, Shooter, First-Person..."
...,...,...,...,...
67844,zzonci,8,2012,"2D, Massively Multiplayer, Action RPG, Casual,..."
67845,zzoptimuszz,1334,2012,"Massively Multiplayer, Sports, Multiplayer, S..."
67846,zzydrax,81,2004,"Team-Based, Multiplayer, Shooter, First-Person..."
67847,zzyfo,492,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."


In [43]:
# Se cerciora de que no existan Usuarios con cero horas acumuladas
df_prueba = df_UserForGenre[df_UserForGenre['Playtime_Forever_Hours'] == 0]
df_prueba

Unnamed: 0,User_Id,Playtime_Forever_Hours,Year_Launch,Genres


In [44]:
# Se revisa el tipo de dato de los campos del Data Frame
df_UserForGenre.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67849 entries, 0 to 67848
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   User_Id                 67849 non-null  object
 1   Playtime_Forever_Hours  67849 non-null  int64 
 2   Year_Launch             67849 non-null  int64 
 3   Genres                  67849 non-null  object
dtypes: int64(2), object(2)
memory usage: 2.1+ MB


#### Se procede a exportar el Data Frame a otros formatos para poder ser utilizados posteriormente

In [45]:
# Se guarda el DataFrame en formato CSV
df_UserForGenre.to_csv('UserForGenre.csv', index=False)

In [46]:
# Se convierte el archivo CSV a parquet bajo la compresión "gzip"
ruta_csv_UserForGenre = 'E:\\AAADATOS\\Henry\\AA_Data_Science\\MATERIAL_PI\\PI_ML_OPS_STEAM_DSFT17\\UserForGenre.csv' # Se crea una variable con la ruta del archivo CSV
df_UserForGenre_temp = pd.read_csv(ruta_csv_UserForGenre) # Se lee ese CSV en un nuevo DataFrame temporal para segurar como estan los datos
df_UserForGenre_temp

Unnamed: 0,User_Id,Playtime_Forever_Hours,Year_Launch,Genres
0,--000--,2364,2009,"Survival Horror, Horror, Team-Based, Multiplay..."
1,--ace--,1190,2010,"2D, Casual, Fast-Paced, Level Editor, Comedy, ..."
2,--ionex--,654,2009,"Survival Horror, Horror, Team-Based, Multiplay..."
3,-2SV-vuLB-Kg,819,2012,"Team-Based, Multiplayer, Fast-Paced, Realistic..."
4,-404PageNotFound-,3346,2004,"Team-Based, Multiplayer, Shooter, First-Person..."
...,...,...,...,...
67844,zzonci,8,2012,"2D, Massively Multiplayer, Action RPG, Casual,..."
67845,zzoptimuszz,1334,2012,"Massively Multiplayer, Sports, Multiplayer, S..."
67846,zzydrax,81,2004,"Team-Based, Multiplayer, Shooter, First-Person..."
67847,zzyfo,492,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."


In [48]:
# Se verifica el estado de sus tipos de datos 
df_UserForGenre_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67849 entries, 0 to 67848
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   User_Id                 67849 non-null  object
 1   Playtime_Forever_Hours  67849 non-null  int64 
 2   Year_Launch             67849 non-null  int64 
 3   Genres                  67849 non-null  object
dtypes: int64(2), object(2)
memory usage: 2.1+ MB


Se guarada el DataFrame temporal en formato comprimido gzip

In [49]:
df_UserForGenre_temp.to_csv('UserForGenre.gzip', compression='gzip', index=False)

In [50]:
# Se verifica que el archivo gzip comprimido pueda ser leido de manera efectiva y que no hayan problemas en los datos que este arroja
df_UserForGenre_parquet = pd.read_csv('UserForGenre.gzip', compression='gzip')
df_UserForGenre_parquet

Unnamed: 0,User_Id,Playtime_Forever_Hours,Year_Launch,Genres
0,--000--,2364,2009,"Survival Horror, Horror, Team-Based, Multiplay..."
1,--ace--,1190,2010,"2D, Casual, Fast-Paced, Level Editor, Comedy, ..."
2,--ionex--,654,2009,"Survival Horror, Horror, Team-Based, Multiplay..."
3,-2SV-vuLB-Kg,819,2012,"Team-Based, Multiplayer, Fast-Paced, Realistic..."
4,-404PageNotFound-,3346,2004,"Team-Based, Multiplayer, Shooter, First-Person..."
...,...,...,...,...
67844,zzonci,8,2012,"2D, Massively Multiplayer, Action RPG, Casual,..."
67845,zzoptimuszz,1334,2012,"Massively Multiplayer, Sports, Multiplayer, S..."
67846,zzydrax,81,2004,"Team-Based, Multiplayer, Shooter, First-Person..."
67847,zzyfo,492,2000,"1990s, Team-Based, Multiplayer, Shooter, Firs..."


In [51]:
df_UserForGenre_parquet.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67849 entries, 0 to 67848
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   User_Id                 67849 non-null  object
 1   Playtime_Forever_Hours  67849 non-null  int64 
 2   Year_Launch             67849 non-null  int64 
 3   Genres                  67849 non-null  object
dtypes: int64(2), object(2)
memory usage: 2.1+ MB


___

### Tercer Data Set para la función **`“UsersRecommend”`**

Gracias a un análisis previo de la consigna de la función se establecen los Data Sets y los campos necesarios solamente para esta función. En este caso los Data Sets serán **`“Reviews”`** y **`“Games”`** que tendrán una relación de **`“Uno”`** a **`“Muchos”`** y se relacionarán con el campo **`“Item_Id”`**, los campos que se incluirán serán **`“Reviews.Recommend”`**, **`“Reviews.Year”`**, **`“Reviews.Sentiment_Analysis”`** y **`“Games.Title”`** por lo cual se hará un proceso de transformación para llegar a un nuevo Data Frame con los campos mencionados. 

In [55]:
# Se filtra los campos que se van a usar del Data Frame Items 
def3_df_reviews = df_reviews[['Item_Id','User_Id','Year','Recommend','Sentiment_Analysis']]
def3_df_reviews

Unnamed: 0,Item_Id,User_Id,Year,Recommend,Sentiment_Analysis
0,1250,76561197970982479,2011,True,2
1,22200,76561197970982479,2011,True,2
2,43110,76561197970982479,2011,True,2
3,251610,js41637,2014,True,2
4,227300,js41637,2013,True,2
...,...,...,...,...,...
59300,70,76561198312638244,2016,True,2
59301,362890,76561198312638244,2016,True,2
59302,273110,LydiaMorley,2016,True,2
59303,730,LydiaMorley,2016,True,2


In [60]:
# Se filtra los campos que se van a usar del Data Frame Games
def3_df_games = df_games[['Item_Id','Title']]
def3_df_games

Unnamed: 0,Item_Id,Title
0,761140,Lost Summoner Kitty
1,643980,Ironbound
2,670290,Real Pool 3D - Poolians
3,767400,弹炸人2222
4,772540,Battle Royale Trainer
...,...,...
28658,745400,Kebab it Up!
28659,773640,Colony On Mars
28660,733530,LOGistICAL: South Africa
28661,610660,Russian Roads


In [92]:
# Se fusionan los Data Frames filtrados por la columna 'Item_Id'
merged_df = pd.merge(def3_df_reviews, def3_df_games, on='Item_Id', how='inner')
merged_df

Unnamed: 0,Item_Id,User_Id,Year,Recommend,Sentiment_Analysis,Title
0,1250,76561197970982479,2011,True,2,Killing Floor
1,1250,death-hunter,2015,True,2,Killing Floor
2,1250,DJKamBer,2013,True,0,Killing Floor
3,1250,diego9031,2015,True,2,Killing Floor
4,1250,76561198081962345,2014,True,2,Killing Floor
...,...,...,...,...,...,...
50372,307130,llDracuwulf,2015,True,2,Asteria
50373,209120,ChrisCoroner,2016,True,2,Street Fighter X Tekken
50374,220090,MeloncraftLP,2016,True,2,The Journey Down: Chapter One
50375,262850,MeloncraftLP,2016,True,2,The Journey Down: Chapter Two


In [93]:
# Se filtra el nuevo Data Frame reduciendo su tamaño eliminando valores que no son necesarios para la consigna
df_UsersRecommend = merged_df[merged_df['Recommend'] == True] 
df_UsersRecommend.shape # Se comprueba su tamaño

(45019, 6)

In [94]:
# Se filtra el nuevo Data Frame reduciendo su tamaño eliminando valores que no son necesarios para la consigna
df_UsersRecommend = df_UsersRecommend[merged_df['Sentiment_Analysis'] != 0]
df_UsersRecommend.shape # Se comprueba su tamaño

  df_UsersRecommend = df_UsersRecommend[merged_df['Sentiment_Analysis'] != 0]


(39251, 6)

In [95]:
# Ahora se elimina la columna 'Item_Id' ya que se hicieron la relaciones
df_UsersRecommend = df_UsersRecommend.drop(columns='Item_Id')
df_UsersRecommend

Unnamed: 0,User_Id,Year,Recommend,Sentiment_Analysis,Title
0,76561197970982479,2011,True,2,Killing Floor
1,death-hunter,2015,True,2,Killing Floor
3,diego9031,2015,True,2,Killing Floor
4,76561198081962345,2014,True,2,Killing Floor
5,GamerFag,2010,True,2,Killing Floor
...,...,...,...,...,...
50372,llDracuwulf,2015,True,2,Asteria
50373,ChrisCoroner,2016,True,2,Street Fighter X Tekken
50374,MeloncraftLP,2016,True,2,The Journey Down: Chapter One
50375,MeloncraftLP,2016,True,2,The Journey Down: Chapter Two


In [96]:
# Se agrupa por 'User_Id', 'Title', y 'Year', y contar las ocurrencias
df_UsersRecommend = df_UsersRecommend.groupby(['User_Id', 'Title', 'Year']).size().reset_index(name='Conteo')
df_UsersRecommend

Unnamed: 0,User_Id,Title,Year,Conteo
0,--000--,Killing Floor,2014,1
1,--ace--,Team Fortress 2,2014,1
2,--ace--,The Binding of Isaac,2014,1
3,--ionex--,Counter-Strike: Global Offensive,2016,1
4,--ionex--,Terraria,2015,1
...,...,...,...,...
38681,zyr0n1c,Counter-Strike: Global Offensive,2015,1
38682,zyr0n1c,Dead Space,2013,1
38683,zyr0n1c,Garry's Mod,2013,1
38684,zyr0n1c,Loadout,2014,1


In [97]:
# Con el proceso anterior se observa una reudccion en el tamaño del Data Frame así que se realiza un filtrado para ver que hay usuario que dejaron 2 recomendaciónes a un solo Juego en el mismo año
ver_dif = df_UsersRecommend[df_UsersRecommend['Conteo'] == 2]
ver_dif

Unnamed: 0,User_Id,Title,Year,Conteo
64,05041129,Counter-Strike: Global Offensive,2015,2
65,05041129,Halo: Spartan Assault,2015,2
122,111222333444555666888,BattleBlock Theater®,2016,2
123,111222333444555666888,BioShock Infinite,2015,2
124,111222333444555666888,Counter-Strike: Global Offensive,2016,2
...,...,...,...,...
38222,xVIRUSx9,Unturned,2014,2
38228,xXAussieRockXx,Far Cry 3,2014,2
38229,xXAussieRockXx,Trove,2015,2
38422,yolofaceguy,The Wolf Among Us,2014,2


In [98]:
# Incluso quienes dejaron 3 recomendaciónes a un solo Juego en el mismo año
ver_dif2 = df_UsersRecommend[df_UsersRecommend['Conteo'] == 3]
ver_dif2

Unnamed: 0,User_Id,Title,Year,Conteo
2460,76561198027488037,RimWorld,2016,3
5130,76561198051777058,Project Zomboid,2014,3
14269,76561198100326818,Ace of Spades: Battle Builder,2014,3


In [99]:
# Se revisa el tipo de dato de los campos del Data Frame
df_UsersRecommend.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38686 entries, 0 to 38685
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   User_Id  38686 non-null  object
 1   Title    38686 non-null  object
 2   Year     38686 non-null  int64 
 3   Conteo   38686 non-null  int64 
dtypes: int64(2), object(2)
memory usage: 1.2+ MB


#### Se procede a exportar el Data Frame a otros formatos para poder ser utilizados posteriormente

In [100]:
# Se guarda el DataFrame en formato CSV
df_UsersRecommend.to_csv('UsersRecommend.csv', index=False)

In [101]:
# Se convierte el archivo CSV a parquet bajo la compresión "gzip"
ruta_csv_UsersRecommend = 'E:\\AAADATOS\\Henry\\AA_Data_Science\\MATERIAL_PI\\PI_ML_OPS_STEAM_DSFT17\\UsersRecommend.csv' # Se crea una variable con la ruta del archivo CSV
df_UsersRecommend_temp = pd.read_csv(ruta_csv_UsersRecommend) # Se lee ese CSV en un nuevo DataFrame temporal para segurar como estan los datos
df_UsersRecommend_temp

Unnamed: 0,User_Id,Title,Year,Conteo
0,--000--,Killing Floor,2014,1
1,--ace--,Team Fortress 2,2014,1
2,--ace--,The Binding of Isaac,2014,1
3,--ionex--,Counter-Strike: Global Offensive,2016,1
4,--ionex--,Terraria,2015,1
...,...,...,...,...
38681,zyr0n1c,Counter-Strike: Global Offensive,2015,1
38682,zyr0n1c,Dead Space,2013,1
38683,zyr0n1c,Garry's Mod,2013,1
38684,zyr0n1c,Loadout,2014,1


In [102]:
# Se verifica el estado de sus tipos de datos 
df_UsersRecommend_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38686 entries, 0 to 38685
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   User_Id  38686 non-null  object
 1   Title    38686 non-null  object
 2   Year     38686 non-null  int64 
 3   Conteo   38686 non-null  int64 
dtypes: int64(2), object(2)
memory usage: 1.2+ MB


Se guarada el DataFrame temporal en formato comprimido gzip

In [103]:
df_UsersRecommend_temp.to_csv('UsersRecommend.gzip', compression='gzip', index=False)

In [104]:
# Se verifica que el archivo gzip comprimido pueda ser leido de manera efectiva y que no hayan problemas en los datos que este arroja
df_UsersRecommend_parquet = pd.read_csv('UsersRecommend.gzip', compression='gzip')
df_UsersRecommend_parquet

Unnamed: 0,User_Id,Title,Year,Conteo
0,--000--,Killing Floor,2014,1
1,--ace--,Team Fortress 2,2014,1
2,--ace--,The Binding of Isaac,2014,1
3,--ionex--,Counter-Strike: Global Offensive,2016,1
4,--ionex--,Terraria,2015,1
...,...,...,...,...
38681,zyr0n1c,Counter-Strike: Global Offensive,2015,1
38682,zyr0n1c,Dead Space,2013,1
38683,zyr0n1c,Garry's Mod,2013,1
38684,zyr0n1c,Loadout,2014,1


In [105]:
df_UsersRecommend_parquet.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38686 entries, 0 to 38685
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   User_Id  38686 non-null  object
 1   Title    38686 non-null  object
 2   Year     38686 non-null  int64 
 3   Conteo   38686 non-null  int64 
dtypes: int64(2), object(2)
memory usage: 1.2+ MB


---

### Cuarto Data Set para la función **`“UsersWorstDeveloper”`**

Gracias a un análisis previo de la consigna de la función se establecen los Data Sets y los campos necesarios solamente para esta función. En este caso los Data Sets serán **`“Reviews”`** y **`“Games”`** que tendrán una relación de **`“Uno”`** a **`“Muchos”`** y se relacionarán con el campo **`“Item_Id”`**, los campos que se incluirán serán **`“Reviews.User_Id”`**,**`“Reviews.Recommend”`**, **`“Reviews.Year”`**, **`“Reviews.Sentiment_Analysis”`** y **`“Games.Developer”`** por lo cual se hará un proceso de transformación para llegar a un nuevo Data Frame con los campos mencionados. 

In [88]:
# Se filtra los campos que se van a usar del Data Frame Items 
def4_df_reviews = df_reviews[['Item_Id','User_Id','Year','Recommend','Sentiment_Analysis']]
def4_df_reviews

Unnamed: 0,Item_Id,User_Id,Year,Recommend,Sentiment_Analysis
0,1250,76561197970982479,2011,True,2
1,22200,76561197970982479,2011,True,2
2,43110,76561197970982479,2011,True,2
3,251610,js41637,2014,True,2
4,227300,js41637,2013,True,2
...,...,...,...,...,...
59300,70,76561198312638244,2016,True,2
59301,362890,76561198312638244,2016,True,2
59302,273110,LydiaMorley,2016,True,2
59303,730,LydiaMorley,2016,True,2


In [89]:
# Se filtra los campos que se van a usar del Data Frame Games
def4_df_games = df_games[['Item_Id','Developer']]
def4_df_games

Unnamed: 0,Item_Id,Developer
0,761140,Kotoshiro
1,643980,"Making Fun, Inc."
2,670290,Poolians.com
3,767400,彼岸领域
4,772540,Trickjump Games Ltd
...,...,...
28658,745400,Bidoniera Games
28659,773640,Ghost_RUS Games
28660,733530,Sacada
28661,610660,Laush Studio


In [90]:
# Se fusionan los Data Frames filtrados por la columna 'Item_Id'
merged_df = pd.merge(def4_df_reviews, def4_df_games, on='Item_Id', how='inner')
merged_df

Unnamed: 0,Item_Id,User_Id,Year,Recommend,Sentiment_Analysis,Developer
0,1250,76561197970982479,2011,True,2,Tripwire Interactive
1,1250,death-hunter,2015,True,2,Tripwire Interactive
2,1250,DJKamBer,2013,True,0,Tripwire Interactive
3,1250,diego9031,2015,True,2,Tripwire Interactive
4,1250,76561198081962345,2014,True,2,Tripwire Interactive
...,...,...,...,...,...,...
50372,307130,llDracuwulf,2015,True,2,Legend Studio
50373,209120,ChrisCoroner,2016,True,2,"Capcom U.S.A., Inc."
50374,220090,MeloncraftLP,2016,True,2,SkyGoblin
50375,262850,MeloncraftLP,2016,True,2,SkyGoblin


In [91]:
# Se filtra el nuevo Data Frame reduciendo su tamaño eliminando valores que no son necesarios para la consigna
df_UsersWorstDeveloper = merged_df[merged_df['Recommend'] == False] 
df_UsersWorstDeveloper.shape # Se comprueba su tamaño

(5358, 6)

In [106]:
# Se filtra el nuevo Data Frame reduciendo su tamaño eliminando valores que no son necesarios para la consigna
df_UsersWorstDeveloper = df_UsersWorstDeveloper[df_UsersWorstDeveloper['Sentiment_Analysis'] == 0] 
df_UsersWorstDeveloper.shape # Se comprueba su tamaño

(2296, 6)

In [108]:
# Ahora se elimina la columna 'Item_Id' ya que se hicieron la relaciones
df_UsersWorstDeveloper = df_UsersWorstDeveloper.drop(columns='Item_Id')
df_UsersWorstDeveloper

Unnamed: 0,User_Id,Year,Recommend,Sentiment_Analysis,Developer
110,76561198067664442,2014,False,0,Tripwire Interactive
114,76561198016635228,2014,False,0,Tripwire Interactive
288,76561198067771967,2015,False,0,Tripwire Interactive
347,76561198129265482,2016,False,0,SCS Software
429,TheDamox,2015,False,0,SCS Software
...,...,...,...,...,...
50326,CatCatCatCatCatCatCatCat,2014,False,0,Ayyo Games
50336,themajesticlemon,2013,False,0,Gaijin Games
50337,76561198093846750,2016,False,0,Deep Silver
50338,76561198094162039,2015,False,0,Activision


In [109]:
# Se agrupa por 'User_Id', 'Developer', y 'Year', y contar las ocurrencias
df_UsersWorstDeveloper = df_UsersWorstDeveloper.groupby(['User_Id', 'Developer', 'Year']).size().reset_index(name='Conteo')
df_UsersWorstDeveloper

Unnamed: 0,User_Id,Developer,Year,Conteo
0,-PRoSlayeR-,KITATUS STUDIOS,2015,1
1,01189958889189157253,Curve Digital,2016,1
2,07846813956825,Facepunch Studios,2014,1
3,09879655452567,Trion Worlds,2016,1
4,1011001,New World Interactive,2014,1
...,...,...,...,...
2263,zanven42,Hello Games,2016,1
2264,zixwot,Bohemia Interactive,2015,1
2265,zuzuga2003,"Expansive Worlds, Avalanche Studios",2014,1
2266,zv_odd,Angry Mob Games,2015,1


In [110]:
# Con el proceso anterior se observa una reudccion en el tamaño del Data Frame así que se realiza un filtrado para ver que hay usuario que dejaron 2 recomendaciónes a una sola dearrolladora en el mismo año
ver_dif_v2 = df_UsersWorstDeveloper[df_UsersWorstDeveloper['Conteo'] != 1]
ver_dif_v2

Unnamed: 0,User_Id,Developer,Year,Conteo
38,64512328,Hi-Rez Studios,2015,2
83,76561197983254661,Hello Games,2016,2
168,76561198014421677,"1C Company, 1C-SoftClub",2016,2
373,76561198047208774,G2CREW,2016,2
526,76561198063648921,Capcom,2016,2
659,76561198073446384,Akella,2016,2
702,76561198077993857,Valve,2016,2
743,76561198081604689,FireFly Studios,2014,2
755,76561198082823023,Scott Cawthon,2016,2
812,76561198089360928,Team Psykskallar,2015,2


In [111]:
# Se revisa el tipo de dato de los campos del Data Frame
df_UsersWorstDeveloper.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2268 entries, 0 to 2267
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   User_Id    2268 non-null   object
 1   Developer  2268 non-null   object
 2   Year       2268 non-null   int64 
 3   Conteo     2268 non-null   int64 
dtypes: int64(2), object(2)
memory usage: 71.0+ KB


#### Se procede a exportar el Data Frame a otros formatos para poder ser utilizados posteriormente

In [112]:
# Se guarda el DataFrame en formato CSV
df_UsersWorstDeveloper.to_csv('UsersWorstDeveloper.csv', index=False)

In [113]:
# Se convierte el archivo CSV a parquet bajo la compresión "gzip"
ruta_csv_UsersWorstDeveloper = 'E:\\AAADATOS\\Henry\\AA_Data_Science\\MATERIAL_PI\\PI_ML_OPS_STEAM_DSFT17\\UsersWorstDeveloper.csv' # Se crea una variable con la ruta del archivo CSV
df_UsersWorstDeveloper_temp = pd.read_csv(ruta_csv_UsersWorstDeveloper) # Se lee ese CSV en un nuevo DataFrame temporal para segurar como estan los datos
df_UsersWorstDeveloper_temp

Unnamed: 0,User_Id,Developer,Year,Conteo
0,-PRoSlayeR-,KITATUS STUDIOS,2015,1
1,01189958889189157253,Curve Digital,2016,1
2,07846813956825,Facepunch Studios,2014,1
3,09879655452567,Trion Worlds,2016,1
4,1011001,New World Interactive,2014,1
...,...,...,...,...
2263,zanven42,Hello Games,2016,1
2264,zixwot,Bohemia Interactive,2015,1
2265,zuzuga2003,"Expansive Worlds, Avalanche Studios",2014,1
2266,zv_odd,Angry Mob Games,2015,1


In [114]:
# Se verifica el estado de sus tipos de datos 
df_UsersWorstDeveloper.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2268 entries, 0 to 2267
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   User_Id    2268 non-null   object
 1   Developer  2268 non-null   object
 2   Year       2268 non-null   int64 
 3   Conteo     2268 non-null   int64 
dtypes: int64(2), object(2)
memory usage: 71.0+ KB


Se guarada el DataFrame temporal en formato comprimido gzip

In [115]:
df_UsersWorstDeveloper_temp.to_csv('UsersWorstDeveloper.gzip', compression='gzip', index=False)

In [116]:
# Se verifica que el archivo gzip comprimido pueda ser leido de manera efectiva y que no hayan problemas en los datos que este arroja
df_UsersWorstDeveloper_parquet = pd.read_csv('UsersWorstDeveloper.gzip', compression='gzip')
df_UsersWorstDeveloper_parquet

Unnamed: 0,User_Id,Developer,Year,Conteo
0,-PRoSlayeR-,KITATUS STUDIOS,2015,1
1,01189958889189157253,Curve Digital,2016,1
2,07846813956825,Facepunch Studios,2014,1
3,09879655452567,Trion Worlds,2016,1
4,1011001,New World Interactive,2014,1
...,...,...,...,...
2263,zanven42,Hello Games,2016,1
2264,zixwot,Bohemia Interactive,2015,1
2265,zuzuga2003,"Expansive Worlds, Avalanche Studios",2014,1
2266,zv_odd,Angry Mob Games,2015,1


In [117]:
df_UsersWorstDeveloper_parquet.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2268 entries, 0 to 2267
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   User_Id    2268 non-null   object
 1   Developer  2268 non-null   object
 2   Year       2268 non-null   int64 
 3   Conteo     2268 non-null   int64 
dtypes: int64(2), object(2)
memory usage: 71.0+ KB


---

### Quinto Data Set para la función **`“sentiment_analysis”`**

Gracias a un análisis previo de la consigna de la función se establecen los Data Sets y los campos necesarios solamente para esta función. En este caso los Data Sets serán **`“Reviews”`** y **`“Games”`** que tendrán una relación de **`“Uno”`** a **`“Muchos”`** y se relacionarán con el campo **`“Item_Id”`**, los campos que se incluirán serán **`“Reviews.User_Id”`**,**`“Reviews.Sentiment_Analysis”`** y **`“Games.Developer”`** por lo cual se hará un proceso de transformación para llegar a un nuevo Data Frame con los campos mencionados. 

In [118]:
# Se filtra los campos que se van a usar del Data Frame Items 
def5_df_reviews = df_reviews[['Item_Id','User_Id','Sentiment_Analysis']]
def5_df_reviews

Unnamed: 0,Item_Id,User_Id,Sentiment_Analysis
0,1250,76561197970982479,2
1,22200,76561197970982479,2
2,43110,76561197970982479,2
3,251610,js41637,2
4,227300,js41637,2
...,...,...,...
59300,70,76561198312638244,2
59301,362890,76561198312638244,2
59302,273110,LydiaMorley,2
59303,730,LydiaMorley,2


In [119]:
# Se filtra los campos que se van a usar del Data Frame Games
def5_df_games = df_games[['Item_Id','Developer']]
def5_df_games

Unnamed: 0,Item_Id,Developer
0,761140,Kotoshiro
1,643980,"Making Fun, Inc."
2,670290,Poolians.com
3,767400,彼岸领域
4,772540,Trickjump Games Ltd
...,...,...
28658,745400,Bidoniera Games
28659,773640,Ghost_RUS Games
28660,733530,Sacada
28661,610660,Laush Studio


In [120]:
# Se fusionan los Data Frames filtrados por la columna 'Item_Id'
merged_df = pd.merge(def5_df_reviews, def5_df_games, on='Item_Id', how='inner')
merged_df

Unnamed: 0,Item_Id,User_Id,Sentiment_Analysis,Developer
0,1250,76561197970982479,2,Tripwire Interactive
1,1250,death-hunter,2,Tripwire Interactive
2,1250,DJKamBer,0,Tripwire Interactive
3,1250,diego9031,2,Tripwire Interactive
4,1250,76561198081962345,2,Tripwire Interactive
...,...,...,...,...
50372,307130,llDracuwulf,2,Legend Studio
50373,209120,ChrisCoroner,2,"Capcom U.S.A., Inc."
50374,220090,MeloncraftLP,2,SkyGoblin
50375,262850,MeloncraftLP,2,SkyGoblin


In [122]:
df_sentiment_analysis = merged_df.drop(columns='User_Id')
df_sentiment_analysis

Unnamed: 0,Item_Id,Sentiment_Analysis,Developer
0,1250,2,Tripwire Interactive
1,1250,2,Tripwire Interactive
2,1250,0,Tripwire Interactive
3,1250,2,Tripwire Interactive
4,1250,2,Tripwire Interactive
...,...,...,...
50372,307130,2,Legend Studio
50373,209120,2,"Capcom U.S.A., Inc."
50374,220090,2,SkyGoblin
50375,262850,2,SkyGoblin


In [123]:
# Se revisa el tipo de dato de los campos del Data Frame
df_sentiment_analysis.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50377 entries, 0 to 50376
Data columns (total 3 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Item_Id             50377 non-null  int64 
 1   Sentiment_Analysis  50377 non-null  int64 
 2   Developer           50371 non-null  object
dtypes: int64(2), object(1)
memory usage: 1.2+ MB


#### Se procede a exportar el Data Frame a otros formatos para poder ser utilizados posteriormente

In [124]:
# Se guarda el DataFrame en formato CSV
df_sentiment_analysis.to_csv('sentiment_analysis.csv', index=False)

In [125]:
# Se convierte el archivo CSV a parquet bajo la compresión "gzip"
ruta_csv_sentiment_analysis = 'E:\\AAADATOS\\Henry\\AA_Data_Science\\MATERIAL_PI\\PI_ML_OPS_STEAM_DSFT17\\sentiment_analysis.csv' # Se crea una variable con la ruta del archivo CSV
df_sentiment_analysis_temp = pd.read_csv(ruta_csv_sentiment_analysis) # Se lee ese CSV en un nuevo DataFrame temporal para segurar como estan los datos
df_sentiment_analysis_temp

Unnamed: 0,Item_Id,Sentiment_Analysis,Developer
0,1250,2,Tripwire Interactive
1,1250,2,Tripwire Interactive
2,1250,0,Tripwire Interactive
3,1250,2,Tripwire Interactive
4,1250,2,Tripwire Interactive
...,...,...,...
50372,307130,2,Legend Studio
50373,209120,2,"Capcom U.S.A., Inc."
50374,220090,2,SkyGoblin
50375,262850,2,SkyGoblin


In [127]:
# Se verifica el estado de sus tipos de datos 
df_sentiment_analysis_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50377 entries, 0 to 50376
Data columns (total 3 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Item_Id             50377 non-null  int64 
 1   Sentiment_Analysis  50377 non-null  int64 
 2   Developer           50371 non-null  object
dtypes: int64(2), object(1)
memory usage: 1.2+ MB


Se guarada el DataFrame temporal en formato comprimido gzip

In [128]:
df_sentiment_analysis_temp.to_csv('sentiment_analysis.gzip', compression='gzip', index=False)

In [129]:
# Se verifica que el archivo gzip comprimido pueda ser leido de manera efectiva y que no hayan problemas en los datos que este arroja
df_sentiment_analysis_parquet = pd.read_csv('sentiment_analysis.gzip', compression='gzip')
df_sentiment_analysis_parquet

Unnamed: 0,Item_Id,Sentiment_Analysis,Developer
0,1250,2,Tripwire Interactive
1,1250,2,Tripwire Interactive
2,1250,0,Tripwire Interactive
3,1250,2,Tripwire Interactive
4,1250,2,Tripwire Interactive
...,...,...,...
50372,307130,2,Legend Studio
50373,209120,2,"Capcom U.S.A., Inc."
50374,220090,2,SkyGoblin
50375,262850,2,SkyGoblin


In [130]:
df_sentiment_analysis_parquet.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50377 entries, 0 to 50376
Data columns (total 3 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Item_Id             50377 non-null  int64 
 1   Sentiment_Analysis  50377 non-null  int64 
 2   Developer           50371 non-null  object
dtypes: int64(2), object(1)
memory usage: 1.2+ MB


---