 # ETL de **"Steam_Games"**
 -------------

En este jupyter notebook se desarrolla la extracción, transformación y carga del conjunto del dataset `"steam_games"`

-------------
### Tabla de contenido

- 1.- Introducción
- 2.- Importación de las librerías y funciones personalizadas para el ETL
    - 2.1.- Librerías
    - 2.2.- Funciones Personalizadas
- 3.- Desarrollo del proceso de ETL
    - 3.1.- Extracción de datos
        - 3.1.1.- Carga de archivos "Steam_games.json.gz"
    - 3.2.- Transformación de datos
        - 3.2.1.- Aspectos generales del Dataframe
        - 3.2.2 Exploración y tratamiendo de datos vacíos
        - 3.2.3 Eliminación de datos duplicados
        - 3.2.4 Datos incorrectos o irrelevantes
        - 3.2.5 Datos categóricos
    - 3.3.- Carga de Datos
        - 3.3.1 Generación del archivo limpio
-------------

## **<span style="color: #d8572a;">1.- Introducción</span>**

Este trabajo ETL tiene como objetivo procesar e integrar un conjunto de datos que contiene información sobre videojuegos de Steam. El conjunto de datos, titulado "Steam Games", consta de 120445 filas y 13 columnas, luego de un proceso de limpieza exhaustivo para eliminar filas con valores NaN. Los datos extraídos se transformarán y cargarán en un sistema de destino para su posterior análisis y utilización.

El conjunto de datos "Steam Games" abarca diversos atributos relacionados con videojuegos, proporcionando información valiosa sobre el panorama de los juegos. Cada fila representa un juego único y las columnas capturan detalles esenciales como editor, géneros, título, fecha de lanzamiento, precio y desarrollador.

## **<span style="color: #d8572a;">2.- Importación de las librerías y funciones personalizadas para el ETL</span>**

### **<span style="color: #f7b538;">2.1.- Librerías</span>**

In [1]:
import pandas as pd
import numpy as np

### **<span style="color: #f7b538;">2.2.- Funciones Personalizadas</span>**

In [1]:
from datetime import datetime
import Func_personalizadas.FPersonalizadas as FP

ModuleNotFoundError: No module named 'Func_personalizadas'

## **<span style="color: #d8572a;">3.- Desarrollo del proceso de ETL</span>**

### **<span style="color: #f7b538;">3.1.- Extracción de datos</span>**

#### 3.1.1.- Carga de archivos "Steam_games.json.gz"

In [3]:
ruta_archivo= r"C:\Users\USUARIO\OneDrive\6.- Data Science\1.- Experiencia Soy Henry Bootcamp\Labs\PI 1\ML_DevOps_Steam_Project\Datasets\steam_games.json.gz"

In [4]:
df_steam_games = FP.open_json_path_basic(ruta_archivo)
df_steam_games

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
0,,,,,,,,,,,,,
1,,,,,,,,,,,,,
2,,,,,,,,,,,,,
3,,,,,,,,,,,,,
4,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
120440,Ghost_RUS Games,"[Casual, Indie, Simulation, Strategy]",Colony On Mars,Colony On Mars,http://store.steampowered.com/app/773640/Colon...,2018-01-04,"[Strategy, Indie, Casual, Simulation]",http://steamcommunity.com/app/773640/reviews/?...,"[Single-player, Steam Achievements]",1.99,False,773640,"Nikita ""Ghost_RUS"""
120441,Sacada,"[Casual, Indie, Strategy]",LOGistICAL: South Africa,LOGistICAL: South Africa,http://store.steampowered.com/app/733530/LOGis...,2018-01-04,"[Strategy, Indie, Casual]",http://steamcommunity.com/app/733530/reviews/?...,"[Single-player, Steam Achievements, Steam Clou...",4.99,False,733530,Sacada
120442,Laush Studio,"[Indie, Racing, Simulation]",Russian Roads,Russian Roads,http://store.steampowered.com/app/610660/Russi...,2018-01-04,"[Indie, Simulation, Racing]",http://steamcommunity.com/app/610660/reviews/?...,"[Single-player, Steam Achievements, Steam Trad...",1.99,False,610660,Laush Dmitriy Sergeevich
120443,SIXNAILS,"[Casual, Indie]",EXIT 2 - Directions,EXIT 2 - Directions,http://store.steampowered.com/app/658870/EXIT_...,2017-09-02,"[Indie, Casual, Puzzle, Singleplayer, Atmosphe...",http://steamcommunity.com/app/658870/reviews/?...,"[Single-player, Steam Achievements, Steam Cloud]",4.99,False,658870,"xropi,stev3ns"


### **<span style="color: #f7b538;">**3.2.- Transformación de datos**</span>**

#### 3.2.1.- Aspectos generales del Dataframe

In [5]:
# Dimensiones del dataframe
df_steam_games.shape

(120445, 13)

In [6]:
df_steam_games.columns

Index(['publisher', 'genres', 'app_name', 'title', 'url', 'release_date',
       'tags', 'reviews_url', 'specs', 'price', 'early_access', 'id',
       'developer'],
      dtype='object')

In [7]:
df_steam_games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120445 entries, 0 to 120444
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher     24083 non-null  object
 1   genres        28852 non-null  object
 2   app_name      32133 non-null  object
 3   title         30085 non-null  object
 4   url           32135 non-null  object
 5   release_date  30068 non-null  object
 6   tags          31972 non-null  object
 7   reviews_url   32133 non-null  object
 8   specs         31465 non-null  object
 9   price         30758 non-null  object
 10  early_access  32135 non-null  object
 11  id            32133 non-null  object
 12  developer     28836 non-null  object
dtypes: object(13)
memory usage: 11.9+ MB


In [8]:
df_steam_games.id.value_counts()

id
612880    2
761140    1
530200    1
518690    1
513460    1
         ..
676060    1
494160    1
215280    1
667090    1
681550    1
Name: count, Length: 32132, dtype: int64

### 3.2.2 Exploración y tratamiendo de datos vacíos

Eliminamos todas las filas que contengan datos vacíos en todos los campos

In [9]:
## Eliminamos las filas vacías
df_steam_games = df_steam_games.dropna(how='all').reset_index(drop=True)
## Evaluamos dimensiones
df_steam_games.shape

(32135, 13)

Revisamos los tipos de datos y los nulos por cada columna

In [10]:
FP.tabla_tipo_datos(df_steam_games)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,publisher,"[<class 'str'>, <class 'float'>]",74.94,25.06,8052
1,genres,"[<class 'list'>, <class 'float'>]",89.78,10.22,3283
2,app_name,"[<class 'str'>, <class 'float'>]",99.99,0.01,2
3,title,"[<class 'str'>, <class 'float'>]",93.62,6.38,2050
4,url,[<class 'str'>],100.0,0.0,0
5,release_date,"[<class 'str'>, <class 'float'>]",93.57,6.43,2067
6,tags,"[<class 'list'>, <class 'float'>]",99.49,0.51,163
7,reviews_url,"[<class 'str'>, <class 'float'>]",99.99,0.01,2
8,specs,"[<class 'list'>, <class 'float'>]",97.92,2.08,670
9,price,"[<class 'float'>, <class 'str'>]",95.71,4.29,1377


Revisamos a detalles las columnas que tienen estructura tipo lista, para entender su estructura

In [11]:
col_tipo_list = FP.identificar_columnas_con_listas(df_steam_games)

In [12]:
for col in col_tipo_list:    
    print(f"Columna {col} \n Tipo de Dato: ",df_steam_games[col][5])

Columna genres 
 Tipo de Dato:  ['Action', 'Adventure', 'Simulation']
Columna tags 
 Tipo de Dato:  ['Action', 'Adventure', 'Simulation', 'FPS', 'Shooter', 'Third-Person Shooter', 'Sniper', 'Third Person']
Columna specs 
 Tipo de Dato:  ['Single-player', 'Steam Achievements']


Revisamos columnas con formato tipo str y float a la vez

In [13]:
# se observa el tipo de dato en 'price'
df_steam_games['price'].unique()

array([4.99, 'Free To Play', 'Free to Play', 0.99, 2.99, 3.99, 9.99,
       18.99, 29.99, nan, 'Free', 10.99, 1.59, 14.99, 1.99, 59.99, 8.99,
       6.99, 7.99, 39.99, 19.99, 7.49, 12.99, 5.99, 2.49, 15.99, 1.25,
       24.99, 17.99, 61.99, 3.49, 11.99, 13.99, 'Free Demo',
       'Play for Free!', 34.99, 74.76, 1.49, 32.99, 99.99, 14.95, 69.99,
       16.99, 79.99, 49.99, 5.0, 44.99, 13.98, 29.96, 119.99, 109.99,
       149.99, 771.71, 'Install Now', 21.99, 89.99,
       'Play WARMACHINE: Tactics Demo', 0.98, 139.92, 4.29, 64.99,
       'Free Mod', 54.99, 74.99, 'Install Theme', 0.89, 'Third-party',
       0.5, 'Play Now', 299.99, 1.29, 3.0, 15.0, 5.49, 23.99, 49.0, 20.99,
       10.93, 1.39, 'Free HITMAN™ Holiday Pack', 36.99, 4.49, 2.0, 4.0,
       9.0, 234.99, 1.95, 1.5, 199.0, 189.0, 6.66, 27.99, 10.49, 129.99,
       179.0, 26.99, 399.99, 31.99, 399.0, 20.0, 40.0, 3.33, 199.99,
       22.99, 320.0, 38.85, 71.7, 59.95, 995.0, 27.49, 3.39, 6.0, 19.95,
       499.99, 16.06, 4.68, 131

Revisamos las columnas de tipo booleano

In [14]:
# se observa el tipo de dato en 'early_access'
df_steam_games['early_access'].unique()

array([False, True], dtype=object)

### Alcance preliminar del diccionario de datos de "Steam Games"

**Descripción:**

Este conjunto de datos contiene información sobre videojuegos. Tras la limpieza de filas con valores NaN, el conjunto final consta de 32135 filas y 13 columnas. A continuación, se detalla la descripción de cada columna:

**Columnas:**

* **publisher**: Identifica la empresa publicadora del juego.
* **genres**: Indica los géneros del juego, representados como una lista de uno o más géneros por registro.
* **app_name**: Nombre del juego.
* **title**: Título del juego.
* **url**: Enlace web del juego.
* **release_date**: Fecha de lanzamiento del juego en formato YYYY-MM-DD.
* **tags**: Etiquetas asociadas al juego, representadas como una lista de una o más etiquetas por registro.
* **reviews_url**: Enlace web donde se encuentran las reseñas del juego.
* **specs**: Especificaciones técnicas del juego, representadas como una lista de uno o más strings con las especificaciones.
* **price**: Precio del juego.
* **early_access**: Indica si el juego tiene acceso temprano (True) o no (False).
* **id**: Identificador único del juego.
* **developer**: Desarrollador del juego.

**Notas:**

* Las columnas `genres` y `tags` contienen listas de valores separados por comas.
* La columna `release_date` tiene un formato de fecha específico (YYYY-MM-DD).
* La columna `price` puede contener valores numéricos o textuales (en caso de monedas no convencionales).

### 3.2.3 Eliminación de datos duplicados

Se analizan si hay duplicados teniendo en cuenta la columna del id del item.

In [15]:
FP.verifica_duplicados_por_columna(df_steam_games, 'id')

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
13894,Bethesda Softworks,[Action],Wolfenstein II: The New Colossus,Wolfenstein II: The New Colossus,http://store.steampowered.com/app/612880/,2017-10-26,"[Action, FPS, Gore, Violent, Alternate History...",http://steamcommunity.com/app/612880/reviews/?...,"[Single-player, Steam Achievements, Full contr...",59.99,False,612880.0,Machine Games
14573,Bethesda Softworks,[Action],Wolfenstein II: The New Colossus,Wolfenstein II: The New Colossus,http://store.steampowered.com/app/612880/Wolfe...,2017-10-26,"[Action, FPS, Gore, Violent, Alternate History...",http://steamcommunity.com/app/612880/reviews/?...,"[Single-player, Steam Achievements, Full contr...",59.99,False,612880.0,Machine Games
74,,,,,http://store.steampowered.com/,,,,,19.99,False,,
30961,"Warner Bros. Interactive Entertainment, Feral ...","[Action, Adventure]",Batman: Arkham City - Game of the Year Edition,Batman: Arkham City - Game of the Year Edition,http://store.steampowered.com/app/200260,2012-09-07,"[Action, Open World, Batman, Adventure, Stealt...",,"[Single-player, Steam Achievements, Steam Trad...",19.99,False,,"Rocksteady Studios,Feral Interactive (Mac)"


Identificación de Items Duplicados:

Se han detectado dos items duplicados en el conjunto de datos:

* **Primer caso:** Registro con ID 612880, que aparece duplicado exactamente.
* **Segundo caso:** Registro con ID `NaN` (Not a Number) y una diferencia en la cantidad de valores NaN entre las dos apariciones.

En primer lugar se busca por el 'developer' si este juego está ya registrado.

In [16]:
df_steam_games[df_steam_games['developer']=='Rocksteady Studios,Feral Interactive (Mac)']

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
1068,"Warner Bros. Interactive Entertainment, Feral ...","[Action, Adventure]",Batman: Arkham City - Game of the Year Edition,Batman: Arkham City - Game of the Year Edition,http://store.steampowered.com/app/200260/Batma...,2012-09-07,"[Action, Open World, Batman, Adventure, Stealt...",http://steamcommunity.com/app/200260/reviews/?...,"[Single-player, Steam Achievements, Steam Trad...",19.99,False,200260.0,"Rocksteady Studios,Feral Interactive (Mac)"
30961,"Warner Bros. Interactive Entertainment, Feral ...","[Action, Adventure]",Batman: Arkham City - Game of the Year Edition,Batman: Arkham City - Game of the Year Edition,http://store.steampowered.com/app/200260,2012-09-07,"[Action, Open World, Batman, Adventure, Stealt...",,"[Single-player, Steam Achievements, Steam Trad...",19.99,False,,"Rocksteady Studios,Feral Interactive (Mac)"
31617,"Warner Bros. Interactive Entertainment, Feral ...","[Action, Adventure]",Batman: Arkham Asylum Game of the Year Edition,Batman: Arkham Asylum Game of the Year Edition,http://store.steampowered.com/app/35140/Batman...,2010-03-26,"[Action, Batman, Stealth, Adventure, Third Per...",http://steamcommunity.com/app/35140/reviews/?b...,"[Single-player, Steam Achievements, Steam Trad...",19.99,False,35140.0,"Rocksteady Studios,Feral Interactive (Mac)"


Observamos que el item sin 'id' corresponde al 'id' 200260, y su registro está completo. En vista de esto, se recomienda eliminar ambas filas duplicadas.

In [17]:
# se eliminan los index detectados en el paso anterior
index_a_eliminar = [14573, 74, 30961]
df_steam_games = df_steam_games.drop(index_a_eliminar)

# se verifica si hay dupliados
FP.verifica_duplicados_por_columna(df_steam_games, 'id')

'No hay duplicados'

### 3.2.4 Datos incorrectos o irrelevantes

* Las columnas 'tags', 'specs', 'url' y 'reviews_url' son irrelevantes para el análisis
* Estas columnas, en esta primer instancia, no se utilizarán para las consultas de la API ni para el modelo de recomendación, por lo tanto se eliminan del dataframe.

In [18]:
df_steam_games = df_steam_games.drop(['tags', 'specs', 'url', 'reviews_url'], axis=1)
df_steam_games.columns

Index(['publisher', 'genres', 'app_name', 'title', 'release_date', 'price',
       'early_access', 'id', 'developer'],
      dtype='object')

### 3.2.5 Datos categóricos

#### 3.2.5.1 Columna 'price'

Esta columna requiere tratamiento debido a la presencia de valores de texto en casos de promociones o ítems gratuitos. Para facilitar el manejo de datos y permitir operaciones posteriores, se ha decidido reemplazar estos valores de texto por 0. Adicionalmente, dado que la columna también contiene valores nulos, se optará por imputarlos como 0 para garantizar la consistencia y evitar errores en cálculos futuros.

In [19]:
df_steam_games['price'] = df_steam_games['price'].apply(FP.reemplaza_a_flotante)
df_steam_games['price'].dtype

dtype('float64')

#### 3.2.5.2 Columnas 'release_date'

Se necesita extraer el año de lanzamiento del item, para ello se hace una nueva columna con el dato si existe o con un "Dato no disponible" si no esta la fecha. Luego se elimina la columa 'release_date'.

In [20]:
# Se observan las cantidades de registros por cada fecha
df_steam_games['release_date'].value_counts()

release_date
2012-10-16    100
2017-08-31     92
2017-09-26     89
2017-06-21     82
2017-07-25     78
             ... 
1988-04-16      1
2013-08-24      1
2011-05-07      1
2010-08-21      1
2018-10-01      1
Name: count, Length: 3582, dtype: int64

In [21]:
# Crea columna nueva con el año
df_steam_games['release_anio'] = df_steam_games['release_date'].apply(FP.obtener_anio_release)

# elimina la columna 'release_date'
df_steam_games = df_steam_games.drop('release_date', axis=1)
df_steam_games.head()

Unnamed: 0,publisher,genres,app_name,title,price,early_access,id,developer,release_anio
0,Kotoshiro,"[Action, Casual, Indie, Simulation, Strategy]",Lost Summoner Kitty,Lost Summoner Kitty,4.99,False,761140,Kotoshiro,2018
1,"Making Fun, Inc.","[Free to Play, Indie, RPG, Strategy]",Ironbound,Ironbound,0.0,False,643980,Secret Level SRL,2018
2,Poolians.com,"[Casual, Free to Play, Indie, Simulation, Sports]",Real Pool 3D - Poolians,Real Pool 3D - Poolians,0.0,False,670290,Poolians.com,2017
3,彼岸领域,"[Action, Adventure, Casual]",弹炸人2222,弹炸人2222,0.99,False,767400,彼岸领域,2017
4,,,Log Challenge,,2.99,False,773570,,Dato no disponible


In [22]:
df_steam_games['release_anio'].unique()

array(['2018', '2017', 'Dato no disponible', '1997', '1998', '2016',
       '2006', '2005', '2003', '2007', '2002', '2000', '1995', '1996',
       '1994', '2001', '1993', '2004', '1999', '2008', '2009', '1992',
       '1989', '2010', '2011', '2013', '2012', '2014', '1983', '1984',
       '2015', '1990', '1988', '1991', '1985', '1982', '1987', '1981',
       '1986', '2021', '2019', '1975', '1970', '1980'], dtype=object)

#### 3.2.5.3 Columnas 'genres'

La columna 'genres' esta formada por una lista de los distintos géneros de los videojuegos. Se necesita hacer una columna con cada género.

In [23]:
# Dividimos cada lista en filas separadas
df_steam_games = df_steam_games.explode('genres')

# Eliminamos los datos en vacios, haciendo enfasis solo en la columna 'genres'
df_steam_games = df_steam_games.dropna(subset=['genres'])
df_steam_games.head()

Unnamed: 0,publisher,genres,app_name,title,price,early_access,id,developer,release_anio
0,Kotoshiro,Action,Lost Summoner Kitty,Lost Summoner Kitty,4.99,False,761140,Kotoshiro,2018
0,Kotoshiro,Casual,Lost Summoner Kitty,Lost Summoner Kitty,4.99,False,761140,Kotoshiro,2018
0,Kotoshiro,Indie,Lost Summoner Kitty,Lost Summoner Kitty,4.99,False,761140,Kotoshiro,2018
0,Kotoshiro,Simulation,Lost Summoner Kitty,Lost Summoner Kitty,4.99,False,761140,Kotoshiro,2018
0,Kotoshiro,Strategy,Lost Summoner Kitty,Lost Summoner Kitty,4.99,False,761140,Kotoshiro,2018


#### 3.2.5.4 Columnas 'publisher', 'app_name', 'title', 'developer'

Con el objetivo de mantener la consistencia del tipo de dato en estas columnas y facilitar el análisis de la información, se ha optado por completar los valores nulos con la expresión estandarizada "Dato no disponible". De esta manera, se elimina la heterogeneidad en el tipo de dato y se garantiza la uniformidad para un manejo posterior más eficiente.

In [24]:
# Definimos las columnas a transformar
columnas_a_completar = ['publisher', 'app_name', 'title', 'developer']

# Se rellenan los nulos
df_relleno = df_steam_games[columnas_a_completar].fillna('Sin dato disponible')

# Se borran las columnas originales y se concatenan las rellenas con todo el dataframe
df_steam_games = pd.concat([df_steam_games.drop(columnas_a_completar, axis=1), df_relleno], axis=1)
df_steam_games.head()

Unnamed: 0,genres,price,early_access,id,release_anio,publisher,app_name,title,developer
0,Action,4.99,False,761140,2018,Kotoshiro,Lost Summoner Kitty,Lost Summoner Kitty,Kotoshiro
0,Casual,4.99,False,761140,2018,Kotoshiro,Lost Summoner Kitty,Lost Summoner Kitty,Kotoshiro
0,Indie,4.99,False,761140,2018,Kotoshiro,Lost Summoner Kitty,Lost Summoner Kitty,Kotoshiro
0,Simulation,4.99,False,761140,2018,Kotoshiro,Lost Summoner Kitty,Lost Summoner Kitty,Kotoshiro
0,Strategy,4.99,False,761140,2018,Kotoshiro,Lost Summoner Kitty,Lost Summoner Kitty,Kotoshiro


Revisamos los tipos de datos y los nulos por cada columna

In [25]:
FP.tabla_tipo_datos(df_steam_games)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,genres,[<class 'str'>],100.0,0.0,0
1,price,[<class 'float'>],100.0,0.0,0
2,early_access,[<class 'bool'>],100.0,0.0,0
3,id,[<class 'str'>],100.0,0.0,0
4,release_anio,[<class 'str'>],100.0,0.0,0
5,publisher,[<class 'str'>],100.0,0.0,0
6,app_name,[<class 'str'>],100.0,0.0,0
7,title,[<class 'str'>],100.0,0.0,0
8,developer,[<class 'str'>],100.0,0.0,0


### **<span style="color: #f7b538;">**3.3.- Carga de datos**</span>**

#### 3.3.1 Generación del archivo limpio

Se guarda el dataframe transformado como `steam_games_limpio`

In [26]:
nombre_archivo_limpio = 'Datasets\df_steam_games_limpio.csv'
df_steam_games.to_csv(nombre_archivo_limpio, index=False, encoding='utf-8')
print(f'Se guardó el archivo {nombre_archivo_limpio}')

  nombre_archivo_limpio = 'Datasets\df_steam_games_limpio.csv'


Se guardó el archivo Datasets\df_steam_games_limpio.csv
