## ETL_steam_games

## Carga de datos 

En esta sección, se importan las bibliotecas necesarias y se cargan los datos desde un archivo JSON.


Importación de bibliotecas: *Se importan las librerías pandas para el manejo de datos, json para leer el archivo JSON y ast para procesar los datos JSON que pueden tener un formato no estándar:*

In [20]:
import pandas as pd 
import json as js 
import ast as ast

Ruta del archivo: *Se define la variable pathgames que almacena la ruta completa del archivo JSON que contiene los datos de los juegos de Steam.*

In [21]:
# Crear una variable con el path del archivo para que sea más fácil recurrir a ella en cualquier momento: 
pathgames = r'C:\Users\Sofi\Desktop\Henry\LABS\Proyecto_STEAM\Data\output_steam_games.json'

Carga de datos: *Se crea una lista vacía df_games y se utiliza un bucle for para leer cada línea del archivo JSON, convertirla a un diccionario de Python usando js.loads y agregarla a la lista. Finalmente, la lista se convierte en un DataFrame de Pandas usando pd.DataFrame.*

In [22]:
# Cargar datos desde archivo JSON
df_games = [] #Creamos una lista

with open(pathgames,'rt', encoding='utf-8') as file: #Abrimos el archivo con el encoding correspondiente

    for line in file: # Con un ciclo for iteramos todas las filas del archivo 
        df_games.append(js.loads(line)) # Agregamos cada una de las filas en una lista 

df_games  = pd.DataFrame(df_games) # Transformamos la lista en un Dataframe

Visualización inicial: *Se utiliza el método head() para mostrar las primeras filas del DataFrame cargado.*

In [23]:
df_games.head()

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
0,,,,,,,,,,,,,
1,,,,,,,,,,,,,
2,,,,,,,,,,,,,
3,,,,,,,,,,,,,
4,,,,,,,,,,,,,


## Análisis y tratamiento de valores nulos
En esta parte, se analizan los valores nulos en las columnas 'title' y 'app_name', se determina la cantidad de filas sin nulos y se identifica la fila donde están los datos nulos en 'app_name'.

Creación de copia: *primero se crea una copia del DF donde se realizarán todas las transformaciones, para resguardar los datos originales.*

In [24]:
df_games_clean = df_games.copy() # Hacemos una copia del DataFrame para hacer modificaciones del ETL

Eliminación de filas nulas iniciales: *Se eliminan las primeras 88.310 filas del DataFrame, ya que se ha identificado que todas ellas contienen valores nulos en todas las columnas.*

In [25]:
# Eliminar filas nulas iniciales: los primeros 88310 registros eran 100% nulos
df_games_clean = df_games_clean.drop(df_games_clean.index[:88310]) #Dropeamos los registros 
df_games_clean

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
88310,Kotoshiro,"[Action, Casual, Indie, Simulation, Strategy]",Lost Summoner Kitty,Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,2018-01-04,"[Strategy, Action, Indie, Casual, Simulation]",http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,False,761140,Kotoshiro
88311,"Making Fun, Inc.","[Free to Play, Indie, RPG, Strategy]",Ironbound,Ironbound,http://store.steampowered.com/app/643980/Ironb...,2018-01-04,"[Free to Play, Strategy, Indie, RPG, Card Game...",http://steamcommunity.com/app/643980/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",Free To Play,False,643980,Secret Level SRL
88312,Poolians.com,"[Casual, Free to Play, Indie, Simulation, Sports]",Real Pool 3D - Poolians,Real Pool 3D - Poolians,http://store.steampowered.com/app/670290/Real_...,2017-07-24,"[Free to Play, Simulation, Sports, Casual, Ind...",http://steamcommunity.com/app/670290/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",Free to Play,False,670290,Poolians.com
88313,彼岸领域,"[Action, Adventure, Casual]",弹炸人2222,弹炸人2222,http://store.steampowered.com/app/767400/2222/,2017-12-07,"[Action, Adventure, Casual]",http://steamcommunity.com/app/767400/reviews/?...,[Single-player],0.99,False,767400,彼岸领域
88314,,,Log Challenge,,http://store.steampowered.com/app/773570/Log_C...,,"[Action, Indie, Casual, Sports]",http://steamcommunity.com/app/773570/reviews/?...,"[Single-player, Full controller support, HTC V...",2.99,False,773570,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
120440,Ghost_RUS Games,"[Casual, Indie, Simulation, Strategy]",Colony On Mars,Colony On Mars,http://store.steampowered.com/app/773640/Colon...,2018-01-04,"[Strategy, Indie, Casual, Simulation]",http://steamcommunity.com/app/773640/reviews/?...,"[Single-player, Steam Achievements]",1.99,False,773640,"Nikita ""Ghost_RUS"""
120441,Sacada,"[Casual, Indie, Strategy]",LOGistICAL: South Africa,LOGistICAL: South Africa,http://store.steampowered.com/app/733530/LOGis...,2018-01-04,"[Strategy, Indie, Casual]",http://steamcommunity.com/app/733530/reviews/?...,"[Single-player, Steam Achievements, Steam Clou...",4.99,False,733530,Sacada
120442,Laush Studio,"[Indie, Racing, Simulation]",Russian Roads,Russian Roads,http://store.steampowered.com/app/610660/Russi...,2018-01-04,"[Indie, Simulation, Racing]",http://steamcommunity.com/app/610660/reviews/?...,"[Single-player, Steam Achievements, Steam Trad...",1.99,False,610660,Laush Dmitriy Sergeevich
120443,SIXNAILS,"[Casual, Indie]",EXIT 2 - Directions,EXIT 2 - Directions,http://store.steampowered.com/app/658870/EXIT_...,2017-09-02,"[Indie, Casual, Puzzle, Singleplayer, Atmosphe...",http://steamcommunity.com/app/658870/reviews/?...,"[Single-player, Steam Achievements, Steam Cloud]",4.99,False,658870,"xropi,stev3ns"


In [26]:
array_comp = df_games_clean["app_name"] == df_games_clean["title"]
print(array_comp.info)

# Contabilizamos las cant de verdaderos (valores identicos en ambas columnas) y falsos (valores distintos en cada columna) del nuevo arreglo 
print(array_comp.value_counts().get(True, 0))
valores_dif= array_comp.value_counts().get(False, 0)
print(valores_dif)

# Contabilizamos las cant de nulos en cada columna 
nulos_title = df_games_clean["title"].isnull()
cantidad_nulos_title = df_games_clean["title"].isnull().sum()
print(f" En la columna title hay {cantidad_nulos_title} nulos ")

nulos_app_name = df_games_clean["app_name"].isnull()
cantidad_nulos_app_name = df_games_clean["app_name"].isnull().sum()
print(f" En la columna app_name hay {cantidad_nulos_app_name} nulos ")

# Sumamos la cantidad de valores nulos de cada columna y se lo resto a la cantidad de valores distintos
nulos = cantidad_nulos_app_name + cantidad_nulos_title
filas_sin_nulos = valores_dif - nulos
print(f"las filas sin nulos son y diferentes valores son {filas_sin_nulos}")


<bound method Series.info of 88310      True
88311      True
88312      True
88313      True
88314     False
          ...  
120440     True
120441     True
120442     True
120443     True
120444    False
Length: 32135, dtype: bool>
29530
2605
 En la columna title hay 2050 nulos 
 En la columna app_name hay 2 nulos 
las filas sin nulos son y diferentes valores son 553


## Procesamiento de datos y transformaciones:
En esta etapa, se realiza la limpieza y la transformación de los datos en las columnas 'genres', 'tags', 'price', y 'developer'. Se eliminan los valores específicos y se completan los nulos con otros valores.


In [27]:
# Buscamos datos nulos en la columna 'app_name', adevirtiendo que se corresponden con los nulos en la columna 'title'. 
filas_nulas = df_games_clean[df_games_clean['app_name'].isnull()]

# Iteramos para determinar las filas en la que estan los datos nulos.
for i, fila in filas_nulas.iterrows():
  print(f"Índice: {i}")
  print(fila)

Índice: 88384
publisher                                  NaN
genres                                     NaN
app_name                                   NaN
title                                      NaN
url             http://store.steampowered.com/
release_date                               NaN
tags                                       NaN
reviews_url                                NaN
specs                                      NaN
price                                    19.99
early_access                             False
id                                         NaN
developer                                  NaN
Name: 88384, dtype: object
Índice: 90890
publisher                                                     NaN
genres                                            [Action, Indie]
app_name                                                      NaN
title                                                         NaN
url                   http://store.steampowered.com/app/317160/_/
rele

*Encontramos que las columnas "tags" y "genre" tienen practicamente la misma información por lo tanto:*

In [28]:
# Rellenar los valores nulos en la columna 'genres' con los valores de la misma fila en la columna 'tags' y viceversa.
df_games_clean['genres'].fillna(df_games_clean['tags'], inplace=True)
df_games_clean['tags'].fillna(df_games_clean['genres'], inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_games_clean['genres'].fillna(df_games_clean['tags'], inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_games_clean['tags'].fillna(df_games_clean['genres'], inplace=True)


*A partir del analisis del DF definimos que :*
* *La columna 'price' va a contener el precio y si los juegos son gratuitos*
* *La columna 'genres' va contener la informacion del genero principal del juego*
* *La columna 'tags'  deja de tener relevancia en el DF y se elimina*

*Limpieza de los valores innecesarios en la columna "tags":*

In [29]:
# Convertir los datos de la columna 'tags' a cadenas
df_games_clean['tags'] = df_games_clean['tags'].astype(str)

# Función para filtrar y mantener solo los elementos "Free to Play" o None si no se encuentra
def extract_free_to_play(tags):
    try:
        tags_list = ast.literal_eval(tags)
        if 'Free to Play' in tags_list:
            return 'Free to Play'
        else:
            return None
    except (SyntaxError, ValueError):
        return None

# Aplicar la función a la columna 'tags'
df_games_clean['tags'] = df_games_clean['tags'].apply(extract_free_to_play)

In [30]:
df_games_clean['price'].fillna(df_games_clean['tags'], inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_games_clean['price'].fillna(df_games_clean['tags'], inplace=True)


In [31]:
# Codigo para transformar los "Free to play" en "Free"
df_games_clean['price'] = df_games_clean['price'].replace('(?i)Free to Play', 'Free', regex=True)

*Eliminamos "Free to Play" de la columna "genre" y convertimos la lista a string:*

In [32]:
#Convertir los datos de la columna 'genres' a cadenas
df_games_clean['genres'] = df_games_clean['genres'].astype(str)

#Función para eliminar "Free to Play" de los géneros
def eliminar_free_to_play(generos):
    try:
        lista_generos = ast.literal_eval(generos)  # Convertir cadena a lista
        if lista_generos is None:
            return None
        # Eliminar "Free to Play" si está presente
        if "Free to Play" in lista_generos:
            lista_generos.remove("Free to Play")
        # Convertir de nuevo a cadena y devolver
        return ', '.join(lista_generos)
    except (SyntaxError, ValueError):
        return None

#Aplicar la función a la columna 'genres'
df_games_clean['genres'] = df_games_clean['genres'].apply(eliminar_free_to_play)

*Dejamos sólo el primer valor de la cadena de la columna 'genre':*

In [33]:
# Dividir la cadena por comas y tomar el primer elemento
df_games_clean['genres'] = df_games_clean['genres'].str.split(',').str[0].str.strip()

# Mostrar el resultado
print(df_games_clean['genres'])

88310           Action
88311            Indie
88312           Casual
88313           Action
88314           Action
              ...     
120440          Casual
120441          Casual
120442           Indie
120443          Casual
120444    Early Access
Name: genres, Length: 32135, dtype: object


*Como los valores de 'developer' y 'publisher' son prácticamente iguales, es posible completar algunos:*

In [34]:
df_games_clean['developer'].fillna(df_games_clean['publisher'], inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_games_clean['developer'].fillna(df_games_clean['publisher'], inplace=True)


*Normalización y limpieza de los datos de la columna 'release date'*

In [35]:
# Normalizar la columna 'release_date'
df_games_clean['release_date'] = df_games_clean['release_date'].str.extract(r'(\d{4})')

# Normalizar valores con palabra seguida de número
df_games_clean['release_date'] = df_games_clean['release_date'].str.extract(r'(\d{4})')

print(df_games_clean)

               publisher        genres                  app_name  \
88310          Kotoshiro        Action       Lost Summoner Kitty   
88311   Making Fun, Inc.         Indie                 Ironbound   
88312       Poolians.com        Casual   Real Pool 3D - Poolians   
88313               彼岸领域        Action                   弹炸人2222   
88314                NaN        Action             Log Challenge   
...                  ...           ...                       ...   
120440   Ghost_RUS Games        Casual            Colony On Mars   
120441            Sacada        Casual  LOGistICAL: South Africa   
120442      Laush Studio         Indie             Russian Roads   
120443          SIXNAILS        Casual       EXIT 2 - Directions   
120444               NaN  Early Access               Maze Run VR   

                           title  \
88310        Lost Summoner Kitty   
88311                  Ironbound   
88312    Real Pool 3D - Poolians   
88313                    弹炸人2222   
883

*Transformamos todos los valores que no sean numpericos al valor "0"*

In [36]:
# Definir una función lambda para convertir a 0 si es string, de lo contrario mantener el valor original
replace_string_with_zero = lambda x: 0 if isinstance(x, str) else x

# Aplicar la función lambda a la columna 'price'
df_games_clean['price'] = df_games_clean['price'].apply(replace_string_with_zero)

# Verificar los cambios
print(df_games_clean['price'])

88310     4.99
88311     0.00
88312     0.00
88313     0.99
88314     2.99
          ... 
120440    1.99
120441    4.99
120442    1.99
120443    4.99
120444    4.99
Name: price, Length: 32135, dtype: float64


## Reorganización y visualización final
Finalmente, se reorganizan las columnas del DataFrame y se muestra el resultado final.

In [37]:
# Lista de columnas a eliminar
columns_to_drop = ['publisher','url', 'reviews_url', 'specs', 'early_access', 'tags','title']

# Eliminar las columnas especificadas
df_games_clean = df_games_clean.drop(columns=columns_to_drop, errors='ignore')

In [38]:
# Define el nuevo orden de las columnas
nuevo_orden_columnas = [
    'id',
    'app_name', 
    'developer',
    'genres',
    'price',
    'release_date',
]

# Reordena las columnas del DataFrame con el nuevo orden
df_games_clean = df_games_clean[nuevo_orden_columnas]

df_games_clean




Unnamed: 0,id,app_name,developer,genres,price,release_date
88310,761140,Lost Summoner Kitty,Kotoshiro,Action,4.99,2018
88311,643980,Ironbound,Secret Level SRL,Indie,0.00,2018
88312,670290,Real Pool 3D - Poolians,Poolians.com,Casual,0.00,2017
88313,767400,弹炸人2222,彼岸领域,Action,0.99,2017
88314,773570,Log Challenge,,Action,2.99,
...,...,...,...,...,...,...
120440,773640,Colony On Mars,"Nikita ""Ghost_RUS""",Casual,1.99,2018
120441,733530,LOGistICAL: South Africa,Sacada,Casual,4.99,2018
120442,610660,Russian Roads,Laush Dmitriy Sergeevich,Indie,1.99,2018
120443,658870,EXIT 2 - Directions,"xropi,stev3ns",Casual,4.99,2017


*(Opcional) Guardamos el DataFrame actualizado en un nuevo archivo CSV.*

In [39]:
df_games_clean.to_parquet(r'C:\Users\Sofi\Desktop\Henry\LABS\Proyecto_STEAM\Data_Clean\games_clean.parquet', index=False)