# ETL

En esta jupyter notebook se desarrolla la extracción, transformación y carga de los conjuntos de datos.

## Importaciones

In [2]:
import pandas as pd
import json
import gzip


%load_ext autoreload
%autoreload 2
import utils

import warnings
warnings.filterwarnings("ignore")

## Extracción de los datos

Funcion para extraer los datos ".json" y convertirlos en ".csv" para la exploración.

In [8]:
def procesar_archivo_json(file_path, file_path1):
    data_list = []

    try:
        with gzip.open(file_path, 'rb') as file:
            for line in file:
                try:
                    decoded_line = line.decode('utf-8')
                    json_data = json.loads(decoded_line)
                    data_list.append(json_data)
                except ValueError as e:
                    print(f"Error en la linea: {line}")
                    continue
        data_df = pd.DataFrame(data_list)
        data_df.to_csv(file_path1, index = False)
        return print("Archivo guardado satisfactoriamente en :", {file_path1})
    except FileNotFoundError:
        print("El archivo no se encuentra")
        return None
    except Exception as e:
        print(f"Ocurrio un error: {str(e)}")
        return None     

In [10]:
procesar_archivo_json(r'C:\Users\123la\Documents\GitHub\ssss\sesese\data\steam_games.json.gz', r'C:\Users\123la\Documents\GitHub\ssss\sesese\data\games.csv')
procesar_archivo_json(r'C:\Users\123la\Documents\GitHub\ssss\sesese\data\steam_games.json.gz', r'C:\Users\123la\Documents\GitHub\ssss\sesese\data\items.csv')
procesar_archivo_json(r'C:\Users\123la\Documents\GitHub\ssss\sesese\data\steam_games.json.gz', r'C:\Users\123la\Documents\GitHub\ssss\sesese\data\reviews.csv')

Archivo guardado satisfactoriamente en : {'C:\\Users\\123la\\Documents\\GitHub\\ssss\\sesese\\data\\games.csv'}
Archivo guardado satisfactoriamente en : {'C:\\Users\\123la\\Documents\\GitHub\\ssss\\sesese\\data\\items.csv'}
Archivo guardado satisfactoriamente en : {'C:\\Users\\123la\\Documents\\GitHub\\ssss\\sesese\\data\\reviews.csv'}


# Transformación de los datos


### 'games.csv'.


In [3]:
df = pd.read_csv(r'C:\Users\123la\Documents\GitHub\ssss\sesese\data\games.csv', encoding = "utf-8")
df.head()

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
0,,,,,,,,,,,,,
1,,,,,,,,,,,,,
2,,,,,,,,,,,,,
3,,,,,,,,,,,,,
4,,,,,,,,,,,,,


In [4]:
cantidad_vacios_por_columna = df.isnull().sum()
cantidad_total_vacios = df.isnull().sum().sum()

print("Cantidad de valores vacíos por columna:")
print(cantidad_vacios_por_columna)
print("\nCantidad total de valores vacíos en el DataFrame:", cantidad_total_vacios)


Cantidad de valores vacíos por columna:
publisher       96381
genres          91593
app_name        88312
title           90360
url             88310
release_date    90377
tags            88473
reviews_url     88312
specs           88980
price           89687
early_access    88310
id              88312
developer       91609
dtype: int64

Cantidad total de valores vacíos en el DataFrame: 1169016


In [5]:
df = df.dropna()
df.head()

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
88310,Kotoshiro,"['Action', 'Casual', 'Indie', 'Simulation', 'S...",Lost Summoner Kitty,Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,2018-01-04,"['Strategy', 'Action', 'Indie', 'Casual', 'Sim...",http://steamcommunity.com/app/761140/reviews/?...,['Single-player'],4.99,False,761140.0,Kotoshiro
88311,"Making Fun, Inc.","['Free to Play', 'Indie', 'RPG', 'Strategy']",Ironbound,Ironbound,http://store.steampowered.com/app/643980/Ironb...,2018-01-04,"['Free to Play', 'Strategy', 'Indie', 'RPG', '...",http://steamcommunity.com/app/643980/reviews/?...,"['Single-player', 'Multi-player', 'Online Mult...",Free To Play,False,643980.0,Secret Level SRL
88312,Poolians.com,"['Casual', 'Free to Play', 'Indie', 'Simulatio...",Real Pool 3D - Poolians,Real Pool 3D - Poolians,http://store.steampowered.com/app/670290/Real_...,2017-07-24,"['Free to Play', 'Simulation', 'Sports', 'Casu...",http://steamcommunity.com/app/670290/reviews/?...,"['Single-player', 'Multi-player', 'Online Mult...",Free to Play,False,670290.0,Poolians.com
88313,彼岸领域,"['Action', 'Adventure', 'Casual']",弹炸人2222,弹炸人2222,http://store.steampowered.com/app/767400/2222/,2017-12-07,"['Action', 'Adventure', 'Casual']",http://steamcommunity.com/app/767400/reviews/?...,['Single-player'],0.99,False,767400.0,彼岸领域
88315,Trickjump Games Ltd,"['Action', 'Adventure', 'Simulation']",Battle Royale Trainer,Battle Royale Trainer,http://store.steampowered.com/app/772540/Battl...,2018-01-04,"['Action', 'Adventure', 'Simulation', 'FPS', '...",http://steamcommunity.com/app/772540/reviews/?...,"['Single-player', 'Steam Achievements']",3.99,False,772540.0,Trickjump Games Ltd


##### Examino la columna "genres"

In [37]:
# Ver el tipo de datos de la columna que contiene genres
print("\nTipo de datos de la columna:")
print(df['genres'].dtype)

# Ver el número de elementos en la columna
print("\nNúmero de elementos en la columna:")
print(len(df['genres']))

# Obtener el tipo de datos único en la columna
print("\nTipos de datos únicos en la columna:")
unique_types = df['genres'].apply(type).unique()
print(unique_types)

# Obtener el tamaño del elemento en cada fila
print("\nTamaño del elemento en cada fila:")
print(df['genres'].apply(lambda x: len(x) if isinstance(x, (dict, list, str)) else None))

# Obtener las claves únicas en todos los genres de la columna
print("\nClaves únicas en los genres:")
unique_keys = set()
for item in df['genres']:
    if isinstance(item, dict):
        unique_keys.update(item.keys())
print(unique_keys)


Tipo de datos de la columna:
object

Número de elementos en la columna:
22511

Tipos de datos únicos en la columna:
[<class 'str'>]

Tamaño del elemento en cada fila:
88310     55
88311     44
88312     59
88313     33
88315     37
          ..
120439    42
120440    45
120441    31
120442    33
120443    19
Name: genres, Length: 22511, dtype: int64

Claves únicas en los genres:
set()
