## Importamos las librerias

In [1]:
#Se importa pandas y numpy para manejar los datos y también la biblioteca json para trabajar con archivos JSON.
import pandas as pd
import numpy as np
import json
import warnings
#se utiliza warnings.filterwarnings("ignore") para ignorar las advertencias durante la ejecución del código.
warnings.filterwarnings("ignore")

## Cargamos el archivo JSON, se crea en un DataFrame y se analiza

In [2]:
#Se cargan los datos. 
ruta_output = 'data_repo\output_steam_games.json'

#se procede a leer linea por linea para extraer la informacion dado que hay datos adicionales en el archivo JSON
with open(ruta_output,'r') as archivo:
    datos_output = [json.loads(line) for line in archivo]

#Se crea un DataFrame de pandas llamado df_output que contiene la información del archivo JSON
df_output = pd.DataFrame(datos_output)
df_output

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
0,,,,,,,,,,,,,
1,,,,,,,,,,,,,
2,,,,,,,,,,,,,
3,,,,,,,,,,,,,
4,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
120440,Ghost_RUS Games,"[Casual, Indie, Simulation, Strategy]",Colony On Mars,Colony On Mars,http://store.steampowered.com/app/773640/Colon...,2018-01-04,"[Strategy, Indie, Casual, Simulation]",http://steamcommunity.com/app/773640/reviews/?...,"[Single-player, Steam Achievements]",1.99,False,773640,"Nikita ""Ghost_RUS"""
120441,Sacada,"[Casual, Indie, Strategy]",LOGistICAL: South Africa,LOGistICAL: South Africa,http://store.steampowered.com/app/733530/LOGis...,2018-01-04,"[Strategy, Indie, Casual]",http://steamcommunity.com/app/733530/reviews/?...,"[Single-player, Steam Achievements, Steam Clou...",4.99,False,733530,Sacada
120442,Laush Studio,"[Indie, Racing, Simulation]",Russian Roads,Russian Roads,http://store.steampowered.com/app/610660/Russi...,2018-01-04,"[Indie, Simulation, Racing]",http://steamcommunity.com/app/610660/reviews/?...,"[Single-player, Steam Achievements, Steam Trad...",1.99,False,610660,Laush Dmitriy Sergeevich
120443,SIXNAILS,"[Casual, Indie]",EXIT 2 - Directions,EXIT 2 - Directions,http://store.steampowered.com/app/658870/EXIT_...,2017-09-02,"[Indie, Casual, Puzzle, Singleplayer, Atmosphe...",http://steamcommunity.com/app/658870/reviews/?...,"[Single-player, Steam Achievements, Steam Cloud]",4.99,False,658870,"xropi,stev3ns"


In [3]:
df_output.columns

Index(['publisher', 'genres', 'app_name', 'title', 'url', 'release_date',
       'tags', 'reviews_url', 'specs', 'price', 'early_access', 'id',
       'developer'],
      dtype='object')

In [4]:
df_output.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120445 entries, 0 to 120444
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher     24083 non-null  object
 1   genres        28852 non-null  object
 2   app_name      32133 non-null  object
 3   title         30085 non-null  object
 4   url           32135 non-null  object
 5   release_date  30068 non-null  object
 6   tags          31972 non-null  object
 7   reviews_url   32133 non-null  object
 8   specs         31465 non-null  object
 9   price         30758 non-null  object
 10  early_access  32135 non-null  object
 11  id            32133 non-null  object
 12  developer     28836 non-null  object
dtypes: object(13)
memory usage: 11.9+ MB


Se observa que todos los tipos de datos son objetos y que hay una gran cantidad de valores no-nulos

Se visualiza que se encuentran la informacion de los juegos con las siguientes variables:
* publisher = Empresa publicadora del contenido
* genres = Genero del contenido (anidado)
* app_name = Nombre del contenido
* title = Titulo del contenido
* url = URL de publicación del contenido
* release_date = Fecha de lanzamiento
* tags = etiquetas de contenido (anidado)
* reviews_url = Reviews de contenido
* specs = Especificaciones (anidado)
* price = Precio del contenido
* early_access = acceso temprano
* id = identificador unico de contenido
* developer = Desarrollador

Trabajos a realizar : 
* Limpieza de valores nulos y duplicados
* Trabajar las variables anidadas
* Borrar las columnas que no son importantes para el analisis


## Verificamos los datos Nulos y se limpian

In [5]:
df_output.isnull().sum()

publisher       96362
genres          91593
app_name        88312
title           90360
url             88310
release_date    90377
tags            88473
reviews_url     88312
specs           88980
price           89687
early_access    88310
id              88312
developer       91609
dtype: int64

Eliminamos filas que contienen datos nulos

In [6]:
#Al especificar how="all", estás indicando que solo se eliminan las filas donde todos los valores son nulos.
#Al agregar reset_index(drop=True), se reinicia los índices del DataFrame después de eliminar las filas nulas y descartando los índices antiguos.
df_output = df_output.dropna(how="all").reset_index(drop=True)

In [7]:
df_output.isnull().sum()

publisher       8052
genres          3283
app_name           2
title           2050
url                0
release_date    2067
tags             163
reviews_url        2
specs            670
price           1377
early_access       0
id                 2
developer       3299
dtype: int64

Eliminamos valores nulos de la variable id

In [8]:
df_output.dropna(subset=['id'], inplace=True)

In [9]:
df_output.isnull().sum()

publisher       8051
genres          3282
app_name           1
title           2049
url                0
release_date    2066
tags             162
reviews_url        0
specs            669
price           1377
early_access       0
id                 0
developer       3298
dtype: int64

## Verificamos filas duplicadas y se eliminan

In [10]:
df_output[df_output["id"].duplicated()]

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
14573,Bethesda Softworks,[Action],Wolfenstein II: The New Colossus,Wolfenstein II: The New Colossus,http://store.steampowered.com/app/612880/Wolfe...,2017-10-26,"[Action, FPS, Gore, Violent, Alternate History...",http://steamcommunity.com/app/612880/reviews/?...,"[Single-player, Steam Achievements, Full contr...",59.99,False,612880,Machine Games


In [11]:
#El argumento keep='first' hace que se mantenga la primera de las filas duplicadas y elimine la siguiente.
df_output = df_output.drop_duplicates(subset='id', keep='first')

In [12]:
df_output.isnull().sum()

publisher       8051
genres          3282
app_name           1
title           2049
url                0
release_date    2066
tags             162
reviews_url        0
specs            669
price           1377
early_access       0
id                 0
developer       3298
dtype: int64

## Trabajaremos con la Variable Price

In [13]:
df_output["price"].unique()

array([4.99, 'Free To Play', 'Free to Play', 0.99, 2.99, 3.99, 9.99,
       18.99, 29.99, nan, 'Free', 10.99, 1.59, 14.99, 1.99, 59.99, 8.99,
       6.99, 7.99, 39.99, 19.99, 7.49, 12.99, 5.99, 2.49, 15.99, 1.25,
       24.99, 17.99, 61.99, 3.49, 11.99, 13.99, 'Free Demo',
       'Play for Free!', 34.99, 74.76, 1.49, 32.99, 99.99, 14.95, 69.99,
       16.99, 79.99, 49.99, 5.0, 44.99, 13.98, 29.96, 119.99, 109.99,
       149.99, 771.71, 'Install Now', 21.99, 89.99,
       'Play WARMACHINE: Tactics Demo', 0.98, 139.92, 4.29, 64.99,
       'Free Mod', 54.99, 74.99, 'Install Theme', 0.89, 'Third-party',
       0.5, 'Play Now', 299.99, 1.29, 3.0, 15.0, 5.49, 23.99, 49.0, 20.99,
       10.93, 1.39, 'Free HITMAN™ Holiday Pack', 36.99, 4.49, 2.0, 4.0,
       9.0, 234.99, 1.95, 1.5, 199.0, 189.0, 6.66, 27.99, 10.49, 129.99,
       179.0, 26.99, 399.99, 31.99, 399.0, 20.0, 40.0, 3.33, 199.99,
       22.99, 320.0, 38.85, 71.7, 59.95, 995.0, 27.49, 3.39, 6.0, 19.95,
       499.99, 16.06, 4.68, 131

Se observa que hay 2 tipos de datos, que son str y float, para poder trabajar se necesita que los valores queden como float, se observa que las filas con valores que estan en str, todos indican que el juego fue gratis, por lo que se asignara un precio de 0.

In [14]:
# Se convierte la columna "price" en tipo numérico
# Se utiliza el parámetro errors="coerce", cualquier valor no convertible se convertirá en NaN (no un número)
df_output["price_numeric"] = pd.to_numeric(df_output["price"], errors="coerce")

# Se convierte la columna "price_numeric" en tipo numérico nuevamente para manejar cualquier valor no convertible restante
df_output["price_numeric"] = pd.to_numeric(df_output["price_numeric"], errors="coerce")

# Se reemplaza los valores NaN con 0
df_output["price_numeric"] = df_output["price_numeric"].fillna(0)

In [15]:
df_output["price_numeric"].dtype

dtype('float64')

## Trabajaremos con la variable release_date

In [16]:
df_output["release_date"].unique()

array(['2018-01-04', '2017-07-24', '2017-12-07', ..., '2016-11-19',
       'January 2018', '2018-10-01'], dtype=object)

Se identifica las fechas que no siguen el formato "YYYY-MM-DD" y se almacena en un nuevo DataFrame llamado df_invalid_dates

In [17]:
# Se seleciona las fechas de lanzamiento que no siguen el formato "YYYY-MM-DD" utilizando una expresión regular
# Las fechas de lanzamiento que no siguen este formato se consideran inválidas
invalid_dates = df_output["release_date"][~df_output["release_date"].str.match(r"\d{4}-\d{2}-\d{2}", na=False, case=False, flags=0)]

# Se crea un nuevo DataFrame llamado df_invalid_dates que contiene las fechas de lanzamiento inválidas
df_invalid_dates = pd.DataFrame({"invalid_dates": invalid_dates})

# Se muestra el DataFrame con las fechas de lanzamiento inválidas
df_invalid_dates

Unnamed: 0,invalid_dates
4,
10,Soon..
11,
19,
20,
...,...
32087,Coming Soon
32088,
32097,2016
32123,January 2018


Se cambia  el formato a la columna release_date y luego se crea una nueva columna release_year que es la variable que nos servira para los analisis.

In [19]:
# Se convierte la columna "release_date" al formato de fecha datetime
# La opción errors="coerce" convierte los valores no válidos en NaT (Not a Time)
# La opción format='%Y-%m-%d' especifica el formato de fecha esperado
# La opción exact=False permite que el formato sea flexible para aceptar diferentes representaciones de fecha
df_output["release_date"] = pd.to_datetime(df_output["release_date"], errors="coerce", format='%Y-%m-%d', exact=False)

# Se calcula la fecha media de lanzamiento
mean_release_date = df_output["release_date"].mean()

# Se llena los valores de fecha de lanzamiento que son NaT con la fecha media
df_output["release_date_filled"] = df_output["release_date"].fillna(mean_release_date)

# Se extrae el año de la fecha de lanzamiento y almacenarlo en una nueva columna "release_year"
df_output["release_year"] = df_output["release_date_filled"].dt.year

# Se muestra el DataFrame con las modificaciones realizadas
df_output.head(5)

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer,price_numeric,release_date_filled,release_year
0,Kotoshiro,"[Action, Casual, Indie, Simulation, Strategy]",Lost Summoner Kitty,Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,2018-01-04,"[Strategy, Action, Indie, Casual, Simulation]",http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,False,761140,Kotoshiro,4.99,2018-01-04 00:00:00.000000000,2018
1,"Making Fun, Inc.","[Free to Play, Indie, RPG, Strategy]",Ironbound,Ironbound,http://store.steampowered.com/app/643980/Ironb...,2018-01-04,"[Free to Play, Strategy, Indie, RPG, Card Game...",http://steamcommunity.com/app/643980/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",Free To Play,False,643980,Secret Level SRL,0.0,2018-01-04 00:00:00.000000000,2018
2,Poolians.com,"[Casual, Free to Play, Indie, Simulation, Sports]",Real Pool 3D - Poolians,Real Pool 3D - Poolians,http://store.steampowered.com/app/670290/Real_...,2017-07-24,"[Free to Play, Simulation, Sports, Casual, Ind...",http://steamcommunity.com/app/670290/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",Free to Play,False,670290,Poolians.com,0.0,2017-07-24 00:00:00.000000000,2017
3,彼岸领域,"[Action, Adventure, Casual]",弹炸人2222,弹炸人2222,http://store.steampowered.com/app/767400/2222/,2017-12-07,"[Action, Adventure, Casual]",http://steamcommunity.com/app/767400/reviews/?...,[Single-player],0.99,False,767400,彼岸领域,0.99,2017-12-07 00:00:00.000000000,2017
4,,,Log Challenge,,http://store.steampowered.com/app/773570/Log_C...,NaT,"[Action, Indie, Casual, Sports]",http://steamcommunity.com/app/773570/reviews/?...,"[Single-player, Full controller support, HTC V...",2.99,False,773570,,2.99,2015-04-21 10:04:45.040797952,2015


In [20]:
df_output["release_year"].dtype

dtype('int32')

In [21]:
df_output["release_year"].unique()

array([2018, 2017, 2015, 1997, 1998, 2016, 2006, 2005, 2003, 2007, 2002,
       2000, 1995, 1996, 1994, 2001, 1993, 2004, 1999, 2008, 2009, 1992,
       1989, 2010, 2011, 2013, 2012, 2014, 1983, 1984, 1990, 1988, 1991,
       1985, 1982, 1987, 1981, 1986, 2021, 2019, 1975, 1970, 1980])

In [22]:
df_output["release_year"].isnull().sum()

0

## Eliminaremos las columnas que no se usaran en los analisis 

In [23]:
# Se elimina las columnas especificadas del DataFrame df_output
# El parámetro axis=1 indica que se eliminan columnas en lugar de filas
# El parámetro inplace=True indica que los cambios se realizarán directamente en el DataFrame original
df_output.drop(["release_date", "price", "url", "publisher", "reviews_url", "specs", "early_access", "release_date_filled"], axis=1, inplace=True)

# Se muestra el DataFrame resultante después de eliminar las columnas
df_output.head(5)

Unnamed: 0,genres,app_name,title,tags,id,developer,price_numeric,release_year
0,"[Action, Casual, Indie, Simulation, Strategy]",Lost Summoner Kitty,Lost Summoner Kitty,"[Strategy, Action, Indie, Casual, Simulation]",761140,Kotoshiro,4.99,2018
1,"[Free to Play, Indie, RPG, Strategy]",Ironbound,Ironbound,"[Free to Play, Strategy, Indie, RPG, Card Game...",643980,Secret Level SRL,0.0,2018
2,"[Casual, Free to Play, Indie, Simulation, Sports]",Real Pool 3D - Poolians,Real Pool 3D - Poolians,"[Free to Play, Simulation, Sports, Casual, Ind...",670290,Poolians.com,0.0,2017
3,"[Action, Adventure, Casual]",弹炸人2222,弹炸人2222,"[Action, Adventure, Casual]",767400,彼岸领域,0.99,2017
4,,Log Challenge,,"[Action, Indie, Casual, Sports]",773570,,2.99,2015


## Trabajaremos con la variable Genres

se verifica si hay valores en "tags" y se seleciona aquellos que son géneros. Si encuentra géneros en "tags", los imputa en lugar del valor nulo en "genres" 

In [24]:
# Se crea una lista vacía para almacenar los géneros únicos
generos = []

# Se itera sobre cada lista de géneros en la columna "genres" del DataFrame
for genres_list in df_output["genres"].dropna():
    # Se itera sobre cada género en la lista de géneros
    for genre in genres_list:
        # se verifica si el género no está en la lista de géneros
        if genre not in generos:
            # Si el género no está en la lista, lo agregamos
            generos.append(genre)

# Se muestra la lista de géneros únicos
generos

['Action',
 'Casual',
 'Indie',
 'Simulation',
 'Strategy',
 'Free to Play',
 'RPG',
 'Sports',
 'Adventure',
 'Racing',
 'Early Access',
 'Massively Multiplayer',
 'Animation &amp; Modeling',
 'Video Production',
 'Utilities',
 'Web Publishing',
 'Education',
 'Software Training',
 'Design &amp; Illustration',
 'Audio Production',
 'Photo Editing',
 'Accounting']

In [25]:
# Se elimina los valores nulos de la columna "tags" y filtrar los elementos que pertenecen a los géneros
df_output["tags"] = df_output["tags"].dropna().apply(lambda lista: [g for g in lista if g in generos])

In [26]:
df_output["genres"].fillna(df_output["tags"], inplace=True)

In [27]:
df_output["genres"].isnull().sum()

138

se verifica que todavia hay registros nulos, que se eliminaran mas adelante
se elimina la columna tags 

In [28]:
df_output = df_output.drop("tags", axis=1)
df_output

Unnamed: 0,genres,app_name,title,id,developer,price_numeric,release_year
0,"[Action, Casual, Indie, Simulation, Strategy]",Lost Summoner Kitty,Lost Summoner Kitty,761140,Kotoshiro,4.99,2018
1,"[Free to Play, Indie, RPG, Strategy]",Ironbound,Ironbound,643980,Secret Level SRL,0.00,2018
2,"[Casual, Free to Play, Indie, Simulation, Sports]",Real Pool 3D - Poolians,Real Pool 3D - Poolians,670290,Poolians.com,0.00,2017
3,"[Action, Adventure, Casual]",弹炸人2222,弹炸人2222,767400,彼岸领域,0.99,2017
4,"[Action, Indie, Casual, Sports]",Log Challenge,,773570,,2.99,2015
...,...,...,...,...,...,...,...
32130,"[Casual, Indie, Simulation, Strategy]",Colony On Mars,Colony On Mars,773640,"Nikita ""Ghost_RUS""",1.99,2018
32131,"[Casual, Indie, Strategy]",LOGistICAL: South Africa,LOGistICAL: South Africa,733530,Sacada,4.99,2018
32132,"[Indie, Racing, Simulation]",Russian Roads,Russian Roads,610660,Laush Dmitriy Sergeevich,1.99,2018
32133,"[Casual, Indie]",EXIT 2 - Directions,EXIT 2 - Directions,658870,"xropi,stev3ns",4.99,2017


In [29]:
# Se muestra las primeras filas de la columna "genres" en el DataFrame
df_output["genres"].head()

0        [Action, Casual, Indie, Simulation, Strategy]
1                 [Free to Play, Indie, RPG, Strategy]
2    [Casual, Free to Play, Indie, Simulation, Sports]
3                          [Action, Adventure, Casual]
4                      [Action, Indie, Casual, Sports]
Name: genres, dtype: object

la variable genres se encuentra con datos anidados, se realiza el trabajo para desnadiar 

In [30]:
# Se agrega una nueva columna "main_genre" al DataFrame 
# La columna "main_genre" contendrá el primer género de la lista en la columna "genres"
# Si la columna "genres" está vacía o no es una lista, se asigna el valor None
df_output["main_genre"] = df_output["genres"].apply(lambda x: x[0] if isinstance(x, list) and x else None)

# Se elimina filas duplicadas en el DataFrame df_output basadas en varias columnas
# mantener solo la primera ocurrencia de cada conjunto único de valores en las columnas especificadas
df_unique_genre = df_output.drop_duplicates(["app_name", "title", "id", "developer", "price_numeric", "release_year"])

# Se elimina la columna "genres" del DataFrame df_unique_genre
# El parámetro axis=1 indica que se eliminará una columna en lugar de una fila
df_unique_genre = df_unique_genre.drop("genres", axis=1)

# Mostrar el DataFrame resultante df_unique_genre
df_unique_genre

Unnamed: 0,app_name,title,id,developer,price_numeric,release_year,main_genre
0,Lost Summoner Kitty,Lost Summoner Kitty,761140,Kotoshiro,4.99,2018,Action
1,Ironbound,Ironbound,643980,Secret Level SRL,0.00,2018,Free to Play
2,Real Pool 3D - Poolians,Real Pool 3D - Poolians,670290,Poolians.com,0.00,2017,Casual
3,弹炸人2222,弹炸人2222,767400,彼岸领域,0.99,2017,Action
4,Log Challenge,,773570,,2.99,2015,Action
...,...,...,...,...,...,...,...
32130,Colony On Mars,Colony On Mars,773640,"Nikita ""Ghost_RUS""",1.99,2018,Casual
32131,LOGistICAL: South Africa,LOGistICAL: South Africa,733530,Sacada,4.99,2018,Casual
32132,Russian Roads,Russian Roads,610660,Laush Dmitriy Sergeevich,1.99,2018,Indie
32133,EXIT 2 - Directions,EXIT 2 - Directions,658870,"xropi,stev3ns",4.99,2017,Casual


In [31]:
df_unique_genre["main_genre"].isnull().sum()

1030

In [32]:
# se llena los valores nulos en la columna "main_genre" con el valor "Sin Dato"
df_unique_genre["main_genre"] = df_unique_genre["main_genre"].fillna("Sin Dato")

# Se verifica cuántos valores nulos quedan en la columna "main_genre"
df_unique_genre["main_genre"].isnull().sum()

0

## Trabajaremos con las variables app_name, title y developer

In [33]:
# Lista de columnas a llenar
columnas = ["app_name", "title"]

# Se llena los valores nulos en las columnas especificadas con el valor "Sin datos"
df_unique_genre[columnas] = df_unique_genre[columnas].fillna("Sin datos")

In [34]:
# Se verifica si las columnas 'app_name' y 'title' son iguales en todos los registros
son_iguales = (df_unique_genre["app_name"] == df_unique_genre["title"]).all()

# Se imprime el resultado de la verificación
if son_iguales:
    print("Las columnas 'app_name' y 'title' son iguales en todos los registros.")
else:
    print("Las columnas 'app_name' y 'title' no son iguales en todos los registros.")


Las columnas 'app_name' y 'title' no son iguales en todos los registros.


In [35]:
# Se agrega una nueva columna "son_iguales" al DataFrame df_unique_genre
# La columna contiene valores booleanos que indican si "app_name" y "title" son iguales en cada fila
df_unique_genre["son_iguales"] = df_unique_genre["app_name"] == df_unique_genre["title"]

# Se seleciona las filas donde la columna "son_iguales" es False
filas_no_iguales = df_unique_genre[df_unique_genre["son_iguales"] == False]

# Mostrar las filas donde "app_name" y "title" son diferentes
filas_no_iguales

Unnamed: 0,app_name,title,id,developer,price_numeric,release_year,main_genre,son_iguales
4,Log Challenge,Sin datos,773570,,2.99,2015,Action,False
11,Icarus Six Sixty Six,Sin datos,724910,,0.00,2015,Casual,False
19,After Life VR,Sin datos,772590,,4.99,2015,Early Access,False
20,Kitty Hawk,Sin datos,640250,,2.99,2015,Early Access,False
22,Mortars VR,Sin datos,711440,,0.99,2015,Early Access,False
...,...,...,...,...,...,...,...,...
32073,Tank of War-VR,Sin datos,745900,,19.99,2015,Action,False
32076,Flappy Arms,Sin datos,764110,,1.99,2015,Casual,False
32077,SpaceWalker,Sin datos,705860,,0.00,2015,Early Access,False
32085,LIV Client,Sin datos,755540,,0.00,2015,Video Production,False


In [36]:
# Se elimina las filas con valores nulos en la columna "developer" del DataFrame df_unique_genre
# El parámetro subset=["developer"] indica que solo se eliminarán las filas con valores nulos en la columna "developer"
df_unique_genre.dropna(subset=["developer"], inplace=True)

In [37]:
df_unique_genre.isnull().sum()

app_name         0
title            0
id               0
developer        0
price_numeric    0
release_year     0
main_genre       0
son_iguales      0
dtype: int64

In [38]:
# Se elimina la columna "title" del DataFrame df_unique_genre
# El parámetro columns=["title"] indica que se eliminará la columna "title"
# El parámetro axis=1 indica que se eliminará una columna en lugar de una fila
df_unique_genre.drop(columns=["title"], axis=1, inplace=True)

In [39]:
df_unique_genre

Unnamed: 0,app_name,id,developer,price_numeric,release_year,main_genre,son_iguales
0,Lost Summoner Kitty,761140,Kotoshiro,4.99,2018,Action,True
1,Ironbound,643980,Secret Level SRL,0.00,2018,Free to Play,True
2,Real Pool 3D - Poolians,670290,Poolians.com,0.00,2017,Casual,True
3,弹炸人2222,767400,彼岸领域,0.99,2017,Action,True
5,Battle Royale Trainer,772540,Trickjump Games Ltd,3.99,2018,Action,True
...,...,...,...,...,...,...,...
32129,Kebab it Up!,745400,Bidoniera Games,1.99,2018,Action,True
32130,Colony On Mars,773640,"Nikita ""Ghost_RUS""",1.99,2018,Casual,True
32131,LOGistICAL: South Africa,733530,Sacada,4.99,2018,Casual,True
32132,Russian Roads,610660,Laush Dmitriy Sergeevich,1.99,2018,Indie,True


In [40]:
df_unique_genre.drop(["son_iguales"], axis=1, inplace=True)

In [41]:
df_unique_genre.head(2)

Unnamed: 0,app_name,id,developer,price_numeric,release_year,main_genre
0,Lost Summoner Kitty,761140,Kotoshiro,4.99,2018,Action
1,Ironbound,643980,Secret Level SRL,0.0,2018,Free to Play


In [42]:
df_unique_genre.isnull().sum()

app_name         0
id               0
developer        0
price_numeric    0
release_year     0
main_genre       0
dtype: int64

El dataframe limpio de output steam games (Informacion de juegos) contiene las siguientes columnas
* app_name : Nombre del juego 
* id : Id de juego
* developer : desarrollador
* price_numeric : Precio de lanzamiento
* release_year : Año de lanzamiento
* main_genre : Genero principal

## Se cargara el dataset limpio

In [44]:
# se especifica el nombre del archivo donde se guardará el DataFrame
archivo_limpio = 'data_repo/output_steam_games_limpio.csv'

# se guarda el DataFrame en un archivo CSV
# El parámetro index=False evita que se agregue una columna de índice al archivo CSV
# El parámetro encoding='utf-8' especifica la codificación del archivo CSV
df_unique_genre.to_csv(archivo_limpio, index=False, encoding='utf-8')

# Se imprime un mensaje indicando que el archivo se guardó correctamente
print(f'Se guardó el archivo {archivo_limpio}')

Se guardó el archivo data_repo/output_steam_games_limpio.csv
