<center><img src="Logo PI MLOps STEAM.png" alt="Logo PI MLOps STEAM"></center>

In [1]:
# Importo librerías.
import json
import pandas as pd
import ast
import gzip
from tqdm import tqdm

# Creo la función para leer las líneas de cada dataset.
def leer_datos(ruta, tipo='json'):
    """
    Esta función lee datos desde cada archivo de mi carpeta y los convierte en un DataFrame de pandas.

    Args:
        ruta (str): La ruta al archivo que se va a leer.
        tipo (str, optional): El formato de los datos en el archivo. Puede ser 'json' o 'literal'. 
                              Si es 'json', los datos se cargarán utilizando json.loads. 
                              Si es 'literal', los datos se cargarán utilizando ast.literal_eval. 
                              Por defecto es 'json'.

    Returns:
        pd.DataFrame: Un DataFrame de pandas que contiene los datos leídos del archivo.
    """
    filas = []  # Será la lista para almacenar cada fila de datos

    # Abro el archivo en modo lectura con codificación utf-8
    with gzip.open(ruta, 'rt', encoding='utf-8') as f:
        # Leo cada línea del archivo
        for line in tqdm(f.readlines(), desc=f"Leyendo {ruta}"):
            # Si el tipo es 'json', carga los datos con json.loads
            if tipo == 'json':
                data = json.loads(line)
            # Si el tipo es 'literal', carga los datos con ast.literal_eval
            elif tipo == 'literal':
                data = ast.literal_eval(line)
            # Añado los datos a la lista de filas
            filas.append(data)

    # Convierto la lista de filas en un DataFrame de pandas y lo devuelve.
    return pd.DataFrame(filas)

# Determino la ruta de cada dataset.
ruta_games = r'C:\Users\Esteban García\OneDrive\Escritorio\LABs\PI MLOps STEAM DTPT06 01\Datos\steam_games.json.gz'
ruta_reviews = r'C:\Users\Esteban García\OneDrive\Escritorio\LABs\PI MLOps STEAM DTPT06 01\Datos\user_reviews.json.gz'
ruta_items = r'C:\Users\Esteban García\OneDrive\Escritorio\LABs\PI MLOps STEAM DTPT06 01\Datos\users_items.json.gz'

# Convierto en dataframe cada datasets
df_steam_games = leer_datos(ruta_games, tipo='json')
df_user_reviews = leer_datos(ruta_reviews, tipo='literal')
df_users_items = leer_datos(ruta_items, tipo='literal')


Leyendo C:\Users\Esteban García\OneDrive\Escritorio\LABs\PI MLOps STEAM DTPT06 01\Datos\steam_games.json.gz: 100%|██████████| 120445/120445 [00:01<00:00, 76229.85it/s]
Leyendo C:\Users\Esteban García\OneDrive\Escritorio\LABs\PI MLOps STEAM DTPT06 01\Datos\user_reviews.json.gz: 100%|██████████| 25799/25799 [00:04<00:00, 5966.82it/s]
Leyendo C:\Users\Esteban García\OneDrive\Escritorio\LABs\PI MLOps STEAM DTPT06 01\Datos\users_items.json.gz: 100%|██████████| 88310/88310 [03:49<00:00, 385.48it/s] 


<h3 style="color:green">
Nuestros dataframes se llaman: df_steam_games; df_user_reviews y df_users_items

<h5 style="color:blue">
Trabajaré son Steam Games.

### Verifico

In [2]:
# Visualizo steam
df_steam_games

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
0,,,,,,,,,,,,,
1,,,,,,,,,,,,,
2,,,,,,,,,,,,,
3,,,,,,,,,,,,,
4,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
120440,Ghost_RUS Games,"[Casual, Indie, Simulation, Strategy]",Colony On Mars,Colony On Mars,http://store.steampowered.com/app/773640/Colon...,2018-01-04,"[Strategy, Indie, Casual, Simulation]",http://steamcommunity.com/app/773640/reviews/?...,"[Single-player, Steam Achievements]",1.99,False,773640,"Nikita ""Ghost_RUS"""
120441,Sacada,"[Casual, Indie, Strategy]",LOGistICAL: South Africa,LOGistICAL: South Africa,http://store.steampowered.com/app/733530/LOGis...,2018-01-04,"[Strategy, Indie, Casual]",http://steamcommunity.com/app/733530/reviews/?...,"[Single-player, Steam Achievements, Steam Clou...",4.99,False,733530,Sacada
120442,Laush Studio,"[Indie, Racing, Simulation]",Russian Roads,Russian Roads,http://store.steampowered.com/app/610660/Russi...,2018-01-04,"[Indie, Simulation, Racing]",http://steamcommunity.com/app/610660/reviews/?...,"[Single-player, Steam Achievements, Steam Trad...",1.99,False,610660,Laush Dmitriy Sergeevich
120443,SIXNAILS,"[Casual, Indie]",EXIT 2 - Directions,EXIT 2 - Directions,http://store.steampowered.com/app/658870/EXIT_...,2017-09-02,"[Indie, Casual, Puzzle, Singleplayer, Atmosphe...",http://steamcommunity.com/app/658870/reviews/?...,"[Single-player, Steam Achievements, Steam Cloud]",4.99,False,658870,"xropi,stev3ns"


### Verifico las columnas que contienen listas o diccionarios.

In [3]:
# Importo librerías.
import pandas as pd

# Itero sobre cada columna
for column in df_steam_games.columns:
    # Obtengo el primer valor no nulo
    non_null_values = df_steam_games[column].dropna()
    if non_null_values.empty:
        print(f"La columna '{column}' solo contiene valores nulos.")
        continue
    first_non_null_value = non_null_values.iloc[0]

    # Compruebo si es una lista o un diccionario
    if isinstance(first_non_null_value, list):
        print(f"La columna '{column}' contiene una lista.")
    elif isinstance(first_non_null_value, dict):
        print(f"La columna '{column}' contiene un diccionario.")
    else:
        print(f"La columna '{column}' no contiene ni listas ni diccionarios.")

La columna 'publisher' no contiene ni listas ni diccionarios.
La columna 'genres' contiene una lista.
La columna 'app_name' no contiene ni listas ni diccionarios.
La columna 'title' no contiene ni listas ni diccionarios.
La columna 'url' no contiene ni listas ni diccionarios.
La columna 'release_date' no contiene ni listas ni diccionarios.
La columna 'tags' contiene una lista.
La columna 'reviews_url' no contiene ni listas ni diccionarios.
La columna 'specs' contiene una lista.
La columna 'price' no contiene ni listas ni diccionarios.
La columna 'early_access' no contiene ni listas ni diccionarios.
La columna 'id' no contiene ni listas ni diccionarios.
La columna 'developer' no contiene ni listas ni diccionarios.


### Elimino duplicados.

La finalidad es eliminar los que realmente están duplicados, por eso selecciono un porcentaje y lo comparo antes de eliminarlo, de esa forma me aseguro que estoy eliminando lo que efectivamente está duplicado.

In [4]:
# Importo librerías.
import numpy as np

# Obtengo todas las columnas del DataFrame
all_columns = df_steam_games.columns.tolist()

# Columnas que contienen listas
list_columns = ['genres', 'tags', 'specs']

# Elimino las columnas que contienen listas de all_columns
all_columns = [col for col in all_columns if col not in list_columns]

# Aseguro que 'developer' esté en la lista de columnas a verificar
if 'developer' not in all_columns:
    all_columns.append('developer')

# Calculo el número de columnas a seleccionar (30% de todas las columnas)
num_columns_to_check = int(len(all_columns) * 0.3)

# Selecciono un subconjunto de columnas al azar
np.random.seed(0)  # Para reproducibilidad
columns_to_check = np.random.choice(all_columns, num_columns_to_check, replace=False)

# Convierto la lista en una tupla
columns_to_check = tuple(columns_to_check)

# Imprimo el número de filas antes de la eliminación de duplicados
print("Número de filas antes de la eliminación de duplicados:", df_steam_games.shape[0])

# Elimino los duplicados del DataFrame
df_steam_games.drop_duplicates(subset=columns_to_check, keep='first', inplace=True)

# Imprimo el número de filas después de la eliminación de duplicados
print("Número de filas después de la eliminación de duplicados:", df_steam_games.shape[0])

# Imprimo las columnas que se usaron para verificar los duplicados
print("\nColumnas que se usaron para verificar los duplicados:") 
print(columns_to_check[:10])


Número de filas antes de la eliminación de duplicados: 120445
Número de filas después de la eliminación de duplicados: 32134

Columnas que se usaron para verificar los duplicados:
('title', 'id', 'release_date')


Lo que hicimos fue eliminar duplicados considerando las columnas: 'genres', 'tags' y 'specs' que contienen una lista.

### A continuación normalizaremos.

#### Normalizo mi df_steam_games eliminando filas vacías, NaN y analizaremos en porcentajes cuántos datos nulos o vacíos representan en el total del df y desanidando 'genres'.

In [6]:
# Importo librerías.
import pandas as pd

# Guardo el número de filas antes de la eliminación.
num_rows_before = df_steam_games.shape[0]

# Imprimo los tipos de datos por columna y cantidad de nulos.
print("Tipos de datos por columna y cantidad de nulos:")
print(df_steam_games.dtypes)
print(df_steam_games.isnull().sum())

# Elimino las filas donde cualquier valor es NaN
print("Eliminando filas con valores nulos...")
df_steam_games = df_steam_games.dropna(how='any').reset_index(drop=True)

# Reseteo el índice del DataFrame
print("Reseteando el índice del DataFrame...")
df_steam_games.reset_index(drop=True, inplace=True)

# Guardo el número de filas después de la eliminación
num_rows_after = df_steam_games.shape[0]

# Calculo la reducción porcentual
reduction_percentage = (1 - num_rows_after / num_rows_before) * 100

# Imprimo la reducción porcentual
print(f"La reducción de filas es aproximadamente del {reduction_percentage:.2f}%.")

# Verifico los tipos de datos por columna.
print("Tipos de datos por columna después de la eliminación:")
print(df_steam_games.dtypes)

# Reviso las columnas
for col in df_steam_games.columns:
    print(f"Columna: {col}")
    print(f"Primer valor: {df_steam_games[col].iloc[0]}")

    # Convierto las listas a cadenas antes de llamar a unique()
    unique_values = pd.Series([str(x) if isinstance(x, list) else x for x in df_steam_games[col]]).unique()
    print(f"Valores únicos: {unique_values[:5]}\n")

Tipos de datos por columna y cantidad de nulos:
publisher       object
genres          object
app_name        object
title           object
url             object
release_date    object
tags            object
reviews_url     object
specs           object
price           object
early_access    object
id              object
developer       object
dtype: object
publisher       8052
genres          3283
app_name           2
title           2050
url                1
release_date    2067
tags             163
reviews_url        2
specs            670
price           1378
early_access       1
id                 2
developer       3299
dtype: int64
Eliminando filas con valores nulos...
Reseteando el índice del DataFrame...
La reducción de filas es aproximadamente del 29.89%.
Tipos de datos por columna después de la eliminación:
publisher       object
genres          object
app_name        object
title           object
url             object
release_date    object
tags            object
reviews_u

In [7]:
# Verifico las filas duplicadas
hay_duplicados = df_steam_games.duplicated(subset='id', keep=False).any()
print('¿Hay filas duplicadas?', hay_duplicados)

¿Hay filas duplicadas? False


Vista de datos contenidos en cada columna

In [11]:
# Columnas que no contienen listas ni diccionarios
non_list_columns = ['publisher', 'app_name', 'title', 'url', 'release_date', 'reviews_url', 'price', 'early_access', 'id', 'developer']

# Para cada columna en non_list_columns
for col in non_list_columns:
    # Imprimo el nombre de la columna
    print(f"\nAnalizando la columna '{col}'")
    print("-" * 50)
    
    # Imprimo los primeros 5 valores de la columna
    print("\nPrimeros 5 valores:")
    print(df_steam_games[col].head(5))
    
    # Imprimo los últimos 5 valores de la columna
    print("\nÚltimos 5 valores:")
    print(df_steam_games[col].tail(5))
    
    # Imprimo el número de valores únicos en la columna
    num_unique_values = df_steam_games[col].nunique()
    print(f"\nNúmero de valores únicos: {num_unique_values}")
    
    # Si el número de valores únicos es menor que 10, imprimo los valores únicos
    if num_unique_values < 10:
        print("\nValores únicos:")
        print(df_steam_games[col].unique())
    
    # Imprimo el número de valores nulos en la columna
    num_null_values = df_steam_games[col].isnull().sum()
    print(f"\nNúmero de valores nulos: {num_null_values}")



Analizando la columna 'publisher'
--------------------------------------------------

Primeros 5 valores:
0              Kotoshiro
1       Making Fun, Inc.
2           Poolians.com
3                   彼岸领域
4    Trickjump Games Ltd
Name: publisher, dtype: object

Últimos 5 valores:
22524    Bidoniera Games
22525    Ghost_RUS Games
22526             Sacada
22527       Laush Studio
22528           SIXNAILS
Name: publisher, dtype: object

Número de valores únicos: 7834

Número de valores nulos: 0

Analizando la columna 'app_name'
--------------------------------------------------

Primeros 5 valores:
0        Lost Summoner Kitty
1                  Ironbound
2    Real Pool 3D - Poolians
3                    弹炸人2222
4      Battle Royale Trainer
Name: app_name, dtype: object

Últimos 5 valores:
22524                Kebab it Up!
22525              Colony On Mars
22526    LOGistICAL: South Africa
22527               Russian Roads
22528         EXIT 2 - Directions
Name: app_name, dtype: object


### Analizo cada columna.

Analizo Publisher

In [22]:
import numpy as np

def analyze_individual_column(df, column):
    """
    Esta función analiza una columna individual de un DataFrame de pandas.
    
    Parámetros:
    df (pandas.DataFrame): El DataFrame a analizar.
    column (str): El nombre de la columna a analizar.
    
    Retorna:
    None
    """
    print(f"\n\nAnalizando la columna '{column}'\n" + "-"*50)
    
    # Imprimo los primeros 20 valores
    print("\nPrimeros 20 valores:")
    print(df[column].head(20))
    
    # Verifico si hay valores nulos
    num_nulls = df[column].isnull().sum()
    print(f"\nNúmero de valores nulos: {num_nulls}")
    
    # Obtengo el tipo de datos de la columna
    dtype = df[column].dtype
    print(f"\nTipo de datos: {dtype}")
    
    # Si la columna es numérica, obtengo estadísticas descriptivas
    if pd.api.types.is_numeric_dtype(df[column]):
        print("\nEstadísticas descriptivas:")
        print(df[column].describe())
    
    # Si la columna es de tipo object (categórica), obtengo los valores únicos y sus conteos
    if dtype == 'object':
        print("\nValores únicos (top 5):")
        print(df[column].value_counts().head(5))
        
    # Si la columna contiene listas o diccionarios, analizo la longitud de los datos
    if df[column].apply(lambda x: isinstance(x, (list, dict))).any():
        print("\nLongitud de los datos (para listas y diccionarios):")
        print(df[column].apply(lambda x: len(x) if isinstance(x, (list, dict)) else None).describe())
    
    # Si la columna es de tipo int, str o datetime
    if np.issubdtype(dtype, np.integer):
        print("\nLa columna es de tipo entero.")
    elif np.issubdtype(dtype, np.datetime64):
        print("\nLa columna es de tipo datetime.")
    elif dtype == object:
        print("\nLa columna es de tipo string.")

# Uso de la función para una columna específica
df = df_steam_games  # aquí coloco el nombre del df y su nombre
column = 'publisher'  # aquí coloco el nombre de la columna

analyze_individual_column(df, column)



Analizando la columna 'publisher'
--------------------------------------------------

Primeros 20 valores:
0                          Kotoshiro
1                   Making Fun, Inc.
2                       Poolians.com
3                               彼岸领域
4                Trickjump Games Ltd
5             Poppermost Productions
6             Poppermost Productions
7     Stegalosaurus Game Development
8                  Copperpick Studio
9                       Ghulam Jewel
10                            Apillo
11            Poppermost Productions
12                            Apillo
13            Poppermost Productions
14                       Tero Lunkka
15                      FrozenPepper
16                      FrozenPepper
17                     Casey Labrack
18               Stainless Games Ltd
19                             Valve
Name: publisher, dtype: object

Número de valores nulos: 0

Tipo de datos: object

Valores únicos (top 5):
publisher
Ubisoft                    366
Dov

Verifico duplicados.

In [23]:
# Listo nombres de publisher para verificar duplicados
app_names = ['Dovetail GAmes - Flight']

# Columnas a considerar al verificar duplicados
columns_to_consider = ['app_name', 'publisher', 'developer']

# Para cada nombre de juego en la lista
for game_name in app_names:  # Aquí está la corrección
    # Crea una cadena de texto con la siguiente información
    info = f"""
    Este bloque de código verifica si hay filas duplicadas para el juego 
    '{game_name}' en el DataFrame df_steam_games. 
    Si hay filas duplicadas, las imprime y luego las elimina del DataFrame.
    """
    # Imprimo la cadena de texto
    print(info)

    # Filtro el DataFrame para mostrar solo las filas donde 'app_name' es el nombre del juego actual
    df_game = df_steam_games[df_steam_games['app_name'] == game_name]

    # Verifico si hay filas duplicadas, considerando solo las columnas especificadas
    duplicates = df_game.duplicated(subset=columns_to_consider)

    # Si hay filas duplicadas
    if duplicates.any():
        print(f"Duplicados para {game_name}:")
        
        # Imprimo las filas duplicadas
        print(df_game[duplicates])
    else:
        # Imprimo un mensaje indicando que no se encontraron duplicados para el juego actual
        print(f"No se encontraron duplicados para {game_name}.")



    Este bloque de código verifica si hay filas duplicadas para el juego 
    'Dovetail GAmes - Flight' en el DataFrame df_steam_games. 
    Si hay filas duplicadas, las imprime y luego las elimina del DataFrame.
    
No se encontraron duplicados para Dovetail GAmes - Flight.


In [None]:
# Analizo 'genres', 'tags' y 'specs'

# Importo librerías.
from tqdm import tqdm

def analizar_columna_individual(df, columna):
    """
    Esta función analiza cada columna individualmente, en este caso 'genres', 'tags' y 'specs' de un DataFrame de pandas.
    
    Parámetros:
    df (pandas.DataFrame): El DataFrame a analizar.
    columna (str): El nombre de la columna a analizar.
    
    Retorna:
    None
    """
    # Verifico si la columna existe en el DataFrame
    if columna not in df.columns:
        print(f"La columna '{columna}' no existe en el DataFrame.")
        return

    # Verifico si hay valores nulos
    num_nulls = df[columna].isnull().sum()
    
    # Obtengo un resumen de la columna
    resumen = df[columna].describe()

    print(f"Columna '{columna}':\n{resumen}\nNúmero de valores nulos = {num_nulls}\n")

# Uso de la función para cada columna nueva
for columna in tqdm(new_column_genres + new_colum_tags + new_colum_specs):
    analizar_columna_individual(df_steam_games, columna)

Verifico duplicados

Analizo app_name

In [24]:
# Analizo 'app_name'

import pandas as pd
import numpy as np

def analyze_individual_column(df, column):
    """
    Esta función analiza una columna individual de un DataFrame de pandas.
    
    Parámetros:
    df (pandas.DataFrame): El DataFrame a analizar.
    column (str): El nombre de la columna a analizar.
    
    Retorna:
    None
    """
    print(f"\n\nAnalizando la columna '{column}'\n" + "-"*50)
    
    # Imprimo los primeros 20 valores
    print("\nPrimeros 20 valores:")
    print(df[column].head(20))
    
    # Verifico si hay valores nulos
    num_nulls = df[column].isnull().sum()
    print(f"\nNúmero de valores nulos: {num_nulls}")
    
    # Obtengo el tipo de datos de la columna
    dtype = df[column].dtype
    print(f"\nTipo de datos: {dtype}")
    
    # Si la columna es numérica, obtengo estadísticas descriptivas
    if pd.api.types.is_numeric_dtype(df[column]):
        print("\nEstadísticas descriptivas:")
        print(df[column].describe())
    
    # Si la columna es de tipo object (categórica), obtengo los valores únicos y sus conteos
    if dtype == 'object':
        print("\nValores únicos (top 5):")
        print(df[column].value_counts().head(5))
        
    # Si la columna contiene listas o diccionarios, analizo la longitud de los datos
    if df[column].apply(lambda x: isinstance(x, (list, dict))).any():
        print("\nLongitud de los datos (para listas y diccionarios):")
        print(df[column].apply(lambda x: len(x) if isinstance(x, (list, dict)) else None).describe())
    
    # Si la columna es de tipo int, str o datetime
    if np.issubdtype(dtype, np.integer):
        print("\nLa columna es de tipo entero.")
    elif np.issubdtype(dtype, np.datetime64):
        print("\nLa columna es de tipo datetime.")
    elif dtype == object:
        print("\nLa columna es de tipo string.")

# Uso de la función para una columna específica
df = df_steam_games  # aquí coloco el nombre del df y su nombre
column = 'app_name'  # aquí coloco el nombre de la columna

analyze_individual_column(df, column)




Analizando la columna 'app_name'
--------------------------------------------------

Primeros 20 valores:
0                                   Lost Summoner Kitty
1                                             Ironbound
2                               Real Pool 3D - Poolians
3                                               弹炸人2222
4                                 Battle Royale Trainer
5                            SNOW - All Access Pro Pass
6                         SNOW - All Access Legend Pass
7     Army of Tentacles: (Not) A Cthulhu Dating Sim:...
8                                           Beach Rules
9                           Planetarium 2 - Zen Odyssey
10                              The first thrust of God
11                                  SNOW - Starter Pack
12              The first thrust of God - All Aircrafts
13                                 SNOW - Lifetime Pack
14                             The Warrior Of Treasures
15                         RC Plane 3 - Canyon Scena

Verifico duplicados

In [26]:
# Listo nombres de app_names para verificar duplicados
app_names = ['Invisible Apartment Zero']

# Columnas a considerar al verificar duplicados
columns_to_consider = ['app_name', 'publisher', 'developer', 'title']

# Para cada nombre de juego en la lista
for game_name in app_names:  # Aquí está la corrección
    # Creo una cadena de texto con la siguiente información
    info = f"""
    Este bloque de código verifica si hay filas duplicadas para el juego 
    '{game_name}' en el DataFrame df_steam_games. 
    Si hay filas duplicadas, las imprime y luego las elimina del DataFrame.
    """
    # Imprimo la cadena de texto
    print(info)

    # Filtro el DataFrame para mostrar solo las filas donde 'app_name' es el nombre del juego actual
    df_game = df_steam_games[df_steam_games['app_name'] == game_name]

    # Verifico si hay filas duplicadas, considerando solo las columnas especificadas
    duplicates = df_game.duplicated(subset=columns_to_consider)

    # Si hay filas duplicadas
    if duplicates.any():
        print(f"Duplicados para {game_name}:")
        
        # Imprimo las filas duplicadas
        print(df_game[duplicates])
    else:
        # Imprimo un mensaje indicando que no se encontraron duplicados para el juego actual
        print(f"No se encontraron duplicados para {game_name}.")



    Este bloque de código verifica si hay filas duplicadas para el juego 
    'Invisible Apartment Zero' en el DataFrame df_steam_games. 
    Si hay filas duplicadas, las imprime y luego las elimina del DataFrame.
    
No se encontraron duplicados para Invisible Apartment Zero.


Analizo title

In [27]:
# Importo librerías
import pandas as pd
import numpy as np

def analyze_individual_column(df, column):
    """
    Esta función analiza una columna individual de un DataFrame de pandas.
    
    Parámetros:
    df (pandas.DataFrame): El DataFrame a analizar.
    column (str): El nombre de la columna a analizar.
    
    Retorna:
    None
    """
    print(f"\n\nAnalizando la columna '{column}'\n" + "-"*50)
    
    # Imprimo los primeros 20 valores
    print("\nPrimeros 20 valores:")
    print(df[column].head(20))
    
    # Verifico si hay valores nulos
    num_nulls = df[column].isnull().sum()
    print(f"\nNúmero de valores nulos: {num_nulls}")
    
    # Obtengo el tipo de datos de la columna
    dtype = df[column].dtype
    print(f"\nTipo de datos: {dtype}")
    
    # Si la columna es numérica, obtengo estadísticas descriptivas
    if pd.api.types.is_numeric_dtype(df[column]):
        print("\nEstadísticas descriptivas:")
        print(df[column].describe())
    
    # Si la columna es de tipo object (categórica), obtengo los valores únicos y sus conteos
    if dtype == 'object':
        print("\nValores únicos (top 5):")
        print(df[column].value_counts().head(5))
        
    # Si la columna contiene listas o diccionarios, analizo la longitud de los datos
    if df[column].apply(lambda x: isinstance(x, (list, dict))).any():
        print("\nLongitud de los datos (para listas y diccionarios):")
        print(df[column].apply(lambda x: len(x) if isinstance(x, (list, dict)) else None).describe())
    
    # Si la columna es de tipo int, str o datetime
    if np.issubdtype(dtype, np.integer):
        print("\nLa columna es de tipo entero.")
    elif np.issubdtype(dtype, np.datetime64):
        print("\nLa columna es de tipo datetime.")
    elif dtype == object:
        print("\nLa columna es de tipo string.")

# Uso de la función para una columna específica
df = df_steam_games  # aquí coloco el nombre del df y su nombre
column = 'title'  # aquí coloco el nombre de la columna

analyze_individual_column(df, column)




Analizando la columna 'title'
--------------------------------------------------

Primeros 20 valores:
0                                   Lost Summoner Kitty
1                                             Ironbound
2                               Real Pool 3D - Poolians
3                                               弹炸人2222
4                                 Battle Royale Trainer
5                            SNOW - All Access Pro Pass
6                         SNOW - All Access Legend Pass
7     Army of Tentacles: (Not) A Cthulhu Dating Sim:...
8                                           Beach Rules
9                           Planetarium 2 - Zen Odyssey
10                              The first thrust of God
11                                  SNOW - Starter Pack
12              The first thrust of God - All Aircrafts
13                                 SNOW - Lifetime Pack
14                             The Warrior Of Treasures
15                         RC Plane 3 - Canyon Scenario

Verifico duplicados

In [28]:
# Listo nombres de title para verificar duplicados
app_names = ['Invisible Apartment Zero']

# Columnas a considerar al verificar duplicados
columns_to_consider = ['app_name', 'publisher', 'developer', 'id']

# Para cada nombre de juego en la lista
for game_name in app_names:  # Aquí se debe usar app_names en lugar de game_name
    # Creo una cadena de texto con la siguiente información
    info = f"""
    Este bloque de código verifica si hay filas duplicadas para el juego 
    '{game_name}' en el DataFrame df_steam_games. 
    Si hay filas duplicadas, las imprime.
    """
    # Imprimo la cadena de texto
    print(info)

    # Filtro el DataFrame para mostrar solo las filas donde 'app_name' es el nombre del juego actual
    df_game = df_steam_games[df_steam_games['app_name'] == game_name]

    # Verifico si hay filas duplicadas, considerando solo las columnas especificadas
    duplicates = df_game.duplicated(subset=columns_to_consider)

    # Si hay filas duplicadas
    if duplicates.any():
        print(f"Duplicados para {game_name}:")
        
        # Imprimo las filas duplicadas
        print(df_game[duplicates])
    else:
        # Imprimo un mensaje indicando que no se encontraron duplicados para el juego actual
        print(f"No se encontraron duplicados para {game_name}.") 



    Este bloque de código verifica si hay filas duplicadas para el juego 
    'Invisible Apartment Zero' en el DataFrame df_steam_games. 
    Si hay filas duplicadas, las imprime.
    
No se encontraron duplicados para Invisible Apartment Zero.


Analizo url

In [29]:
# Importo librerías
import pandas as pd
import numpy as np

def analyze_individual_column(df, column):
    """
    Esta función analiza una columna individual de un DataFrame de pandas.
    
    Parámetros:
    df (pandas.DataFrame): El DataFrame a analizar.
    column (str): El nombre de la columna a analizar.
    
    Retorna:
    None
    """
    print(f"\n\nAnalizando la columna '{column}'\n" + "-"*50)
    
    # Imprimo los primeros 20 valores
    print("\nPrimeros 20 valores:")
    print(df[column].head(20))
    
    # Verifico si hay valores nulos
    num_nulls = df[column].isnull().sum()
    print(f"\nNúmero de valores nulos: {num_nulls}")
    
    # Obtengo el tipo de datos de la columna
    dtype = df[column].dtype
    print(f"\nTipo de datos: {dtype}")
    
    # Si la columna es numérica, obtengo estadísticas descriptivas
    if pd.api.types.is_numeric_dtype(df[column]):
        print("\nEstadísticas descriptivas:")
        print(df[column].describe())
    
    # Si la columna es de tipo object (categórica), obtengo los valores únicos y sus conteos
    if dtype == 'object':
        print("\nValores únicos (top 5):")
        print(df[column].value_counts().head(5))
        
    # Si la columna contiene listas o diccionarios, analizo la longitud de los datos
    if df[column].apply(lambda x: isinstance(x, (list, dict))).any():
        print("\nLongitud de los datos (para listas y diccionarios):")
        print(df[column].apply(lambda x: len(x) if isinstance(x, (list, dict)) else None).describe())
    
    # Si la columna es de tipo int, str o datetime
    if np.issubdtype(dtype, np.integer):
        print("\nLa columna es de tipo entero.")
    elif np.issubdtype(dtype, np.datetime64):
        print("\nLa columna es de tipo datetime.")
    elif dtype == object:
        print("\nLa columna es de tipo string.")

# Uso de la función para una columna específica
df = df_steam_games  # aquí coloco el nombre del df y su nombre
column = 'url'  # aquí coloco el nombre de la columna

analyze_individual_column(df, column)




Analizando la columna 'url'
--------------------------------------------------

Primeros 20 valores:
0     http://store.steampowered.com/app/761140/Lost_...
1     http://store.steampowered.com/app/643980/Ironb...
2     http://store.steampowered.com/app/670290/Real_...
3        http://store.steampowered.com/app/767400/2222/
4     http://store.steampowered.com/app/772540/Battl...
5     http://store.steampowered.com/app/774277/SNOW_...
6     http://store.steampowered.com/app/774278/SNOW_...
7     http://store.steampowered.com/app/770380/Army_...
8     http://store.steampowered.com/app/768880/Beach...
9     http://store.steampowered.com/app/765320/Plane...
10    http://store.steampowered.com/app/773650/The_f...
11    http://store.steampowered.com/app/774271/SNOW_...
12    http://store.steampowered.com/app/773690/The_f...
13    http://store.steampowered.com/app/774279/SNOW_...
14    http://store.steampowered.com/app/768060/The_W...
15    http://store.steampowered.com/app/775880/RC_Pl...
1

Verifico duplicados

In [30]:
# Listo los links para verificar duplicados
app_links = ['http://store.steampowered.com/app/454700/Shiny_Gauntlet/']

# Columnas a considerar al verificar duplicados
columns_to_consider = ['app_name', 'publisher', 'developer']

# Para cada link de juego en la lista
for game_link in app_links:  # Aquí se debe usar app_links en lugar de game_names
    # Crea una cadena de texto con la información que deseas
    info = f"""
    Este bloque de código verifica si hay filas duplicadas para el juego 
    '{game_link}' en el DataFrame df_steam_games. 
    Si hay filas duplicadas, las imprime.
    """
    # Imprime la cadena de texto
    print(info)

    # Filtra el DataFrame para mostrar solo las filas donde 'app_name' es el nombre del juego actual
    df_game = df_steam_games[df_steam_games['app_name'] == game_link]  # Aquí se debe usar game_link en lugar de game_name

    # Verifica si hay filas duplicadas, considerando solo las columnas especificadas
    duplicates = df_game.duplicated(subset=columns_to_consider)

    # Si hay filas duplicadas
    if duplicates.any():
        print(f"Duplicados para {game_link}:")  # Aquí se debe usar game_link en lugar de game_name
        
        # Imprime las filas duplicadas
        print(df_game[duplicates])
    else:
        # Imprime un mensaje indicando que no se encontraron duplicados para el juego actual
        print(f"No se encontraron duplicados para {game_link}.")  # Aquí se debe usar game_link en lugar de game_name



    Este bloque de código verifica si hay filas duplicadas para el juego 
    'http://store.steampowered.com/app/454700/Shiny_Gauntlet/' en el DataFrame df_steam_games. 
    Si hay filas duplicadas, las imprime.
    
No se encontraron duplicados para http://store.steampowered.com/app/454700/Shiny_Gauntlet/.


Analizo release_date

In [31]:
# Importo librerías
import pandas as pd
import numpy as np

def analyze_individual_column(df, column):
    """
    Esta función analiza una columna individual de un DataFrame de pandas.
    
    Parámetros:
    df (pandas.DataFrame): El DataFrame a analizar.
    column (str): El nombre de la columna a analizar.
    
    Retorna:
    None
    """
    print(f"\n\nAnalizando la columna '{column}'\n" + "-"*50)
    
    # Imprimo los primeros 20 valores
    print("\nPrimeros 20 valores:")
    print(df[column].head(20))
    
    # Verifico si hay valores nulos
    num_nulls = df[column].isnull().sum()
    print(f"\nNúmero de valores nulos: {num_nulls}")
    
    # Obtengo el tipo de datos de la columna
    dtype = df[column].dtype
    print(f"\nTipo de datos: {dtype}")
    
    # Si la columna es numérica, obtengo estadísticas descriptivas
    if pd.api.types.is_numeric_dtype(df[column]):
        print("\nEstadísticas descriptivas:")
        print(df[column].describe())
    
    # Si la columna es de tipo object (categórica), obtengo los valores únicos y sus conteos
    if dtype == 'object':
        print("\nValores únicos (top 5):")
        print(df[column].value_counts().head(5))
        
    # Si la columna contiene listas o diccionarios, analizo la longitud de los datos
    if df[column].apply(lambda x: isinstance(x, (list, dict))).any():
        print("\nLongitud de los datos (para listas y diccionarios):")
        print(df[column].apply(lambda x: len(x) if isinstance(x, (list, dict)) else None).describe())
    
    # Si la columna es de tipo int, str o datetime
    if np.issubdtype(dtype, np.integer):
        print("\nLa columna es de tipo entero.")
    elif np.issubdtype(dtype, np.datetime64):
        print("\nLa columna es de tipo datetime.")
    elif dtype == object:
        print("\nLa columna es de tipo string.")

# Uso de la función para una columna específica
df = df_steam_games  # aquí coloco el nombre del df y su nombre
column = 'release_date'  # aquí coloco el nombre de la columna

analyze_individual_column(df, column)




Analizando la columna 'release_date'
--------------------------------------------------

Primeros 20 valores:
0     2018-01-04
1     2018-01-04
2     2017-07-24
3     2017-12-07
4     2018-01-04
5     2018-01-04
6     2018-01-04
7     2018-01-04
8     2018-01-04
9     2018-01-03
10    2018-01-03
11    2018-01-03
12    2018-01-03
13    2018-01-03
14    2018-01-03
15    2017-12-22
16    2017-12-23
17    2018-01-03
18    1997-06-30
19    1998-11-08
Name: release_date, dtype: object

Número de valores nulos: 0

Tipo de datos: object

Valores únicos (top 5):
release_date
2012-10-16    100
2017-07-25     63
2017-09-26     61
2017-10-17     60
2017-12-15     58
Name: count, dtype: int64

La columna es de tipo string.


Verifico duplicados.

In [33]:
# Listo las fechas para verificar duplicados
release_dates = ['2017-12-15']

# Columnas a considerar al verificar duplicados
columns_to_consider = ['release_date', 'publisher', 'developer', 'title']

# Para cada fecha de lanzamiento en la lista
for release_date in release_dates:  
    # Crea una cadena de texto con la siguiente información:
    info = f"""
    Este bloque de código verifica si hay filas duplicadas para la fecha de lanzamiento 
    '{release_date}' en el DataFrame df_steam_games. 
    Si hay filas duplicadas, las imprime.
    """
    # Imprimo la cadena de texto
    print(info)

    # Filtro el DataFrame para mostrar solo las filas donde 'release_date' es la fecha de lanzamiento actual
    df_date = df_steam_games[df_steam_games['release_date'] == release_date]

    # Verifico si hay filas duplicadas, considerando solo las columnas especificadas
    duplicates = df_date.duplicated(subset=columns_to_consider)

    # Si hay filas duplicadas
    if duplicates.any():
        print(f"Duplicados para {release_date}:")  
        
        # Imprimo las filas duplicadas
        print(df_date[duplicates])
    else:
        # Imprimo un mensaje indicando que no se encontraron duplicados para la fecha de lanzamiento actual
        print(f"No se encontraron duplicados para {release_date}.")



    Este bloque de código verifica si hay filas duplicadas para la fecha de lanzamiento 
    '2017-12-15' en el DataFrame df_steam_games. 
    Si hay filas duplicadas, las imprime.
    
No se encontraron duplicados para 2017-12-15.


Cambiamos el contenido de release_date a datetime

In [35]:
# Convierto la columna 'release_date' a datetime
df['release_date'] = pd.to_datetime(df['release_date'], errors='coerce')

# Ahora puedes volver a llamar a la función analyze_individual_column()
analyze_individual_column(df, 'release_date')




Analizando la columna 'release_date'
--------------------------------------------------

Primeros 20 valores:
0    2018-01-04
1    2018-01-04
2    2017-07-24
3    2017-12-07
4    2018-01-04
5    2018-01-04
6    2018-01-04
7    2018-01-04
8    2018-01-04
9    2018-01-03
10   2018-01-03
11   2018-01-03
12   2018-01-03
13   2018-01-03
14   2018-01-03
15   2017-12-22
16   2017-12-23
17   2018-01-03
18   1997-06-30
19   1998-11-08
Name: release_date, dtype: datetime64[ns]

Número de valores nulos: 34

Tipo de datos: datetime64[ns]

La columna es de tipo datetime.


Analizo reviews_url

In [36]:
# Importo librerías
import pandas as pd
import numpy as np

def analyze_individual_column(df, column):
    """
    Esta función analiza una columna individual de un DataFrame de pandas.
    
    Parámetros:
    df (pandas.DataFrame): El DataFrame a analizar.
    column (str): El nombre de la columna a analizar.
    
    Retorna:
    None
    """
    print(f"\n\nAnalizando la columna '{column}'\n" + "-"*50)
    
    # Imprimo los primeros 20 valores
    print("\nPrimeros 20 valores:")
    print(df[column].head(20))
    
    # Verifico si hay valores nulos
    num_nulls = df[column].isnull().sum()
    print(f"\nNúmero de valores nulos: {num_nulls}")
    
    # Obtengo el tipo de datos de la columna
    dtype = df[column].dtype
    print(f"\nTipo de datos: {dtype}")
    
    # Si la columna es numérica, obtengo estadísticas descriptivas
    if pd.api.types.is_numeric_dtype(df[column]):
        print("\nEstadísticas descriptivas:")
        print(df[column].describe())
    
    # Si la columna es de tipo object (categórica), obtengo los valores únicos y sus conteos
    if dtype == 'object':
        print("\nValores únicos (top 5):")
        print(df[column].value_counts().head(5))
        
    # Si la columna contiene listas o diccionarios, analizo la longitud de los datos
    if df[column].apply(lambda x: isinstance(x, (list, dict))).any():
        print("\nLongitud de los datos (para listas y diccionarios):")
        print(df[column].apply(lambda x: len(x) if isinstance(x, (list, dict)) else None).describe())
    
    # Si la columna es de tipo int, str o datetime
    if np.issubdtype(dtype, np.integer):
        print("\nLa columna es de tipo entero.")
    elif np.issubdtype(dtype, np.datetime64):
        print("\nLa columna es de tipo datetime.")
    elif dtype == object:
        print("\nLa columna es de tipo string.")

# Uso de la función para una columna específica
df = df_steam_games  # aquí coloco el nombre del df y su nombre
column = 'reviews_url'  # aquí coloco el nombre de la columna

analyze_individual_column(df, column)




Analizando la columna 'reviews_url'
--------------------------------------------------

Primeros 20 valores:
0     http://steamcommunity.com/app/761140/reviews/?...
1     http://steamcommunity.com/app/643980/reviews/?...
2     http://steamcommunity.com/app/670290/reviews/?...
3     http://steamcommunity.com/app/767400/reviews/?...
4     http://steamcommunity.com/app/772540/reviews/?...
5     http://steamcommunity.com/app/774277/reviews/?...
6     http://steamcommunity.com/app/774278/reviews/?...
7     http://steamcommunity.com/app/770380/reviews/?...
8     http://steamcommunity.com/app/768880/reviews/?...
9     http://steamcommunity.com/app/765320/reviews/?...
10    http://steamcommunity.com/app/773650/reviews/?...
11    http://steamcommunity.com/app/774271/reviews/?...
12    http://steamcommunity.com/app/773690/reviews/?...
13    http://steamcommunity.com/app/774279/reviews/?...
14    http://steamcommunity.com/app/768060/reviews/?...
15    http://steamcommunity.com/app/775880/review

Verifico duplicados

In [37]:
# Listo las URLs para verificar duplicados
review_urls = ['http://steamcommunity.com/app/454700/reviews/?browsefilter=mostrecent&p=1']

# Columnas a considerar al verificar duplicados
columns_to_consider = ['reviews_url', 'publisher', 'developer', 'title']

# Para cada URL de revisión en la lista
for review_url in review_urls:  
    # Crea una cadena de texto con la siguiente información:
    info = f"""
    Este bloque de código verifica si hay filas duplicadas para la URL de revisión 
    '{review_url}' en el DataFrame df_steam_games. 
    Si hay filas duplicadas, las imprime.
    """
    # Imprimo la cadena de texto
    print(info)

    # Filtro el DataFrame para mostrar solo las filas donde 'reviews_url' es la URL de revisión actual
    df_reviews = df_steam_games[df_steam_games['reviews_url'] == review_url]

    # Verifico si hay filas duplicadas, considerando solo las columnas especificadas
    duplicates = df_reviews.duplicated(subset=columns_to_consider)

    # Si hay filas duplicadas
    if duplicates.any():
        print(f"Duplicados para {review_url}:")  
        
        # Imprimo las filas duplicadas
        print(df_reviews[duplicates])
    else:
        # Imprimo un mensaje indicando que no se encontraron duplicados para la URL de revisión actual
        print(f"No se encontraron duplicados para {review_url}.")



    Este bloque de código verifica si hay filas duplicadas para la URL de revisión 
    'http://steamcommunity.com/app/454700/reviews/?browsefilter=mostrecent&p=1' en el DataFrame df_steam_games. 
    Si hay filas duplicadas, las imprime.
    
No se encontraron duplicados para http://steamcommunity.com/app/454700/reviews/?browsefilter=mostrecent&p=1.


Analizo Price

In [38]:
# Importo librerías
import pandas as pd
import numpy as np

def analyze_individual_column(df, column):
    """
    Esta función analiza una columna individual de un DataFrame de pandas.
    
    Parámetros:
    df (pandas.DataFrame): El DataFrame a analizar.
    column (str): El nombre de la columna a analizar.
    
    Retorna:
    None
    """
    print(f"\n\nAnalizando la columna '{column}'\n" + "-"*50)
    
    # Imprimo los primeros 20 valores
    print("\nPrimeros 20 valores:")
    print(df[column].head(20))
    
    # Verifico si hay valores nulos
    num_nulls = df[column].isnull().sum()
    print(f"\nNúmero de valores nulos: {num_nulls}")
    
    # Obtengo el tipo de datos de la columna
    dtype = df[column].dtype
    print(f"\nTipo de datos: {dtype}")
    
    # Si la columna es numérica, obtengo estadísticas descriptivas
    if pd.api.types.is_numeric_dtype(df[column]):
        print("\nEstadísticas descriptivas:")
        print(df[column].describe())
    
    # Si la columna es de tipo object (categórica), obtengo los valores únicos y sus conteos
    if dtype == 'object':
        print("\nValores únicos (top 5):")
        print(df[column].value_counts().head(5))
        
    # Si la columna contiene listas o diccionarios, analizo la longitud de los datos
    if df[column].apply(lambda x: isinstance(x, (list, dict))).any():
        print("\nLongitud de los datos (para listas y diccionarios):")
        print(df[column].apply(lambda x: len(x) if isinstance(x, (list, dict)) else None).describe())
    
    # Si la columna es de tipo int, str o datetime
    if np.issubdtype(dtype, np.integer):
        print("\nLa columna es de tipo entero.")
    elif np.issubdtype(dtype, np.datetime64):
        print("\nLa columna es de tipo datetime.")
    elif dtype == object:
        print("\nLa columna es de tipo string.")

# Uso de la función para una columna específica
df = df_steam_games  # aquí coloco el nombre del df y su nombre
column = 'price'  # aquí coloco el nombre de la columna

analyze_individual_column(df, column)




Analizando la columna 'price'
--------------------------------------------------

Primeros 20 valores:
0             4.99
1     Free To Play
2     Free to Play
3             0.99
4             3.99
5            18.99
6            29.99
7            10.99
8             3.99
9             2.99
10            1.59
11           14.99
12            1.99
13           59.99
14            0.99
15            2.99
16            2.99
17            4.99
18            9.99
19            9.99
Name: price, dtype: object

Número de valores nulos: 0

Tipo de datos: object

Valores únicos (top 5):
price
9.99    3176
4.99    3154
0.99    2179
1.99    1940
2.99    1915
Name: count, dtype: int64

La columna es de tipo string.


Verifico duplicados

In [41]:
# Listo los precios para verificar duplicados
prices = [2.99]

# Columnas a considerar al verificar duplicados
columns_to_consider = ['release_date', 'publisher', 'developer', 'title']

# Para cada precio en la lista
for price in prices:  
    # Crea una cadena de texto con la siguiente información:
    info = f"""
    Este bloque de código verifica si hay filas duplicadas para el precio 
    '{price}' en el DataFrame df_steam_games. 
    Si hay filas duplicadas, las imprime.
    """
    # Imprimo la cadena de texto
    print(info)

    # Filtro el DataFrame para mostrar solo las filas donde 'price' es el precio actual
    df_price = df_steam_games[df_steam_games['price'] == price]

    # Verifico si hay filas duplicadas, considerando solo las columnas especificadas
    duplicates = df_price.duplicated(subset=columns_to_consider)

    # Si hay filas duplicadas
    if duplicates.any():
        print(f"Duplicados para {price}:")  
        
        # Imprimo las filas duplicadas
        print(df_price[duplicates])
    else:
        # Imprimo un mensaje indicando que no se encontraron duplicados para el precio actual
        print(f"No se encontraron duplicados para {price}.")



    Este bloque de código verifica si hay filas duplicadas para el precio 
    '2.99' en el DataFrame df_steam_games. 
    Si hay filas duplicadas, las imprime.
    
No se encontraron duplicados para 2.99.


In [42]:
# Cuento cuántos datos en la columna 'price' son strings
num_strings = df['price'].apply(lambda x: isinstance(x, str)).sum()

# Calculo el porcentaje de datos que son strings
percentage_strings = (num_strings / len(df)) * 100

print(f"Porcentaje de strings en 'price': {percentage_strings}%")

Porcentaje de strings en 'price': 5.805850237471703%


Analizo early_access

In [43]:
# Importo librerías
import pandas as pd
import numpy as np

def analyze_individual_column(df, column):
    """
    Esta función analiza una columna individual de un DataFrame de pandas.
    
    Parámetros:
    df (pandas.DataFrame): El DataFrame a analizar.
    column (str): El nombre de la columna a analizar.
    
    Retorna:
    None
    """
    print(f"\n\nAnalizando la columna '{column}'\n" + "-"*50)
    
    # Imprimo los primeros 20 valores
    print("\nPrimeros 20 valores:")
    print(df[column].head(20))
    
    # Verifico si hay valores nulos
    num_nulls = df[column].isnull().sum()
    print(f"\nNúmero de valores nulos: {num_nulls}")
    
    # Obtengo el tipo de datos de la columna
    dtype = df[column].dtype
    print(f"\nTipo de datos: {dtype}")
    
    # Si la columna es numérica, obtengo estadísticas descriptivas
    if pd.api.types.is_numeric_dtype(df[column]):
        print("\nEstadísticas descriptivas:")
        print(df[column].describe())
    
    # Si la columna es de tipo object (categórica), obtengo los valores únicos y sus conteos
    if dtype == 'object':
        print("\nValores únicos (top 5):")
        print(df[column].value_counts().head(5))
        
    # Si la columna contiene listas o diccionarios, analizo la longitud de los datos
    if df[column].apply(lambda x: isinstance(x, (list, dict))).any():
        print("\nLongitud de los datos (para listas y diccionarios):")
        print(df[column].apply(lambda x: len(x) if isinstance(x, (list, dict)) else None).describe())
    
    # Si la columna es de tipo int, str o datetime
    if np.issubdtype(dtype, np.integer):
        print("\nLa columna es de tipo entero.")
    elif np.issubdtype(dtype, np.datetime64):
        print("\nLa columna es de tipo datetime.")
    elif dtype == object:
        print("\nLa columna es de tipo string.")

# Uso de la función para una columna específica
df = df_steam_games  # aquí coloco el nombre del df y su nombre
column = 'early_access'  # aquí coloco el nombre de la columna

analyze_individual_column(df, column)




Analizando la columna 'early_access'
--------------------------------------------------

Primeros 20 valores:
0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
Name: early_access, dtype: object

Número de valores nulos: 0

Tipo de datos: object

Valores únicos (top 5):
early_access
False    21169
True      1360
Name: count, dtype: int64

La columna es de tipo string.


Verifico duplicados.

In [44]:
# Listo los valores para verificar duplicados
early_access_values = [True]

# Columnas a considerar al verificar duplicados
columns_to_consider = ['early_access', 'publisher', 'developer', 'title', 'price', 'id', 'app_name']

# Para cada valor en la lista
for early_access in early_access_values:  
    # Crea una cadena de texto con la siguiente información:
    info = f"""
    Este bloque de código verifica si hay filas duplicadas para el valor de 'early_access' 
    '{early_access}' en el DataFrame df_steam_games. 
    Si hay filas duplicadas, las imprime.
    """
    # Imprimo la cadena de texto
    print(info)

    # Filtro el DataFrame para mostrar solo las filas donde 'early_access' es el valor actual
    df_early_access = df_steam_games[df_steam_games['early_access'] == early_access]

    # Verifico si hay filas duplicadas, considerando solo las columnas especificadas
    duplicates = df_early_access.duplicated(subset=columns_to_consider)

    # Si hay filas duplicadas
    if duplicates.any():
        print(f"Duplicados para {early_access}:")  
        
        # Imprimo las filas duplicadas
        print(df_early_access[duplicates])
    else:
        # Imprimo un mensaje indicando que no se encontraron duplicados para el valor de 'early_access' actual
        print(f"No se encontraron duplicados para {early_access}.")



    Este bloque de código verifica si hay filas duplicadas para el valor de 'early_access' 
    'True' en el DataFrame df_steam_games. 
    Si hay filas duplicadas, las imprime.
    
No se encontraron duplicados para True.


Analizo id

In [45]:
# Importo librerías
# Importo librerías
import pandas as pd
import numpy as np

def analyze_individual_column(df, column):
    """
    Esta función analiza una columna individual de un DataFrame de pandas.
    
    Parámetros:
    df (pandas.DataFrame): El DataFrame a analizar.
    column (str): El nombre de la columna a analizar.
    
    Retorna:
    None
    """
    print(f"\n\nAnalizando la columna '{column}'\n" + "-"*50)
    
    # Imprimo los primeros 20 valores
    print("\nPrimeros 20 valores:")
    print(df[column].head(20))
    
    # Verifico si hay valores nulos
    num_nulls = df[column].isnull().sum()
    print(f"\nNúmero de valores nulos: {num_nulls}")
    
    # Obtengo el tipo de datos de la columna
    dtype = df[column].dtype
    print(f"\nTipo de datos: {dtype}")
    
    # Si la columna es numérica, obtengo estadísticas descriptivas
    if pd.api.types.is_numeric_dtype(df[column]):
        print("\nEstadísticas descriptivas:")
        print(df[column].describe())
    
    # Si la columna es de tipo object (categórica), obtengo los valores únicos y sus conteos
    if dtype == 'object':
        print("\nValores únicos (top 5):")
        print(df[column].value_counts().head(5))
        
    # Si la columna contiene listas o diccionarios, analizo la longitud de los datos
    if df[column].apply(lambda x: isinstance(x, (list, dict))).any():
        print("\nLongitud de los datos (para listas y diccionarios):")
        print(df[column].apply(lambda x: len(x) if isinstance(x, (list, dict)) else None).describe())
    
    # Si la columna es de tipo int, str o datetime
    if np.issubdtype(dtype, np.integer):
        print("\nLa columna es de tipo entero.")
    elif np.issubdtype(dtype, np.datetime64):
        print("\nLa columna es de tipo datetime.")
    elif dtype == object:
        print("\nLa columna es de tipo string.")

# Uso de la función para una columna específica
df = df_steam_games  # aquí coloco el nombre del df y su nombre
column = 'id'  # aquí coloco el nombre de la columna

analyze_individual_column(df, column)




Analizando la columna 'id'
--------------------------------------------------

Primeros 20 valores:
0     761140
1     643980
2     670290
3     767400
4     772540
5     774277
6     774278
7     770380
8     768880
9     765320
10    773650
11    774271
12    773690
13    774279
14    768060
15    775880
16    775881
17    653960
18    282010
19        70
Name: id, dtype: object

Número de valores nulos: 0

Tipo de datos: object

Valores únicos (top 5):
id
761140    1
589740    1
466540    1
498240    1
454700    1
Name: count, dtype: int64

La columna es de tipo string.


Verifico duplicados.

In [46]:
# Listo los IDs para verificar duplicados
ids = [454700]

# Columnas a considerar al verificar duplicados
columns_to_consider = ['id', 'publisher', 'developer', 'title', 'price', 'early_access']

# Para cada ID en la lista
for id in ids:  
    # Crea una cadena de texto con la siguiente información:
    info = f"""
    Este bloque de código verifica si hay filas duplicadas para el ID 
    '{id}' en el DataFrame df_steam_games. 
    Si hay filas duplicadas, las imprime.
    """
    # Imprimo la cadena de texto
    print(info)

    # Filtro el DataFrame para mostrar solo las filas donde 'id' es el ID actual
    df_id = df_steam_games[df_steam_games['id'] == id]

    # Verifico si hay filas duplicadas, considerando solo las columnas especificadas
    duplicates = df_id.duplicated(subset=columns_to_consider)

    # Si hay filas duplicadas
    if duplicates.any():
        print(f"Duplicados para {id}:")  
        
        # Imprimo las filas duplicadas
        print(df_id[duplicates])
    else:
        # Imprimo un mensaje indicando que no se encontraron duplicados para el ID actual
        print(f"No se encontraron duplicados para {id}.")



    Este bloque de código verifica si hay filas duplicadas para el ID 
    '454700' en el DataFrame df_steam_games. 
    Si hay filas duplicadas, las imprime.
    
No se encontraron duplicados para 454700.


Modifico id a int

In [50]:
# Intento convertir la columna 'id' a entero
try:
    df['id'] = df['id'].astype(int)
    print("La columna 'id' se ha convertido a entero exitosamente.")
except Exception as e:
    print(f"Error al convertir la columna 'id' a entero: {e}")

# Ahora puedes volver a llamar a la función analyze_individual_column()
analyze_individual_column(df, 'id')


La columna 'id' se ha convertido a entero exitosamente.


Analizando la columna 'id'
--------------------------------------------------

Primeros 20 valores:
0     761140
1     643980
2     670290
3     767400
4     772540
5     774277
6     774278
7     770380
8     768880
9     765320
10    773650
11    774271
12    773690
13    774279
14    768060
15    775880
16    775881
17    653960
18    282010
19        70
Name: id, dtype: int32

Número de valores nulos: 0

Tipo de datos: int32

Estadísticas descriptivas:
count    2.252900e+04
mean     4.307083e+05
std      1.918428e+05
min      1.000000e+01
25%      3.022900e+05
50%      4.269280e+05
75%      5.807000e+05
max      2.028850e+06
Name: id, dtype: float64

La columna es de tipo entero.


In [51]:
# Verifico
num_nan = df['id'].isna().sum()
print(f"Número de NaN en 'id': {num_nan}")


Número de NaN en 'id': 0


In [None]:
# Analizo 'developer'

# Importo librerías
import pandas as pd

def analyze_individual_column(df, column):
    """
    Esta función analiza una columna individual de un DataFrame de pandas.
    
    Parámetros:
    df (pandas.DataFrame): El DataFrame a analizar.
    column (str): El nombre de la columna a analizar.
    
    Retorna:
    None
    """
    print(f"\n\nAnalizando la columna '{column}'\n" + "-"*50)
    
    # Imprimo los primeros 20 valores
    print("\nPrimeros 20 valores:")
    print(df[column].head(20))
    
    # Verifico si hay valores nulos
    num_nulls = df[column].isnull().sum()
    print(f"\nNúmero de valores nulos: {num_nulls}")
    
    # Obtengo el tipo de datos de la columna
    dtype = df[column].dtype
    print(f"\nTipo de datos: {dtype}")
    
    # Si la columna es numérica, obtengo estadísticas descriptivas
    if pd.api.types.is_numeric_dtype(df[column]):
        print("\nEstadísticas descriptivas:")
        print(df[column].describe())
    
    # Si la columna es de tipo object (categórica), obtengo los valores únicos y sus conteos
    if dtype == 'object':
        print("\nValores únicos (top 5):")
        print(df[column].value_counts().head(5))
        
    # Si la columna contiene listas o diccionarios, analizo la longitud de los datos
    if df[column].apply(lambda x: isinstance(x, (list, dict))).any():
        print("\nLongitud de los datos (para listas y diccionarios):")
        print(df[column].apply(lambda x: len(x) if isinstance(x, (list, dict)) else None).describe())

# Uso de la función para una columna específica
df = df_steam_games  # aquí coloco el nombre del df y su nombre
column = 'developer'  # aquí coloco el nombre de la columna

analyze_individual_column(df, column)


Verifico duplicados.

In [None]:
# Listo los desarrolladores para verificar duplicados
developers = ['Ubisoft - San Francisco', 'Capcom', 'Paradox Development Studio']

# Columnas a considerar al verificar duplicados
columns_to_consider = ['developer', 'publisher', 'title', 'price', 'early_access', 'id']

# Para cada desarrollador en la lista
for developer in developers:  
    # Crea una cadena de texto con la siguiente información:
    info = f"""
    Este bloque de código verifica si hay filas duplicadas para el desarrollador 
    '{developer}' en el DataFrame df_steam_games. 
    Si hay filas duplicadas, las imprime.
    """
    # Imprimo la cadena de texto
    print(info)

    # Filtro el DataFrame para mostrar solo las filas donde 'developer' es el desarrollador actual
    df_developer = df_steam_games[df_steam_games['developer'] == developer]

    # Verifico si hay filas duplicadas, considerando solo las columnas especificadas
    duplicates = df_developer.duplicated(subset=columns_to_consider)

    # Si hay filas duplicadas
    if duplicates.any():
        print(f"Duplicados para {developer}:")  
        
        # Imprimo las filas duplicadas
        print(df_developer[duplicates])
    else:
        # Imprimo un mensaje indicando que no se encontraron duplicados para el desarrollador actual
        print(f"No se encontraron duplicados para {developer}.")
