In [1]:
import pandas as pd
import ast
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
df = pd.read_csv('steam_games_limpio.csv', encoding='utf-8')

In [3]:
# Convertir la columna "release_date" al tipo datetime
df['release_date'] = pd.to_datetime(df['release_date'], errors='coerce')

In [4]:
# Eliminamos una columna
df.drop('Unnamed: 0', axis=1,inplace=True)

In [5]:
def genero(Año: str):
    # Filtrar solo los registros correspondientes al año ingresado
    df_filtered = df[df['release_date'].dt.year == int(Año)]

    # Eliminar los valores nulos en la columna "genres"
    df_filtered = df_filtered.dropna(subset=['genres'])

    # Convertir las cadenas de géneros en listas reales
    df_filtered['genres'] = df_filtered['genres'].apply(ast.literal_eval)

    # Unir todas las listas de géneros en una única lista
    all_genres = [genre for sublist in df_filtered['genres'] for genre in sublist]

    # Contar la frecuencia de cada género
    genre_counts = pd.Series(all_genres).value_counts()

    # Obtener el top 5 de géneros más repetidos en formato de diccionario
    top_genres_dict = genre_counts.head(5).to_dict()

    return top_genres_dict

# Ejemplo de uso de la función
print(genero(2017))

{'Indie': 5917, 'Action': 3517, 'Casual': 3141, 'Adventure': 2795, 'Strategy': 2255}


In [6]:
def juegos(Año:str):
    # Filtrar solo los registros correspondientes al año ingresado
    df_filtered = df[df['release_date'].dt.year == int(Año)]

    # Eliminar los valores nulos en la columna "app_name"
    df_filtered = df_filtered.dropna(subset=['app_name'])

    return df_filtered['app_name']

juegos(2018)

0                 Lost Summoner Kitty
1                           Ironbound
5               Battle Royale Trainer
6        SNOW - All Access Basic Pass
7          SNOW - All Access Pro Pass
                     ...             
32049                           BAE 2
32050                    Kebab it Up!
32051                  Colony On Mars
32052        LOGistICAL: South Africa
32053                   Russian Roads
Name: app_name, Length: 96, dtype: object

In [7]:
def specs(Año: str):
    # Filtrar solo los registros correspondientes al año ingresado
    df_filtered = df[df['release_date'].dt.year == int(Año)]

    # Eliminar los valores nulos en la columna "specs"
    df_filtered = df_filtered.dropna(subset=['specs'])

    # Convertir las cadenas de specs en listas reales
    df_filtered['specs'] = df_filtered['specs'].apply(ast.literal_eval)

    # Unir todas las listas de specs en una única lista
    all_specs = [specs for sublist in df_filtered['specs'] for specs in sublist]

    # Contar la frecuencia de cada especificación
    specs_counts = pd.Series(all_specs).value_counts()

    # Obtener el diccionario de especificaciones y su frecuencia
    top_specs_dict = specs_counts.head(5).to_dict()

    return top_specs_dict

print(specs(2018))

{'Single-player': 87, 'Steam Achievements': 42, 'Steam Cloud': 22, 'Full controller support': 20, 'Steam Trading Cards': 18}


In [8]:
def earlyacces(Año:str):
    # Filtrar solo los registros correspondientes al año ingresado
    df_filtered = df[df['release_date'].dt.year == int(Año)]
    
    # Eliminar los valores nulos en la columna "early_access"
    df_filtered = df_filtered.dropna(subset=['early_access'])
    
    # Contar la cantidad de juegos con early access
    cantidad_early_access = df_filtered['early_access'].sum()
    
    return cantidad_early_access
earlyacces(2017)

720

In [9]:
def sentiment(Año: str):
    # Filtrar solo los registros correspondientes al año ingresado
    df_filtered = df[df['release_date'].dt.year == int(Año)]
    
    # Eliminar los valores nulos en la columna "sentiment"
    df_filtered = df_filtered.dropna(subset=['sentiment'])
    
    # Eliminar las filas que contienen la categoría de sentimiento que tiene "user reviews"
    df_filtered = df_filtered[~df_filtered['sentiment'].str.contains('user reviews')]
    
    # Contar la cantidad de registros para cada categoría de sentimiento
    sentiment_counts = df_filtered['sentiment'].value_counts()
    
    # Convertir la serie de conteos en un diccionario
    sentiment_dict = sentiment_counts.to_dict()
    
    return sentiment_dict

print(sentiment(2018))

{'Mixed': 6, 'Mostly Positive': 3, 'Very Positive': 3, 'Mostly Negative': 1}


In [10]:
def metascore(Año: str):
    # Filtrar solo los registros correspondientes al año ingresado
    df_filtered = df[df['release_date'].dt.year == int(Año)]
    
    # Eliminar los valores nulos en la columna "metascore"
    df_filtered = df_filtered.dropna(subset=['metascore'])
    
    # Ordenar el DataFrame por la columna "metascore" de forma descendente para obtener los mejores puntajes primero
    df_sorted = df_filtered.sort_values(by='metascore', ascending=False)
    
    # Tomar los primeros 5 juegos con mayor metascore
    top_5_games = df_sorted.head(5)
    
    # Crear el diccionario con el nombre del juego como clave y el puntaje de metascore como valor
    juegos_y_metascore = dict(zip(top_5_games['title'], top_5_games['metascore']))
    
    return juegos_y_metascore

metascore(2017)

{'OKAMI HD / 大神 絶景版': 93.0,
 'Divinity: Original Sin 2': 93.0,
 'Linelight': 90.0,
 'Bayonetta': 90.0,
 'F1™ 2017': 89.0}