In [1]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
df = pd.read_csv("data/steam.csv")
df["reformat_release"] = pd.to_datetime(df["release_date"], format="%Y-%m-%d")
df['release_date'] = pd.to_datetime(df['release_date'])
df['Year'] = df['release_date'].dt.year
df

Unnamed: 0,appid,name,release_date,english,developer,publisher,platforms,required_age,categories,genres,steamspy_tags,achievements,positive_ratings,negative_ratings,average_playtime,median_playtime,owners,price,reformat_release,Year
0,10,Counter-Strike,2000-11-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,0,124534,3339,17612,317,10000000-20000000,7.19,2000-11-01,2000
1,20,Team Fortress Classic,1999-04-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,0,3318,633,277,62,5000000-10000000,3.99,1999-04-01,1999
2,30,Day of Defeat,2003-05-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Valve Anti-Cheat enabled,Action,FPS;World War II;Multiplayer,0,3416,398,187,34,5000000-10000000,3.99,2003-05-01,2003
3,40,Deathmatch Classic,2001-06-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,0,1273,267,258,184,5000000-10000000,3.99,2001-06-01,2001
4,50,Half-Life: Opposing Force,1999-11-01,1,Gearbox Software,Valve,windows;mac;linux,0,Single-player;Multi-player;Valve Anti-Cheat en...,Action,FPS;Action;Sci-fi,0,5250,288,624,415,5000000-10000000,3.99,1999-11-01,1999
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27070,1065230,Room of Pandora,2019-04-24,1,SHEN JIAWEI,SHEN JIAWEI,windows,0,Single-player;Steam Achievements,Adventure;Casual;Indie,Adventure;Indie;Casual,7,3,0,0,0,0-20000,2.09,2019-04-24,2019
27071,1065570,Cyber Gun,2019-04-23,1,Semyon Maximov,BekkerDev Studio,windows,0,Single-player,Action;Adventure;Indie,Action;Indie;Adventure,0,8,1,0,0,0-20000,1.69,2019-04-23,2019
27072,1065650,Super Star Blast,2019-04-24,1,EntwicklerX,EntwicklerX,windows,0,Single-player;Multi-player;Co-op;Shared/Split ...,Action;Casual;Indie,Action;Indie;Casual,24,0,1,0,0,0-20000,3.99,2019-04-24,2019
27073,1066700,New Yankee 7: Deer Hunters,2019-04-17,1,Yustas Game Studio,Alawar Entertainment,windows;mac,0,Single-player;Steam Cloud,Adventure;Casual;Indie,Indie;Casual;Adventure,0,2,0,0,0,0-20000,5.19,2019-04-17,2019


In [2]:
# Escludi i generi specificati in quanto non sono giochi
genres_to_exclude = [
    'Web Publishing', 'Utilities', 'Tutorial', 'Documentary', 'Accounting',
    'Software Training', 'Animation & Modeling', 'Design & Illustration',
    'Video Production', 'Photo Editing', 'Audio Production','Game Development'
]

In [16]:
# Processare la colonna 'genres' per estrarre ogni genere separato
df['genres'] = df['genres'].fillna('')  # Trattamento dei valori nulli
genres_count = {}
for genres in df['genres']:
    # Dividere i generi separati dal punto e virgola
    genres_list = genres.split(';')
    for genre in genres_list:
        genre = genre.strip()  # Rimuovere eventuali spazi bianchi
        if genre != '':
            if genre in genres_count:
                genres_count[genre] += 1
            else:
                genres_count[genre] = 1

# Creare un DataFrame per il conteggio dei generi
genres_df = pd.DataFrame(list(genres_count.items()),columns=['genre', 'count'])

# Creare l'istogramma
fig = px.bar(data_frame=genres_df.head(5),x="genre",y="count",title="Top 5 most frequent genres")
fig.update_xaxes(categoryorder="total descending")
fig.layout["xaxis"]["title"] = "Genre"
fig.layout["yaxis"]["title"] = "Count"
fig.show()

In [24]:
# Calcola la media dei prezzi dei giochi per ogni developer
developer_prices = df.groupby('publisher')['price'].mean().reset_index()

# Ordina i developer in base al prezzo medio in ordine decrescente
developer_prices = developer_prices.sort_values(by='price', ascending=False)

# Crea il grafico a barre per i developer con i prezzi medi più alti
fig = px.bar(developer_prices.head(10), x='publisher', y='price',labels={'developer': 'Developer', 'price': 'Prezzo Medio'},title='Top 10 Developer con Prezzi Medi Più Alti')

fig.update_layout(xaxis_title='Developer', yaxis_title='Prezzo Medio (US dollars)')
# Mostra il grafico
fig.show()

In [5]:
df['genres'] = df['genres'].str.split(';')
df = df.explode('genres')
df = df[~df['genres'].isin(genres_to_exclude)]

# Separa i generi multipli in diverse righe
data_genres = df.assign(genres=df['genres'].str.split(';')).explode('genres')

# Rimuovi i valori di prezzo mancanti o non validi
data_genres = data_genres[data_genres['price'].apply(
    lambda x: str(x).replace('.', '').isdigit())]
data_genres['price'] = data_genres['price'].astype(float)

# Calcola il prezzo medio per ciascun genere
avg_price_by_genre = data_genres.groupby(
    'genres')['price'].mean().sort_values(ascending=False).reset_index()

# Crea il grafico con Plotly Express
fig = px.bar(avg_price_by_genre, x='genres', y='price',
             labels={'genres': 'Genere', 'price': 'Prezzo medio (USD)'},
             title='Prezzo medio dei videogiochi per genere')

# Ordina i generi in base al prezzo medio
fig.update_layout(xaxis={'categoryorder': 'total descending'})

fig.show()

In [22]:
# Supponiamo che 'df' sia il DataFrame contenente i dati

# Mapping dei range di possessori a valori numerici intermedi più variegati
owners_ranges = {
    '0-20000': 10000,
    '20000-50000': 35000,
    '50000-100000': 75000,
    '100000-200000': 150000,
    '200000-500000': 350000,
    '500000-1000000': 750000,
    '1000000-2000000': 1500000,
    '2000000-5000000': 3500000,
    '5000000-10000000': 7500000,
    '10000000-20000000': 15000000,
    '20000000-50000000': 35000000,
    '50000000-100000000': 75000000,
    '100000000-200000000': 150000000
}

# Mappa i valori della colonna 'owners' ai valori numerici intermedi
df['owners_numeric'] = df['owners'].map(owners_ranges)

# Raggruppa per nome del gioco e somma il numero di possessori per ciascun gioco
top_games = df.groupby('name')['owners_numeric'].sum().reset_index()

# Ordina il DataFrame in modo decrescente in base ai possessori
top_games = top_games.sort_values(by='owners_numeric', ascending=True).tail(10)

# Creazione del grafico a barre orizzontale con Plotly Express
fig = px.bar(top_games, x='owners_numeric', y='name',
             orientation='h', title='Top 10 Most Owned Games in 2019',
             labels={'owners_numeric': 'Owners', 'name': 'Game'})

# Aggiungi i valori delle barre all'interno e formatta in milioni
fig.update_traces(text='ca.'+( top_games['owners_numeric'] / 1_000_000).round(2).astype(str) + 'M',
                  textposition='inside')

# Mostra il grafico
fig.show()


In [21]:
# Converti la colonna 'release_date' in formato datetime
#df['release_date'] = pd.to_datetime(df['release_date'])

# Imposta 'release_date' come indice del DataFrame senza sovrascrivere il DataFrame originale
df_indexed = df.set_index('release_date', drop=False)

# Crea un nuovo DataFrame filtrando i dati per gli anni fino al 2018
df_filtered = df_indexed[df_indexed.index.year <= 2018]

# Raggruppa per mese e conta il numero di rilasci
monthly_releases = df_filtered.resample('M').size().reset_index()
monthly_releases.columns = ['release_date', 'num_releases']

# Crea il grafico a linee con Plotly Express
fig = px.line(monthly_releases, x='release_date', y='num_releases',
              title='Number of Game Releases 1997-2018',
              labels={'release_date': 'Year', 'num_releases': 'Game releases'})

fig.update_xaxes(
    dtick='M12',  # Imposta il tick ogni 12 mesi (ogni anno)
)

# Mostra il grafico
fig.show()



The behavior of DatetimeProperties.to_pydatetime is deprecated, in a future version this will return a Series containing python datetime objects instead of an ndarray. To retain the old behavior, call `np.array` on the result



In [8]:
# Converti la colonna 'release_date' in formato datetime
df['release_date'] = pd.to_datetime(df['release_date'])

# Raggruppa per mese e somma il numero di rilasci
monthly_releases = df.groupby(df['release_date'].dt.strftime('%B')).size().reset_index(name='num_releases')

# Definisci l'ordine dei mesi da settembre a dicembre
mesi_ordine = ['January', 'February', 'March', 'April','May','June','July','August','September','October','November','December']
monthly_releases['release_date'] = pd.Categorical(
    monthly_releases['release_date'], categories=mesi_ordine, ordered=True)

# Ordina il DataFrame in base all'ordine definito
monthly_releases = monthly_releases.sort_values('release_date')

# Crea il grafico a linee con Plotly Express
fig = px.line(monthly_releases, x='release_date', y='num_releases',
              title='Somma del Numero di Rilasci per Mese',
              labels={'release_date': 'Mese', 'num_releases': 'Numero di rilasci per mese'})

# Mostra il grafico
fig.show()

In [15]:
# Crea le fasce di prezzo
price_bins = [0, 0.01, 5, 10, 15, float('inf')]
price_labels = ['Free', '0.01-4.99$', '5.00-9.99$', '10.00-14.99$', '15.00+$']

# Categorizza i prezzi in fasce
df['price_range'] = pd.cut(df['price'], bins=price_bins, labels=price_labels, right=False)

# Calcola la distribuzione percentuale dei prezzi
price_distribution = df['price_range'].value_counts(normalize=True) * 100
price_distribution = price_distribution.reset_index()
price_distribution.columns = ['Price Range', 'Percentage']

# Ordina manualmente le etichette
custom_order = {
    'Price Range': ['Free', '0.01-4.99$', '5.00-9.99$', '10.00-14.99$', '15.00+$']
}

# Crea il grafico a donut con Plotly Express e specifica l'ordine delle etichette e il numero di decimali
fig = px.pie(price_distribution, values='Percentage', names='Price Range',
             title='Distribuzione dei Prezzi dei giochi (USD)', category_orders=custom_order,
             labels={'Percentage': 'Percentage'})  # Mostra le percentuali con 2 decimali

# Mostra il grafico
fig.show()

In [10]:
import pandas as pd
import plotly.express as px

# Supponiamo che 'df' sia il DataFrame contenente i dati

# Mapping dei range di possessori a valori numerici intermedi più variegati
owners_ranges = {
    '0-20000': 10000,
    '20000-50000': 35000,
    '50000-100000': 75000,
    '100000-200000': 150000,
    '200000-500000': 350000,
    '500000-1000000': 750000,
    '1000000-2000000': 1500000,
    '2000000-5000000': 3500000,
    '5000000-10000000': 7500000,
    '10000000-20000000': 15000000,
    '20000000-50000000': 35000000,
    '50000000-100000000': 75000000,
    '100000000-200000000': 150000000
}

# Mappa i valori della colonna 'owners' ai valori numerici intermedi
df['owners_numeric'] = df['owners'].map(owners_ranges)

# Raggruppa per publisher e somma il numero di giochi venduti in ciascuna fascia di possessori
top_publisher = df.groupby('publisher')['owners_numeric'].sum().reset_index()

# Ordina il DataFrame in modo decrescente in base ai possessori
top_publisher = top_publisher.sort_values(by='owners_numeric', ascending=True)

# Seleziona i top 10 publisher con il maggior numero di possessori
top_publisher = top_publisher.tail(10)

# Creazione del grafico a barre orizzontale con Plotly Express
fig = px.bar(top_publisher, y='publisher', x='owners_numeric',
             orientation='h', title='Top 10 Publisher per il numero di giochi venduti (in possessori)',
             labels={'owners_numeric': 'Numero di Giochi Venduti', 'publisher': 'Publisher'})

# Conversione dei valori in milioni con formattazione personalizzata
values_in_millions = (top_publisher['owners_numeric'] / 1000000).round(2).astype(str) + 'M'

# Aggiorna le etichette a destra delle barre con la formattazione desiderata
fig.update_traces(text="ca. "+values_in_millions, textposition='inside')

fig.show()


In [11]:
df['genres'] = df['genres'].str.split(';')
df = df.explode('genres')
df = df[~df['genres'].isin(genres_to_exclude)]

# Raggruppa per genere e calcola il tempo medio di gioco
avg_playtime_by_genre = df.groupby('genres')['average_playtime'].mean().reset_index()

# Ordina il DataFrame in modo ascendente per il tempo medio di gioco
avg_playtime_by_genre = avg_playtime_by_genre.sort_values('average_playtime', ascending=False).head(10)

# Converti i valori in milioni e aggiungi l'etichetta 'ca.'
avg_playtime_by_genre['label_text'] = avg_playtime_by_genre['average_playtime'].round(2).astype(str) + ' hours'

# Creazione del grafico a barre orizzontali utilizzando Plotly Express
fig = px.bar(avg_playtime_by_genre, x='average_playtime', y='genres',
             title='Tempo Medio di Gioco per Genere',
             labels={'genres': 'Generi', 'average_playtime': 'Tempo Medio di Gioco'},text='label_text')

fig.update_xaxes(title_text='Tempo Medio di Gioco in ore')
fig.update_yaxes(title_text='Generi')
# Inverti l'ordine delle barre (dal più alto al più basso)
fig.update_layout(yaxis={'categoryorder':'total ascending'})


fig.show()


In [12]:
#media voti positivi negli anni
df = pd.read_csv("data/steam.csv")
#df["reformat_release"] = pd.to_datetime(df["release_date"], format="%Y-%m-%d")
df['release_date'] = pd.to_datetime(df['release_date'])
df['Year'] = df['release_date'].dt.year

positive_ratings=df["positive_ratings"]
negative_ratings=df["negative_ratings"]

total_ratings=[pr + nr for pr, nr in zip(positive_ratings, negative_ratings)] #ratings totali

positive_percentage=[(pr/tr)*100 for pr,tr in zip(positive_ratings,total_ratings)] #percentuale ratings
tmp=pd.DataFrame(zip(df["Year"],positive_percentage),columns=("Year","positive_percentage")) #ricreo il dataset

pr=tmp.groupby("Year")["positive_percentage"].mean().reset_index()

#grafico
fig = px.line(data_frame=pr, x="Year", y="positive_percentage",title="Andamento media dei voti positivi dal 1997-2018")
fig.update_xaxes(categoryorder="total descending")
fig.layout["xaxis"]["title"] = "Anno"
fig.update_layout(xaxis_range=[1997,2018])
fig.layout["yaxis"]["title"] = "Percentuale voti positivi medi"
fig.show()

In [13]:

# Estrai i generi unici e filtra quelli da escludere
df['genres'] = df['genres'].str.split(';')
df = df.explode('genres')
df = df[~df['genres'].isin(genres_to_exclude)]

# Calcola la somma delle valutazioni positive e negative per genere
genre_ratings = df.groupby('genres')[['positive_ratings', 'negative_ratings']].sum().reset_index()

# Calcola la somma totale delle valutazioni per normalizzazione
genre_ratings['total_ratings'] = genre_ratings['positive_ratings'] + genre_ratings['negative_ratings']

# Calcola il punteggio percentuale delle valutazioni positive rispetto al totale
genre_ratings['positive_percentage'] = (genre_ratings['positive_ratings'] / genre_ratings['total_ratings']) * 100

# Ordina i generi per percentuale di valutazioni positive
genre_ratings = genre_ratings.sort_values(by='positive_percentage', ascending=False)

# Crea il grafico utilizzando Plotly
fig = px.bar(genre_ratings, x='genres', y='positive_percentage', 
             labels={'positive_percentage': 'Percentage of Positive Ratings', 'genres': 'Genres'},
             title='Genres by Percentage of Positive Ratings',
             color='positive_percentage', 
             color_continuous_scale='greens')
fig.update_layout(xaxis={'categoryorder':'total descending'})

# Mostra il grafico
fig.show()


In [23]:
# Espandi i generi multipli in righe separate
exploded_genres = df.assign(genres=df['genres'].str.split(';')).explode('genres')

# Escludi i giochi con il genere "Free to play"
exploded_genres = exploded_genres[~exploded_genres['genres'].str.contains('Free to Play', na=False)]

# Calcola il primo e terzo quartile
Q1 = exploded_genres['price'].quantile(0.25)
Q3 = exploded_genres['price'].quantile(0.75)

# Calcola l'Interquartile Range (IQR)
IQR = Q3 - Q1

# Calcola i limiti per individuare i valori anomali
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Filtra i valori anomali
filtered_genres = exploded_genres[(exploded_genres['price'] >= lower_bound) & (exploded_genres['price'] <= upper_bound)]

# Creare il boxplot utilizzando Plotly Express con i valori non anomali
fig = px.box(filtered_genres, x='genres', y='price', title='Boxplot dei prezzi per ogni genere escludendo "Free to play"')
fig.update_xaxes(title='Genere')
fig.update_yaxes(title='Prezzo')
fig.show()



