In [1]:
# caricamento delle librerie fondamentali
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# caricamento dei dati dal file CSV 
data_path = "cinemaTicket_Ref.csv"  # Percorso del file CSV

In [None]:
# PUNTO 1: Esplorazione dei dati
# carico i dati in un DataFrame di pandas per le analisi e mostra le prime righe per capire la struttura dei dati
df = pd.read_csv(data_path)
print("Prime righe del dataset:\n", df.head())

#un aggiunta di informazioni meno "importanti"
print("Valori nulli per colonna:\n", df.isnull().sum())
print("Righe duplicate:", df.duplicated().sum())

In [None]:
# mostro anche le informazioni sul dataset, come i tipi di dati e valori mancanti
print("Informazioni sul dataset:\n", df.info())

In [None]:
# calcolo le  statistiche descrittive per avere un'idea delle distribuzioni e delle caratteristiche numeriche
print("Statistiche descrittive:\n", df.describe())

In [None]:
# PUNTO 2. analisi statistica
# calcola la matrice di correlazione per vedere relazioni tra le variabili e filtro solo le colonne numeriche (altrimenti non funzionava)
colonne_numeriche = df.select_dtypes(include=[np.number])

# calcolo la matrice di correlazione
correlation = colonne_numeriche.corr()
print("Matrice di correlazione:\n", correlation)

In [None]:
# identifica le colonne utili per, ipoteticmanete, delle analisi approfondite future
colonne_utili = ['ticket_price', 'day_of_week', 'total_sales']
print("Colonne utili selezionate:", colonne_utili)

In [7]:
# mi creo una "variabile" vendite mensili per potermela gestire quando andro' a plottare
#vendite_mensili = df.groupby('month')['total_sales'].sum()
#print("Vendite totali per mese:\n", vendite_mensili)
#non mi serve per ora

In [8]:
#PUNTO 3. analisi di una correlazione incrociata
# converto la colonna 'date' nel formato datetime e creo 'day_of_week'
df['date'] = pd.to_datetime(df['date'])
df['day_of_week'] = df['date'].dt.day_name()

# calcolo il prezzo medio del biglietto per giorno della settimana
prezzo_medio_per_giorno = df.groupby('day_of_week')['ticket_price'].mean()
prezzo_medio_per_giorno = prezzo_medio_per_giorno / 10000 #divido per la formattazione quando andrò a plottare

In [None]:
# visualizzazione della correlazione tra il giorno della settimana e del prezzo medio del biglietto quel giorno
plt.figure(figsize=(6, 5))
prezzo_medio_per_giorno.plot(kind='bar', color='green', edgecolor='black')
plt.title('Prezzo Medio del Biglietto per Giorno della Settimana')
plt.xlabel('Giorno della Settimana')
plt.ylabel('Prezzo Medio del Biglietto')
plt.gca().get_yaxis().set_major_formatter(plt.FuncFormatter(lambda x, _: f'${x:.1f}')) #metodo per mettere il dollaro nella label dell'asse y, sfrutto gca
plt.show()

In [None]:
# PUNTO 4. quali giorni della settimana generano più vendite.
# calcolo la distribuzione giornaliera
vendite_giornaliere = df.groupby('day_of_week')['total_sales'].sum()
percentuale_vendite = (vendite_giornaliere / vendite_giornaliere.sum()) * 100


In [None]:
# creo un grafico a barre delle vendite
plt.figure(figsize=(6, 5))
vendite_giornaliere.plot(kind='bar', color='orange', edgecolor='black')
plt.title('Vendite Totali per Giorno della Settimana')
plt.xlabel('Giorno della Settimana')
plt.ylabel('Vendite Totali')
plt.show()

In [None]:
# creo un diagramma a torta della percentuale
plt.figure(figsize=(5, 5))
percentuale_vendite.plot(kind='pie', autopct='%1.1f%%', startangle=90, colors=plt.cm.Paired.colors)
plt.title('Contributo Percentuale delle Vendite per Giorno della Settimana')
plt.ylabel('')  # rimuovo l'etichetta sull'asse Y
plt.show()