# Test Analisi Dati Basile
## TRACCIA: Test Pandas e Analisi Dati
Analizzare il csv fornito con gli strumenti visti a lezione e scrivere un report dell’analisi andando ad evidenziare I parametri più importanti e le loro relazioni. Provare a dare una risposta all’importanza di alcuni parametri… non solo analizzare ma anche interpretare!
Consegnare un foglio Jupyter con il codice e I commenti sull’analisi entro le ore 13 a: mbagnoli999@gmail.com

Primo punto:
Sono state di seguito importate le librerie necessarie: pandas, numpy, matplotlib, seaborn e os.

- **numPy** (`import numpy as np`): NumPy è una libreria fondamentale per il calcolo scientifico in Python. Fornisce supporto per array multidimensionali e matrici, insieme a una vasta collezione di funzioni matematiche per operare su questi array in modo efficiente.

- **pandas** (`import pandas as pd`): Pandas è una libreria potente e flessibile per la manipolazione e l'analisi dei dati. Utilizza strutture dati come DataFrame e Series per gestire dati etichettati e relazionali, rendendo facile la pulizia, la trasformazione e l'analisi dei dati.

- **matplotlib** (`import matplotlib.pyplot as plt`): Matplotlib è una libreria di plotting completa che consente di creare visualizzazioni statiche, animate e interattive in Python. Il modulo `pyplot` fornisce un'interfaccia per generare grafici e trame in modo semplice e intuitivo.

- **seaborn** (`import seaborn as sns`): Seaborn è una libreria di visualizzazione dei dati basata su Matplotlib. Fornisce un'interfaccia di alto livello per disegnare grafici statistici attraenti e informativi, con supporto per la visualizzazione di relazioni complesse tra variabili.

- **os** (`import os`): La libreria os funzioni per interagire con il sistema operativo. Consente di eseguire operazioni come la gestione dei file e delle directory, l'esecuzione di comandi di sistema e l'accesso a variabili d'ambiente.

In [None]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

- La funzione pd.read_csv() della libreria pandas carica un file CSV chiamato TMDB IMDB Movies Dataset.csv in un oggetto DataFrame chiamato df. 
    Questo oggetto df è una struttura dati tabellare simile a una tabella di database o a un foglio Excel.
- La funzione print() Mostra un messaggio per indicare che verranno stampate informazioni relative al DataFrame.


Inizialmente, vengono richiamate le funzioni principali per l'esplorazione del dataset.
- La funzione df.info() fornisce una panoramica del DataFrame, inclusi:
    - Numero totale di righe e colonne.
    - Tipo di dato per ogni colonna (es. int, float, object).
    - Conteggio di valori non nulli per ogni colonna (per identificare valori mancanti).
- La funzione display() viene utilizzato per mostrare il risultato nel formato leggibile

In [None]:
df = pd.read_csv('TMDB  IMDB Movies Dataset.csv')

print("\nInformazioni Data Frame IMDB\n\n")

display(df.info())

df.head() #stampa le prime 5 righe del DataFrame per avere un'idea dei dati presenti al suo interno

In [None]:
df.head() #stampa le prime 5 righe del DataFrame per avere un'idea dei dati presenti al suo interno

df.tail() #stampa le ultime 5 righe del DataFrame per avere un'idea dei dati presenti al suo interno

In [None]:
df.tail() #stampa le ultime 5 righe del DataFrame per avere un'idea dei dati presenti al suo interno

- La funzione drop() rimuove specifiche colonne dal DataFrame df, poichè quelle di seguito riportate sono ritenute non importanti ai fini dell'analisi.
- axis=1: Specifica che l'eliminazione riguarda le colonne (non le righe, che avrebbero axis=0).
- df.isnull().sum(): calcola il numero di valori nulli o mancanti (NaN) per ogni colonna, consentendo di identificare rapidamente quali colonne hanno dati incompleti, restituendo un conteggio per ciascuna colonna del DataFrame.

In [None]:
df = df.drop(["backdrop_path","poster_path", "homepage", "tconst","overview", "tagline"], axis = 1)

df.isnull().sum()

La variabile column rappresenta il nome di una colonna del DataFrame.
Il ciclo for itera su tutte le colonne di df.
Conteggio degli elementi unici:

- df[column]: Seleziona una colonna del DataFrame.
- .nunique(): Calcola il numero di valori unici nella colonna (ignora i valori mancanti NaN)

In [None]:
for column in df:
    print(column, df[column].nunique() ,"elementi unici")

Heatmap della matrice di correlazione per tutti i dati numerici

- Caricamento del dataset: Carichiamo il file CSV nel DataFrame df usando pd.read_csv().
- Filtraggio delle colonne numeriche: Usiamo df.select_dtypes(include=['float64', 'int64']) per ottenere solo le colonne numeriche (intere e decimali) dal tuo dataset.
- Calcolo della matrice di correlazione: df_numeric.corr() calcola la correlazione tra le colonne numeriche del dataset.
- Creazione della heatmap: La funzione sns.heatmap crea la visualizzazione della matrice di correlazione.
    - Con annot=True aggiungiamo i valori numerici, cmap='coolwarm' imposta i colori e fmt='.2f' formatta i numeri con due decimali.
- Visualizzazione: Il grafico viene mostrato con plt.show().

In [None]:
# Carica il dataset
df = pd.read_csv('TMDB  IMDB Movies Dataset.csv')

# Rimuovo le colonne non numeriche
df_numeric = df.select_dtypes(include=['float64', 'int64'])

# Calcolare la matrice di correlazione per le colonne numeriche
corr_matrix = df_numeric.corr()

# Creare la heatmap
plt.figure(figsize=(14, 10))  # Imposto la dimensione del grafico
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt='.2f', cbar_kws={'label': 'Correlation Coefficient'})

# Titolo e visualizzazione
plt.title('Heatmap della matrice di correlazione per tutti i dati numerici', fontsize=16)
plt.show()



Heatmap delle entrate e della valutazione media per regista

- Creazione del DataFrame: Il DataFrame contiene informazioni sui registi, i loro ricavi (Revenue) e il voto medio (Average Vote).
- Preparazione della Heatmap: Usiamo la trasposizione dei dati (df.T) in modo che i registi siano sulle colonne e le metriche (revenue, voto medio) siano sulle righe.
- Creazione della Heatmap: Utilizziamo sns.heatmap per rappresentare i valori. Ogni cella della heatmap rappresenterà il valore specifico di revenue e vote_average per ciascun regista.

In [None]:
# Dati dei registi e dei relativi revenue e voto medio
directors = ['Steven Spielberg', 'James Cameron', 'Anthony Russo, Joe Russo', 'Peter Jackson']
revenue = [10631551209, 8775729695, 6852856930, 6562108050]
vote_average = [6.089022, 7.557556, 5.065100, 6.530542]

# Creazione del DataFrame
data = {
    'Directors': directors,
    'Revenue': revenue,
    'Average Vote': vote_average
}

df = pd.DataFrame(data)

# Impostazione dei dati per la heatmap
df.set_index('Directors', inplace=True)  # Impostiamo i registi come indice
heatmap_data = df.T  # Trasponiamo i dati per una corretta visualizzazione nella heatmap

# Creazione della heatmap
plt.figure(figsize=(10, 6))
sns.heatmap(heatmap_data, annot=True, cmap='coolwarm', fmt='.2f', cbar_kws={'label': 'Value'})

# Titolo e visualizzazione
plt.title('Heatmap delle entrate e della valutazione media per regista', fontsize=16)
plt.ylabel('Metric')
plt.xlabel('Directors')
plt.show()


Creazione di una pivot per analizzare i dati relativi ai registi
- Index (index='director'):
    - Raggruppa i dati per la colonna director, che dovrebbe contenere i nomi dei registi.
- Valori da aggregare (values=['vote_average', 'revenue']):
    - Specifica le colonne su cui calcolare statistiche (in questo caso, media dei voti e somma dei ricavi).
- Funzioni di aggregazione (aggfunc):

   - 'mean': Calcola la media dei voti per regista.
   - 'sum': Calcola il ricavo totale generato dai film diretti da ciascun regista.
- Totale generale (margins=True):aggiunge una riga "Total" per fornire il totale o la media complessiva.
- Ordinamento (sort_values): ordina la tabella in base ai ricavi totali in ordine decrescente.

In [None]:
# Creazione di una pivot per analizzare i dati relativi ai registi
pivot_directors = df.pivot_table(
    index='directors',         # Raggruppa i dati per i registi
    values=['vote_average', 'revenue'],  # Valori da aggregare
    aggfunc={'vote_average': 'mean', 'revenue': 'sum'},  # Calcola la media dei voti e la somma dei ricavi
    margins=True,             # Aggiunge un totale generale
    margins_name='Totale'      # Nome della riga totale
)

# Ordinare i registi per i ricavi totali in ordine decrescente
pivot_directors = pivot_directors.sort_values(by='revenue', ascending=False)

# Visualizzare la tabella
pivot_directors.head()


Ricavi vs voto medio per Registi (Bar Chart)
Dati:

directors: Una lista contenente i nomi di 4 registi: Steven Spielberg, James Cameron, Anthony Russo, Joe Russo, Peter Jackson.
revenue: Una lista con i ricavi totali per ciascun regista, in formato numerico.
vote_average: Una lista con la valutazione media di ciascun film diretto dai registi, anch'essa numerica.
Creazione della figura con più grafici:

fig, axes = plt.subplots(2, 2, figsize=(12, 10)): Viene creata una figura che ospiterà una griglia di 2 righe e 2 colonne di sottofigure (grafici).
axes.flatten(): La variabile axes è un array bidimensionale. flatten() lo converte in un array monodimensionale per una gestione più semplice.
Creazione dei grafici a barre:

Per ogni regista (tramite un ciclo for), vengono disegnati due set di barre per ogni grafico:
Barre per i ricavi: La larghezza della barra è 0.01, e i ricavi vengono espressi in miliardi (revenue[i] / 1e9).
Barre per la valutazione media: La valutazione media (voto) viene visualizzata con un'altra barra, accanto a quella dei ricavi. La larghezza è la stessa.
Le barre sono colorate: la barra per i ricavi è di colore azzurro (skyblue), mentre quella per il voto medio è arancione (orange).
Configurazione degli assi:

Ogni grafico ha il titolo impostato sul nome del regista (ax.set_title(f'{director}')).
L'asse X ha un'etichetta vuota (ax.set_xticklabels('')) poiché ogni regista è rappresentato da una singola barra.
L'asse Y è etichettato come "Value" e ha un limite superiore che dipende dal massimo valore di ricavi.
Leggenda: Ogni grafico ha una legenda che indica quale barra rappresenta i ricavi e quale la valutazione media.

Aggiunta di un titolo generale:

plt.suptitle('Ricavi vs voto medio per Registi (Bar Chart)'): Questo titolo appare sopra la figura generale e descrive cosa rappresentano i grafici.
Ottimizzazione del layout:

plt.tight_layout() ottimizza il layout per evitare sovrapposizioni.
plt.subplots_adjust(top=0.9) crea un po' di spazio sopra il titolo generale.
Visualizzazione: Alla fine, plt.show() viene chiamato per visualizzare effettivamente i grafici.

Risultati:
Un grafico a barre per ciascun regista, con due barre: una per i ricavi (in miliardi di dollari) e una per la valutazione media del film.
Il tutto viene visualizzato in una figura composta da 4 sottofigure, una per ciascun regista.

In [None]:
# Dati dalla tabella
directors = ['Steven Spielberg', 'James Cameron', 'Anthony Russo, Joe Russo', 'Peter Jackson']
revenue = [10631551209, 8775729695, 6852856930, 6562108050]
vote_average = [6.089022, 7.557556, 5.065100, 6.530542]

# Creazione di una figura con più sottofigure
fig, axes = plt.subplots(2, 2, figsize=(12, 10))  # 2 righe e 2 colonne per i grafici
axes = axes.flatten()  # Flatten per accedere facilmente agli assi

# Creazione di un grafico a barre per ogni regista
for i, director in enumerate(directors):
    ax = axes[i]
    
    # Dati per il grafico a barre
    bar_width = 0.01  # Larghezza delle barre
    index = np.arange(1)  # Una posizione per ogni regista
    
    # Creazione delle barre per i ricavi e la valutazione media
    ax.bar(index, revenue[i] / 1e9, bar_width, label='Ricavi (in miliardi)', color='skyblue', edgecolor='black')
    ax.bar(index + bar_width, vote_average[i], bar_width, label='voto medio', color='orange', edgecolor='black')
    
    # Aggiungere etichetta per il regista
    ax.set_title(f'{director}', fontsize=14)
    ax.set_xticks(index + bar_width / 2)
    ax.set_xticklabels('')
    ax.set_ylabel('Value', fontsize=12)
    
    # Impostare un limite per l'asse Y
    ax.set_ylim(0, max(revenue) / 1e9 + 2)  # Limite superiore per l'asse Y

    # Aggiungere la legenda
    ax.legend()

# Aggiungere un titolo generale
plt.suptitle('Ricavi vs voto medio per Registi (Bar Chart)', fontsize=16)

# Aggiustare il layout per evitare sovrapposizioni
plt.tight_layout()
plt.subplots_adjust(top=0.9)  # Distanza dal titolo generale

# Mostrare il grafico
plt.show()


Calcolo della media delle valutazioni dei film per ogni anno di rilascio e successivamente a visualizzare questa media in un grafico.

Prima di tutto, la colonna che contiene le date di rilascio dei film viene convertita in un formato temporale, chiamato datetime, che consente di estrarre facilmente informazioni come l'anno, il mese o il giorno. Questo passaggio è fondamentale perché le date originali potrebbero essere in formato stringa, che non è adatto per le manipolazioni temporali.

Successivamente, viene creata una nuova colonna che contiene solo l'anno di rilascio per ogni film. Questo viene fatto estraendo l'anno dalla colonna release_date che ora è in formato datetime.

A questo punto, i dati vengono raggruppati per anno, e per ciascun anno viene calcolata la media delle valutazioni dei film. Questo passaggio permette di ottenere una panoramica di come le valutazioni siano cambiate negli anni.

Infine, i dati vengono visualizzati in un grafico a linee. L'asse orizzontale (x) rappresenta gli anni di rilascio, mentre l'asse verticale (y) mostra la valutazione media dei film per ogni anno. Ogni punto sulla linea rappresenta la valutazione media di tutti i film rilasciati in un determinato anno. La visualizzazione include anche una griglia per rendere più facile la lettura dei valori, e il grafico ha un titolo e etichette per gli assi per rendere il contenuto più chiaro.

Il risultato finale è un grafico che permette di osservare come le valutazioni dei film abbiano evoluto nel tempo, evidenziando eventuali tendenze o picchi nelle valutazioni per gli anni specifici.

Analisi delle valutazioni medie dei film, in relazione agli anni di rilascio, e sulla visualizzazione di queste informazioni.

1. **Conversione delle date di rilascio**: La colonna `release_date` del DataFrame, che contiene le date di rilascio dei film, viene convertita in un formato di data (`datetime`). Questo permette di lavorare con le date in modo più efficiente, utilizzando funzioni specifiche per estrarre dettagli temporali come l'anno.

2. **Estrazione dell'anno**: Una volta che le date sono nel formato corretto, viene creata una nuova colonna chiamata `year`, che contiene solo l'anno di rilascio di ciascun film. Questo consente di raggruppare facilmente i dati per anno e analizzare le tendenze nel tempo.

3. **Calcolo della media delle valutazioni**: I film vengono quindi raggruppati per anno, e per ciascun anno viene calcolata la **media delle valutazioni** (`vote_average`). Questo passo aggrega i dati per ogni anno, restituendo una panoramica della qualità media dei film nel corso degli anni.

4. **Creazione del grafico**: I dati aggregati vengono quindi tracciati in un grafico a linee. L'asse delle x rappresenta gli anni, mentre l'asse delle y rappresenta la valutazione media dei film per ogni anno. Ogni punto sulla linea rappresenta la valutazione media di tutti i film rilasciati in un anno specifico.

Il grafico risultante permette di visualizzare l'evoluzione delle valutazioni medie dei film nel tempo, rendendo evidenti eventuali fluttuazioni, tendenze o periodi particolarmente alti o bassi nelle valutazioni.

In [None]:
df['release_date'] = pd.to_datetime(df['release_date'])
df['year'] = df['release_date'].dt.year
media_valutazioni_per_anno = df.groupby('year')['vote_average'].mean().reset_index()

# Creare il grafico
plt.figure(figsize=(10, 6))
plt.plot(media_valutazioni_per_anno['year'], media_valutazioni_per_anno['vote_average'], marker='o')
plt.title('Media delle Valutazioni per Anno di Rilascio')
plt.xlabel('Anno')
plt.ylabel('Valutazione Media')
plt.grid(True)
plt.show()


Caricamento del dataset: Il dataset, che si trova in un file CSV chiamato 'TMDB IMDB Movies Dataset.csv', viene caricato in un DataFrame chiamato df utilizzando la funzione pd.read_csv().

Espansione della colonna "generi": La colonna genres nel dataset contiene informazioni sui generi dei film, ma questi sono rappresentati come stringhe separate da virgole (es. "Action, Adventure"). Per poter analizzare ogni genere separatamente, il codice usa il metodo str.get_dummies(sep=','), che trasforma ogni genere in una colonna separata con valori binari (0 o 1). Se un film appartiene a un determinato genere, la colonna corrispondente avrà valore 1, altrimenti 0. La variabile generi_expanded conterrà il DataFrame risultante da questa trasformazione.

Concatenamento delle colonne di generi al DataFrame originale: Le nuove colonne generate da get_dummies vengono concatenate al DataFrame originale df con il metodo pd.concat(), creando un DataFrame che contiene sia le informazioni originali dei film che le nuove colonne per ciascun genere.

Creazione del grafico: Viene creato un grafico a densità (KDE - Kernel Density Estimation) per ogni genere presente nel dataset:

Per ogni colonna generata (cioè per ogni genere), viene filtrato il DataFrame per selezionare i film che appartengono a quel genere (i film con valore 1 nella colonna del genere).
Viene quindi tracciata la distribuzione delle valutazioni (vote_average) di quei film, utilizzando un grafico a densità. Ogni curva rappresenta la distribuzione della valutazione media per quel genere specifico.
Il parametro label=genere aggiunge una legenda con il nome del genere, che aiuta a distinguere le diverse curve nel grafico.
Aggiunta di titoli e etichette: Vengono aggiunti un titolo al grafico, etichette per gli assi x e y (per indicare rispettivamente la valutazione e la densità) e una legenda per identificare i vari generi.

Visualizzazione del grafico: Il grafico viene mostrato con plt.show(), permettendo di visualizzare come le valutazioni medie dei film si distribuiscono per ciascun genere.

Il risultato finale è un grafico che mostra la distribuzione delle valutazioni medie dei film per ogni genere. Le curve di densità permettono di osservare la "forma" delle distribuzioni, come ad esempio se i film di un certo genere tendono ad avere valutazioni più alte o più basse rispetto ad altri.

In [1]:
df = pd.read_csv('TMDB  IMDB Movies Dataset.csv')
# Espandere i generi in colonne separate
generi_expanded = df['genres'].str.get_dummies(sep=',')
df = pd.concat([df, generi_expanded], axis=1)

# Creare il grafico per ogni genere
plt.figure(figsize=(14, 10))
for genere in generi_expanded.columns:
    df[df[genere] == 1]['vote_average'].plot(kind='kde', label=genere)

plt.title('Distribuzione delle Valutazioni per Genere')
plt.xlabel('Valutazione')
plt.ylabel('Densità')
plt.legend()
plt.grid(True)
plt.show()


NameError: name 'pd' is not defined

Vengono importati alcuni pacchetti necessari per l'analisi e la visualizzazione dei dati:

numpy (importato come np): Questo pacchetto è utile per lavorare con array e operazioni matematiche avanzate. Sebbene non venga direttamente utilizzato in questo segmento di codice, è spesso utilizzato insieme ad altri pacchetti per l'elaborazione dei dati.

pandas (importato come pd): È utilizzato per la gestione dei dati in forma tabellare, come DataFrame, e fornisce molte funzionalità per leggere, manipolare e analizzare i dati. In questo codice, viene utilizzato per leggere un file CSV contenente il dataset e per effettuare alcune operazioni di elaborazione dei dati.

matplotlib.pyplot (importato come plt): Questo pacchetto è utilizzato per la creazione di grafici e visualizzazioni. Qui viene utilizzato per creare il grafico delle entrate totali per anno.

seaborn (importato come sns): Sebbene non venga utilizzato in questo segmento di codice, è un pacchetto basato su matplotlib che semplifica la creazione di grafici esteticamente piacevoli.

os: Importato, ma non usato nel codice. È un modulo che fornisce un'interfaccia per interagire con il sistema operativo (ad esempio, per gestire file e directory).

Descrizione del Codice
Caricamento del Dataset: Il dataset viene letto da un file CSV (TMDB IMDB Movies Dataset.csv) utilizzando pandas.read_csv(). Il dataset viene caricato in un DataFrame df.

Elaborazione della Data: La colonna release_date viene convertita in formato data utilizzando pd.to_datetime(df['release_date']). Successivamente, viene estratto l'anno dalla data di rilascio e memorizzato in una nuova colonna chiamata year.

Raggruppamento dei Dati: I dati vengono raggruppati per anno tramite df.groupby('year') e viene calcolata la somma delle entrate (revenue) per ciascun anno. Il risultato è una nuova tabella che mostra, per ogni anno, l'ammontare delle entrate totali, memorizzato nel DataFrame entrate_totali_per_anno.

Creazione del Grafico: Viene creato un grafico a linee che mostra le entrate totali per ogni anno. Utilizzando matplotlib, il grafico ha:

Etichette per l'asse X (anno) e per l'asse Y (entrate totali).
Marcatori sui punti dati per evidenziare i valori di ciascun anno.
Un titolo che descrive il grafico.
Una griglia per migliorare la leggibilità.
Visualizzazione: Infine, il grafico viene mostrato tramite plt.show(), che visualizza la figura in una finestra interattiva o nell'ambiente di sviluppo.

Risultato
Il risultato finale è un grafico che rappresenta l'andamento delle entrate totali per anno, permettendo di osservare come le entrate siano cambiate nel tempo. Questo tipo di visualizzazione è utile per identificare eventuali tendenze o anomalie nelle entrate dei film distribuiti negli anni.

In [None]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

df = pd.read_csv('TMDB  IMDB Movies Dataset.csv')

 
df['release_date'] = pd.to_datetime(df['release_date'])
df['year'] = df['release_date'].dt.year
entrate_totali_per_anno = df.groupby('year')['revenue'].sum().reset_index()

# Creare il grafico
plt.figure(figsize=(10, 6))
plt.plot(entrate_totali_per_anno['year'], entrate_totali_per_anno['revenue'], marker='o')
plt.title('Entrate Totali per Anno di Rilascio')
plt.xlabel('Anno')
plt.ylabel('Entrate Totali')
plt.grid(True)
plt.show()

1. Importazione delle Librerie

2. Caricamento del Dataset
df = pd.read_csv('TMDB IMDB Movies Dataset.csv'): Carica il dataset da un file CSV chiamato "TMDB IMDB Movies Dataset.csv" e lo memorizza in un DataFrame chiamato df. Questo DataFrame contiene tutte le informazioni sui film, come il genere, le entrate, le valutazioni, ecc.
3. Espansione dei Generi in Colonne Separate
generi_expanded = df['genres'].str.get_dummies(sep=','): La colonna genres del DataFrame df contiene una lista di generi separati da virgole (ad esempio, "Action, Adventure, Thriller"). La funzione str.get_dummies() crea una colonna separata per ciascun genere. Ogni colonna avrà un valore di 1 se il film appartiene a quel genere, altrimenti 0. Ad esempio, se un film ha i generi "Action" e "Adventure", avrà 1 nelle colonne "Action" e "Adventure" e 0 nelle altre colonne.
df = pd.concat([df, generi_expanded], axis=1): Aggiunge le colonne create in generi_expanded al DataFrame originale df, concatenandole lungo l'asse delle colonne (orizzontale).
4. Calcolo delle Entrate Medie per Genere
entrate_medie_per_genere = df[generi_expanded.columns].multiply(df['revenue'], axis=0).mean().reset_index(): Questa operazione calcola le entrate medie per ogni genere. In dettaglio:
df[generi_expanded.columns]: Seleziona solo le colonne relative ai generi (quelle che sono state appena create).
multiply(df['revenue'], axis=0): Moltiplica le colonne dei generi per la colonna delle revenue (entrate). Questo crea un DataFrame dove i valori di entrate vengono moltiplicati per 1 o 0, a seconda che il film appartenga a quel genere.
mean(): Calcola la media delle entrate per ogni genere.
reset_index(): Rende il risultato un DataFrame normale, anziché una Serie, e reimposta l'indice.
entrate_medie_per_genere.columns = ['Genere', 'Entrate Medie']: Rinomina le colonne del DataFrame risultante in "Genere" e "Entrate Medie", rendendo più chiara la lettura dei dati.
5. Creazione del Grafico a Barre
plt.figure(figsize=(12, 8)): Imposta la dimensione della figura per il grafico, rendendolo più largo e alto per una visualizzazione migliore.
plt.bar(entrate_medie_per_genere['Genere'], entrate_medie_per_genere['Entrate Medie'], color='skyblue'): Crea un grafico a barre dove sull'asse X sono i generi e sull'asse Y sono le entrate medie per ciascun genere. Le barre sono colorate in azzurro.
plt.title('Entrate Medie per Genere'): Imposta il titolo del grafico.
plt.xlabel('Genere'): Aggiunge una label per l'asse X, che rappresenta i generi.
plt.ylabel('Entrate Medie'): Aggiunge una label per l'asse Y, che rappresenta le entrate medie.
plt.xticks(rotation=45): Ruota le etichette dei generi sull'asse X di 45 gradi per migliorarne la leggibilità.
plt.grid(axis='y', linestyle='--', alpha=0.7): Aggiunge una griglia all'asse Y per migliorare la leggibilità del grafico, con linee tratteggiate.
plt.show(): Mostra il grafico a barre.
Risultato Finale
Il risultato finale è un grafico a barre che rappresenta le entrate medie per ciascun genere di film. Ogni barra mostra l'importo medio delle entrate per un determinato genere, con un titolo chiaro, etichette sugli assi e una griglia per facilitare la lettura. Questo grafico permette di confrontare rapidamente l'andamento delle entrate medie tra i vari generi di film.

In [None]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

df = pd.read_csv('TMDB  IMDB Movies Dataset.csv')
import pandas as pd
import matplotlib.pyplot as plt

 
# Espandere i generi in colonne separate
generi_expanded = df['genres'].str.get_dummies(sep=',')
df = pd.concat([df, generi_expanded], axis=1)

# Calcolare le entrate medie per genere
entrate_medie_per_genere = df[generi_expanded.columns].multiply(df['revenue'], axis=0).mean().reset_index()
entrate_medie_per_genere.columns = ['Genere', 'Entrate Medie']

# Creare il grafico
plt.figure(figsize=(12, 8))
plt.bar(entrate_medie_per_genere['Genere'], entrate_medie_per_genere['Entrate Medie'], color='skyblue')
plt.title('Entrate Medie per Genere')
plt.xlabel('Genere')
plt.ylabel('Entrate Medie')
plt.xticks(rotation=45)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()



### 1. **Importazione delle librerie**

### 2. **Caricamento del dataset**
   - **`df = pd.read_csv('TMDB  IMDB Movies Dataset.csv')`**: Carica il dataset dal file CSV chiamato "TMDB IMDB Movies Dataset.csv" in un oggetto DataFrame chiamato `df`. Questo DataFrame contiene informazioni sui film, come la data di rilascio, la durata, il genere, le entrate, ecc.

### 3. **Estrazione dell'anno dalla data di rilascio**
   - **`df['release_date'] = pd.to_datetime(df['release_date'])`**: Converte la colonna `release_date` in un formato datetime. Questo permette di eseguire operazioni basate sulle date, come estrarre l'anno.
   - **`df['year'] = df['release_date'].dt.year`**: Estrae l'anno dalla colonna `release_date` e crea una nuova colonna `year` che contiene solo l'anno del rilascio del film. Ad esempio, se un film è stato rilasciato il 15 marzo 2012, la colonna `year` conterrà il valore `2012`.

### 4. **Calcolo della durata media per anno**
   - **`durata_media_per_anno = df.groupby('year')['runtime'].mean().reset_index()`**: 
     - **`df.groupby('year')`**: Raggruppa i dati per l'anno di rilascio (utilizzando la colonna `year`).
     - **`['runtime']`**: Seleziona la colonna `runtime` (la durata del film) per calcolare la media delle durate per ciascun anno.
     - **`mean()`**: Calcola la durata media dei film per ogni anno.
     - **`reset_index()`**: Rende il risultato un DataFrame (piuttosto che una Serie) e ripristina l'indice, in modo che il risultato sia più chiaro e strutturato. Ora `durata_media_per_anno` contiene due colonne: `year` e `runtime` (che rappresenta la durata media).

### 5. **Creazione del grafico**
   - **`plt.figure(figsize=(10, 6))`**: Imposta la dimensione della figura del grafico, con una larghezza di 10 pollici e un'altezza di 6 pollici, per garantire che il grafico sia ben visibile.
   - **`plt.plot(durata_media_per_anno['year'], durata_media_per_anno['runtime'], marker='o')`**: 
     - Crea un grafico a linee con i dati raggruppati. L'asse X rappresenta gli anni (`year`), mentre l'asse Y rappresenta la durata media dei film in minuti (`runtime`).
     - Il parametro `marker='o'` aggiunge dei punti ai nodi della linea per rendere visibili i valori medi per ogni anno.
   - **`plt.title('Durata Media dei Film per Anno di Rilascio')`**: Imposta il titolo del grafico, che indica che il grafico rappresenta la durata media dei film per anno di rilascio.
   - **`plt.xlabel('Anno')`**: Aggiunge una label all'asse X, che indica che l'asse rappresenta gli anni di rilascio.
   - **`plt.ylabel('Durata Media (minuti)')`**: Aggiunge una label all'asse Y, che rappresenta la durata media dei film in minuti.
   - **`plt.grid(True)`**: Aggiunge una griglia di sfondo al grafico, rendendo più facile leggere i valori lungo l'asse Y.
   - **`plt.show()`**: Mostra il grafico a linee creato.

### Risultato finale:
Il grafico mostra **come la durata media dei film è cambiata nel tempo**. Ogni punto sulla linea rappresenta la durata media dei film rilasciati in un determinato anno. L'asse X rappresenta gli anni di rilascio, mentre l'asse Y mostra la durata media in minuti. Questo grafico può essere utile per analizzare le tendenze relative alla durata dei film nel tempo, ad esempio se i film sono diventati più lunghi o più brevi negli anni.

In [None]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

df = pd.read_csv('TMDB  IMDB Movies Dataset.csv')
import pandas as pd
import matplotlib.pyplot as plt

 
df['release_date'] = pd.to_datetime(df['release_date'])
df['year'] = df['release_date'].dt.year
durata_media_per_anno = df.groupby('year')['runtime'].mean().reset_index()

# Creare il grafico
plt.figure(figsize=(10, 6))
plt.plot(durata_media_per_anno['year'], durata_media_per_anno['runtime'], marker='o')
plt.title('Durata Media dei Film per Anno di Rilascio')
plt.xlabel('Anno')
plt.ylabel('Durata Media (minuti)')
plt.grid(True)
plt.show()




1. **Importazione delle librerie**:

2. **Caricamento del dataset**:
   - `df = pd.read_csv('TMDB  IMDB Movies Dataset.csv')`: Carica un file CSV (presumibilmente un dataset di film) in un DataFrame `pandas`, chiamato `df`.

3. **Espansione dei generi in colonne separate**:
   - `generi_expanded = df['genres'].str.get_dummies(sep=',')`: La colonna `genres` del DataFrame contiene una stringa con generi separati da virgole. Il metodo `str.get_dummies()` crea una nuova colonna per ogni genere, con valori 1 o 0 a seconda che il film appartenga o meno a quel genere. La funzione `sep=','` specifica che i generi sono separati da virgole. Il risultato è un DataFrame `generi_expanded`, in cui ogni colonna rappresenta un genere e contiene 1 se il film ha quel genere, altrimenti 0.

4. **Aggiunta delle colonne dei generi al DataFrame originale**:
   - `df = pd.concat([df, generi_expanded], axis=1)`: La funzione `pd.concat()` combina il DataFrame originale `df` con il DataFrame `generi_expanded`, aggiungendo nuove colonne per ogni genere. `axis=1` specifica che l'operazione deve avvenire lungo le colonne.

5. **Creazione del grafico della distribuzione della durata per ogni genere**:
   - `plt.figure(figsize=(14, 10))`: Imposta la dimensione della figura del grafico.
   - `for genere in generi_expanded.columns:`: Per ogni colonna (ovvero per ogni genere) nel DataFrame `generi_expanded`...
     - `df[df[genere] == 1]['runtime'].plot(kind='kde', label=genere)`: Se il film appartiene a quel genere (`df[genere] == 1`), viene tracciata la distribuzione della durata (`runtime`) tramite un grafico di densità kernel (`kde`). La label per ogni curva è il nome del genere.
   - `plt.title('Distribuzione della Durata per Genere')`: Imposta il titolo del grafico.
   - `plt.xlabel('Durata (minuti)')`: Imposta l'etichetta sull'asse delle x (durata del film in minuti).
   - `plt.ylabel('Densità')`: Imposta l'etichetta sull'asse delle y (densità della distribuzione).
   - `plt.legend()`: Mostra la legenda con il nome di ciascun genere.
   - `plt.grid(True)`: Aggiunge una griglia al grafico.
   - `plt.show()`: Mostra il grafico.

**In sintesi**:
Il codice carica un dataset di film, estrae i generi e crea una rappresentazione grafica della distribuzione delle durate dei film, separate per ogni genere. Ogni curva nel grafico rappresenta la distribuzione della durata per un genere specifico.

In [None]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

df = pd.read_csv('TMDB  IMDB Movies Dataset.csv')
import pandas as pd
import matplotlib.pyplot as plt

 
# Espandere i generi in colonne separate
generi_expanded = df['genres'].str.get_dummies(sep=',')
df = pd.concat([df, generi_expanded], axis=1)

# Creare il grafico per ogni genere
plt.figure(figsize=(14, 10))
for genere in generi_expanded.columns:
    df[df[genere] == 1]['runtime'].plot(kind='kde', label=genere)

plt.title('Distribuzione della Durata per Genere')
plt.xlabel('Durata (minuti)')
plt.ylabel('Densità')
plt.legend()
plt.grid(True)
plt.show()


Il codice importa le librerie necessarie per la manipolazione dei dati e la creazione di grafici: `numpy` per operazioni numeriche, `pandas` per il trattamento dei dati in formato tabellare, `matplotlib.pyplot` per la visualizzazione grafica, `seaborn` per miglioramenti estetici nei grafici, e `os` per interazioni con il sistema operativo. Successivamente, carica un dataset di film da un file CSV usando `pandas.read_csv()`. Viene poi creato un grafico a dispersione che mostra la relazione tra la valutazione media dei film (`vote_average`) e le loro entrate al botteghino (`revenue`), con un titolo, etichette sugli assi, e una griglia per migliorare la leggibilità. Il grafico viene visualizzato con `plt.show()`.

In [None]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

df = pd.read_csv('TMDB  IMDB Movies Dataset.csv')
 
# Creare il grafico a dispersione
plt.figure(figsize=(10, 6))
plt.scatter(df['vote_average'], df['revenue'], alpha=0.5)
plt.title('Correlazione tra Valutazioni e Entrate')
plt.xlabel('Valutazione Media')
plt.ylabel('Entrate')
plt.grid(True)
plt.show()

Il codice carica un dataset di film utilizzando `pandas.read_csv()` e successivamente crea una nuova colonna chiamata `fascia_valutazione` che suddivide le valutazioni dei film (`vote_average`) in cinque fasce utilizzando `pd.cut()`. Le fasce sono definite dai valori di `vote_average` e sono etichettate come '0-2', '2-4', '4-6', '6-8', e '8-10'. Successivamente, il codice calcola la media delle entrate (`revenue`) per ciascuna fascia di valutazione, raggruppando i dati tramite `groupby()` e calcolando la media con `.mean()`. Infine, viene creato un grafico a barre che mostra le entrate medie per ciascuna fascia di valutazione, con etichette sugli assi, un titolo e una griglia orizzontale per migliorare la leggibilità.

In [None]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

df = pd.read_csv('TMDB  IMDB Movies Dataset.csv')


# Creare fasce di valutazione
df['fascia_valutazione'] = pd.cut(df['vote_average'], bins=[0, 2, 4, 6, 8, 10], labels=['0-2', '2-4', '4-6', '6-8', '8-10'])

# Calcolare la media delle entrate per fascia di valutazione
entrate_medie_per_fascia = df.groupby('fascia_valutazione')['revenue'].mean().reset_index()

# Creare il grafico
plt.figure(figsize=(10, 6))
plt.bar(entrate_medie_per_fascia['fascia_valutazione'], entrate_medie_per_fascia['revenue'], color='skyblue')
plt.title('Entrate Medie per Fascia di Valutazione')
plt.xlabel('Fascia di Valutazione')
plt.ylabel('Entrate Medie')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()



Il codice carica un dataset di film da un file CSV usando `pandas.read_csv()` e poi espande la colonna `spoken_languages`, che contiene le lingue parlate nei film, separandola in colonne distinte per ciascuna lingua tramite `str.get_dummies(sep=',')`. Viene poi calcolato il numero di film per ciascuna lingua sommando le colonne risultanti e creando un DataFrame con due colonne: `Lingua` e `Numero di Film`. Successivamente, il codice filtra le prime 5 lingue più parlate utilizzando `nlargest()`. Infine, viene creato un grafico a barre che mostra il numero di film per le 5 lingue più comuni, con etichette sugli assi, un titolo, e una griglia orizzontale per migliorare la leggibilità.

In [None]:
# Leggere il file CSV
df = pd.read_csv('TMDB  IMDB Movies Dataset.csv')

# Espandere le lingue parlate in colonne separate
lingue_expanded = df['spoken_languages'].str.get_dummies(sep=',')
df = pd.concat([df, lingue_expanded], axis=1)

# Calcolare il numero di film per ogni lingua parlata
numero_film_per_lingua = lingue_expanded.sum().reset_index()
numero_film_per_lingua.columns = ['Lingua', 'Numero di Film']

# Filtrare per le prime 5 lingue più parlate
top_5_lingue = numero_film_per_lingua.nlargest(5, 'Numero di Film')

# Creare il grafico
plt.figure(figsize=(15, 10))
plt.bar(top_5_lingue['Lingua'], top_5_lingue['Numero di Film'], color='skyblue')
plt.title('Numero di Film per le Prime 5 Lingue Più Parlate')
plt.xlabel('Lingua')
plt.ylabel('Numero di Film')
plt.xticks(rotation=45)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

Il codice carica un dataset di film da un file CSV e espande la colonna `spoken_languages`, che contiene le lingue parlate nei film, in colonne separate utilizzando `str.get_dummies(sep=',')`. Ogni colonna rappresenta una lingua, con valori binari (1 se la lingua è parlata nel film, 0 altrimenti). Successivamente, viene creato un grafico per ogni lingua, in cui si traccia la distribuzione delle valutazioni (`vote_average`) dei film per ogni lingua. La distribuzione viene visualizzata utilizzando il metodo `plot(kind='kde')` che crea un grafico di densità (Kernel Density Estimate) per ciascuna lingua, con un'etichetta per ogni lingua. Il grafico mostra le densità di valutazione dei film in base alla lingua parlata, con una legenda per identificare ogni lingua, un titolo, etichette sugli assi e una griglia per migliorare la leggibilità.

In [None]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

df = pd.read_csv('TMDB  IMDB Movies Dataset.csv')

# Supponiamo che il tuo DataFrame si chiami df
# Espandere le lingue parlate in colonne separate
lingue_expanded = df['spoken_languages'].str.get_dummies(sep=',')
df = pd.concat([df, lingue_expanded], axis=1)

# Creare il grafico per ogni lingua
plt.figure(figsize=(14, 10))
for lingua in lingue_expanded.columns:
    df[df[lingua] == 1]['vote_average'].plot(kind='kde', label=lingua)

plt.title('Distribuzione delle Valutazioni per Lingua Parlata')
plt.xlabel('Valutazione')
plt.ylabel('Densità')
plt.legend()
plt.grid(True)
plt.show()
