## Merge tra i due dataset sull'id

In [8]:
import pandas as pd
import os

# Leggere i dataset dai file CSV
df_reviews = pd.read_csv("OriginalDatasets/rotten_tomatoes_movie_reviews.csv")  
df_movies = pd.read_csv("OriginalDatasets/rotten_tomatoes_movies.csv")  

# Effettuare il merge sulla colonna 'id'
df_merged = df_reviews.merge(df_movies, on="id", how="inner")

output_folder = "Data"  # Modifica il nome della cartella in cui vuoi salvare
output_file = os.path.join(output_folder, "merged_dataset.csv")

# Creare la cartella se non esiste
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# Controllare se il file esiste già
if os.path.exists(output_file):
    print(f"Il file '{output_file}' esiste già. Nessuna sovrascrittura effettuata.")
else:
    # Salvare il dataset unito in un nuovo CSV
    df_merged.to_csv(output_file, index=False)
    print(f"File salvato con successo in: {output_file}")

# Stampare le prime righe per verifica
print(df_merged.head())


File salvato con successo in: Data/merged_dataset.csv
                                  id  reviewId creationDate       criticName  \
0                            beavers   1145982   2003-05-23  Ivan M. Lincoln   
1                         blood_mask   1636744   2007-06-02    The Foywonder   
2  city_hunter_shinjuku_private_eyes   2590987   2019-05-28     Reuben Baron   
3  city_hunter_shinjuku_private_eyes   2558908   2019-02-14      Matt Schley   
4                 dangerous_men_2015   2504681   2018-08-29        Pat Padua   

   isTopCritic originalScore reviewState                 publicatioName  \
0        False         3.5/4       fresh  Deseret News (Salt Lake City)   
1        False           1/5      rotten                  Dread Central   
2        False           NaN       fresh                            CBR   
3        False         2.5/5      rotten                    Japan Times   
4        False           NaN       fresh                          DCist   

              

In [10]:
print(df_merged.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1469543 entries, 0 to 1469542
Data columns (total 26 columns):
 #   Column                Non-Null Count    Dtype  
---  ------                --------------    -----  
 0   id                    1469543 non-null  object 
 1   reviewId              1469543 non-null  int64  
 2   creationDate          1469543 non-null  object 
 3   criticName            1469543 non-null  object 
 4   isTopCritic           1469543 non-null  bool   
 5   originalScore         1026708 non-null  object 
 6   reviewState           1469543 non-null  object 
 7   publicatioName        1469543 non-null  object 
 8   reviewText            1399259 non-null  object 
 9   scoreSentiment        1469543 non-null  object 
 10  reviewUrl             1255083 non-null  object 
 11  title                 1464073 non-null  object 
 12  audienceScore         1399294 non-null  float64
 13  tomatoMeter           1398270 non-null  float64
 14  rating                889498 non-n

## Eliminazione colonne inutili e normalizzazione

In [16]:
df_cleaned = pd.read_csv("Data/merged_dataset.csv")  

columnsToDrop = ["creationDate", "criticName", "isTopCritic", "originalScore", "reviewState","reviewUrl" , "publicatioName", "audienceScore","tomatoMeter", "rating", "ratingContents", "releaseDateTheaters", "releaseDateStreaming", "director", "writer", "boxOffice", "distributor", "soundMix"]

df_cleaned = df_cleaned.drop(columns=columnsToDrop)

df_cleaned = df_cleaned.dropna() # elimino le righe contenenti valori null

output_folder = "Data"  # Modifica il nome della cartella in cui vuoi salvare
output_file = os.path.join(output_folder, "CleanMerged.csv")

# Creare la cartella se non esiste
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# Controllare se il file esiste già
if os.path.exists(output_file):
    print(f"Il file '{output_file}' esiste già. Nessuna sovrascrittura effettuata.")
else:
    # Salvare il dataset unito in un nuovo CSV
    df_cleaned.to_csv(output_file, index=False)
    print(f"File salvato con successo in: {output_file}")
    
    
print(df_cleaned.info())

File salvato con successo in: Data/CleanMerged.csv
<class 'pandas.core.frame.DataFrame'>
Index: 1364880 entries, 0 to 1469542
Data columns (total 8 columns):
 #   Column            Non-Null Count    Dtype  
---  ------            --------------    -----  
 0   id                1364880 non-null  object 
 1   reviewId          1364880 non-null  int64  
 2   reviewText        1364880 non-null  object 
 3   scoreSentiment    1364880 non-null  object 
 4   title             1364880 non-null  object 
 5   runtimeMinutes    1364880 non-null  float64
 6   genre             1364880 non-null  object 
 7   originalLanguage  1364880 non-null  object 
dtypes: float64(1), int64(1), object(6)
memory usage: 93.7+ MB
None


## Conteggio per genere

In [18]:
# Suddividere i generi separati da virgola in più righe
df_exploded = df_cleaned.assign(genre=df_cleaned["genre"].str.split(", ")).explode("genre")

# Contare il numero di film per ogni genere
genre_counts = df_exploded["genre"].value_counts()

# Mostrare il risultato
print(genre_counts)

genre
Drama                   634777
Comedy                  412120
Mystery & thriller      269865
Action                  201753
Adventure               182258
Romance                 128569
Documentary             126207
Horror                  122333
Fantasy                 121051
Sci-fi                   93999
Crime                    80413
Kids & family            77867
Biography                70968
History                  62283
Animation                51829
Lgbtq+                   34568
Musical                  28073
War                      27641
Music                    23579
Western                  14404
Holiday                  14005
Anime                     5670
Sports                     446
Stand-up                   400
Sports & fitness           349
Foreign                    250
Nature                      88
Gay & lesbian               45
Short                       40
Variety                     32
Special interest            21
Health & wellness           17
Fa

In [22]:
generi_scelti = ["Drama", "Comedy", "Action"]  # Modifica questi generi secondo le tue esigenze

# Filtrare il DataFrame per i generi scelti
df_filtrato = df_exploded[df_exploded["genre"].isin(generi_scelti)]

output_folder = "Final"

# Creare la cartella se non esiste
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# Salvare le recensioni di ogni genere nella cartella specificata
for genere in generi_scelti:
    df_genere = df_filtrato[df_filtrato["genre"] == genere]
    
    # Creare il percorso completo del file
    output_file = os.path.join(output_folder, f"reviews_{genere}.csv")
    
    # Salvare il file
    df_genere.to_csv(output_file, index=False)
    
    print(f"Recensioni di {genere} salvate in '{output_file}'")



Recensioni di Drama salvate in 'Final/reviews_Drama.csv'
Recensioni di Comedy salvate in 'Final/reviews_Comedy.csv'
Recensioni di Action salvate in 'Final/reviews_Action.csv'
