# Controllo dataset e duplicati nei titoli

In [3]:
import pandas as pd
import os
from pathlib import Path

## Caricamento del CSV in un DataFrame

In [4]:
df = pd.read_csv('./a.csv')
print(df.shape)
print(df.info())

(34886, 8)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34886 entries, 0 to 34885
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Release Year      34886 non-null  int64 
 1   Title             34886 non-null  object
 2   Origin/Ethnicity  34886 non-null  object
 3   Director          34886 non-null  object
 4   Cast              33464 non-null  object
 5   Genre             34886 non-null  object
 6   Wiki Page         34886 non-null  object
 7   Plot              34886 non-null  object
dtypes: int64(1), object(7)
memory usage: 2.1+ MB
None


In [None]:
df.head(5)

Unnamed: 0,Release Year,Title,Origin/Ethnicity,Director,Cast,Genre,Wiki Page,Plot
0,1901,Kansas Saloon Smashers,American,Unknown,,unknown,https://en.wikipedia.org/wiki/Kansas_Saloon_Sm...,"A bartender is working at a saloon, serving dr..."
1,1901,Love by the Light of the Moon,American,Unknown,,unknown,https://en.wikipedia.org/wiki/Love_by_the_Ligh...,"The moon, painted with a smiling face hangs ov..."
2,1901,The Martyred Presidents,American,Unknown,,unknown,https://en.wikipedia.org/wiki/The_Martyred_Pre...,"The film, just over a minute long, is composed..."
3,1901,"Terrible Teddy, the Grizzly King",American,Unknown,,unknown,"https://en.wikipedia.org/wiki/Terrible_Teddy,_...",Lasting just 61 seconds and consisting of two ...
4,1902,Jack and the Beanstalk,American,"George S. Fleming, Edwin S. Porter",,unknown,https://en.wikipedia.org/wiki/Jack_and_the_Bea...,The earliest known adaptation of the classic f...


## Analisi dettagliata dei titoli duplicati
Analizziamo in modo più chiaro i duplicati:
1. Troviamo se esistono duplicati
2. Creiamo una lista dei titoli duplicati
3. Mostriamo quante volte appare ciascun titolo duplicato

In [None]:
# Troviamo i titoli duplicati
# value_counts() conta quante volte appare ogni titolo
conteggio_titoli = df['Title'].value_counts()

# Filtriamo solo i titoli che appaiono più di una volta
titoli_duplicati = conteggio_titoli[conteggio_titoli > 1]

if len(titoli_duplicati) > 0:
    print(f"Trovati {len(titoli_duplicati)} titoli duplicati\n")
    print("Lista dei titoli duplicati e numero di occorrenze:")
    print("="*50)
    
    # Creiamo una lista ordinata dei titoli duplicati con il loro conteggio
    for titolo, conteggio in titoli_duplicati.items():
        print(f"'{titolo}': {conteggio} occorrenze")
    
    # Creiamo una lista dei soli titoli duplicati
    lista_titoli_duplicati = list(titoli_duplicati.index)
    
    print("\nLista dei titoli duplicati:")
    print("="*50)
    for i, titolo in enumerate(lista_titoli_duplicati, 1):
        print(f"{i}. {titolo}")
else:
    print("Non sono stati trovati titoli duplicati nel dataset")

Trovati 2071 titoli duplicati

Lista dei titoli duplicati e numero di occorrenze:
'The Three Musketeers': 8 occorrenze
'Cinderella': 8 occorrenze
'Treasure Island': 7 occorrenze
'Anna Karenina': 6 occorrenze
'Alice in Wonderland': 6 occorrenze
'Hero': 6 occorrenze
'Mother': 5 occorrenze
'I Love You': 5 occorrenze
'Criminal': 5 occorrenze
'Madame X': 5 occorrenze
'Angel': 5 occorrenze
'Dr. Jekyll and Mr. Hyde': 5 occorrenze
'Dushman': 5 occorrenze
'Love': 5 occorrenze
'Cleopatra': 5 occorrenze
'Kidnapped': 5 occorrenze
'Robin Hood': 5 occorrenze
'Brewster's Millions': 5 occorrenze
'Love Story': 4 occorrenze
'Dracula': 4 occorrenze
'Dressed to Kill': 4 occorrenze
'Night Watch': 4 occorrenze
'23': 4 occorrenze
'Bad Company': 4 occorrenze
'Hide and Seek': 4 occorrenze
'Jigsaw': 4 occorrenze
'Branded': 4 occorrenze
'Romance': 4 occorrenze
'Shikari': 4 occorrenze
'Duniya': 4 occorrenze
'Trapped': 4 occorrenze
'The Bodyguard': 4 occorrenze
'Joker': 4 occorrenze
'Chandralekha': 4 occorrenze
'T

## Creazione DataFrame senza titoli duplicati
Creiamo un nuovo DataFrame che contiene solo una riga per ciascun titolo eliminando tutti i record duplicati.

In [None]:
# Creiamo un nuovo DataFrame senza titoli duplicati
# Manteniamo solo la prima occorrenza di ogni titolo

df_unico = df.drop_duplicates(subset=['Title'], keep='first').reset_index(drop=True)

print(f"Il nuovo DataFrame contiene {len(df_unico)} righe, tutte con titolo unico.")

Il nuovo DataFrame contiene 32432 righe, tutte con titolo unico.


In [None]:
# Troviamo i titoli duplicati
# value_counts() conta quante volte appare ogni titolo
conteggio_titoli = df_unico['Title'].value_counts()

# Filtriamo solo i titoli che appaiono più di una volta
titoli_duplicati = conteggio_titoli[conteggio_titoli > 1]

if len(titoli_duplicati) > 0:
    print(f"Trovati {len(titoli_duplicati)} titoli duplicati\n")
    print("Lista dei titoli duplicati e numero di occorrenze:")
    print("="*50)
    
    # Creiamo una lista ordinata dei titoli duplicati con il loro conteggio
    for titolo, conteggio in titoli_duplicati.items():
        print(f"'{titolo}': {conteggio} occorrenze")
    
    # Creiamo una lista dei soli titoli duplicati
    lista_titoli_duplicati = list(titoli_duplicati.index)
    
    print("\nLista dei titoli duplicati:")
    print("="*50)
    for i, titolo in enumerate(lista_titoli_duplicati, 1):
        print(f"{i}. {titolo}")
else:
    print("Non sono stati trovati titoli duplicati nel dataset")

Non sono stati trovati titoli duplicati nel dataset


In [None]:
df_unico.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32432 entries, 0 to 32431
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Release Year      32432 non-null  int64 
 1   Title             32432 non-null  object
 2   Origin/Ethnicity  32432 non-null  object
 3   Director          32432 non-null  object
 4   Cast              31130 non-null  object
 5   Genre             32432 non-null  object
 6   Wiki Page         32432 non-null  object
 7   Plot              32432 non-null  object
dtypes: int64(1), object(7)
memory usage: 2.0+ MB


## Creazione Directory per indicizzazione
Creiamo per ogni record del dataset un file testuale a seguito di un atraduzione dei campi 'Title' e 'Plot' in lingua italiana
- Title = nome del file 
- Plot = contenuto del file

In [None]:
import os
import re
from tqdm import tqdm
from deep_translator import GoogleTranslator

# === CONFIGURAZIONE ===
csv_path = "a.csv"   # percorso del dataset originale
output_dir = "files"                # cartella dove salvare i file tradotti
title_col = "Title"
content_col = "Plot"
n_files = 5000  # numero di file da processare
# =======================

# Crea la cartella di output se non esiste
os.makedirs(output_dir, exist_ok=True)

# Carica il dataset
df = df_unico.head(n_files)

# Inizializza il traduttore
translator = GoogleTranslator(source='en', target='it')

# Contatore dei file creati con successo
success_count = 0

# Traduci e salva i file
for _, row in tqdm(df.iterrows(), total=len(df), desc="Traduzione e generazione file"):
    title = str(row[title_col]).strip()
    content = str(row[content_col]).strip()

    try:
        # Traduzione
        title_it = translator.translate(title)
        content_it = translator.translate(content)

        # Pulizia minima del titolo per il nome del file
        safe_title = re.sub(r'[\\/*?:"<>|]', '_', title_it)

        # Percorso del file
        file_path = os.path.join(output_dir, f"{safe_title}.txt")

        # Scrittura del contenuto solo se la traduzione è riuscita
        with open(file_path, "w", encoding="utf-8") as f:
            f.write(content_it)

        success_count += 1

    except Exception as e:
        continue  # passa al prossimo record senza salvare nulla

print(f"\n✅ Creati {success_count} file tradotti in italiano nella cartella '{output_dir}'")