In [5]:
# Import library yang diperlukan
import pandas as pd

# Path file dataset asli
file_path = 'movies.csv'

# Membaca dataset asli
movies_df = pd.read_csv(file_path)

# Menghapus spasi pada nama kolom jika ada
movies_df.columns = movies_df.columns.str.strip()

# Menampilkan nama kolom untuk memastikan kolom yang ada
print("Nama kolom yang ada:", movies_df.columns)

# Memproses kolom tertentu jika ada dalam DataFrame
for col in ['title', 'genres', 'runtime']:
    if col in movies_df.columns:
        # Mengonversi kolom ke string dan mengubahnya menjadi huruf kecil
        movies_df[col] = movies_df[col].astype(str).str.lower()
    else:
        print(f"Kolom {col} tidak ditemukan.")

# Deskripsi: Jaccard Similarity
# Jaccard Similarity adalah metode untuk mengukur kesamaan antara dua himpunan (set).
# Rumus: (Jumlah elemen yang sama di kedua set) / (Jumlah elemen unik di kedua set)
# Contoh:
# Set A = {Action, Adventure, Sci-Fi}
# Set B = {Action, Drama}
# Intersection = {Action}, Union = {Action, Adventure, Sci-Fi, Drama}
# Jaccard Similarity = |Intersection| / |Union| = 1 / 4 = 0.25

# Mengubah kolom genres menjadi daftar untuk mempermudah perhitungan
if 'genres' in movies_df.columns:
    movies_df['genres'] = movies_df['genres'].fillna('').apply(lambda x: x.split(';'))

# Fungsi untuk menghitung Jaccard Similarity
def jaccard_similarity(set1, set2):
    """
    Menghitung Jaccard Similarity antara dua set.
    
    Args:
        set1 (set): Himpunan pertama.
        set2 (set): Himpunan kedua.
    
    Returns:
        float: Nilai Jaccard Similarity antara 0 hingga 1.
    """
    intersection = len(set1.intersection(set2))
    union = len(set1.union(set2))
    return intersection / union if union != 0 else 0

# Contoh penggunaan fungsi Jaccard Similarity
genres_movie1 = set(['action', 'adventure', 'sci-fi'])
genres_movie2 = set(['action', 'drama'])

similarity = jaccard_similarity(genres_movie1, genres_movie2)
print(f"Jaccard Similarity: {similarity:.2f}")  # Output: 0.25

# Deskripsi tambahan: Preprocessing Data
# Pastikan nilai-nilai kosong atau null diisi dengan placeholder yang sesuai
movies_df.fillna({'runtime': 0, 'vote_average': 0}, inplace=True)

# Memastikan tipe data runtime adalah numerik
if 'runtime' in movies_df.columns:
    movies_df['runtime'] = pd.to_numeric(movies_df['runtime'], errors='coerce').fillna(0).astype(int)

# Menampilkan 5 baris pertama untuk memastikan data telah diproses dengan benar
print(movies_df.head())

# Menyimpan DataFrame yang telah diproses ke file baru
processed_file_path = 'processed_movies.csv'
movies_df.to_csv(processed_file_path, index=False)

print(f"File yang telah diproses disimpan sebagai: {processed_file_path}")


Nama kolom yang ada: Index(['title', 'genres', 'runtime', 'vote_average', 'vote_count',
       'release_year', 'Action', 'Adventure', 'Animation', 'Comedy', 'Crime',
       'Documentary', 'Drama', 'Family', 'Fantasy', 'Foreign', 'History',
       'Horror', 'Music', 'Mystery', 'Romance', 'Science Fiction', 'TV Movie',
       'Thriller', 'War', 'Western'],
      dtype='object')
File yang telah diproses disimpan sebagai: processed_movies.csv
