In [30]:
import pandas as pd
import glob
import os

In [31]:
def gabungkan_csv_dalam_folder(folder_path, file_output_path):
    """
    Menggabungkan semua file CSV dalam folder_path menjadi satu file CSV besar.

    Args:
        folder_path (str): Path ke folder yang berisi file-file CSV.
        file_output_path (str): Path (termasuk nama file) untuk menyimpan file CSV gabungan.
    """
    # Membuat pola untuk mencari semua file .csv dalam folder_path
    # Pastikan folder_path diakhiri dengan '/' atau '\' tergantung sistem operasi Anda,
    # atau gunakan os.path.join untuk cara yang lebih aman.
    pola_file_csv = os.path.join(folder_path, "*.csv")
    
    # Mendapatkan daftar semua file CSV yang cocok dengan pola
    daftar_file_csv = glob.glob(pola_file_csv)
    
    if not daftar_file_csv:
        print(f"Tidak ada file CSV yang ditemukan di folder: {folder_path}")
        return

    print(f"Ditemukan {len(daftar_file_csv)} file CSV untuk digabungkan:")
    for file in daftar_file_csv:
        print(f"- {file}")
        
    # List untuk menyimpan setiap DataFrame dari file CSV
    list_df = []
    
    # Membaca setiap file CSV dan menambahkannya ke list_df
    for file_csv in daftar_file_csv:
        try:
            # Anda mungkin perlu menambahkan parameter encoding jika file CSV Anda tidak menggunakan UTF-8
            # contoh: df = pd.read_csv(file_csv, encoding='latin1')
            df = pd.read_csv(file_csv)
            list_df.append(df)
            print(f"Berhasil membaca file: {file_csv} ({len(df)} baris)")
        except Exception as e:
            print(f"Gagal membaca file {file_csv}: {e}")
            # Anda bisa memilih untuk melanjutkan (continue) atau menghentikan proses jika ada error
            # continue 
    
    if not list_df:
        print("Tidak ada data yang berhasil dibaca dari file CSV.")
        return
        
    # Menggabungkan semua DataFrame dalam list_df menjadi satu DataFrame besar
    # ignore_index=True akan membuat ulang index untuk DataFrame gabungan
    df_gabungan = pd.concat(list_df, ignore_index=True)
    
    print(f"\nTotal baris setelah digabungkan: {len(df_gabungan)}")
    
    # Menyimpan DataFrame gabungan ke file CSV baru
    try:
        df_gabungan.to_csv(file_output_path, index=False)
        print(f"\nFile CSV gabungan berhasil disimpan di: {file_output_path}")
    except Exception as e:
        print(f"Gagal menyimpan file CSV gabungan: {e}")

In [32]:
# --- Cara Penggunaan ---
if __name__ == "__main__":
    # 1. Tentukan path ke folder yang berisi file-file CSV Anda
    # Contoh: folder_data_csv = "/path/ke/folder/csv_anda"
    # atau jika folder 'data_csv' ada di direktori yang sama dengan skrip ini:
    # folder_data_csv = "data_csv" 
    
    # Ganti dengan path folder Anda yang sebenarnya
    folder_data_csv = 'C:/Users/ASUS/OneDrive - Institut Teknologi Bandung/Documents/Kuliah/Semester8/VisDat/Tubes2-Visdat/dataset_csv'
    
    # 2. Tentukan nama dan path untuk file CSV output yang akan digabungkan
    # Contoh: file_output = "/path/ke/folder/output/hasil_gabungan.csv"
    # atau jika ingin disimpan di direktori yang sama dengan skrip ini:
    # file_output = "hasil_gabungan_imdb.csv"
    
    # Ganti dengan nama file output yang Anda inginkan
    file_output = 'C:/Users/ASUS/OneDrive - Institut Teknologi Bandung/Documents/Kuliah/Semester8/VisDat/Tubes2-Visdat/data_final.csv'
    
    # Jika path output tidak ditentukan secara penuh, simpan di folder yang sama dengan skrip
    if not os.path.dirname(file_output):
        file_output_path = os.path.join(os.getcwd(), file_output)
    else:
        file_output_path = file_output

    # Pastikan folder output ada jika path output menyertakan folder
    output_dir = os.path.dirname(file_output_path)
    if output_dir and not os.path.exists(output_dir):
        os.makedirs(output_dir)
        print(f"Folder output dibuat: {output_dir}")

    gabungkan_csv_dalam_folder(folder_data_csv, file_output_path)

Ditemukan 35 file CSV untuk digabungkan:
- C:/Users/ASUS/OneDrive - Institut Teknologi Bandung/Documents/Kuliah/Semester8/VisDat/Tubes2-Visdat/dataset_csv\1990.csv
- C:/Users/ASUS/OneDrive - Institut Teknologi Bandung/Documents/Kuliah/Semester8/VisDat/Tubes2-Visdat/dataset_csv\1991.csv
- C:/Users/ASUS/OneDrive - Institut Teknologi Bandung/Documents/Kuliah/Semester8/VisDat/Tubes2-Visdat/dataset_csv\1992.csv
- C:/Users/ASUS/OneDrive - Institut Teknologi Bandung/Documents/Kuliah/Semester8/VisDat/Tubes2-Visdat/dataset_csv\1993.csv
- C:/Users/ASUS/OneDrive - Institut Teknologi Bandung/Documents/Kuliah/Semester8/VisDat/Tubes2-Visdat/dataset_csv\1994.csv
- C:/Users/ASUS/OneDrive - Institut Teknologi Bandung/Documents/Kuliah/Semester8/VisDat/Tubes2-Visdat/dataset_csv\1995.csv
- C:/Users/ASUS/OneDrive - Institut Teknologi Bandung/Documents/Kuliah/Semester8/VisDat/Tubes2-Visdat/dataset_csv\1996.csv
- C:/Users/ASUS/OneDrive - Institut Teknologi Bandung/Documents/Kuliah/Semester8/VisDat/Tubes2-Vis

In [33]:
df_gabungan = pd.read_csv(file_output_path)
df_gabungan = df_gabungan.drop(columns='ID')
df_gabungan = df_gabungan.dropna()
df_gabungan = df_gabungan.rename(columns={
    'Name':'Title',
    'Year':'ReleaseYear',
    'Directors':'Director',
    'Actor':'Stars',
    'Rating':'IMDb-Rating',
    'Genres':'Category'
})
df_gabungan.to_csv(file_output_path, index=False)

In [35]:
df_gabungan['ReleaseYear']

0        1990
1        1990
2        1990
3        1990
4        1990
         ... 
34763    2024
34764    2024
34765    2024
34766    2024
34767    2024
Name: ReleaseYear, Length: 34665, dtype: int64