**MEMUAT DATA DAN INSPEKSI DATA AWAL**

In [28]:
# 1. Persiapan Awal: Impor Pustaka
import pandas as pd
import numpy as np

# LANGKAH 1: MEMUAT DAN INSPEKSI DATA AWAL
print("--- Memulai Proses: Memuat dan Inspeksi Data ---")

try:
    nama_file_data = 'movie_sample_dataset.csv'
    df = pd.read_csv(nama_file_data)
    print(f"Dataset '{nama_file_data}' berhasil dimuat.")
except FileNotFoundError:
    print(f"Error: File '{nama_file_data}' tidak ditemukan. Pastikan file berada di folder yang sama.")
    exit()

# Menampilkan 5 baris pertama untuk gambaran umum
print("\n5 Baris Pertama Data Mentah:")
print(df.head())

# Mengganti nilai tidak standar menjadi format NaN
df.replace(["N/A", "Null", "Nan"], np.nan, inplace=True)

# Menampilkan informasi dasar dan jumlah nilai kosong awal
print("\nInformasi Awal dan Jumlah Nilai Kosong:")
df.info()
print("\nJumlah nilai kosong per kolom sebelum pembersihan:")
print(df.isnull().sum())


--- Memulai Proses: Memuat dan Inspeksi Data ---
Dataset 'movie_sample_dataset.csv' berhasil dimuat.

5 Baris Pertama Data Mentah:
    color      director_name  duration        gross  \
0   Color    Martin Scorsese       240  116866727.0   
1   Color        Shane Black       195  408992272.0   
2  color   Quentin Tarantino       187   54116191.0   
3   Color   Kenneth Lonergan       186      46495.0   
4   Color      Peter Jackson       186  258355354.0   

                                 genres                          movie_title  \
0          Biography|Comedy|Crime|Drama              The Wolf of Wall Street   
1               Action|Adventure|Sci-Fi                           Iron Man 3   
2  Crime|Drama|Mystery|Thriller|Western                    The Hateful Eight   
3                                 Drama                             Margaret   
4                     Adventure|Fantasy  The Hobbit: The Desolation of Smaug   

   title_year language country       budget  imdb_score  

Kode ini merupakan langkah awal dan fundamental dalam setiap proyek analisis data, yaitu memuat dan melakukan inspeksi awal terhadap dataset.

Proses dimulai dengan mengimpor dua pustaka utama: Pandas (diberi alias pd) yang krusial untuk manipulasi dan analisis data tabular, serta NumPy (diberi alias np) yang digunakan untuk operasi numerik, terutama untuk merepresentasikan nilai kosong standar (NaN).

Selanjutnya, kode mencoba memuat data dari sebuah file bernama movie_sample_dataset.csv ke dalam sebuah struktur data yang disebut DataFrame, yang diberi nama df. Proses ini dibungkus dalam blok try-except untuk menangani kemungkinan error jika file tidak ditemukan, sehingga program akan memberikan pesan yang jelas dan berhenti jika file tidak ada.

Setelah data berhasil dimuat, dilakukan beberapa langkah inspeksi untuk memahami kondisi awal data:

1. df.head(): Menampilkan lima baris pertama dari dataset untuk memberikan gambaran visual mengenai struktur kolom dan isi data mentah.

2. df.replace(): Membersihkan data dengan mencari nilai-nilai tidak standar seperti string "N/A", "Null", dan "Nan" lalu menggantinya dengan format np.nan. Langkah ini penting agar Pandas dapat secara konsisten mengenali semua nilai tersebut sebagai data yang hilang (missing value).

3. df.info(): Menampilkan ringkasan teknis dari DataFrame, termasuk jumlah total baris, nama setiap kolom, jumlah nilai yang tidak kosong (non-null), dan tipe data dari setiap kolom (misalnya, object, int64, float64).

4. df.isnull().sum(): Menghitung dan menampilkan jumlah total nilai kosong (NaN) untuk setiap kolom. Informasi ini sangat penting untuk merencanakan strategi pembersihan data pada langkah selanjutnya.

**MEMBERSIHKAN DATA**

In [29]:
# LANGKAH 2: MEMBERSIHKAN DATA
print("\n--- Memulai Langkah 2: Pembersihan Data ---")

# Menghapus baris jika kolom 'gross' atau 'budget' kosong
df.dropna(subset=['gross', 'budget'], inplace=True)
print("\nBaris dengan 'gross' atau 'budget' kosong telah dihapus.")

# Mengisi nilai kosong sesuai instruksi
# Mengisi 'color' dengan modus (nilai paling sering muncul)
modus_warna = df['color'].mode()[0]
df['color'].fillna(modus_warna, inplace=True)
print(f"Nilai 'color' yang kosong diisi dengan modus: '{modus_warna}'.")

# Mengisi 'director_name' dengan 'anonim'
df['director_name'].fillna('anonim', inplace=True)
print("Nilai 'director_name' yang kosong diisi dengan 'anonim'.")

# Mengisi 'genres' dengan 'tidak diketahui'
df['genres'].fillna('tidak diketahui', inplace=True)
print("Nilai 'genres' yang kosong diisi dengan 'tidak diketahui'.")

# Menghapus baris duplikat
jumlah_baris_awal = len(df)
df.drop_duplicates(inplace=True)
print(f"{jumlah_baris_awal - len(df)} baris duplikat telah dihapus.")

# Standarisasi data teks (spasi dan huruf kecil)
df['country'] = df['country'].str.strip().str.lower()
df['color'] = df['color'].str.strip().str.lower()
print("Kolom 'country' dan 'color' telah distandarisasi.")


--- Memulai Langkah 2: Pembersihan Data ---

Baris dengan 'gross' atau 'budget' kosong telah dihapus.
Nilai 'color' yang kosong diisi dengan modus: 'Color'.
Nilai 'director_name' yang kosong diisi dengan 'anonim'.
Nilai 'genres' yang kosong diisi dengan 'tidak diketahui'.
5 baris duplikat telah dihapus.
Kolom 'country' dan 'color' telah distandarisasi.


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['color'].fillna(modus_warna, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['director_name'].fillna('anonim', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting val

Langkah ini berfokus pada pembersihan data mentah untuk meningkatkan kualitas dan konsistensinya. Prosesnya adalah sebagai berikut:

Pertama, kode menangani data yang tidak lengkap dengan menghapus baris-baris yang tidak memiliki nilai pada kolom gross (pendapatan) atau budget (anggaran) menggunakan dropna(). Baris-baris ini dihilangkan karena data finansial yang hilang membuatnya kurang berguna untuk analisis.

Kedua, dilakukan pengisian nilai-nilai yang kosong (missing values) dengan strategi yang berbeda untuk setiap kolom. Untuk kolom color, nilai yang kosong diisi dengan modus, yaitu nilai yang paling sering muncul di kolom tersebut. Untuk kolom director_name dan genres, nilai yang kosong diisi dengan string kategoris, yaitu "anonim" dan "tidak diketahui", untuk menandakan bahwa data tersebut memang tidak tersedia.

Ketiga, untuk memastikan integritas data, semua baris yang merupakan duplikat persis dari baris lain dihapus menggunakan drop_duplicates(). Ini mencegah data yang sama dihitung lebih dari satu kali dalam analisis.

Terakhir, dilakukan standarisasi data teks pada kolom country dan color. Menggunakan fungsi .str.strip() untuk menghapus spasi yang tidak perlu di awal atau akhir teks, dan .str.lower() untuk mengubah semua teks menjadi huruf kecil. Langkah ini sangat penting untuk mengatasi inkonsistensi penulisan (misalnya, "USA", "usa ", dan "usa" akan dianggap sebagai nilai yang sama).

**TRANSFORMASI DATA**

In [30]:
# LANGKAH 3: TRANSFORMASI DATA
print("\n--- Memulai Langkah 3: Transformasi Data ---")

# Mengubah tipe data kolom menjadi tipe data yang sesuai
numeric_cols = ['duration', 'gross', 'title_year', 'budget', 'imdb_score']
for col in numeric_cols:
    df[col] = pd.to_numeric(df[col], errors='coerce')


--- Memulai Langkah 3: Transformasi Data ---


Kode ini menjalankan Langkah 3: Transformasi Data, yang merupakan tahap penting untuk memastikan setiap kolom memiliki tipe data yang benar agar dapat dianalisis lebih lanjut.

Prosesnya dimulai dengan mendefinisikan sebuah daftar (list) bernama numeric_cols yang berisi nama-nama kolom yang seharusnya berisi data numerik, seperti duration, gross, title_year, budget, dan imdb_score. Mengelompokkan nama kolom seperti ini membuat kode lebih rapi dan mudah untuk dimodifikasi jika ada kolom lain yang perlu diubah.

Selanjutnya, kode tersebut melakukan iterasi atau perulangan (loop) melalui setiap nama kolom dalam daftar numeric_cols. Di dalam perulangan, fungsi pd.to_numeric() dari Pandas diterapkan pada setiap kolom. Fungsi ini bertujuan untuk mengubah tipe data kolom tersebut menjadi tipe numerik (seperti integer atau float).

Parameter errors='coerce' adalah bagian yang sangat penting. Parameter ini memberitahu Pandas untuk menangani nilai-nilai yang tidak bisa diubah menjadi angka (misalnya, jika ada teks atau simbol di dalam kolom angka). Alih-alih menyebabkan error dan menghentikan program, errors='coerce' akan secara otomatis mengubah nilai yang bermasalah tersebut menjadi NaN (Not a Number), yang menandakan nilai tersebut hilang atau tidak valid. Langkah ini memastikan proses konversi berjalan lancar dan data siap untuk perhitungan matematis.

In [31]:
# Memisahkan kolom 'genres'

# 1. Pisahkan kolom 'genres' berdasarkan tanda '|' menjadi sebuah DataFrame baru
df_genre_terpisah = df['genres'].str.split('|', expand=True)

# 2. Buat nama kolom baru seperti 'genre_1', 'genre_2', dst.
nama_kolom_baru = [f'genres_{i+1}' for i in range(df_genre_terpisah.shape[1])]
df_genre_terpisah.columns = nama_kolom_baru

# 3. Gabungkan kolom-kolom genre yang baru dengan DataFrame asli
df_dengan_genre = pd.concat([df, df_genre_terpisah], axis=1)

# Mengisi nilai kosong yang mungkin muncul setelah penggabungan dengan 'None' (atau teks lain)
df_dengan_genre.fillna('None', inplace=True)

# Hasil
# Menampilkan 5 baris pertama dari DataFrame yang sudah digabungkan
print(df_dengan_genre.head())



   color      director_name  duration        gross  \
0  color    Martin Scorsese       240  116866727.0   
1  color        Shane Black       195  408992272.0   
2  color  Quentin Tarantino       187   54116191.0   
3  color   Kenneth Lonergan       186      46495.0   
4  color      Peter Jackson       186  258355354.0   

                                 genres                          movie_title  \
0          Biography|Comedy|Crime|Drama              The Wolf of Wall Street   
1               Action|Adventure|Sci-Fi                           Iron Man 3   
2  Crime|Drama|Mystery|Thriller|Western                    The Hateful Eight   
3                                 Drama                             Margaret   
4                     Adventure|Fantasy  The Hobbit: The Desolation of Smaug   

   title_year language country       budget  imdb_score  \
0        2013  English     usa  100000000.0         8.2   
1        2013  English     usa  200000000.0         7.2   
2        2015  En

Kode ini bertujuan untuk melakukan restrukturisasi data pada kolom genres. Dalam dataset asli, satu film bisa memiliki beberapa genre yang digabungkan dalam satu teks dan dipisahkan oleh karakter pipa (|), misalnya "Action|Adventure|Sci-Fi". Kode ini memisahkan setiap genre tersebut ke dalam kolom-kolom individual.

Prosesnya adalah sebagai berikut:

1. Pemisahan Genre: Langkah pertama menggunakan fungsi .str.split('|', expand=True) pada kolom genres. Fungsi ini memotong teks di setiap baris berdasarkan karakter | dan, berkat argumen expand=True, hasilnya diperluas menjadi beberapa kolom baru dalam sebuah DataFrame sementara bernama df_genre_terpisah. Setiap kolom baru ini berisi satu genre.

2. Pembuatan Nama Kolom Baru: Karena kolom-kolom baru tersebut secara default akan memiliki indeks numerik (0, 1, 2, ...), kode ini membuat nama kolom yang lebih deskriptif. Dengan menggunakan list comprehension, dibuatlah daftar nama seperti genres_1, genres_2, dan seterusnya, sesuai dengan jumlah kolom genre yang dihasilkan. Nama-nama baru ini kemudian ditetapkan sebagai nama kolom untuk df_genre_terpisah.

3. Penggabungan DataFrame: DataFrame df_genre_terpisah yang berisi kolom-kolom genre baru kemudian digabungkan kembali dengan DataFrame asli (df). Fungsi pd.concat() dengan argumen axis=1 digunakan untuk menggabungkan kedua DataFrame secara berdampingan (berdasarkan kolom).

4. Penanganan Nilai Kosong: Setelah penggabungan, akan ada nilai kosong (NaN) di kolom genre baru, terutama untuk film yang memiliki lebih sedikit genre daripada film dengan genre terbanyak. Kode ini mengisi semua nilai kosong yang tersisa di DataFrame gabungan dengan string 'None' untuk menandakan bahwa tidak ada genre tambahan pada posisi tersebut.

Terakhir, print(df_dengan_genre.head()) menampilkan lima baris pertama dari DataFrame hasil akhir untuk memverifikasi bahwa kolom-kolom genre baru telah berhasil ditambahkan.

In [32]:
# Transformasi kolom 'country': menyeragamkan penggunaan huruf besar
df['country'] = df['country'].str.upper()

Kode ini melakukan sebuah langkah transformasi data yang bertujuan untuk standarisasi, yaitu menyeragamkan format penulisan pada kolom country.

Secara spesifik, kode ini mengakses semua nilai dalam kolom country dari DataFrame df sebagai data string (teks) menggunakan .str. Kemudian, metode .upper() diterapkan pada setiap nilai tersebut. Fungsi .upper() akan mengubah semua karakter huruf dalam teks menjadi huruf besar (kapital).

Tujuan utama dari langkah ini adalah untuk mengatasi inkonsistensi data. Misalnya, jika dalam data terdapat entri seperti "USA", "Usa", dan "usa", setelah kode ini dijalankan, semuanya akan seragam menjadi "USA". Hal ini memastikan bahwa saat melakukan analisis atau pengelompokan data berdasarkan negara, semua variasi penulisan akan diperlakukan sebagai satu kategori yang sama.

In [33]:
# Transformasi kolom 'color': menyeragamkan penggunaan huruf besar
df['color'] = df['color'].str.upper()

Kode ini melakukan langkah standarisasi data pada kolom color dalam DataFrame df.

Secara rinci, kode ini mengakses setiap nilai dalam kolom color sebagai data teks (string) menggunakan accessor .str. Kemudian, metode .upper() diterapkan pada setiap nilai tersebut. Fungsi ini mengubah semua karakter dalam teks menjadi huruf besar (kapital).

Tujuan dari operasi ini adalah untuk menyeragamkan data dan menghilangkan inkonsistensi. Misalnya, jika dalam dataset terdapat entri "Color" dan "color", setelah kode ini dijalankan, keduanya akan diubah menjadi "COLOR". Hal ini memastikan bahwa saat melakukan analisis atau pengelompokan berdasarkan kategori warna, semua variasi penulisan akan dianggap sebagai satu nilai yang sama, sehingga meningkatkan akurasi analisis.

**VERIFIKASI AKHIR DAN PENYIMPANAN**

In [34]:
# LANGKAH 4: VERIFIKASI AKHIR DAN PENYIMPANAN
print("\n--- Memulai Langkah 4: Verifikasi Akhir dan Penyimpanan ---")

print("\nInformasi Final Dataset Setelah Preprocessing:")
df.info()

print("\nPengecekan Akhir Nilai Kosong:")
print(df.isnull().sum().sum(), "nilai kosong ditemukan.") # Menjumlahkan semua nilai kosong

# Menyimpan DataFrame yang sudah bersih ke file CSV baru
nama_file_hasil = 'movie_sample_dataset_cleaned.csv'
try:
    df.to_csv(nama_file_hasil, index=False)
    print(f"\n>>> Proses Selesai! Data bersih berhasil disimpan sebagai '{nama_file_hasil}'")
except Exception as e:
    print(f"Gagal menyimpan file. Error: {e}")


--- Memulai Langkah 4: Verifikasi Akhir dan Penyimpanan ---

Informasi Final Dataset Setelah Preprocessing:
<class 'pandas.core.frame.DataFrame'>
Index: 84 entries, 0 to 98
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   color                 84 non-null     object 
 1   director_name         84 non-null     object 
 2   duration              84 non-null     int64  
 3   gross                 84 non-null     float64
 4   genres                84 non-null     object 
 5   movie_title           84 non-null     object 
 6   title_year            84 non-null     int64  
 7   language              84 non-null     object 
 8   country               84 non-null     object 
 9   budget                84 non-null     float64
 10  imdb_score            84 non-null     float64
 11  actors                84 non-null     object 
 12  movie_facebook_likes  84 non-null     int64  
dtypes: float64(3), int64(3)

Kode ini merupakan tahap akhir dari alur kerja preprocessing data, yaitu verifikasi final dan penyimpanan hasil.

Prosesnya dimulai dengan melakukan verifikasi akhir pada DataFrame df yang telah melalui semua langkah pembersihan dan transformasi. Pertama, df.info() dipanggil untuk menampilkan ringkasan teknis dari DataFrame final, termasuk jumlah baris, tipe data setiap kolom, dan penggunaan memori. Ini berguna untuk memastikan bahwa semua transformasi tipe data telah berhasil. Selanjutnya, df.isnull().sum().sum() dijalankan untuk menghitung total keseluruhan nilai kosong yang tersisa di seluruh DataFrame. Output dari perintah ini memberikan konfirmasi cepat apakah masih ada data yang hilang atau tidak.

Setelah verifikasi selesai, langkah terakhir adalah menyimpan DataFrame yang sudah bersih ke dalam sebuah file baru. Sebuah variabel nama_file_hasil didefinisikan untuk menyimpan nama file output, yaitu movie_sample_dataset_cleaned.csv. Proses penyimpanan dilakukan menggunakan fungsi df.to_csv(). Argumen index=False disertakan untuk mencegah Pandas menuliskan nomor indeks dari DataFrame sebagai kolom baru di file CSV, sehingga menjaga struktur data tetap bersih. Seluruh proses penyimpanan ini dibungkus dalam blok try-except untuk menangani potensi error, misalnya jika program tidak memiliki izin untuk menulis file di folder tersebut. Jika berhasil, sebuah pesan konfirmasi akan dicetak untuk memberitahukan bahwa proses telah selesai dan file baru telah disimpan.