In [1]:
from google.colab import drive
import pandas as pd
import numpy as np

# Langkah 1: Mount Google Drive untuk mengakses file
drive.mount('/content/drive')

# Langkah 2: Memuat dataset ke dalam DataFrame Pandas
dataset_path = '/content/drive/My Drive/datamining//movie_sample_dataset.csv'
df = pd.read_csv(dataset_path)

# Langkah 3: Tampilkan 5 baris pertama dari dataset
print("Tampilan 5 baris pertama:")
print(df.head())

# Langkah 4: Tampilkan informasi umum tentang dataset
print("\nInformasi Umum tentang Dataset:")
df.info()

Mounted at /content/drive
Tampilan 5 baris pertama:
    color      director_name  duration        gross  \
0   Color    Martin Scorsese       240  116866727.0   
1   Color        Shane Black       195  408992272.0   
2  color   Quentin Tarantino       187   54116191.0   
3   Color   Kenneth Lonergan       186      46495.0   
4   Color      Peter Jackson       186  258355354.0   

                                 genres                          movie_title  \
0          Biography|Comedy|Crime|Drama              The Wolf of Wall Street   
1               Action|Adventure|Sci-Fi                           Iron Man 3   
2  Crime|Drama|Mystery|Thriller|Western                    The Hateful Eight   
3                                 Drama                             Margaret   
4                     Adventure|Fantasy  The Hobbit: The Desolation of Smaug   

   title_year language country       budget  imdb_score  \
0        2013  English     USA  100000000.0         8.2   
1        2013  Eng

In [None]:
# Langkah 5: Tangani nilai yang hilang dengan mengganti string tertentu dengan NaN
df.replace(['', 'Nan', 'N/A', 'Null'], np.nan, inplace=True)

# Langkah 6: Hapus baris duplikat dan reset indeks
df.drop_duplicates(inplace=True)
df.reset_index(drop=True, inplace=True)

# Langkah 7: Hapus baris yang memiliki nilai hilang di kolom 'gross' dan 'budget'
df.dropna(subset=['gross', 'budget'], inplace=True)

# Langkah 8: Ubah semua kolom string menjadi huruf besar
string_columns = df.select_dtypes(include='object').columns
df[string_columns] = df[string_columns].apply(lambda x: x.str.lower())

# Langkah 9: Hapus setiap baris yang tersisa dengan nilai hilang
df.dropna(inplace=True)

# Langkah 10: Hapus baris dengan nilai negatif di kolom numerik
numeric_columns = df.select_dtypes(include=[np.number])
df = df[(numeric_columns >= 0).all(axis=1)]

# Langkah 11: Reset indeks setelah menghapus baris
df.reset_index(drop=True, inplace=True)

# Langkah 12: Tampilkan 5 baris pertama setelah pra-pemrosesan
print("Pratampilan 5 baris pertama setelah pra-pemrosesan:")
print(df.head())

# Langkah 13: Periksa jumlah nilai yang hilang di setiap kolom
print("\nJumlah nilai yang hilang di setiap kolom:")
print(df.isnull().sum())

Pratampilan 5 baris pertama setelah pra-pemrosesan:
    color      director_name  duration        gross  \
0   color    martin scorsese       240  116866727.0   
1   color        shane black       195  408992272.0   
2  color   quentin tarantino       187   54116191.0   
3   color   kenneth lonergan       186      46495.0   
4   color      peter jackson       186  258355354.0   

                                 genres                          movie_title  \
0          biography|comedy|crime|drama              the wolf of wall street   
1               action|adventure|sci-fi                           iron man 3   
2  crime|drama|mystery|thriller|western                    the hateful eight   
3                                 drama                             margaret   
4                     adventure|fantasy  the hobbit: the desolation of smaug   

   title_year language country       budget  imdb_score  \
0        2013  english     usa  100000000.0         8.2   
1        2013  eng

In [None]:
# Langkah 14: Ubah tipe kolom tertentu menjadi integer
int_columns = ['duration', 'gross', 'title_year', 'budget', 'movie_facebook_likes']
for column in int_columns:
    df[column] = pd.to_numeric(df[column], errors='coerce').astype('Int64')

# Langkah 15: Ubah tipe kolom tertentu menjadi float
float_columns = ['imdb_score']
for column in float_columns:
    df[column] = pd.to_numeric(df[column], errors='coerce')

# Langkah 16: Ubah tipe kolom tertentu menjadi string
str_columns = ['director_name', 'movie_title', 'actors']
for column in str_columns:
    df[column] = df[column].astype(str)

# Langkah 17: Ubah tipe kolom tertentu menjadi kategorikal
category_columns = ['color', 'genres', 'language', 'country']
for column in category_columns:
    df[column] = df[column].astype('category')

# Langkah 18: Tangani nilai NaN yang dihasilkan dari kegagalan konversi
df.dropna(subset=int_columns + float_columns, inplace=True)  # Hapus baris dengan NaN di kolom ini

# Langkah 19: Periksa tipe data setelah konversi
print("Tipe data setelah konversi:")
print(df.dtypes)

# Langkah 20: Pisahkan 'genres' berdasarkan '|'
df['genres'] = df['genres'].str.split('|')

# Langkah 21: Lakukan One-Hot Encoding pada kolom 'genres'
df_genres = df['genres'].explode().str.get_dummies().groupby(level=0).max()
df = pd.concat([df, df_genres], axis=1)  # Gabungkan hasil One-Hot Encoding dengan DataFrame utama

# Langkah 22: Tampilkan DataFrame yang diperbarui
print(df.head())

# Langkah 23: Normalisasi teks di kolom yang dipilih
text_columns = ['director_name', 'movie_title', 'genres', 'actors', 'language', 'country']
df[text_columns] = df[text_columns].apply(lambda x: x.str.lower() if x.dtype == 'object' else x)

# Langkah 24: Tampilkan hasil normalisasi teks
print(df[text_columns].head())

Tipe data setelah konversi:
color                   category
director_name             object
duration                   Int64
gross                      Int64
genres                  category
movie_title               object
title_year                 Int64
language                category
country                 category
budget                     Int64
imdb_score               float64
actors                    object
movie_facebook_likes       Int64
dtype: object
    color      director_name  duration      gross  \
0   color    martin scorsese       240  116866727   
1   color        shane black       195  408992272   
2  color   quentin tarantino       187   54116191   
3   color   kenneth lonergan       186      46495   
4   color      peter jackson       186  258355354   

                                       genres  \
0           [biography, comedy, crime, drama]   
1                 [action, adventure, sci-fi]   
2  [crime, drama, mystery, thriller, western]   
3             

In [None]:
# Langkah 25: Simpan DataFrame yang telah dibersihkan ke file CSV baru
output_path = '/content/drive/My Drive/datamining/movie_dataset_cleaned.csv'
df.to_csv(output_path, index=False)

# Langkah 26: Konfirmasi bahwa dataset telah disimpan
print(f"Dataset yang telah diproses berhasil disimpan ke: {output_path}")

Dataset yang telah diproses berhasil disimpan ke: /content/drive/My Drive/datamining/movie_dataset_cleaned.csv
