**PRE-PROCESSING DATA MOVIE SAMPLE DATASET**

**PUTRI INDO NAGARI / 4111422072**

**Importing Data:**

In [5]:
import pandas as pd

df = pd.read_csv('/content/movie_sample_dataset.csv')
print(df.head(50))

               color         director_name  duration        gross  \
0              Color       Martin Scorsese       240  116866727.0   
1              Color           Shane Black       195  408992272.0   
2             color      Quentin Tarantino       187   54116191.0   
3              Color      Kenneth Lonergan       186      46495.0   
4              Color         Peter Jackson       186  258355354.0   
5                NaN                   NaN       183  330249062.0   
6              Color         Peter Jackson       -50  303001229.0   
7              Color           Edward Hall       180          NaN   
8              Color           Joss Whedon       173  623279547.0   
9              Color           Joss Whedon       173  623279547.0   
10               NaN            Tom Tykwer       172   27098580.0   
11             Color                  Null       158  102515793.0   
12             Color   Christopher Spencer       170   59696176.0   
13             Color     Christoph

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99 entries, 0 to 98
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   color                 88 non-null     object 
 1   director_name         88 non-null     object 
 2   duration              99 non-null     int64  
 3   gross                 91 non-null     float64
 4   genres                98 non-null     object 
 5   movie_title           99 non-null     object 
 6   title_year            99 non-null     int64  
 7   language              99 non-null     object 
 8   country               99 non-null     object 
 9   budget                95 non-null     float64
 10  imdb_score            99 non-null     float64
 11  actors                99 non-null     object 
 12  movie_facebook_likes  99 non-null     int64  
dtypes: float64(3), int64(3), object(7)
memory usage: 10.2+ KB


Dari informasi di atas, didapatkan bahwa dataset tersebut mempunyai 99 baris dan 13 kolom.

Variabel yang ada pada dataset tersebut sebagai berikut:
1. color: menunjukkan apakah film tersebut berwarna atau hitam putih
2. director_name: nama sutradara film
3. duration: nama durasi film dalam menit
4. gross: pendapatan kotor yang diperoleh film di box office
5. genres: genre atau jenis film, dipisahkan dengan tanda '|'
6. movie_title: judul film
7. title_year: tahun film tersebut dirilis
8. language: bahasa utama yang digunakan dalam film
9. country: negara tempat film tersebut diproduksi
10. budget: anggaran produksi film
11. imdb_score: penilaian film di IMDb dalam skala 1 sampai 10
12. actors: nama beberapa aktor utama yang berperan dalam film
13. movie_facebook_likes: jumlah suka (likes) pada halaman Facebook resmi film tersebut

Dataset ini memuat berbagai informasi mengenai film. Setiap baris data merepresentasikan satu judul film, sedangkan kolom-kolomnya berisi atribut serta indikator yang terkait dengan film tersebut. Informasi yang disajikan mencakup aspek produksi seperti nama sutradara, anggaran biaya, dan negara asal produksi. Dataset ini juga memuat indikator penerimaan publik terhadap film. Hal tersebut tercermin melalui pendapatan kotor, skor penilaian pada IMDb, dan jumlah likes pada halaman resmi Facebook film tersebut.

Sintaks berikut bertujuan untuk mengecek nilai yang kosong (null) dan data yang ganda (duplicate values).

In [9]:
import numpy as np

# ganti "Null" with NaN
df.replace("Null", np.nan, inplace = True)
df.replace("N/A", np.nan, inplace=True)
df.replace("NaN", np.nan, inplace=True)
# Cek missing value
print(df.isnull().sum())

color                   11
director_name           12
duration                 0
gross                    8
genres                   1
movie_title              0
title_year               0
language                 0
country                  0
budget                   4
imdb_score               0
actors                   0
movie_facebook_likes     0
dtype: int64


Dari informasi di atas terdapat 11 null values pada color, 12 null values pada director_name, 8 null values pada gross, 1 null value pada genres, dan 4 null values pada budget. Perlu diperhatikan bahwa variabel-variabel tersebut memiliki tipe data yang berbeda, sehingga diperlukan metode yang berbeda pula untuk menangani missing value.

In [8]:
# Cek baris duplikat
duplicate_rows = df[df.duplicated(keep=False)]
print(duplicate_rows)
print("Number of duplicate : ", df.duplicated().sum())

    color      director_name  duration        gross  \
8   Color        Joss Whedon       173  623279547.0   
9   Color        Joss Whedon       173  623279547.0   
20  Color         Tom Hooper       158  148775460.0   
21  Color         Tom Hooper       158  148775460.0   
30  Color       Ridley Scott       150   65007045.0   
31  Color       Ridley Scott       150   65007045.0   
52  Color         Sam Mendes       143  304360277.0   
53  Color         Sam Mendes       143  304360277.0   
54  Color       Baz Luhrmann       143  144812796.0   
55  Color       Baz Luhrmann       143  144812796.0   
61  Color  Timur Bekmambetov       141          NaN   
63  Color  Timur Bekmambetov       141          NaN   

                       genres             movie_title  title_year language  \
8     Action|Adventure|Sci-Fi            The Avengers        2012  English   
9     Action|Adventure|Sci-Fi            The Avengers        2012  English   
20      Drama|Musical|Romance          Les Misérab

Dari informasi di atas terdapat sekitar 2 baris data yang sama dalam 12 baris. Sehingga terdapat 6 baris yang merupakan duplikat. Pada bagian Data Cleaning, baris-baris duplikat tersebut akan dihapus dan hanya baris unik yang akan dipertahankan.

**DATA CLEANING**



1.   Menghapus nilai null pada kolom gross dan budget karena keduanya merupakan kolom yang penting.
2.   Menghapus data duplikat dan hanya menyisakan data yang unik.
3. Mengisi nilai null pada kolom color dengan modus.
4. Mengisi nilai null pada kolom director_name dengan keterangan "Unknown".
5. Mengisi nilai null pada kolom genres dengan "None".
6. Memperbaiki nilai negatif pada kolom imbd_score menggunakan fungsi absolute value.
7. Memperbaiki data tidak valid pada kolom duration, misalnya durasi yang lebih dari 600 menit atau kurang dari 10 menit dengan cara menggantinya menggunakan nilai median.



In [11]:
# Menghapus baris yang memiliki null pada kolom gross dan budget
df.dropna(subset=['gross', 'budget'], inplace=True)

In [10]:
# Menghapus duplikat dan menyisakan satu baris unik
df.drop_duplicates(inplace=True)

In [None]:
# Mengisi null pada 'color' dengan modus
df['color'].fillna(df['color'].mode()[0], inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['color'].fillna(df['color'].mode()[0], inplace=True)


In [12]:
# Mengisi null pada 'director_name' dengan "Unknown"
df['director_name'].fillna('Unknown', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['director_name'].fillna('Unknown', inplace=True)


In [14]:
# Mengisi null pada 'genres' dengan 'None'
df['genres'].fillna('None', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['genres'].fillna('None', inplace=True)


In [13]:
# memperbaiki data tidak valid berupa nilai negatif pada kolom imdb_score dengan menggunakan fungsi nilai mutlak
df.loc[~df['imdb_score'].between(0, 10), 'imdb_score'] = np.abs(df['imdb_score'])


In [15]:
# Memperbaiki data tidak valid pada kolom 'duration'
# 1. Ubah nilai-nilai yang tidak valid menjadi NaN agar bisa diabaikan saat perhitungan.
df.loc[df['duration'] <= 10, 'duration'] = np.nan
df.loc[df['duration'] > 600, 'duration'] = np.nan

# 2. Menghitung median dari kolom 'duration' dengan mengabaikan nilai NaN
median_duration = df['duration'].median()
print(f"The median movie duration is: {median_duration} minutes")

# 3. Mengisi nilai NaN dengan median yang sudah dihitung
df['duration'].fillna(median_duration, inplace=True)

The median movie duration is: 144.0 minutes


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['duration'].fillna(median_duration, inplace=True)


In [16]:
# Menampilkan data setelah dilakukan data cleaning
print(df.isnull().sum())


color                   10
director_name            0
duration                 0
gross                    0
genres                   0
movie_title              0
title_year               0
language                 0
country                  0
budget                   0
imdb_score               0
actors                   0
movie_facebook_likes     0
dtype: int64


In [17]:
print(df)

     color      director_name  duration        gross  \
0    Color    Martin Scorsese     240.0  116866727.0   
1    Color        Shane Black     195.0  408992272.0   
2   color   Quentin Tarantino     187.0   54116191.0   
3    Color   Kenneth Lonergan     186.0      46495.0   
4    Color      Peter Jackson     186.0  258355354.0   
..     ...                ...       ...          ...   
93   Color        Tony Gilroy     135.0  113165635.0   
94   Color      Steve McQueen     134.0   56667870.0   
96   Color    Paul Greengrass     134.0  107100855.0   
97   Color         David Ayer     134.0   85707116.0   
98   Color     Clint Eastwood     144.0   47034272.0   

                                  genres                          movie_title  \
0           Biography|Comedy|Crime|Drama              The Wolf of Wall Street   
1                Action|Adventure|Sci-Fi                           Iron Man 3   
2   Crime|Drama|Mystery|Thriller|Western                    The Hateful Eight   
3  

**DATA TRANSFORMATION**

Pada bagian ini akan dilakukan proses data transformation dengan langkah-langkah sebagai berikut:
1. Standarisasi kolom color dan country
2. Konversi beberapa kolom menjadi tipe data numerik
3. Splitting pada kolom genres


In [18]:
# Membersihkan kolom 'color' dengan menstandarisasi semua nilai menjadi huruf kecil
df['color'] = df['color'].str.lower()

# Membersihkan kolom country dengan menstandarisasi kapitalisasi huruf
df['country'] = df['country'].str.upper()


In [19]:
# Mengubah kolom menjadi numerik
numeric_cols = ['duration', 'gross', 'title_year', 'budget', 'imdb_score']
for col in numeric_cols:
    df[col] = pd.to_numeric(df[col], errors='coerce')

In [20]:
# Splitting kolom 'genres'

# 1. Split kolom 'genres' yang dipisahkan oleh tanda '|' menjadi beberapa kolom di DataFrame baru
genre_split_df = df['genres'].str.split('|', expand=True)

# 2. Membuat nama kolom baru secara berurutan seperti 'genre_1', 'genre_2', dst.
new_column_names = [f'genre_{i+1}' for i in range(genre_split_df.shape[1])]
genre_split_df.columns = new_column_names

# 3. Gabungkan kolom-kolom genre yang baru dibuat dengan DataFrame asli
df_with_genres = pd.concat([df, genre_split_df], axis=1)
df_with_genres.fillna('None', inplace=True)

# Menampilkan hasil
print(df_with_genres.head())

    color      director_name  duration        gross  \
0   color    Martin Scorsese     240.0  116866727.0   
1   color        Shane Black     195.0  408992272.0   
2  color   Quentin Tarantino     187.0   54116191.0   
3   color   Kenneth Lonergan     186.0      46495.0   
4   color      Peter Jackson     186.0  258355354.0   

                                 genres                          movie_title  \
0          Biography|Comedy|Crime|Drama              The Wolf of Wall Street   
1               Action|Adventure|Sci-Fi                           Iron Man 3   
2  Crime|Drama|Mystery|Thriller|Western                    The Hateful Eight   
3                                 Drama                             Margaret   
4                     Adventure|Fantasy  The Hobbit: The Desolation of Smaug   

   title_year language country       budget  imdb_score  \
0        2013  English     USA  100000000.0         8.2   
1        2013  English     USA  200000000.0         7.2   
2        20

In [21]:
# Menyimpan hasil
df_with_genres.to_csv('/content/movie_dataset_cleaned.csv', index=False)