# Preprocessing Data

# 1. Memuat Data

**Import library dan membaca data**

In [None]:
import pandas as pd
df = pd.read_csv("/content/movie_sample_dataset.csv")

# 2. Memeriksa Data

**Menampilkan 5 baris pertama dari dataset**

In [None]:
df.head()

Unnamed: 0,color,director_name,duration,gross,genres,movie_title,title_year,language,country,budget,imdb_score,actors,movie_facebook_likes
0,Color,Martin Scorsese,240,116866727.0,Biography|Comedy|Crime|Drama,The Wolf of Wall Street,2013,English,USA,100000000.0,8.2,"Leonardo DiCaprio,Matthew McConaughey,Jon Favreau",138000
1,Color,Shane Black,195,408992272.0,Action|Adventure|Sci-Fi,Iron Man 3,2013,English,USA,200000000.0,7.2,"Robert Downey Jr.,Jon Favreau,Don Cheadle",95000
2,color,Quentin Tarantino,187,54116191.0,Crime|Drama|Mystery|Thriller|Western,The Hateful Eight,2015,English,USA,44000000.0,7.9,"Craig Stark,Jennifer Jason Leigh,Zoë Bell",114000
3,Color,Kenneth Lonergan,186,46495.0,Drama,Margaret,2011,English,usa,14000000.0,6.5,"Matt Damon,Kieran Culkin,John Gallagher Jr.",0
4,Color,Peter Jackson,186,258355354.0,Adventure|Fantasy,The Hobbit: The Desolation of Smaug,2013,English,USA,225000000.0,7.9,"Aidan Turner,Adam Brown,James Nesbitt",83000


**Bagian ini untuk mengetahui jumlah baris dan kolom data**

In [None]:
df.shape

(99, 13)

Ini menunjukkan data terdiri dari 99 baris dan 13 kolom

**Informasi umum tentang dataset, seperti tipe data dan nilai yang hilang**

In [None]:
import numpy as np

# replace "?" menjadi NaN
df.replace("?", np.nan, inplace = True)

# cek banyaknya missing value pada masing-masing kolom
print(df.isnull().sum())
df.dtypes

color                   0
director_name           0
duration                0
gross                   0
genres                  0
movie_title             0
title_year              0
language                0
country                 0
budget                  0
imdb_score              0
actors                  0
movie_facebook_likes    0
dtype: int64


Unnamed: 0,0
color,object
director_name,object
duration,int64
gross,float64
genres,object
movie_title,object
title_year,int64
language,object
country,object
budget,float64


# 3. Membersihkan Data

**Hapus baris yang memiliki nilai NaN pada kolom gross**

In [None]:
# simply drop whole row with NaN in "gross" column
df.dropna(subset=["gross"], axis=0, inplace=True)

In [None]:
# reset index, because we droped two rows
df.reset_index(drop=True, inplace=True)

In [None]:
print(df.head())

    color      director_name  duration        gross  \
0   Color    Martin Scorsese       240  116866727.0   
1   Color        Shane Black       195  408992272.0   
2  color   Quentin Tarantino       187   54116191.0   
3   Color   Kenneth Lonergan       186      46495.0   
4   Color      Peter Jackson       186  258355354.0   

                                 genres                          movie_title  \
0          Biography|Comedy|Crime|Drama              The Wolf of Wall Street   
1               Action|Adventure|Sci-Fi                           Iron Man 3   
2  Crime|Drama|Mystery|Thriller|Western                    The Hateful Eight   
3                                 Drama                             Margaret   
4                     Adventure|Fantasy  The Hobbit: The Desolation of Smaug   

   title_year language country       budget  imdb_score  \
0        2013  English     USA  100000000.0         8.2   
1        2013  English     USA  200000000.0         7.2   
2        20

Cek banayaknya missing value setelah pembersihan data

In [None]:
# cek banyaknya missing value pada masing-masing kolom
print(df.isnull().sum())

color                   10
director_name           10
duration                 0
gross                    0
genres                   1
movie_title              0
title_year               0
language                 0
country                  0
budget                   2
imdb_score               0
actors                   0
movie_facebook_likes     0
dtype: int64


Cek jumlah baris setelah pembersihan data

In [None]:
df.shape

(91, 13)

**Hapus baris yang memiliki nilai NaN pada kolom budget**

In [None]:
# simply drop whole row with NaN in "budget" column
df.dropna(subset=["budget"], axis=0, inplace=True)

In [None]:
# reset index, because we droped two rows
df.reset_index(drop=True, inplace=True)

In [None]:
print(df.head())

    color      director_name  duration        gross  \
0   Color    Martin Scorsese       240  116866727.0   
1   Color        Shane Black       195  408992272.0   
2  color   Quentin Tarantino       187   54116191.0   
3   Color   Kenneth Lonergan       186      46495.0   
4   Color      Peter Jackson       186  258355354.0   

                                 genres                          movie_title  \
0          Biography|Comedy|Crime|Drama              The Wolf of Wall Street   
1               Action|Adventure|Sci-Fi                           Iron Man 3   
2  Crime|Drama|Mystery|Thriller|Western                    The Hateful Eight   
3                                 Drama                             Margaret   
4                     Adventure|Fantasy  The Hobbit: The Desolation of Smaug   

   title_year language country       budget  imdb_score  \
0        2013  English     USA  100000000.0         8.2   
1        2013  English     USA  200000000.0         7.2   
2        20

Cek missing value setelah menghapus baris yang memiliki nilai NaN pada kolom budget

In [None]:
# cek banyaknya missing value pada masing-masing kolom
print(df.isnull().sum())

color                   10
director_name           10
duration                 0
gross                    0
genres                   1
movie_title              0
title_year               0
language                 0
country                  0
budget                   0
imdb_score               0
actors                   0
movie_facebook_likes     0
dtype: int64


Cek jumlah baris setelah pembersihan data

In [None]:
df.shape

(89, 13)

**Mengatasi nilai yang tidak konsisten atau kesalahan penulisan di kolom, seperti kolom "color", masih banyak perbedaan penulisan seperti "color" dengan "Color", sehingga dalam hal ini disamakan menjadi "color"**

In [None]:
df["color"] = df["color"].str.strip().str.lower()
print(df["color"].value_counts())

color
color              78
black and white     1
Name: count, dtype: int64


In [None]:
# cek banyaknya missing value pada masing-masing kolom
print(df.isnull().sum())

color                   10
director_name           10
duration                 0
gross                    0
genres                   1
movie_title              0
title_year               0
language                 0
country                  0
budget                   0
imdb_score               0
actors                   0
movie_facebook_likes     0
dtype: int64


**Mengubah atau menghapus nilai yang tidak standar, seperti nilai negatif atau N/A**

In [None]:
df=df.dropna()
print(df.isnull().sum())


color                   0
director_name           0
duration                0
gross                   0
genres                  0
movie_title             0
title_year              0
language                0
country                 0
budget                  0
imdb_score              0
actors                  0
movie_facebook_likes    0
dtype: int64


Setelah melakukan semua pembersihan data maka sudah tidak ada missing value atau N/A

# 4. Transformasi Data

**Untuk mengetahui type data**

In [None]:
df.dtypes

Unnamed: 0,0
color,object
director_name,object
duration,int64
gross,float64
genres,object
movie_title,object
title_year,int64
language,object
country,object
budget,float64


Karena tipe data sudah sesuai semua, maka tidak ada yang perlu diganti lagi

**Memisahkan kolom "genre" yang awalnya bergabung dalam satu kolom menjadi beberapa kolom terpisah**

In [None]:
# buat dummy variable untuk semua genre
df_genres_ohe = df['genres'].str.get_dummies(sep='|')

# gabungkan ke dataframe asli
df_ohe = pd.concat([df, df_genres_ohe], axis=1)

print(df_ohe.head(10))


    color      director_name  duration        gross  \
0   color    Martin Scorsese       240  116866727.0   
1   color        Shane Black       195  408992272.0   
2   color  Quentin Tarantino       187   54116191.0   
3   color   Kenneth Lonergan       186      46495.0   
4   color      Peter Jackson       186  258355354.0   
6   color      Peter Jackson       -50  303001229.0   
7   color        Joss Whedon       173  623279547.0   
8   color        Joss Whedon       173  623279547.0   
10  color               Null       158  102515793.0   
12  color  Christopher Nolan       169  187991439.0   

                                  genres                          movie_title  \
0           Biography|Comedy|Crime|Drama              The Wolf of Wall Street   
1                Action|Adventure|Sci-Fi                           Iron Man 3   
2   Crime|Drama|Mystery|Thriller|Western                    The Hateful Eight   
3                                  Drama                             M

Pada bagian ini menggunakan dummy variabel untuk semua genre, dan muncul tambahan kolom baru untuk semua genre

Walaupun ada tambahan kolom baru tp sudah tidak ada missing value di setiap kolomnya soalnya menggunakan dummy variabel

In [None]:
# cek banyaknya missing value pada masing-masing kolom
print(df.isnull().sum())

color                   0
director_name           0
duration                0
gross                   0
genres                  0
movie_title             0
title_year              0
language                0
country                 0
budget                  0
imdb_score              0
actors                  0
movie_facebook_likes    0
dtype: int64


**Normalisasi teks untuk memastikan konsistensi**

Dalam hal ini, semua teks diubah menjadi huruf kecil

In [None]:
for col in df_ohe.select_dtypes(include='object').columns:
    df_ohe[col] = df_ohe[col].str.strip().str.lower()
    df_ohe.columns = df_ohe.columns.str.strip().str.lower()

print(df_ohe.head())


   color      director_name  duration        gross  \
0  color    martin scorsese       240  116866727.0   
1  color        shane black       195  408992272.0   
2  color  quentin tarantino       187   54116191.0   
3  color   kenneth lonergan       186      46495.0   
4  color      peter jackson       186  258355354.0   

                                 genres                          movie_title  \
0          biography|comedy|crime|drama              the wolf of wall street   
1               action|adventure|sci-fi                           iron man 3   
2  crime|drama|mystery|thriller|western                    the hateful eight   
3                                 drama                             margaret   
4                     adventure|fantasy  the hobbit: the desolation of smaug   

   title_year language country       budget  ...  history music  musical  \
0        2013  english     usa  100000000.0  ...        0     0        0   
1        2013  english     usa  200000000.

# 5. Penyimpanan Data

**Menyimpan data yang telah diproses ke dalam file csv**

In [None]:
df_ohe.to_csv("movie_dataset_cleaned.csv", index=False)
