# **1. Perkenalan Dataset**


Tahap pertama, Anda harus mencari dan menggunakan dataset dengan ketentuan sebagai berikut:

1. **Sumber Dataset**:  
   Dataset dapat diperoleh dari berbagai sumber, seperti public repositories (*Kaggle*, *UCI ML Repository*, *Open Data*) atau data primer yang Anda kumpulkan sendiri.


# **2. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning atau deep learning.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# **3. Memuat Dataset**

Pada tahap ini, Anda perlu memuat dataset ke dalam notebook. Jika dataset dalam format CSV, Anda bisa menggunakan pustaka pandas untuk membacanya. Pastikan untuk mengecek beberapa baris awal dataset untuk memahami strukturnya dan memastikan data telah dimuat dengan benar.

Jika dataset berada di Google Drive, pastikan Anda menghubungkan Google Drive ke Colab terlebih dahulu. Setelah dataset berhasil dimuat, langkah berikutnya adalah memeriksa kesesuaian data dan siap untuk dianalisis lebih lanjut.

Jika dataset berupa unstructured data, silakan sesuaikan dengan format seperti kelas Machine Learning Pengembangan atau Machine Learning Terapan

In [2]:
# Tentukan nama file dataset Anda
file_path = "netflix_titles.csv"

# Muat dataset menggunakan pandas
try:
    df = pd.read_csv(file_path)
    print(f"Dataset '{file_path}' berhasil dimuat.")

    # Menampilkan 5 baris pertama untuk inspeksi awal
    print("\n5 baris pertama dari dataset:")
    print(df.head())

except FileNotFoundError:
    print(f"Error: File '{file_path}' tidak ditemukan.")
except Exception as e:
    print(f"Terjadi error saat memuat file: {e}")

Dataset 'netflix_titles.csv' berhasil dimuat.

5 baris pertama dari dataset:
  show_id     type                  title         director  \
0      s1    Movie   Dick Johnson Is Dead  Kirsten Johnson   
1      s2  TV Show          Blood & Water              NaN   
2      s3  TV Show              Ganglands  Julien Leclercq   
3      s4  TV Show  Jailbirds New Orleans              NaN   
4      s5  TV Show           Kota Factory              NaN   

                                                cast        country  \
0                                                NaN  United States   
1  Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...   South Africa   
2  Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...            NaN   
3                                                NaN            NaN   
4  Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...          India   

           date_added  release_year rating   duration  \
0  September 25, 2021          2020  PG-13     90 min   
1  Septem

# **4. Exploratory Data Analysis (EDA)**

Pada tahap ini, Anda akan melakukan **Exploratory Data Analysis (EDA)** untuk memahami karakteristik dataset.

Tujuan dari EDA adalah untuk memperoleh wawasan awal yang mendalam mengenai data dan menentukan langkah selanjutnya dalam analisis atau pemodelan.

In [3]:
print("Memulai Exploratory Data Analysis (EDA)...")

# --- 1. Distribusi Tipe Konten (Movie vs TV Show) ---
plt.figure(figsize=(6, 4))
sns.countplot(x='type', data=df, order=df['type'].value_counts().index)
plt.title('Distribusi Konten: Movie vs TV Show')
plt.xlabel('Tipe Konten')
plt.ylabel('Jumlah')
plt.savefig('1_distribusi_tipe_konten.png')
plt.clf() # Membersihkan plot untuk plot berikutnya
print("Plot 1 (Tipe Konten) disimpan sebagai '1_distribusi_tipe_konten.png'")
print(df['type'].value_counts())


# --- 2. Distribusi Rating ---
plt.figure(figsize=(12, 6))
# Mengurutkan berdasarkan frekuensi
order = df['rating'].value_counts().index
sns.countplot(x='rating', data=df, order=order)
plt.title('Distribusi Rating Konten')
plt.xlabel('Rating')
plt.ylabel('Jumlah')
plt.xticks(rotation=45)
plt.tight_layout() # buat rapikan label
plt.savefig('2_distribusi_rating.png')
plt.clf()
print("Plot 2 (Rating) disimpan sebagai '2_distribusi_rating.png'")


# --- 3. Top 10 Negara Produksi ---
try:
    countries = df.dropna(subset=['country'])['country'].str.split(', ').explode()
    top_countries = countries.value_counts().head(10)

    plt.figure(figsize=(12, 6))
    sns.barplot(x=top_countries.values, y=top_countries.index)
    plt.title('Top 10 Negara Produksi Konten')
    plt.xlabel('Jumlah Konten')
    plt.ylabel('Negara')
    plt.tight_layout()
    plt.savefig('3_top_10_negara.png')
    plt.clf()
    print("Plot 3 (Negara) disimpan sebagai '3_top_10_negara.png'")
    print("\nTop 10 Negara:")
    print(top_countries)
except Exception as e:
    print(f"Error saat memproses 'country': {e}")


# --- 4. Top 10 Genre (listed_in) ---
try:
    genres = df['listed_in'].str.split(', ').explode()
    top_genres = genres.value_counts().head(10)

    plt.figure(figsize=(12, 6))
    sns.barplot(x=top_genres.values, y=top_genres.index)
    plt.title('Top 10 Genre Konten')
    plt.xlabel('Jumlah Konten')
    plt.ylabel('Genre')
    plt.tight_layout()
    plt.savefig('4_top_10_genre.png')
    plt.clf()
    print("Plot 4 (Genre) disimpan sebagai '4_top_10_genre.png'")
    print("\nTop 10 Genre:")
    print(top_genres)
except Exception as e:
    print(f"Error saat memproses 'listed_in': {e}")


# --- 5. Analisis Durasi (terpisah untuk Movie dan TV Show) ---
# Durasi Film (Movie)
try:
    df_movies = df[df['type'] == 'Movie'].copy()
    # Membersihkan ' min' dan konversi ke integer
    df_movies['duration_min'] = df_movies['duration'].str.replace(' min', '').astype(float) # pakai float untuk handle NaN

    plt.figure(figsize=(10, 6))
    sns.histplot(df_movies['duration_min'], bins=50, kde=True)
    plt.title('Distribusi Durasi Film (dalam Menit)')
    plt.xlabel('Durasi (Menit)')
    plt.ylabel('Jumlah')
    plt.savefig('5_distribusi_durasi_film.png')
    plt.clf()
    print("Plot 5 (Durasi Film) disimpan sebagai '5_distribusi_durasi_film.png'")
except Exception as e:
    print(f"Error saat memproses durasi film: {e}")

# Durasi TV Show (Musim)
try:
    df_tv_shows = df[df['type'] == 'TV Show'].copy()
    # Membersihkan ' Season'/' Seasons' dan konversi ke integer
    df_tv_shows['seasons'] = df_tv_shows['duration'].str.replace(' Seasons', '').str.replace(' Season', '').astype(float)

    plt.figure(figsize=(10, 6))
    sns.countplot(x='seasons', data=df_tv_shows, order=df_tv_shows['seasons'].value_counts().sort_index().index)
    plt.title('Distribusi Jumlah Musim (TV Show)')
    plt.xlabel('Jumlah Musim')
    plt.ylabel('Jumlah')
    plt.savefig('6_distribusi_jumlah_musim.png')
    plt.clf()
    print("Plot 6 (Durasi TV Show) disimpan sebagai '6_distribusi_jumlah_musim.png'")
except Exception as e:
    print(f"Error saat memproses durasi TV show: {e}")

print("\nEDA Selesai. 6 plot telah disimpan sebagai file .png")

Memulai Exploratory Data Analysis (EDA)...
Plot 1 (Tipe Konten) disimpan sebagai '1_distribusi_tipe_konten.png'
type
Movie      6131
TV Show    2676
Name: count, dtype: int64
Plot 2 (Rating) disimpan sebagai '2_distribusi_rating.png'
Plot 3 (Negara) disimpan sebagai '3_top_10_negara.png'

Top 10 Negara:
country
United States     3689
India             1046
United Kingdom     804
Canada             445
France             393
Japan              318
Spain              232
South Korea        231
Germany            226
Mexico             169
Name: count, dtype: int64
Plot 4 (Genre) disimpan sebagai '4_top_10_genre.png'

Top 10 Genre:
listed_in
International Movies        2752
Dramas                      2427
Comedies                    1674
International TV Shows      1351
Documentaries                869
Action & Adventure           859
TV Dramas                    763
Independent Movies           756
Children & Family Movies     641
Romantic Movies              616
Name: count, dtype: int

<Figure size 600x400 with 0 Axes>

<Figure size 1200x600 with 0 Axes>

<Figure size 1200x600 with 0 Axes>

<Figure size 1200x600 with 0 Axes>

<Figure size 1000x600 with 0 Axes>

<Figure size 1000x600 with 0 Axes>

# **5. Data Preprocessing**

Pada tahap ini, data preprocessing adalah langkah penting untuk memastikan kualitas data sebelum digunakan dalam model machine learning.

Jika Anda menggunakan data teks, data mentah sering kali mengandung nilai kosong, duplikasi, atau rentang nilai yang tidak konsisten, yang dapat memengaruhi kinerja model. Oleh karena itu, proses ini bertujuan untuk membersihkan dan mempersiapkan data agar analisis berjalan optimal.

Berikut adalah tahapan-tahapan yang bisa dilakukan, tetapi **tidak terbatas** pada:
1. Menghapus atau Menangani Data Kosong (Missing Values)
2. Menghapus Data Duplikat
3. Normalisasi atau Standarisasi Fitur
4. Deteksi dan Penanganan Outlier
5. Encoding Data Kategorikal
6. Binning (Pengelompokan Data)

Cukup sesuaikan dengan karakteristik data yang kamu gunakan yah. Khususnya ketika kami menggunakan data tidak terstruktur.

In [4]:
# --- 1. Cek jumlah missing values SEBELUM preprocessing ---
print("Jumlah missing values SEBELUM preprocessing:")
print(df.isnull().sum())
print("-" * 30)

# --- 2. Menangani Missing Values ---

# Mengisi nilai kosong dengan "Unknown"
# .fillna() untuk mengisi nilai NaN
df['director'].fillna('Unknown', inplace=True)
df['cast'].fillna('Unknown', inplace=True)
df['country'].fillna('Unknown', inplace=True)

# Menghapus baris yang memiliki nilai kosong pada kolom tertentu
# .dropna() pada subset kolom
df.dropna(subset=['date_added', 'rating', 'duration'], inplace=True)

# --- 3. Cek jumlah missing values SETELAH preprocessing ---
print("\nJumlah missing values SETELAH preprocessing:")
print(df.isnull().sum())
print("-" * 30)

# --- 4. Cek bentuk data setelah preprocessing ---
print(f"\nBentuk data asli: (8807, 12)")
print(f"Bentuk data setelah dibersihkan: {df.shape}")
print("\nData preprocessing untuk missing values selesai!")

Jumlah missing values SEBELUM preprocessing:
show_id            0
type               0
title              0
director        2634
cast             825
country          831
date_added        10
release_year       0
rating             4
duration           3
listed_in          0
description        0
dtype: int64
------------------------------

Jumlah missing values SETELAH preprocessing:
show_id         0
type            0
title           0
director        0
cast            0
country         0
date_added      0
release_year    0
rating          0
duration        0
listed_in       0
description     0
dtype: int64
------------------------------

Bentuk data asli: (8807, 12)
Bentuk data setelah dibersihkan: (8790, 12)

Data preprocessing untuk missing values selesai!


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['director'].fillna('Unknown', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['cast'].fillna('Unknown', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values alw

In [5]:
output_notebook_csv = "netflix_preprocessed_notebook.csv"

try:
    df.to_csv(output_notebook_csv, index=False)
    print(f"Dataset bersih dari notebook berhasil disimpan sebagai: {output_notebook_csv}")
except NameError:
    print("Error: Pastikan DataFrame 'df' atau sesuaikan nama variabelnya wak.")
except Exception as e:
    print(f"Error saat menyimpan file CSV dari notebook: {e}")

Dataset bersih dari notebook berhasil disimpan sebagai: netflix_preprocessed_notebook.csv
