# Graded Challenge 7

Nama: Wilona Natalie Elvaretta  
Batch: RMT-028  
Dataset: [Kaggle](https://www.kaggle.com/datasets/guru001/movie-genre-prediction/data?select=sample_submission.csv)  
Deployment: [HuggingFace](https://huggingface.co/spaces/wilonatalie/p2-ftds028-rmt-g7)  
Model: [NLP](https://drive.google.com/drive/folders/1rWdKxgfGYNyhlGdIW2Au5yn37EwFHBip?usp=sharing)
  
**Problem**:  
Movie genre classification berguna untuk banyak hal, beberapa di antaranya sebagai berikut:
- Filmmaker bisa menguji apakah sinopsis yang mereka draft bisa dikategorikan sebagai genre yang dikehendaki. Jika prediksi tepat, penonton akan mudah untuk menangkap genre film yang ditawarkan hanya dengan membaca sinopsis
- Penonton dimungkinkan untuk melihat genre dari sinopsis, untuk memastikan mereka tidak menonton genre yang tidak diinginkan. Contoh, ada beberapa orang yang sangat menghindari film horor
- OTT platforms mampu mengkategorikan film dengan lebih akurat, dengan mengklarifikasi sinopsis dengan informasi genre yang diberikan

Objektif dari program ini adalah untuk menjadi sarana mengkategorikan film ke genre yang sesuai berdasarkan sinopsisnya, dan diharapkan bisa dipakai oleh berbagai macam pengguna. Model dibuat berdasarkan algoritma Artificial Neural Network (ANN) yang terbaik performanya. Metric yang dipilih untuk menguji performa adalah Accuracy, karena ingin diminimalisir film yang salah diprediksi dan fokus pada model "correctness".

Program diharapkan selesai per tanggal 19 Maret 2024.

## Import Libraries

In [2]:
# General use
import numpy as np
import pandas as pd

# Text-related
import re
import string
import nltk
nltk.download('stopwords') # Stopwords
nltk.download('punkt') # Punctuation
nltk.download('wordnet') # Wordnet for lemmatization
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer

# NN-related
from tensorflow.keras.saving import load_model

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


## Model Inference

### Model loading

Model yang sudah di-train di-load.

In [3]:
# Load trained model
model = load_model('model_nlp_final')

### Data loading & processing

Di bawah ini, data di-loading dan proses dengan fungsi text_preprocessing.

In [4]:
# Load data
df_inf = pd.read_csv('/content/inference.csv')

In [None]:
# Show data
df_inf

In [14]:
# Pre-processing

# Define stopwords
stopwords_nltk = list(set(stopwords.words('english')))
stopwords_add = ['See full synopsis', 'KBBO-AINOS', 'one',  'two', 'three', 'four', 'five', 'six', 'seven', 'eight', 'nine']
stopwords_all = stopwords_nltk + stopwords_add

# Define lemmatizer
lemmatizer = WordNetLemmatizer()

# Define pre-processing function
def text_preprocessing(document):
    # Case folding
    document = document.lower()
    # Number, symbols, punctuations removal (keeping only letters & whitespace)
    document = re.sub('[^a-z\s]+', ' ', document)
    # Remove single character if any
    document = re.sub(r'\s+.\s', ' ', document)
    # Whitespace, tabs, new lines
    document = document.strip()
    # Tokenization
    tokens = word_tokenize(document)
    # Stopwords removal
    tokens = [word for word in tokens if word not in stopwords_all]
    # Lemmatization
    tokens = [lemmatizer.lemmatize(word) for word in tokens]
    # Combining Tokens
    document = ' '.join(tokens)
    return document

# Pre-process synopsis
df_inf['synopsis_processed'] = df_inf['synopsis'].apply(lambda x: text_preprocessing(x))

### Predicting

Di bawah ini, data inferens diprediksi dengan model yang sudah di-load.

In [16]:
# Predicting
y_pred_inf_proba = model.predict(df_inf['synopsis_processed'])
y_pred_inf = np.argmax(y_pred_inf_proba, axis=-1)

# Menampilkan hasil prediksi
if y_pred_inf == 0:
    print('Movie genre: Fantasy')
elif y_pred_inf == 1:
    print('Movie genre: Horror')
elif y_pred_inf == 2:
    print('Movie genre: Family')
elif y_pred_inf == 3:
    print('Movie genre: Sci-fi')
elif y_pred_inf == 4:
    print('Movie genre: Action')
elif y_pred_inf == 5:
    print('Movie genre: Crime')
elif y_pred_inf == 6:
    print('Movie genre: Adventure')
elif y_pred_inf == 7:
    print('Movie genre: Mystery')
elif y_pred_inf == 8:
    print('Movie genre: Romance')
else:
    print('Movie genre: Thriller')

Movie genre: Sci-fi


Model salah memprediksi data inferens, di mana genre film seharusnya Romance. Namun jika melihat dari sinopsis, memang kurang bisa dipahami bahwa itu adalah genre Romance.