<a href="https://colab.research.google.com/github/notnsas/data-science-capstone-project-college/blob/main/notebooks/07_deep_learning_benchmark_ipynb.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [30]:
df_en = pd.read_csv("https://raw.githubusercontent.com/LatiefDataVisionary/data-science-capstone-project-college/main/data/processed/reviews_labeled_en_tokenized.csv.zip")
df_id = pd.read_csv("https://raw.githubusercontent.com/LatiefDataVisionary/data-science-capstone-project-college/main/data/processed/reviews_labeled_id_tokenized.csv.zip")
df_en.head()

Unnamed: 0,content,score,thumbsUpCount,cleaned_content,sentiment_label
0,"they fixed it, I was just really pissy yesterd...",5,1,"['fixed', 'really', 'pissy', 'yesterday', 'cau...",neutral
1,"Offline doesnt work, support doesnt help, just...",1,0,"['offline', 'doesnt', 'work', 'support', 'does...",negative
2,Super annoying ad experience! It feels like th...,1,5,"['super', 'annoying', 'ad', 'experience', 'fee...",positive
3,üëç,5,1,[],neutral
4,super song for everything,5,0,"['super', 'song', 'everything']",positive


In [31]:
df_en['sentiment_label'] = df_en['sentiment_label'].map({
    'negative': 0,
    'neutral': 1,
    'positive': 2
})
df_id['sentiment_label'] = df_id['sentiment_label'].map({
    'negative': 0,
    'neutral': 1,
    'positive': 2
})


In [32]:
df_en.head()

Unnamed: 0,content,score,thumbsUpCount,cleaned_content,sentiment_label
0,"they fixed it, I was just really pissy yesterd...",5,1,"['fixed', 'really', 'pissy', 'yesterday', 'cau...",1
1,"Offline doesnt work, support doesnt help, just...",1,0,"['offline', 'doesnt', 'work', 'support', 'does...",0
2,Super annoying ad experience! It feels like th...,1,5,"['super', 'annoying', 'ad', 'experience', 'fee...",2
3,üëç,5,1,[],1
4,super song for everything,5,0,"['super', 'song', 'everything']",2


### Subtask:
Prepare and apply SMOTE to `df_en` and `df_id` separately.

**Reasoning**:
To apply SMOTE separately to `df_en` and `df_id`, we need to prepare the data for each dataframe by separating features (X) from the target variable (y), which is the `sentiment_label` column. Then, we will apply SMOTE to each dataframe to handle class imbalance in the `sentiment_label` column. Since `sentiment_label` is a categorical column, we need to encode it before applying SMOTE. I will use one-hot encoding and then apply SMOTE to the encoded data.

**Reasoning**:
Finally, save the dataframes that have been processed and resampled using SMOTE.

### Subtask:
Prepare data for SMOTE and apply SMOTE.

**Reasoning**:
To apply SMOTE, we need to separate the features (X) from the target variable (y). Since the user specified applying SMOTE based on the 'sentiment' column, I will assume the encoded sentiment columns are the target (y) and the rest are features (X). Then I will apply SMOTE to balance the classes based on these sentiment columns. Note that SMOTE is typically used for a single target variable in classification, but since we have one-hot encoded sentiment, we might need to adapt how SMOTE is applied or clarify the exact target variable for imbalance. For this example, I will demonstrate how you would typically use SMOTE with a single target variable, and you may need to adjust this based on your specific problem setup (e.g., if you have a primary sentiment label as the target). If your goal is to balance based on the one-hot encoded columns simultaneously, SMOTEN or a similar technique might be more appropriate, but requires careful consideration of the data structure. I'll proceed assuming one of the encoded sentiment columns is the target for demonstration. **You might need to select the specific target column based on your use case.**

In [34]:
from imblearn.over_sampling import SMOTE
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# Fungsi untuk menerapkan SMOTE pada dataframe berdasarkan 'sentiment_label'
def apply_smote_to_sentiment(df, dataframe_name):
    # Hapus kolom non-numerik yang bukan 'sentiment_label' untuk fitur SMOTE
    # Mengasumsikan 'content', 'cleaned_content' adalah teks/list dan bukan untuk input langsung SMOTE
    df_numeric = df.drop(columns=['content', 'cleaned_content', 'sentiment_label'], errors='ignore')

    # Definisikan fitur (X) dan target (y)
    X = df_numeric
    y = df['sentiment_label']

    # Tangani potensi fitur non-numerik jika ada dan harus disertakan
    # Untuk contoh ini, kita akan melanjutkan dengan kolom numerik setelah menghapus teks

    # Periksa nilai yang hilang pada variabel target sebelum encoding
    if y.isnull().any():
        print(f"Peringatan: Ditemukan nilai yang hilang di 'sentiment_label' di {dataframe_name}. Mengisi dengan 'unknown'.")
        y = y.fillna('unknown')

    # Gunakan ColumnTransformer untuk one-hot encoding variabel target
    # Ini sedikit tidak biasa untuk kolom target tunggal, tetapi memastikan itu diperlakukan secara kategorikal
    # Pendekatan yang lebih sederhana untuk target saja adalah pandas.get_dummies
    # y_encoded = pd.get_dummies(y, prefix='sentiment')


    # SMOTE adalah untuk data numerik. Jika X berisi kolom non-numerik yang ingin Anda gunakan,
    # Anda juga perlu meng-*encode*-nya sebelum langkah ini.
    # Untuk contoh ini, kita mengasumsikan X adalah numerik atau telah di-*pre-encoded* di tempat lain jika diperlukan.
    # Jika X memiliki kolom kategorikal yang ingin Anda sertakan, Anda perlu memodifikasi ColumnTransformer
    # untuk menangani kolom numerik (pass through) dan kategorikal (one-hot encode).

    # Mari kita sederhanakan dan asumsikan X siap atau kita hanya menggunakan fitur numerik dari df_numeric
    # Jika Anda perlu menyertakan fitur teks yang di-*encoded* (seperti TF-IDF), fitur tersebut harus menggantikan df_numeric

    # Terapkan SMOTE. SMOTE dirancang untuk data numerik.
    # Kita menerapkannya berdasarkan label target yang di-*encoded*.
    # Struktur penerapan SMOTE pada target itu sendiri dengan fitur ini tidak konvensional
    # SMOTE biasanya diterapkan pada fitur (X) untuk menyeimbangkan kelas target (y).

    # Mari kita definisikan ulang X dan y untuk penerapan SMOTE standar:
    # X akan menjadi fitur (kolom numerik dari df_numeric)
    # y akan menjadi label sentimen kategorikal asli untuk digunakan dalam target fit_resample SMOTE
    X_smote = df_numeric # Fitur untuk SMOTE
    y_smote = y # Label target untuk SMOTE

    # Periksa apakah ada cukup sampel di setiap kelas untuk SMOTE
    print(f"Jumlah nilai untuk label sentimen di {dataframe_name} sebelum SMOTE:")
    print(y_smote.value_counts())

    # SMOTE membutuhkan setidaknya dua sampel dari kelas minoritas.
    # Periksa apakah jumlah kelas unik lebih dari 1 dan jika ada kelas yang memiliki lebih dari 1 sampel.
    if y_smote.nunique() > 1 and (y_smote.value_counts() > 1).any():
        # Periksa apakah k_neighbors lebih besar dari jumlah sampel di kelas terkecil
        min_samples = min(y_smote.value_counts())
        k_neighbors = min(5, min_samples - 1) if min_samples > 1 else 1 # Sesuaikan k_neighbors

        if k_neighbors < 1:
             print(f"SMOTE tidak dapat diterapkan pada {dataframe_name} karena kelas terkecil hanya memiliki {min_samples} sampel. k_neighbors harus setidaknya 1.")
             return df


        smote = SMOTE(random_state=42, k_neighbors=k_neighbors)

        print(f"\nMenerapkan SMOTE pada {dataframe_name}...")
        X_resampled, y_resampled = smote.fit_resample(X_smote, y_smote)

        print(f"Bentuk DataFrame setelah SMOTE untuk {dataframe_name}:", X_resampled.shape)
        print(f"\nJumlah nilai kolom target setelah SMOTE untuk {dataframe_name}:")
        print(pd.Series(y_resampled).value_counts())

        # Rekonstruksi dataframe
        # Tambahkan kembali kolom non-numerik asli dan target yang di-resample
        resampled_df = X_resampled
        resampled_df['sentiment_label'] = y_resampled
        # Tambahkan kembali kolom teks asli - mungkin tidak selaras sempurna setelah SMOTE
        # Pendekatan yang lebih kuat adalah menangani fitur teks SEBELUM SMOTE atau
        # mempertimbangkan teknik seperti SMOTETomek atau NearMiss tergantung pada tipe data dan tujuan.
        # Untuk kesederhanaan di sini, kita hanya akan menambahkan kembali label sentimen.
        # Jika 'content' dan 'cleaned_content' diperlukan dengan data yang di-resample,
        # Anda memerlukan strategi yang berbeda, karena SMOTE tidak me-resample secara langsung.

        return resampled_df
    else:
        print(f"SMOTE tidak dapat diterapkan pada {dataframe_name} karena tidak ada cukup kelas atau sampel per kelas.")
        return df # Kembalikan dataframe asli jika SMOTE tidak dapat diterapkan


# Terapkan SMOTE pada setiap dataframe
resampled_df_en = apply_smote_to_sentiment(df_en, 'df_en')
resampled_df_id = apply_smote_to_sentiment(df_id, 'df_id')

print("\nSelesai menerapkan SMOTE pada kedua dataframe.")

Value counts for sentiment labels in df_en before SMOTE:
sentiment_label
2    59698
0     9095
1     8281
Name: count, dtype: int64

Applying SMOTE to df_en...
DataFrame shape after SMOTE for df_en: (179094, 2)

Value counts of the target column after SMOTE for df_en:
sentiment_label
1    59698
0    59698
2    59698
Name: count, dtype: int64
Value counts for sentiment labels in df_id before SMOTE:
sentiment_label
2    39248
0    15322
1     3634
Name: count, dtype: int64

Applying SMOTE to df_id...
DataFrame shape after SMOTE for df_id: (117744, 2)

Value counts of the target column after SMOTE for df_id:
sentiment_label
2    39248
0    39248
1    39248
Name: count, dtype: int64

Finished applying SMOTE to both dataframes.


In [35]:
# Tampilkan rasio baru label sentimen setelah SMOTE
print("\nRasio label sentimen di dataframe Inggris yang di-resample:")
if resampled_df_en is not None:
    display(resampled_df_en['sentiment_label'].value_counts(normalize=True))
else:
    print("DataFrame Inggris tidak di-resample.")

print("\nRasio label sentimen di dataframe Indonesia yang di-resample:")
if resampled_df_id is not None:
    display(resampled_df_id['sentiment_label'].value_counts(normalize=True))
else:
    print("DataFrame Indonesia tidak di-resample.")


Sentiment label ratio in resampled English dataframe:


Unnamed: 0_level_0,proportion
sentiment_label,Unnamed: 1_level_1
1,0.333333
0,0.333333
2,0.333333



Sentiment label ratio in resampled Indonesian dataframe:


Unnamed: 0_level_0,proportion
sentiment_label,Unnamed: 1_level_1
2,0.333333
0,0.333333
1,0.333333


In [39]:
len(df_en)

77074

### Subtask:
Mempersiapkan dan menerapkan SMOTE pada `df_en` dan `df_id` secara terpisah.

**Penalaran**:
Untuk menerapkan SMOTE secara terpisah pada `df_en` dan `df_id`, kita perlu mempersiapkan data untuk setiap dataframe dengan memisahkan fitur (X) dari variabel target (y), yaitu kolom `sentiment_label`. Kemudian, kita akan menerapkan SMOTE pada setiap dataframe untuk menangani ketidakseimbangan kelas pada kolom `sentiment_label`. Karena `sentiment_label` adalah kolom kategorikal, kita perlu melakukan *encoding* sebelum menerapkan SMOTE. Saya akan menggunakan *one-hot encoding* dan kemudian menerapkan SMOTE pada data yang telah di-*encoded*.

**Penalaran**:
Akhirnya, simpan dataframe yang telah diproses dan di-resample menggunakan SMOTE.

### Subtask:
Mempersiapkan data untuk SMOTE dan menerapkan SMOTE.

**Penalaran**:
Untuk menerapkan SMOTE, kita perlu memisahkan fitur (X) dari variabel target (y). Karena pengguna meminta penerapan SMOTE berdasarkan kolom 'sentiment', saya akan menganggap kolom sentimen yang di-encoded sebagai target (y) dan sisanya sebagai fitur (X). Kemudian saya akan menerapkan SMOTE untuk menyeimbangkan kelas berdasarkan kolom sentimen ini. Perlu dicatat bahwa SMOTE biasanya digunakan untuk satu variabel target dalam klasifikasi, tetapi karena kita memiliki sentimen yang di-*one-hot encoded*, kita mungkin perlu menyesuaikan cara SMOTE diterapkan atau memperjelas variabel target yang tepat untuk ketidakseimbangan. Untuk contoh ini, saya akan mendemonstrasikan bagaimana Anda biasanya menggunakan SMOTE dengan satu variabel target, dan Anda mungkin perlu menyesuaikannya berdasarkan pengaturan masalah spesifik Anda (misalnya, jika Anda memiliki label sentimen utama sebagai target). Jika tujuan Anda adalah menyeimbangkan berdasarkan kolom yang di-*one-hot encoded* secara bersamaan, SMOTEN atau teknik serupa mungkin lebih tepat, tetapi memerlukan pertimbangan cermat terhadap struktur data. Saya akan melanjutkan dengan asumsi salah satu kolom sentimen yang di-*encoded* adalah target untuk demonstrasi. **Anda mungkin perlu memilih kolom target spesifik berdasarkan kasus penggunaan Anda.**

### Subtask:
Menyimpan dataframe yang telah di-resample.

**Penalaran**:
Akhirnya, simpan dataframe yang telah diproses dan di-resample menggunakan SMOTE.

In [40]:
import os
import zipfile

# Fungsi untuk menyimpan dataframe sebagai file CSV dan mengompresnya menjadi zip
def save_dataframe_to_zip(df, filename, dataframe_name):
    if df is not None:
        csv_filename = f'{filename}.csv'
        df.to_csv(csv_filename, index=False)

        zip_filename = f'{filename}.zip'
        with zipfile.ZipFile(zip_filename, 'w') as zf:
            zf.write(csv_filename, os.path.basename(csv_filename))

        print(f"\nDataFrame {dataframe_name} yang di-resample disimpan ke '{zip_filename}'")
    else:
        print(f"\nDataFrame {dataframe_name} tidak di-resample dan tidak disimpan.")

# Simpan dataframe yang di-resample sebagai file zip
save_dataframe_to_zip(resampled_df_en, 'resampled_df_en', 'Inggris')
save_dataframe_to_zip(resampled_df_id, 'resampled_df_id', 'Indonesia')

print("\nSelesai menyimpan dataframe yang di-resample.")


DataFrame Inggris yang di-resample disimpan ke 'resampled_df_en.zip'

DataFrame Indonesia yang di-resample disimpan ke 'resampled_df_id.zip'

Selesai menyimpan dataframe yang di-resample.


### Subtask:
Save the resampled dataframe.

**Reasoning**:
Finally, save the dataframe that has been processed and resampled using SMOTE.