## Sentiment Analysis on Womens Clothing E-Commerce Reviews

1. **Ambil Data dari Dataset**: Menggunakan Kaggle API untuk mengunduh dataset dan memuatnya ke dalam pandas DataFrame.
2. **Konversi Rating ke Sentimen**: Mengonversi kolom rating ke kategori sentimen sesuai aturan (1,2 = negative, 3 = normal, 4,5 -positive).
3. **Menampilkan Jumlah Data untuk Masing-Masing Kategori Sentimen** : data bernilai postive, netral dan normal
4. **Membangun Vocab Word**: Membuat vocab dengan 10.000 kata dari dataset dan menambahkan 2 token untuk padding dan OOV.
5. **Menampilkan 10 Kata Paling Sering Muncul**: Menampilkan 10 kata yang paling sering muncul dalam dataset.

In [3]:
# Import library yang diperlukan
from google.colab import files
import pandas as pd
import zipfile
import os
from tensorflow.keras.preprocessing.text import Tokenizer

# Langkah 1: Unggah file dataset secara manual
print("Silakan unggah file .zip atau .csv dari dataset 'nicapotato/womens-ecommerce-clothing-reviews'")
uploaded = files.upload()

# Langkah 2: Cek dan proses file yang diunggah
for filename in uploaded.keys():
    print(f"File yang diunggah: {filename}")

    # Jika file adalah .zip, ekstrak isinya
    if filename.endswith('.zip'):
        with zipfile.ZipFile(filename, 'r') as zip_ref:
            zip_ref.extractall()
        print(f"File {filename} telah diekstrak.")
        # Asumsikan file CSV bernama 'Womens Clothing E-Commerce Reviews.csv'
        csv_file = 'Womens Clothing E-Commerce Reviews.csv'
    else:
        # Jika file adalah .csv, gunakan langsung
        csv_file = filename

# Langkah 3: Verifikasi keberadaan file CSV
if os.path.exists(csv_file):
    print(f"File CSV ditemukan: {csv_file}")
else:
    print(f"File {csv_file} tidak ditemukan. Berikut file yang tersedia:")
    !ls
    raise FileNotFoundError(f"File {csv_file} tidak ditemukan. Pastikan nama file sesuai atau file telah diekstrak.")

# Langkah 4: Muat dataset ke pandas DataFrame
df = pd.read_csv(csv_file)
print("\nFirst few rows of the dataset:")
print(df.head())

# Langkah 5: Handle missing values
df['Review Text'] = df['Review Text'].fillna('')  # Ganti NaN dengan string kosong
print(f"\nMissing Ratings: {df['Rating'].isna().sum()}")

# Langkah 6: Konversi rating ke sentimen
def convert_rating_to_sentiment(rating):
    if rating in [1, 2]:
        return 'negative'
    elif rating == 3:
        return 'neutral'
    elif rating in [4, 5]:
        return 'positive'

df['Sentiment'] = df['Rating'].apply(convert_rating_to_sentiment)

# Langkah 7: Tampilkan jumlah data untuk setiap kategori sentimen
print("\nJumlah Data per Kategori Sentimen:")
sentiment_counts = df['Sentiment'].value_counts()
print(sentiment_counts)

# Langkah 8: Bangun vocabulary dengan 10.000 kata + 2 token (<PAD>, <OOV>)
tokenizer = Tokenizer(num_words=10000 + 2, oov_token='<OOV>')
tokenizer.fit_on_texts(df['Review Text'])
vocab_size = len(tokenizer.word_index) + 1  # Total kata unik dalam dataset
print(f"\nVocab Size (total kata unik): {vocab_size}")
print(f"Vocab Size yang digunakan (terbatas): 10002")  # 10.000 kata + <PAD> + <OOV>

# Langkah 9: Tampilkan 10 kata paling sering
word_freq = sorted(tokenizer.word_counts.items(), key=lambda x: x[1], reverse=True)[:10]
print("\n10 Kata yang Paling Sering Muncul:")
for word, freq in word_freq:
    print(f"{word}: {freq}")

Silakan unggah file .zip atau .csv dari dataset 'nicapotato/womens-ecommerce-clothing-reviews'


Saving Womens Clothing E-Commerce Reviews.csv.zip to Womens Clothing E-Commerce Reviews.csv (1).zip
File yang diunggah: Womens Clothing E-Commerce Reviews.csv (1).zip
File Womens Clothing E-Commerce Reviews.csv (1).zip telah diekstrak.
File CSV ditemukan: Womens Clothing E-Commerce Reviews.csv

First few rows of the dataset:
   Unnamed: 0  Clothing ID  Age                    Title  \
0           0          767   33                      NaN   
1           1         1080   34                      NaN   
2           2         1077   60  Some major design flaws   
3           3         1049   50         My favorite buy!   
4           4          847   47         Flattering shirt   

                                         Review Text  Rating  Recommended IND  \
0  Absolutely wonderful - silky and sexy and comf...       4                1   
1  Love this dress!  it's sooo pretty.  i happene...       5                1   
2  I had such high hopes for this dress and reall...       3         