# BUSINESS UNDERSTANDING

**Judul**: Rekomendasi Produk Fashion Berdasarkan Rentang Harga dan Merek

## Business Objective
Tujuan utama proyek ini adalah meningkatkan penjualan dan kepuasan pelanggan di platform e-commerce melalui sistem rekomendasi produk yang mempertimbangkan preferensi merek dan rentang harga. Dengan memahami pola pembelian konsumen, proyek ini berupaya menawarkan pengalaman belanja yang lebih personal dan relevan. Selain itu, inisiatif ini diharapkan dapat mengoptimalkan strategi pemasaran dan meningkatkan loyalitas pelanggan terhadap platform.

## Assess Situasion
Industri fashion e-commerce bersifat sangat kompetitif dengan beragam merek dan variasi harga. Pelanggan sering merasa kesulitan menemukan produk yang sesuai dengan preferensi mereka. Dataset yang digunakan berisi informasi penting seperti nama produk, merek, harga, deskripsi, dan kategori. Namun, tantangan utamanya adalah mengolah data ini agar mampu memberikan rekomendasi yang tepat tanpa membuat pengguna merasa jenuh atau kewalahan.
Selain itu, perubahan tren dan perilaku pelanggan yang dinamis membutuhkan sistem rekomendasi yang adaptif. Oleh karena itu, diperlukan analisis mendalam mengenai hubungan antara preferensi merek dan rentang harga untuk memastikan rekomendasi tetap relevan seiring waktu.



## Data Mining Goals
Tujuan dari data mining dalam proyek ini adalah memahami preferensi pelanggan terhadap merek dan rentang harga tertentu. Dengan menganalisis pola pembelian, kita bisa mengetahui produk mana yang paling sering dipilih berdasarkan harga dan merek. Selain itu, pengelompokan pelanggan yang memiliki kesukaan serupa dapat membantu dalam membuat rekomendasi yang lebih relevan. Pendekatan ini juga bertujuan untuk meningkatkan pengalaman belanja dengan memberikan saran produk yang sesuai dan lebih personal bagi setiap pengguna.



## Project Plan


1.   **Eksplorasi Data:**
Mulai dengan membersihkan data dari duplikasi atau informasi yang kurang relevan. Lalu, analisis harga dan merek mana yang paling populer menggunakan grafik sederhana seperti bar chart dan histogram. Ini bertujuan agar kita bisa paham pola dasar dari data yang tersedia.
2.   **Pemodelan:**
Buat model rekomendasi yang fokus pada harga dan merek. Misalnya, menggunakan content-based filtering untuk rekomendasi produk serupa berdasarkan deskripsi, merek, dan harga. Jika memungkinkan, kombinasikan dengan collaborative filtering jika ada data perilaku pengguna.
3. **Evaluasi:**
Uji model rekomendasi dengan data yang ada untuk memastikan akurasinya. Bisa pakai metrik sederhana seperti berapa kali rekomendasi diklik atau dibeli. Evaluasi ini penting biar kita tahu modelnya bener-bener efektif atau belum.
4. **Peluncuran:**
Terapkan rekomendasi secara bertahap, mulai dari kelompok pengguna kecil dulu. Kumpulkan umpan balik untuk perbaikan sebelum diluncurkan secara penuh. Dengan cara ini, risiko kesalahan bisa diminimalkan dan rekomendasi bisa terus ditingkatkan sesuai kebutuhan pelanggan.



# DATA UNDERSTANDING & DATA PREPARATION

Dataset yang digunakan dalam proyek ini berasal dari:
- Nama Dataset: Fashion Product Dataset
- Sumber: Kaggle
- Link: https://www.kaggle.com/datasets/shivamb/fashion-clothing-products-catalog
- Deskripsi: Dataset ini berisi informasi tentang produk fashion, termasuk nama produk, merek, harga, deskripsi, dan kategori.

In [61]:
import pandas as pd

# Membaca data dari file CSV
df = pd.read_csv("myntra_products_catalog.csv")
df


Unnamed: 0,ProductID,ProductName,ProductBrand,Gender,Price (INR),NumImages,Description,PrimaryColor
0,10017413,DKNY Unisex Black & Grey Printed Medium Trolle...,DKNY,Unisex,11745,7,"Black and grey printed medium trolley bag, sec...",Black
1,10016283,EthnoVogue Women Beige & Grey Made to Measure ...,EthnoVogue,Women,5810,7,Beige & Grey made to measure kurta with churid...,Beige
2,10009781,SPYKAR Women Pink Alexa Super Skinny Fit High-...,SPYKAR,Women,899,7,Pink coloured wash 5-pocket high-rise cropped ...,Pink
3,10015921,Raymond Men Blue Self-Design Single-Breasted B...,Raymond,Men,5599,5,Blue self-design bandhgala suitBlue self-desig...,Blue
4,10017833,Parx Men Brown & Off-White Slim Fit Printed Ca...,Parx,Men,759,5,"Brown and off-white printed casual shirt, has ...",White
...,...,...,...,...,...,...,...,...
12486,10262843,Pepe Jeans Men Black Hammock Slim Fit Low-Rise...,Pepe Jeans,Men,1299,7,"Black dark wash 5-pocket low-rise jeans, clean...",Black
12487,10261721,Mochi Women Gold-Toned Solid Heels,Mochi,Women,1990,5,"A pair of gold-toned open toe heels, has regul...",Gold
12488,10261607,612 league Girls Navy Blue & White Printed Reg...,612 league,Girls,602,4,Navy Blue and White printed mid-rise denim sho...,Blue
12489,10266621,Bvlgari Men Aqva Pour Homme Marine Eau de Toil...,Bvlgari,Men,8950,2,Bvlgari Men Aqva Pour Homme Marine Eau de Toil...,


## **Data Cleaning**

Data cleaning merupakan proses menghapus atau memodifikasi data yang tidak lengkap, duplikat, tidak akurat, dan salah format. Data-data tersebut dihapus atau dimodifikasi untuk memastikan data yang sedang diolah adalah data berkualitas agar dapat menghasilkan keputusan yang lebih akurat.

### Missing Values

Missing Values adalah sebuah kondisi dimana data hilang atau tidak terbaca.

#### Melihat Missing Values

Melakukan pengecekan missing values perkolom dalam bentuk presentase, guna mendukung pengambilan keputusan pada nilai yang kosong

In [81]:
print((df.isna().sum() / len(df)) * 100)

ProductID            0.000000
ProductName          0.000000
ProductBrand         0.000000
Gender               0.000000
Price (INR)          0.000000
Description          0.000000
PrimaryColor         7.157153
Popularitas_Brand    0.000000
dtype: float64


Melakukan pengecekan nilai kosong pada kolom Product Brand

In [82]:
df[df['ProductBrand'].isnull()]

Unnamed: 0,ProductID,ProductName,ProductBrand,Gender,Price (INR),Description,PrimaryColor,Popularitas_Brand


Melakukan pengecekan nilai kosong pada kolom Price (INR)

In [83]:
df[df['Price (INR)'].isnull()]

Unnamed: 0,ProductID,ProductName,ProductBrand,Gender,Price (INR),Description,PrimaryColor,Popularitas_Brand


#### Mengatasi Missing Values

Melakukan Imputasi

Di sini kita akan melakukan imputasi pada kolom PrimaryColor dikarenakan data yang hilang pada kolom ini berada di angka 7.15%

In [84]:
df['PrimaryColor'].dropna().describe()

Unnamed: 0,PrimaryColor
count,11597
unique,27
top,Blue
freq,3443


In [85]:
df['PrimaryColor'] = df['PrimaryColor'].fillna(df['PrimaryColor'].mode()[0])

### Duplicated Values

Duplicated Values adalah sebuah kondisi dimana ada data yang muncul beberapa kali dalam satu data set.

Cara penanganannya adalah dengan menghapus semua duplikasi

In [67]:
df[df.duplicated()]

Unnamed: 0,ProductID,ProductName,ProductBrand,Gender,Price (INR),NumImages,Description,PrimaryColor


Alhamdulillah bang dan mba, data saya tidak ada yang terduplikat

### Outliers

Outliers adalah nilai yang jauh berbeda dari nilai lainnya dalam dataset. Nilai Outlier bisa jauh lebih rendah atau lebih tinggi. Outlier bisa terjadi karena berbagai alasan seperti faktor kesalahan maupun kejadian lain yang tidak terduga.

Melakukan pengecekan outliers

In [69]:
results = []

cols = df.select_dtypes(include=['float64', 'int64'])

for col in cols:
  q1 = df[col].quantile(0.25)
  q3 = df[col].quantile(0.75)
  iqr = q3 - q1
  lower_bound = q1 - 1.5*iqr
  upper_bound = q3 + 1.5*iqr
  outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]
  percent_outliers = (len(outliers)/len(df))*100
  results.append({'Kolom': col, 'Persentase Outliers': percent_outliers})

# Dataframe dari list hasil
results_df = pd.DataFrame(results)
results_df.set_index('Kolom', inplace=True)
results_df = results_df.rename_axis(None, axis=0).rename_axis('Kolom', axis=1)

# Tampilkan dataframe
display(results_df)

Kolom,Persentase Outliers
ProductID,2.529821
Price (INR),9.342727
NumImages,42.886879


In [70]:
df

Unnamed: 0,ProductID,ProductName,ProductBrand,Gender,Price (INR),NumImages,Description,PrimaryColor
0,10017413,DKNY Unisex Black & Grey Printed Medium Trolle...,DKNY,Unisex,11745,7,"Black and grey printed medium trolley bag, sec...",Black
1,10016283,EthnoVogue Women Beige & Grey Made to Measure ...,EthnoVogue,Women,5810,7,Beige & Grey made to measure kurta with churid...,Beige
2,10009781,SPYKAR Women Pink Alexa Super Skinny Fit High-...,SPYKAR,Women,899,7,Pink coloured wash 5-pocket high-rise cropped ...,Pink
3,10015921,Raymond Men Blue Self-Design Single-Breasted B...,Raymond,Men,5599,5,Blue self-design bandhgala suitBlue self-desig...,Blue
4,10017833,Parx Men Brown & Off-White Slim Fit Printed Ca...,Parx,Men,759,5,"Brown and off-white printed casual shirt, has ...",White
...,...,...,...,...,...,...,...,...
12486,10262843,Pepe Jeans Men Black Hammock Slim Fit Low-Rise...,Pepe Jeans,Men,1299,7,"Black dark wash 5-pocket low-rise jeans, clean...",Black
12487,10261721,Mochi Women Gold-Toned Solid Heels,Mochi,Women,1990,5,"A pair of gold-toned open toe heels, has regul...",Gold
12488,10261607,612 league Girls Navy Blue & White Printed Reg...,612 league,Girls,602,4,Navy Blue and White printed mid-rise denim sho...,Blue
12489,10266621,Bvlgari Men Aqva Pour Homme Marine Eau de Toil...,Bvlgari,Men,8950,2,Bvlgari Men Aqva Pour Homme Marine Eau de Toil...,Blue


Melakukan Imputasi

In [71]:
columns_to_impute = ["ProductID", "Price (INR)"]

for col in columns_to_impute:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    # Menggunakan .loc[] agar tidak muncul SettingWithCopyWarning
    df.loc[:, col] = df[col].clip(lower=lower_bound, upper=upper_bound)


  df.loc[:, col] = df[col].clip(lower=lower_bound, upper=upper_bound)


Melakukan pengecekan ulang

In [72]:
results = []

cols = df.select_dtypes(include=['float64', 'int64'])

for col in cols:
  q1 = df[col].quantile(0.25)
  q3 = df[col].quantile(0.75)
  iqr = q3 - q1
  lower_bound = q1 - 1.5*iqr
  upper_bound = q3 + 1.5*iqr
  outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]
  percent_outliers = (len(outliers)/len(df))*100
  results.append({'Kolom': col, 'Persentase Outliers': percent_outliers})

# Dataframe dari list hasil
results_df = pd.DataFrame(results)
results_df.set_index('Kolom', inplace=True)
results_df = results_df.rename_axis(None, axis=0).rename_axis('Kolom', axis=1)

# Tampilkan dataframe
display(results_df)

Kolom,Persentase Outliers
ProductID,0.0
Price (INR),0.0
NumImages,42.886879


In [73]:
df

Unnamed: 0,ProductID,ProductName,ProductBrand,Gender,Price (INR),NumImages,Description,PrimaryColor
0,10017413.0,DKNY Unisex Black & Grey Printed Medium Trolle...,DKNY,Unisex,2774,7,"Black and grey printed medium trolley bag, sec...",Black
1,10016283.0,EthnoVogue Women Beige & Grey Made to Measure ...,EthnoVogue,Women,2774,7,Beige & Grey made to measure kurta with churid...,Beige
2,10009781.0,SPYKAR Women Pink Alexa Super Skinny Fit High-...,SPYKAR,Women,899,7,Pink coloured wash 5-pocket high-rise cropped ...,Pink
3,10015921.0,Raymond Men Blue Self-Design Single-Breasted B...,Raymond,Men,2774,5,Blue self-design bandhgala suitBlue self-desig...,Blue
4,10017833.0,Parx Men Brown & Off-White Slim Fit Printed Ca...,Parx,Men,759,5,"Brown and off-white printed casual shirt, has ...",White
...,...,...,...,...,...,...,...,...
12486,10262843.0,Pepe Jeans Men Black Hammock Slim Fit Low-Rise...,Pepe Jeans,Men,1299,7,"Black dark wash 5-pocket low-rise jeans, clean...",Black
12487,10261721.0,Mochi Women Gold-Toned Solid Heels,Mochi,Women,1990,5,"A pair of gold-toned open toe heels, has regul...",Gold
12488,10261607.0,612 league Girls Navy Blue & White Printed Reg...,612 league,Girls,602,4,Navy Blue and White printed mid-rise denim sho...,Blue
12489,10266621.0,Bvlgari Men Aqva Pour Homme Marine Eau de Toil...,Bvlgari,Men,2774,2,Bvlgari Men Aqva Pour Homme Marine Eau de Toil...,Blue


### Incosistent Value

Alhamdulillah bang dan mba dari data saya ini tidak ada yang perlu dicari inconsistent valuenya.

In [75]:
df

Unnamed: 0,ProductID,ProductName,ProductBrand,Gender,Price (INR),NumImages,Description,PrimaryColor
0,10017413.0,DKNY Unisex Black & Grey Printed Medium Trolle...,DKNY,Unisex,2774,7,"Black and grey printed medium trolley bag, sec...",Black
1,10016283.0,EthnoVogue Women Beige & Grey Made to Measure ...,EthnoVogue,Women,2774,7,Beige & Grey made to measure kurta with churid...,Beige
2,10009781.0,SPYKAR Women Pink Alexa Super Skinny Fit High-...,SPYKAR,Women,899,7,Pink coloured wash 5-pocket high-rise cropped ...,Pink
3,10015921.0,Raymond Men Blue Self-Design Single-Breasted B...,Raymond,Men,2774,5,Blue self-design bandhgala suitBlue self-desig...,Blue
4,10017833.0,Parx Men Brown & Off-White Slim Fit Printed Ca...,Parx,Men,759,5,"Brown and off-white printed casual shirt, has ...",White
...,...,...,...,...,...,...,...,...
12486,10262843.0,Pepe Jeans Men Black Hammock Slim Fit Low-Rise...,Pepe Jeans,Men,1299,7,"Black dark wash 5-pocket low-rise jeans, clean...",Black
12487,10261721.0,Mochi Women Gold-Toned Solid Heels,Mochi,Women,1990,5,"A pair of gold-toned open toe heels, has regul...",Gold
12488,10261607.0,612 league Girls Navy Blue & White Printed Reg...,612 league,Girls,602,4,Navy Blue and White printed mid-rise denim sho...,Blue
12489,10266621.0,Bvlgari Men Aqva Pour Homme Marine Eau de Toil...,Bvlgari,Men,2774,2,Bvlgari Men Aqva Pour Homme Marine Eau de Toil...,Blue


## **Construct Data**

membuat atau menghasilkan data baru dari data yang sudah ada dengan cara menggabungkan atau mengubah atribut (fitur) untuk mendapatkan informasi yang lebih bermakna.

### 1. Rentang Harga
Tujuan: Mengkategorikan harga produk ke dalam beberapa rentang untuk memudahkan analisis dan rekomendasi.

In [76]:
import pandas as pd

# Baca data dari file CSV
df = pd.read_csv('myntra_products_catalog.csv')

# Pastikan kolom 'Price (INR)' adalah numerik
df['Price (INR)'] = pd.to_numeric(df['Price (INR)'], errors='coerce')

# Hapus baris dengan nilai 'Price (INR)' yang tidak valid (NaN)
df.dropna(subset=['Price (INR)'], inplace=True)

# Buat kategori harga menggunakan pd.cut
df['Rentang_Harga'] = pd.cut(
    df['Price (INR)'],
    bins=[0, 5000, 10000, float('inf')],
    labels=['Murah', 'Sedang', 'Mahal']
)

# ---Change starts here---
# Create a mapping dictionary from 'Price (INR)' to 'Rentang_Harga'
price_to_rentang_harga = dict(zip(df['Price (INR)'], df['Rentang_Harga']))

# Map the 'Price (INR)' values to 'kategori_harga' using the dictionary
df['kategori_harga'] = df['Price (INR)'].map(price_to_rentang_harga)
# ---Change ends here---

# Tampilkan DataFrame dengan kolom yang relevan
result = df[['ProductID', 'ProductName', 'Price (INR)', 'Rentang_Harga']]

# Simpan hasil ke file CSV (opsional)
result.to_csv('produk_dengan_rentang_harga.csv', index=False)

# Tampilkan hasil
df

Unnamed: 0,ProductID,ProductName,ProductBrand,Gender,Price (INR),NumImages,Description,PrimaryColor,Rentang_Harga,kategori_harga
0,10017413,DKNY Unisex Black & Grey Printed Medium Trolle...,DKNY,Unisex,11745,7,"Black and grey printed medium trolley bag, sec...",Black,Mahal,Mahal
1,10016283,EthnoVogue Women Beige & Grey Made to Measure ...,EthnoVogue,Women,5810,7,Beige & Grey made to measure kurta with churid...,Beige,Sedang,Sedang
2,10009781,SPYKAR Women Pink Alexa Super Skinny Fit High-...,SPYKAR,Women,899,7,Pink coloured wash 5-pocket high-rise cropped ...,Pink,Murah,Murah
3,10015921,Raymond Men Blue Self-Design Single-Breasted B...,Raymond,Men,5599,5,Blue self-design bandhgala suitBlue self-desig...,Blue,Sedang,Sedang
4,10017833,Parx Men Brown & Off-White Slim Fit Printed Ca...,Parx,Men,759,5,"Brown and off-white printed casual shirt, has ...",White,Murah,Murah
...,...,...,...,...,...,...,...,...,...,...
12486,10262843,Pepe Jeans Men Black Hammock Slim Fit Low-Rise...,Pepe Jeans,Men,1299,7,"Black dark wash 5-pocket low-rise jeans, clean...",Black,Murah,Murah
12487,10261721,Mochi Women Gold-Toned Solid Heels,Mochi,Women,1990,5,"A pair of gold-toned open toe heels, has regul...",Gold,Murah,Murah
12488,10261607,612 league Girls Navy Blue & White Printed Reg...,612 league,Girls,602,4,Navy Blue and White printed mid-rise denim sho...,Blue,Murah,Murah
12489,10266621,Bvlgari Men Aqva Pour Homme Marine Eau de Toil...,Bvlgari,Men,8950,2,Bvlgari Men Aqva Pour Homme Marine Eau de Toil...,,Sedang,Sedang


### 2. Popularitas Merek
Tujuan: Menunjukkan tingkat popularitas merek berdasarkan frekuensi kemunculannya dalam dataset.

In [77]:

df = pd.read_csv('myntra_products_catalog.csv')
Brand_popularitas = df['ProductBrand'].value_counts().to_dict()
df['Popularitas_Brand'] = df['ProductBrand'].map(Brand_popularitas)
df

Unnamed: 0,ProductID,ProductName,ProductBrand,Gender,Price (INR),NumImages,Description,PrimaryColor,Popularitas_Brand
0,10017413,DKNY Unisex Black & Grey Printed Medium Trolle...,DKNY,Unisex,11745,7,"Black and grey printed medium trolley bag, sec...",Black,29
1,10016283,EthnoVogue Women Beige & Grey Made to Measure ...,EthnoVogue,Women,5810,7,Beige & Grey made to measure kurta with churid...,Beige,23
2,10009781,SPYKAR Women Pink Alexa Super Skinny Fit High-...,SPYKAR,Women,899,7,Pink coloured wash 5-pocket high-rise cropped ...,Pink,39
3,10015921,Raymond Men Blue Self-Design Single-Breasted B...,Raymond,Men,5599,5,Blue self-design bandhgala suitBlue self-desig...,Blue,63
4,10017833,Parx Men Brown & Off-White Slim Fit Printed Ca...,Parx,Men,759,5,"Brown and off-white printed casual shirt, has ...",White,154
...,...,...,...,...,...,...,...,...,...
12486,10262843,Pepe Jeans Men Black Hammock Slim Fit Low-Rise...,Pepe Jeans,Men,1299,7,"Black dark wash 5-pocket low-rise jeans, clean...",Black,340
12487,10261721,Mochi Women Gold-Toned Solid Heels,Mochi,Women,1990,5,"A pair of gold-toned open toe heels, has regul...",Gold,27
12488,10261607,612 league Girls Navy Blue & White Printed Reg...,612 league,Girls,602,4,Navy Blue and White printed mid-rise denim sho...,Blue,16
12489,10266621,Bvlgari Men Aqva Pour Homme Marine Eau de Toil...,Bvlgari,Men,8950,2,Bvlgari Men Aqva Pour Homme Marine Eau de Toil...,,11


## **Data Reduction**

mengurangi volume data tanpa menghilangkan informasi penting. Tujuannya adalah untuk menyederhanakan analisis, menghemat ruang penyimpanan, dan mempercepat pemrosesan data.

In [78]:
df = df.drop('NumImages', axis=1)
df

Unnamed: 0,ProductID,ProductName,ProductBrand,Gender,Price (INR),Description,PrimaryColor,Popularitas_Brand
0,10017413,DKNY Unisex Black & Grey Printed Medium Trolle...,DKNY,Unisex,11745,"Black and grey printed medium trolley bag, sec...",Black,29
1,10016283,EthnoVogue Women Beige & Grey Made to Measure ...,EthnoVogue,Women,5810,Beige & Grey made to measure kurta with churid...,Beige,23
2,10009781,SPYKAR Women Pink Alexa Super Skinny Fit High-...,SPYKAR,Women,899,Pink coloured wash 5-pocket high-rise cropped ...,Pink,39
3,10015921,Raymond Men Blue Self-Design Single-Breasted B...,Raymond,Men,5599,Blue self-design bandhgala suitBlue self-desig...,Blue,63
4,10017833,Parx Men Brown & Off-White Slim Fit Printed Ca...,Parx,Men,759,"Brown and off-white printed casual shirt, has ...",White,154
...,...,...,...,...,...,...,...,...
12486,10262843,Pepe Jeans Men Black Hammock Slim Fit Low-Rise...,Pepe Jeans,Men,1299,"Black dark wash 5-pocket low-rise jeans, clean...",Black,340
12487,10261721,Mochi Women Gold-Toned Solid Heels,Mochi,Women,1990,"A pair of gold-toned open toe heels, has regul...",Gold,27
12488,10261607,612 league Girls Navy Blue & White Printed Reg...,612 league,Girls,602,Navy Blue and White printed mid-rise denim sho...,Blue,16
12489,10266621,Bvlgari Men Aqva Pour Homme Marine Eau de Toil...,Bvlgari,Men,8950,Bvlgari Men Aqva Pour Homme Marine Eau de Toil...,,11
