<a href="https://colab.research.google.com/github/dinanabila/eda-notebooks/blob/main/2025/eda_submission_pemda_dicoding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Exploratory data analysis ini dilakukan sebagai panduan dalam merancang script transform untuk proses ETL submission kelas Dicoding Belajar Fundamental Pemrosesan Data.

Dataset yang digunakan diperoleh dari hasil scraping web berikut: https://fashion-studio.dicoding.dev

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('https://raw.githubusercontent.com/dinanabila/eda-notebooks/refs/heads/main/data/submission-pemda-dicoding.csv')
df.head()

Unnamed: 0,Title,Price,Rating,Colors,Size,Gender,Timestamp
0,Unknown Product,$100.00,Invalid Rating / 5,5,M,Men,2025-07-19T07:00:01.308790
1,T-shirt 2,$102.15,3.9 / 5,3,M,Women,2025-07-19T07:00:01.308790
2,Hoodie 3,$496.88,4.8 / 5,3,L,Unisex,2025-07-19T07:00:01.308790
3,Pants 4,$467.31,3.3 / 5,3,XL,Men,2025-07-19T07:00:01.308790
4,Outerwear 5,$321.59,3.5 / 5,3,XXL,Women,2025-07-19T07:00:01.308790


# **EDA**

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Title      1000 non-null   object
 1   Price      1000 non-null   object
 2   Rating     1000 non-null   object
 3   Colors     1000 non-null   int64 
 4   Size       1000 non-null   object
 5   Gender     1000 non-null   object
 6   Timestamp  1000 non-null   object
dtypes: int64(1), object(6)
memory usage: 54.8+ KB


Berdasarkan info df di atas, dapat dilihat terdapat kolom yang tipe datanya masih belum sesuai: Price dan Rating. **Ntar kita ubah**.

Selanjutnya kita cek, apakah ada baris data yang duplikat atau tidak.

In [4]:
# cek duplikasi data
print(f"Jumlah duplikasi data: {df.duplicated().sum()}")

Jumlah duplikasi data: 50


Ada 50 baris data yang memiliki duplikat! **Harus kita hapus** nanti.

## **Title**

Btw tentang duplikasi, jadi kepikiran. Kira-kira ada ga ya nama produk yang muncul lebih dari sekali? Soalnya kan itu juga sama aja kek data duplikat? Coba kita periksa.

In [5]:
df['Title'].value_counts().head()

Unnamed: 0_level_0,count
Title,Unnamed: 1_level_1
Unknown Product,100
Outerwear 749,1
Pants 658,1
Outerwear 659,1
Jacket 660,1


Wah, ternyata ada 100 baris data yang Title nya sama: `Unknown Product`. **Harus kita hapus** nanti. Sisanya aman, unik semua masing-masing 1 data per Title product.

## **Price**

In [6]:
df['Price'].value_counts().head()

Unnamed: 0_level_0,count
Price,Unnamed: 1_level_1
$100.00,101
Price Unavailable,33
$63.48,2
$73.21,2
$383.39,2


Kita **harus hapus simbol $** di setiap value kolom Price. Terus juga baris yang punya value `Price Unavailable` juga **harus kita hapus**, soalnya bakal error pas ubah tipe data, karena harus pure angka kalau mau ubah tipe data ke float.

## **Rating**

Sekarang, kita periksa kolom `Rating`.

In [7]:
df['Rating'].value_counts()

Unnamed: 0_level_0,count
Rating,Unnamed: 1_level_1
Invalid Rating / 5,100
3.1 / 5,53
4.5 / 5,53
4.7 / 5,51
3.2 / 5,47
3.3 / 5,46
3.9 / 5,46
3.8 / 5,46
4.2 / 5,45
3.6 / 5,45


Oala ternyata values nya masih dalam bentuk rating / 5. Jadi kita perlu **hapus dulu semua / 5** di valuesnya. Dann janlup **hapus Invalid Rating / 5 dan Rating: Not Rated** sebab keduanya tidak memberikan informasi untuk kebutuhan analisis kita.

## **Colors**

In [8]:
df['Colors'].value_counts()

Unnamed: 0_level_0,count
Colors,Unnamed: 1_level_1
3,867
5,100
8,33


Kolom Colors sejauh ini aman, udah bener valuenya.

## **Size**

In [9]:
df['Size'].value_counts()

Unnamed: 0_level_0,count
Size,Unnamed: 1_level_1
M,300
L,200
XL,200
XXL,200
S,100


Size juga aman.

## **Gender**

In [10]:
df['Gender'].value_counts()

Unnamed: 0_level_0,count
Gender,Unnamed: 1_level_1
Men,400
Women,300
Unisex,300


Gender aman.

# **Transform**

Berdasarkan EDA yang sudah kita lakukan sebelumnya, berikut langkah-langkah transformasi data yang harus kita lakukan supaya datanya kinclong:


1. Hapus baris dengan kolom Title ber-value `Unknown Product`.
2. Hapus baris dengan kolom Price ber-value `Price Unavailable`.
3. Hapus semua `$` di values kolom Price.
4. Hapus baris dengan kolom Rating ber-value `Invalid Rating / 5` dan `Rating: Not Rated`.
5. Hapus semua ` / 5` di values kolom Rating.
6. Hapus semua data duplikat.
7. Ubah tipe data kolom `Price` dan `Rating` menjadi float.

In [11]:
# 1. hapus data dengan value kolom Title == 'Unknown Product'
df = df[df['Title'] != 'Unknown Product'].copy()

# cek df sekarang
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 900 entries, 1 to 999
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Title      900 non-null    object
 1   Price      900 non-null    object
 2   Rating     900 non-null    object
 3   Colors     900 non-null    int64 
 4   Size       900 non-null    object
 5   Gender     900 non-null    object
 6   Timestamp  900 non-null    object
dtypes: int64(1), object(6)
memory usage: 56.2+ KB


In [12]:
# 2. hapus baris dengan kolom Price ber-value 'Price Unavailable'
df = df[(df['Price'] != 'Price Unavailable') & (df['Price'].notna())].copy()
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 867 entries, 1 to 999
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Title      867 non-null    object
 1   Price      867 non-null    object
 2   Rating     867 non-null    object
 3   Colors     867 non-null    int64 
 4   Size       867 non-null    object
 5   Gender     867 non-null    object
 6   Timestamp  867 non-null    object
dtypes: int64(1), object(6)
memory usage: 54.2+ KB


In [13]:
# 3. hapus semua '$' di values kolom Price
df['Price'] = df['Price'].str.replace('$', '')
df['Price'].head(2)

Unnamed: 0,Price
1,102.15
2,496.88


In [14]:
# 4. hapus baris dengan kolom Rating ber-value 'Invalid Rating / 5' dan 'Rating: Not Rated'
df = df[df['Rating'] != 'Invalid Rating']
df = df[df['Rating'] != 'Rating: Not Rated']

# cek masih ada atau ga yang bervalue itu
df['Rating'].value_counts().head()

Unnamed: 0_level_0,count
Rating,Unnamed: 1_level_1
3.1 / 5,53
4.5 / 5,53
4.7 / 5,51
3.2 / 5,47
3.9 / 5,46


In [15]:
# 5. hapus semua ' / 5' di values kolom Rating
df['Rating'] = df['Rating'].str.replace(' / 5', '').str.strip()
df = df[df['Rating'] != 'Invalid Rating']

In [16]:
# 6. hapus semua data duplikat
df.drop_duplicates(inplace=True)
print(f"Jumlah data duplikat: {df.duplicated().sum()}")

Jumlah data duplikat: 0


In [17]:
# 7. ubah tipe data kolom `Price` dan `Rating` menjadi float
df['Price'] = df['Price'].astype('float64')
df['Rating'] = df['Rating'].astype('float64')
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 867 entries, 1 to 999
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Title      867 non-null    object 
 1   Price      867 non-null    float64
 2   Rating     867 non-null    float64
 3   Colors     867 non-null    int64  
 4   Size       867 non-null    object 
 5   Gender     867 non-null    object 
 6   Timestamp  867 non-null    object 
dtypes: float64(2), int64(1), object(4)
memory usage: 54.2+ KB


Siiipp, dah kinclong :D