# Normalization Exercise

## Data Loading

In [115]:
import pandas as pd

# load data
df = pd.read_csv('dataset.csv')

df.head()

Unnamed: 0,Product ID,Category,Sub-Category,Product Name
0,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase
1,FUR-CH-10000454,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,..."
2,OFF-LA-10000240,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...
3,FUR-TA-10000577,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table
4,OFF-ST-10000760,Office Supplies,Storage,Eldon Fold 'N Roll Cart System


## Data Exploration

### Cek duplicate values

In [116]:
# cek duplicate rows dari keseluruhan rows pada dataframe
df[df.duplicated()]

Unnamed: 0,Product ID,Category,Sub-Category,Product Name


In [117]:
# cek duplicate values di setiap rows pada masing2 kolom
for col in df.columns:
    if df[col].duplicated().any(): # akan True jika terdapat 1 duplicate value
        print(f"Kolom `{col}` memiliki duplicate value")
    else:
        print(f"Kolom `{col}` tidak memiliki duplicate value")

Kolom `Product ID` memiliki duplicate value
Kolom `Category` memiliki duplicate value
Kolom `Sub-Category` memiliki duplicate value
Kolom `Product Name` memiliki duplicate value


Insight:
- secara keseluruhan, tidak ada rows yang duplicate pada dataframe.
- oleh karena itu, kita tidak perlu melakukan `.drop_duplicates()` pada dataframe.
- namun, jika dilihat per masing2 kolom memiliki duplicate values sehingga hal ini bisa kita handle pada saat proses normalisasi berikutnya.

## Data Cleaning

### Modify Column

- Make Lowercase Column Name

In [118]:
df.columns = df.columns.str.lower()

df.head()

Unnamed: 0,product id,category,sub-category,product name
0,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase
1,FUR-CH-10000454,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,..."
2,OFF-LA-10000240,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...
3,FUR-TA-10000577,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table
4,OFF-ST-10000760,Office Supplies,Storage,Eldon Fold 'N Roll Cart System


- Rename Column
    - for simplicity, kita akan mengubah format semua nama kolom existing agar lebih mudah dipahami

In [119]:
df.rename(columns={
    # menjabarkan nama kolom (key) dan nama penggantinya (value) di dalam dictionary
    # disini aku menggunakan index untuk mengambil nama kolom dari dataframe exisiting
    df.columns[0]: 'product_id',
    df.columns[1]: 'category',
    df.columns[2]: 'sub_category',
    df.columns[3]: 'product_name'
}, inplace=True)

df.head()

Unnamed: 0,product_id,category,sub_category,product_name
0,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase
1,FUR-CH-10000454,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,..."
2,OFF-LA-10000240,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...
3,FUR-TA-10000577,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table
4,OFF-ST-10000760,Office Supplies,Storage,Eldon Fold 'N Roll Cart System


## Normalization

In [120]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1894 entries, 0 to 1893
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   product_id    1894 non-null   object
 1   category      1894 non-null   object
 2   sub_category  1894 non-null   object
 3   product_name  1894 non-null   object
dtypes: object(4)
memory usage: 59.3+ KB


### 1NF

In [121]:
df.head()

Unnamed: 0,product_id,category,sub_category,product_name
0,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase
1,FUR-CH-10000454,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,..."
2,OFF-LA-10000240,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...
3,FUR-TA-10000577,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table
4,OFF-ST-10000760,Office Supplies,Storage,Eldon Fold 'N Roll Cart System


Insight:
- dari sample dataframe diatas, kita mengetahui bahwa setiap kolom sudah memenuhi kriteria 1NF dimana
    - setiap cell memiliki single value ✅
    - setiap cell memiliki value atomic ✅

### 2NF

In [122]:
df.head()

Unnamed: 0,product_id,category,sub_category,product_name
0,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase
1,FUR-CH-10000454,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,..."
2,OFF-LA-10000240,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...
3,FUR-TA-10000577,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table
4,OFF-ST-10000760,Office Supplies,Storage,Eldon Fold 'N Roll Cart System


Pada 2NF kita perlu memastikan bahwa dataframe memenuhi kriteria berikut:
- memenuhi 1NF
- terdapat functional dependency antara primary key dengan kolom2 yang lain.

Namun pada bagian eksplorasi sebelumnya, kita mengetahui bahwa setiap kolom memiliki value yang duplicate, ini tandanya bahwa tidak ada kolom primary key pada dataframe ini. Oleh karena itu kita bisa membuat kolom primary key terlebih dahulu.

In [123]:
# membuat kolom primary key dari dataframe
# dimana value kolomnya nya diambil dari df.index + 1
df['id'] = df.index + 1

# mengubah urutan kolom pada dataframe
df = df.reindex(columns=['id', 'product_id', 'category', 'sub_category', 'product_name'])

df

Unnamed: 0,id,product_id,category,sub_category,product_name
0,1,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase
1,2,FUR-CH-10000454,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,..."
2,3,OFF-LA-10000240,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...
3,4,FUR-TA-10000577,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table
4,5,OFF-ST-10000760,Office Supplies,Storage,Eldon Fold 'N Roll Cart System
...,...,...,...,...,...
1889,1890,TEC-PH-10002817,Technology,Phones,RCA ViSYS 25425RE1 Corded phone
1890,1891,TEC-MA-10003589,Technology,Machines,Cisco 8961 IP Phone Charcoal
1891,1892,OFF-AP-10003099,Office Supplies,Appliances,"Eureka Hand Vacuum, Bagless"
1892,1893,TEC-PH-10002645,Technology,Phones,LG G2


Insight:
- dari hasil diatas kita bisa melihat bahwa terdapat kolom `id` yang berfungsi sebagai primary key pada dataframe.
- terdapat functional dependency antara lain:
    - `id` -> `product_id`
    - `id` -> `category`
    - `id` -> `sub_category`
    - `id` -> `product_name`
- untuk membuktikan apakah terdapat transitive dependency atau tidaknya, kita akan coba cek masing2 kolom non primary key yang memiliki context nama yang sama untuk melihat apakah ada korelasi atau tidak seperti:
    - apakah ada hubungan antara product_id dengan product_name?
    - apakah ada hubungan antara category dengan sub_category?

#### Cek hubungan product_id dengan product_name

In [124]:
# cek hubungan product_id dengan product_name dengan 
# menggunakan sample value yang duplicate pada value product_id atau product_name
sampleProductId = df[df['product_id'].duplicated()].iloc[0]['product_id']
sampleProductName = df[df['product_name'].duplicated()].iloc[0]['product_name']

In [125]:
# cek filter berdasarkan product_id
df[df.product_id == sampleProductId].head()

Unnamed: 0,id,product_id,category,sub_category,product_name
64,65,FUR-CH-10001146,Furniture,Chairs,"Global Value Mid-Back Manager's Chair, Gray"
124,125,FUR-CH-10001146,Furniture,Chairs,"Global Task Chair, Black"


In [126]:
# cek filter berdasarkan product_name
df[df.product_name == sampleProductName].head()

Unnamed: 0,id,product_id,category,sub_category,product_name
33,34,OFF-PA-10000249,Office Supplies,Paper,Easy-staple paper
259,260,OFF-PA-10000474,Office Supplies,Paper,Easy-staple paper
817,818,OFF-PA-10000349,Office Supplies,Paper,Easy-staple paper
819,820,OFF-PA-10003127,Office Supplies,Paper,Easy-staple paper
892,893,OFF-PA-10001685,Office Supplies,Paper,Easy-staple paper


Insight:
- tidak ada hubungan transitive antara product_id dengan product_name dikarenakan masing2 value tidak mempengaruhi value pada kolom yang lainnya

#### Cek hubungan category dengan sub_category

In [127]:
# cek hubungan product_id dengan product_name dengan 
# menggunakan sample value yang duplicate pada value category atau sub_category
sampleCategory = df[df['category'].duplicated()].iloc[0]['category']
sampleSubCategory = df[df['sub_category'].duplicated()].iloc[0]['sub_category']

In [128]:
# cek filter berdasarkan category
df[df.category == sampleCategory].head()

Unnamed: 0,id,product_id,category,sub_category,product_name
0,1,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase
1,2,FUR-CH-10000454,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,..."
3,4,FUR-TA-10000577,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table
5,6,FUR-FU-10001487,Furniture,Furnishings,Eldon Expressions Wood and Plastic Desk Access...
10,11,FUR-TA-10001539,Furniture,Tables,Chromcraft Rectangular Conference Tables


In [129]:
# cek filter berdasarkan sub_category
df[df.sub_category == sampleSubCategory].head()

Unnamed: 0,id,product_id,category,sub_category,product_name
3,4,FUR-TA-10000577,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table
10,11,FUR-TA-10001539,Furniture,Tables,Chromcraft Rectangular Conference Tables
114,115,FUR-TA-10001768,Furniture,Tables,Hon Racetrack Conference Tables
121,122,FUR-TA-10004534,Furniture,Tables,Bevis 44 x 96 Conference Tables
189,190,FUR-TA-10004289,Furniture,Tables,BoxOffice By Design Rectangular and Half-Moon ...


Insight:
- terdapat hubungan transitive dependency antara `id` -> `category` -> `sub_category` dikarenakan terdapat value pada `sub_category` yang dipengaruhi oleh value pada `category`, dalam contoh diatas yaitu sub_category "Table" akan selalu memiliki category "Furniture" sebagai pasangan nya.
- dikarenakan ada transitive dependency ini, maka kita akan melakukan proses berikutnya yaitu 3NF.
- dengan begitu kita bisa memisahkan dataframe ini menjadi beberapa table:
    - table 1 terdiri dari: `id`, `product_id`, `product_name`, dan `sub_category`
    - table 2 terdiri dari: `category` -> `sub_category`

### 3NF

Berdasarkan hasil 2NF sebelumnya, kita akan coba memisahkan terlebih dahulu dataframe menjadi beberapa table

#### Table 1
- terdiri dari: `id`, `product_id`, `product_name`, dan `sub_category`

In [130]:
table1 = df[['id', 'product_id', 'product_name', 'sub_category']].reset_index(drop=True)

table1.head()

Unnamed: 0,id,product_id,product_name,sub_category
0,1,FUR-BO-10001798,Bush Somerset Collection Bookcase,Bookcases
1,2,FUR-CH-10000454,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",Chairs
2,3,OFF-LA-10000240,Self-Adhesive Address Labels for Typewriters b...,Labels
3,4,FUR-TA-10000577,Bretford CR4500 Series Slim Rectangular Table,Tables
4,5,OFF-ST-10000760,Eldon Fold 'N Roll Cart System,Storage


#### Table 2

- terdiri dari `category` dan `sub_category`

In [131]:
table2 = df[['category', 'sub_category']]

# karena banyaknya duplicate values di antara category dan sub_category
# maka kita akan melakukan drop duplicates pada table ini.
table2 = table2.drop_duplicates().sort_values(by=['category', 'sub_category'])

# re-arrange column position
table2 = table2.reindex(columns=['sub_category', 'category']).reset_index(drop=True)

table2

Unnamed: 0,sub_category,category
0,Bookcases,Furniture
1,Chairs,Furniture
2,Furnishings,Furniture
3,Tables,Furniture
4,Appliances,Office Supplies
5,Art,Office Supplies
6,Binders,Office Supplies
7,Envelopes,Office Supplies
8,Fasteners,Office Supplies
9,Labels,Office Supplies


#### Table 3

- terdiri dari `category`

In [132]:
table3 = pd.DataFrame()
table3['category'] = table2['category'].drop_duplicates().reset_index(drop=True)

table3

Unnamed: 0,category
0,Furniture
1,Office Supplies
2,Technology


Insight:
- setelah kita memisahkan table, pada dataframe `table2` kita melihat bahwa nilai pada kolom `sub_category` itu unique semua, sehingga kita bisa anggap kolom tersebut sebagai primary pada table ini.
- terdapat functional dependency: `sub_category` -> `category`
- dikarenakan value kolom `category` memiliki value yang duplicate, maka kita juga dapat memisahkan kolom tersebut menjadi table sendiri.
- dengan demikian kita akan memiliki schema table sebagai berikut
    - table1:
        - id (PK), 
        - product_id, 
        - product_name, 
        - sub_category (FK)
    - table2: 
        - sub_category (PK)
        - category (FK)
    - table3:
        - category (PK)

### Export Hasil Normalisasi

In [133]:
table1.to_csv('outputs/products.csv', index=False)
table2.to_csv('outputs/subcategories.csv', index=False)
table3.to_csv('outputs/categories.csv', index=False)