## Data Understanding

Tentu, ini penjelasan kolom-kolom dari kedua file CSV yang Anda berikan, beserta terjemahannya ke Bahasa Indonesia, dalam format paragraf:

**1.File: List-of-Orders.csv**

File ini berisi informasi dasar tentang setiap pesanan. Kolom "Order ID" atau "ID Pesanan" adalah kode unik yang mengidentifikasi setiap transaksi. "Order Date" atau "Tanggal Pesanan" mencatat tanggal saat pesanan tersebut dilakukan. "Customer Name" atau "Nama Pelanggan" menunjukkan nama pelanggan yang membuat pesanan. "State" atau "Provinsi" adalah provinsi tempat pelanggan berada, dan "City" atau "Kota" adalah kota tempat pelanggan tersebut berdomisili.

**2.File: Order-Details.csv**

File ini memberikan detail lebih lanjut tentang setiap pesanan yang ada di file sebelumnya. Kolom "Order ID" atau "ID Pesanan" menghubungkan setiap baris di file ini ke pesanan yang sesuai di file "List-of-Orders.csv". "Amount" atau "Jumlah" adalah nilai uang dari item yang dipesan. "Profit" atau "Keuntungan" menunjukkan laba yang diperoleh dari item tersebut. "Quantity" atau "Kuantitas" adalah jumlah unit yang dipesan. "Category" atau "Kategori" memberikan klasifikasi umum dari item yang dipesan, seperti "Pakaian" atau "Elektronik", sementara "Sub-Category" atau "Subkategori" memberikan deskripsi yang lebih spesifik, seperti "Kemeja" atau "Telepon Seluler".



In [55]:
import pandas as pd

# 1. Membaca file CSV List-of-Orders dan menghapus baris dengan Order ID yang NULL
list_orders = pd.read_csv('List of Orders.csv')

# A. Handling Duplicated Data

In [56]:
len(list_orders.drop_duplicates()) / len(list_orders)

0.8946428571428572

In [57]:
list_orders =list_orders.drop_duplicates()

In [58]:
len(list_orders.drop_duplicates()) / len(list_orders)

1.0

* Duplikat telah dihandling

# B. Handling Missing Value

In [59]:
print(list_orders.isnull().sum())

Order ID        1
Order Date      1
CustomerName    1
State           1
City            1
dtype: int64


In [60]:
list_orders_cleaned = list_orders.dropna(subset=['Order ID'])

In [61]:
# 2. Mengecek missing value pada data list order yang telah dibersihkan
print("Missing values pada List-of-Orders setelah cleaning:")
print(list_orders_cleaned.isnull().sum())

Missing values pada List-of-Orders setelah cleaning:
Order ID        0
Order Date      0
CustomerName    0
State           0
City            0
dtype: int64


In [62]:
# 3. Membaca file CSV Order-Details
order_details = pd.read_csv('Order Details.csv')

In [63]:
len(order_details.drop_duplicates()) / len(order_details)

1.0

In [64]:
print("Missing values pada List-of-Orders setelah cleaning:")
print(order_details.isnull().sum())

Missing values pada List-of-Orders setelah cleaning:
Order ID        0
Amount          0
Profit          0
Quantity        0
Category        0
Sub-Category    0
dtype: int64


## Ada apa? di sini saya ingin menjoin dengan:

-  on='Order ID': Ini menunjukkan bahwa penggabungan akan dilakukan berdasarkan kolom "Order ID" yang ada di kedua DataFrame. Kolom ini berfungsi sebagai kunci untuk mencocokkan baris dari kedua DataFrame.

- how='left': Ini menentukan jenis penggabungan yang dilakukan. Dengan menggunakan how='left', kita melakukan penggabungan kiri (left join), yang berarti semua baris dari DataFrame orders akan tetap ada di hasil akhir, dan hanya baris yang cocok dari DataFrame details yang akan ditambahkan. Jika tidak ada kecocokan, nilai di kolom dari DataFrame details akan menjadi NaN (Not a Number).

In [65]:
# 4. Menggabungkan data list order dan order details dengan left join
merged_data = pd.merge(list_orders_cleaned, order_details, on='Order ID', how='left')

In [66]:
# Menampilkan beberapa baris pertama dari data hasil merge
print("\nBeberapa baris pertama dari data hasil merge:")
print(merged_data.head())


Beberapa baris pertama dari data hasil merge:
  Order ID  Order Date CustomerName        State       City  Amount  Profit  \
0  B-25601  01-04-2018       Bharat      Gujarat  Ahmedabad  1275.0 -1148.0   
1  B-25601  01-04-2018       Bharat      Gujarat  Ahmedabad    66.0   -12.0   
2  B-25601  01-04-2018       Bharat      Gujarat  Ahmedabad     8.0    -2.0   
3  B-25601  01-04-2018       Bharat      Gujarat  Ahmedabad    80.0   -56.0   
4  B-25602  01-04-2018        Pearl  Maharashtra       Pune   168.0  -111.0   

   Quantity     Category      Sub-Category  
0         7    Furniture         Bookcases  
1         5     Clothing             Stole  
2         3     Clothing       Hankerchief  
3         4  Electronics  Electronic Games  
4         2  Electronics            Phones  


In [67]:
# 5. Mengecek kembali missing value pada data hasil merge
print("\nMissing values pada data hasil merge:")
print(merged_data.isnull().sum())


Missing values pada data hasil merge:
Order ID        0
Order Date      0
CustomerName    0
State           0
City            0
Amount          0
Profit          0
Quantity        0
Category        0
Sub-Category    0
dtype: int64


In [68]:
len(merged_data.drop_duplicates()) / len(merged_data)

1.0

* Missing Value telah dihandling

# C. Cek Tipe Data

In [69]:
# Cek tipe data menggunakan dtypes
print("\nCek Tipe Data:")
print(merged_data.dtypes)


Cek Tipe Data:
Order ID         object
Order Date       object
CustomerName     object
State            object
City             object
Amount          float64
Profit          float64
Quantity          int64
Category         object
Sub-Category     object
dtype: object


In [70]:
#Ubah tipe data dari object ke datetime
merged_data['Order Date'] = pd.to_datetime(merged_data['Order Date'], format='%d-%m-%Y')

In [71]:
# Cek tipe data menggunakan dtypes
print("\nCek Tipe Data:")
print(merged_data.dtypes)


Cek Tipe Data:
Order ID                object
Order Date      datetime64[ns]
CustomerName            object
State                   object
City                    object
Amount                 float64
Profit                 float64
Quantity                 int64
Category                object
Sub-Category            object
dtype: object


# D. Convert file ke csv/xlsx

In [72]:
# Export ke CSV
merged_data.to_csv('e-commerceindia.csv', index=False)

# Export ke Excel
merged_data.to_excel('e-commerceindia.xlsx', index=False)