<a href="https://colab.research.google.com/github/LatiefDataVisionary/latihan-analisis-data-menggunakan-python-dicoding/blob/main/Proyek_Analisis_Data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Proyek Analisis Data: E-Commerce Public Dataset
- **Nama:** Lathif Ramadhan
- **Email:** lathiframadhan18@gmail.com
- **ID Dicoding:** latief18

## Menentukan Pertanyaan Bisnis

**- Pertanyaan 1**

Apa faktor yang paling memengaruhi nilai total pembelian pelanggan di platform e-commerce ini?

- Insight yang ingin dicapai: Menganalisis bagaimana berbagai variabel (seperti jumlah item dalam keranjang, kategori produk, atau diskon) mempengaruhi total pembelian pelanggan.

**- Pertanyaan 2**

Bagaimana pola pembelian berdasarkan waktu? Apakah ada tren musiman atau harian yang terlihat?

- Insight yang ingin dicapai: Menganalisis data pembelian untuk melihat apakah ada tren tertentu dalam waktu pembelian (misalnya, hari tertentu dalam seminggu atau bulan) dan bagaimana itu berdampak pada penjualan.



## Import Semua Packages/Library yang Digunakan

In [6]:
# Manipulasi dan analisis data
import pandas as pd
import numpy as np

# Visualisasi dasar dan lanjutan
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px  # Opsional, untuk visualisasi interaktif

# Pengolahan data lanjutan (opsional, jika ada)
from scipy import stats

# Analisis geospasial (opsional, jika dataset memuat data lokasi)
import geopandas as gpd
import folium

# Mount Google Drive ke Colab
from google.colab import drive

# Mengimpor Library untuk Ekstraksi ZIP
import zipfile
import os

## Data Wrangling

### Gathering Data

**1. Mount Google Drive**

Karena filenya saya simpan di Google Drive, maka saya menggunakan Mount Google drive untuk dapat mengakses datasetnya menggunakan link.

In [3]:
drive.mount('/content/drive')

Mounted at /content/drive


**2. Membaca Dataset**


In [23]:
# Definisikan jalur ke masing-masing file dataset
base_path = '/content/drive/My Drive/Projek Analisis Data Menggunakan Python Dicoding/'  # Ganti dengan jalur folder Anda

# Memuat datasets
orders_path = os.path.join(base_path, 'orders_dataset.csv')
order_items_path = os.path.join(base_path, 'order_items_dataset.csv')
customers_path = os.path.join(base_path, 'customers_dataset.csv')

# Membaca masing-masing dataset
orders_data = pd.read_csv(orders_path)
order_items_data = pd.read_csv(order_items_path)
customers_data = pd.read_csv(customers_path)

# Menampilkan beberapa baris pertama dari masing-masing dataset
print("Orders Data:")
print(orders_data.head())
print("\nOrder Items Data:")
print(order_items_data.head())
print("\nCustomers Data:")
print(customers_data.head())


Orders Data:
                           order_id                       customer_id  \
0  e481f51cbdc54678b7cc49136f2d6af7  9ef432eb6251297304e76186b10a928d   
1  53cdb2fc8bc7dce0b6741e2150273451  b0830fb4747a6c6d20dea0b8c802d7ef   
2  47770eb9100c2d0c44946d9cf07ec65d  41ce2a54c0b03bf3443c3d931a367089   
3  949d5b44dbf5de918fe9c16f97b45f8a  f88197465ea7920adcdbec7375364d82   
4  ad21c59c0840e6cb83a9ceb5573f8159  8ab97904e6daea8866dbdbc4fb7aad2c   

  order_status order_purchase_timestamp    order_approved_at  \
0    delivered      2017-10-02 10:56:33  2017-10-02 11:07:15   
1    delivered      2018-07-24 20:41:37  2018-07-26 03:24:27   
2    delivered      2018-08-08 08:38:49  2018-08-08 08:55:23   
3    delivered      2017-11-18 19:28:06  2017-11-18 19:45:59   
4    delivered      2018-02-13 21:18:39  2018-02-13 22:20:29   

  order_delivered_carrier_date order_delivered_customer_date  \
0          2017-10-04 19:55:00           2017-10-10 21:25:13   
1          2018-07-26 14:31:00     

### Insight Gathering Data
Deskripsi Dataset:

**1. Orders Data:**

- Jumlah baris: 99442 baris
- Jumlah kolom: 8
- Kolom yang ada: order_id, customer_id, order_status, order_purchase_timestamp, order_approved_at, order_delivered_carrier_date, order_delivered_customer_date, order_estimated_delivery_date.

**2. Order Items Data:**

- Jumlah baris: 112561 baris
- Jumlah kolom: 7
- Kolom yang ada: order_id, order_item_id, product_id, seller_id, shipping_limit_date, price, freight_value.

3**. Customers Data:**

- Jumlah baris: 99442 baris
- Jumlah kolom: 5
- Kolom yang ada: customer_id, customer_unique_id, customer_zip_code_prefix, customer_city, customer_state.


### Assessing Data

In [26]:
# Memeriksa informasi dasar dari masing-masing dataset
print("\tOrders Data Info:")
print(orders_data.info())
print("\n\n\tOrder Items Data Info:")
print(order_items_data.info())
print("\n\n\tCustomers Data Info:")
print(customers_data.info())

# Menampilkan ringkasan statistik untuk dataset numerik
print("\n\n\tOrders Data Summary:")
print(orders_data.describe())
print("\n\n\tOrder Items Data Summary:")
print(order_items_data.describe())
print("\n\n\tCustomers Data Summary:")
print(customers_data.describe())


	Orders Data Info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 8 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   order_id                       99441 non-null  object
 1   customer_id                    99441 non-null  object
 2   order_status                   99441 non-null  object
 3   order_purchase_timestamp       99441 non-null  object
 4   order_approved_at              99281 non-null  object
 5   order_delivered_carrier_date   97658 non-null  object
 6   order_delivered_customer_date  96476 non-null  object
 7   order_estimated_delivery_date  99441 non-null  object
dtypes: object(8)
memory usage: 6.1+ MB
None


	Order Items Data Info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 7 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  


**Insight:**
### Insight Dataset
1. **Orders Data**: Dataset berisi 99.441 pesanan dengan beberapa nilai hilang pada kolom `order_approved_at`, `order_delivered_carrier_date`, dan `order_delivered_customer_date`. Mayoritas status pesanan adalah `delivered`, yang menunjukkan keberhasilan pengiriman.

2. **Order Items Data**: Dataset memiliki 112.650 item pesanan dengan harga bervariasi dari yang rendah hingga tinggi. Rata-rata harga item adalah Rp 120.653, dan ada beberapa item dengan biaya pengiriman nol. Ini bisa menunjukkan berbagai kategori produk yang ditawarkan.

3. **Customers Data**: Dataset berisi 99.441 pelanggan dengan rentang kode pos yang luas. Ini dapat memberikan wawasan tentang distribusi pelanggan dan segmen pasar yang berbeda yang perlu dianalisis lebih lanjut.


### Cleaning Data

In [27]:
# Cleaning Orders Data
# Menghapus duplikat
orders_data.drop_duplicates(inplace=True)

# Menangani nilai hilang
# Mengisi nilai hilang pada 'order_approved_at' dengan tanggal terbaru dari 'order_purchase_timestamp'
orders_data['order_approved_at'].fillna(orders_data['order_purchase_timestamp'], inplace=True)

# Menghapus entri yang memiliki nilai hilang pada kolom penting
orders_data.dropna(subset=['order_delivered_carrier_date', 'order_delivered_customer_date'], inplace=True)

# Mengubah kolom menjadi tipe data datetime
orders_data['order_purchase_timestamp'] = pd.to_datetime(orders_data['order_purchase_timestamp'])
orders_data['order_approved_at'] = pd.to_datetime(orders_data['order_approved_at'])
orders_data['order_delivered_carrier_date'] = pd.to_datetime(orders_data['order_delivered_carrier_date'])
orders_data['order_delivered_customer_date'] = pd.to_datetime(orders_data['order_delivered_customer_date'])

# Cleaning Order Items Data
# Menghapus duplikat
order_items_data.drop_duplicates(inplace=True)

# Memeriksa nilai harga dan freight_value
order_items_data = order_items_data[order_items_data['price'] >= 0]  # Menghapus harga negatif
order_items_data = order_items_data[order_items_data['freight_value'] >= 0]  # Menghapus freight value negatif

# Cleaning Customers Data
# Menghapus duplikat
customers_data.drop_duplicates(inplace=True)

# Menangani nilai hilang (tidak ada yang terdeteksi, tetapi bisa ditangani jika perlu)
# Mengubah kolom customer_zip_code_prefix menjadi tipe data string
customers_data['customer_zip_code_prefix'] = customers_data['customer_zip_code_prefix'].astype(str)

# Setelah membersihkan data, Anda bisa melihat ringkasan data yang bersih
print("Orders Data Cleaned:")
print(orders_data.info())

print("Order Items Data Cleaned:")
print(order_items_data.info())

print("Customers Data Cleaned:")
print(customers_data.info())


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  orders_data['order_approved_at'].fillna(orders_data['order_purchase_timestamp'], inplace=True)


Orders Data Cleaned:
<class 'pandas.core.frame.DataFrame'>
Index: 96475 entries, 0 to 99440
Data columns (total 8 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   order_id                       96475 non-null  object        
 1   customer_id                    96475 non-null  object        
 2   order_status                   96475 non-null  object        
 3   order_purchase_timestamp       96475 non-null  datetime64[ns]
 4   order_approved_at              96475 non-null  datetime64[ns]
 5   order_delivered_carrier_date   96475 non-null  datetime64[ns]
 6   order_delivered_customer_date  96475 non-null  datetime64[ns]
 7   order_estimated_delivery_date  96475 non-null  object        
dtypes: datetime64[ns](4), object(4)
memory usage: 6.6+ MB
None
Order Items Data Cleaned:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 7 columns):
 #   C

### Penjelasan Kode

1. **Menghapus Duplikat**: `drop_duplicates()` digunakan untuk menghapus baris yang sama.
2. **Menangani Nilai Hilang**: `fillna()` digunakan untuk mengisi nilai hilang dengan nilai lain, sedangkan `dropna()` digunakan untuk menghapus baris yang memiliki nilai hilang di kolom tertentu.
3. **Mengubah Tipe Data**: `pd.to_datetime()` digunakan untuk mengubah string ke format datetime.
4. **Memeriksa dan Menghapus Data yang Tidak Valid**: Kita memfilter dataset untuk memastikan harga dan biaya pengiriman tidak negatif.


**Insight:**
Insight dari Data yang Sudah Dibersihkan
1. Orders Data:

- Jumlah Data: Setelah pembersihan, terdapat 96.475 entri yang valid dari total 99.441 entri awal. Ini menunjukkan bahwa beberapa entri dihapus karena nilai hilang pada kolom penting, seperti tanggal pengiriman.
- Tipe Data: Kolom tanggal kini sudah dalam format datetime, yang memungkinkan analisis waktu yang lebih baik, seperti waktu pemrosesan pesanan dan estimasi pengiriman.
- Status Pesanan: Semua entri masih memiliki status pesanan, menunjukkan tidak ada entri dengan status yang hilang.
2. Order Items Data:
- Jumlah Data: Tidak ada perubahan dalam jumlah entri, tetap 112.650 entri setelah pembersihan. Ini berarti tidak ada entri yang dihapus karena nilai hilang.
- Harga dan Biaya Pengiriman: Semua entri dalam kolom harga dan biaya pengiriman adalah valid dan tidak negatif. Ini penting untuk memastikan akurasi dalam analisis biaya.
3. Customers Data:
- Konsistensi Data: Jumlah entri tetap 99.441, menunjukkan bahwa tidak ada duplikasi yang terdeteksi dan semua data konsisten.
- Kategorisasi Pelanggan: Kolom customer_zip_code_prefix sudah diubah menjadi tipe string, memudahkan analisis geografis.

## Exploratory Data Analysis (EDA)

### Explore ...

**Insight:**
- xxx
- xxx

## Visualization & Explanatory Analysis

### Pertanyaan 1:

### Pertanyaan 2:

**Insight:**
- xxx
- xxx

## Analisis Lanjutan (Opsional)

## Conclusion

- Conclution pertanyaan 1
- Conclution pertanyaan 2