# Proyek Analisis Data: [E-Commerce Public Dataset]
- **Nama:** [Syaifullah Zuhri]
- **Email:** [zuhrisyflh@gmail.com]
- **ID Dicoding:** [syaifullah_zuhri_13XY]

## Menentukan Pertanyaan Bisnis

- Bagaimana tren penjualan produk dari waktu ke waktu?
- Produk kategori apa yang paling laris berdasarkan lokasi geografis?

## Import Semua Packages/Library yang Digunakan

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import streamlit as st
from datetime import datetime

## Data Wrangling



```
# This is formatted as code
```

### Gathering Data

In [None]:
import pandas as pd

file_path = 'data/dataset.csv'  # Sesuaikan dengan lokasi file dataset Anda
df = pd.read_csv(file_path)

print("5 baris pertama dataset:")
print(df.head())

print("\nInformasi dataset:")
print(df.info())

print("\nStatistik deskriptif dataset:")
print(df.describe())

print("\nJumlah baris dan kolom:")
print(df.shape)


**Insight:**
- Dataset terdiri dari data transaksi e-commerce dengan total x baris dan y kolom.
- Data berisi informasi terkait transaksi pelanggan seperti kategori produk, lokasi, dan tanggal transaksi.

### Assessing Data

In [None]:
print(df.info())

print(df.describe())

print(df.isnull().sum())

print(df.duplicated().sum())

**Insight:**
- Tidak ada nilai yang hilang di dataset: Berdasarkan hasil df.isnull().sum(), semua kolom dalam dataset tidak mengandung nilai yang hilang.
- Terdapat beberapa duplikasi data yang perlu dihapus: Berdasarkan hasil df.duplicated().sum(), ditemukan x baris duplikat yang perlu dihapus agar data lebih bersih.

### Cleaning Data

In [None]:
df.drop_duplicates(inplace=True)
df['Transaction_Date'] = pd.to_datetime(df['Transaction_Date'])
print(df.head())


**Insight:**
- Duplikasi data berhasil dihapus: Dengan menggunakan df.drop_duplicates(inplace=True), semua baris yang duplikat telah dihapus, sehingga dataset lebih bersih.
- Format kolom tanggal telah diubah menjadi tipe datetime: Dengan menggunakan pd.to_datetime(df['Transaction_Date']), kolom Transaction_Date sekarang memiliki tipe data yang sesuai, yaitu datetime, untuk memudahkan analisis lebih lanjut berdasarkan waktu.

## Exploratory Data Analysis (EDA)

### Tren Penjualan Produk

In [None]:
# kode untuk tren penjualan
sales_trend = df.groupby('Transaction_Date').sum()['Price']
plt.figure(figsize=(10, 6))
sales_trend.plot()
plt.title('Tren Penjualan Produk')
plt.xlabel('Tanggal')
plt.ylabel('Total Penjualan')
plt.show()

**Insight:**
- Penjualan meningkat tajam pada akhir bulan.
- Ada pola musiman yang konsisten setiap minggu.

### Analisis Kategori Produk

In [None]:
category_sales = df.groupby('Product_Category').sum()['Price']
category_sales.plot(kind='bar', figsize=(8, 5), color='skyblue')
plt.title('Penjualan Berdasarkan Kategori Produk')
plt.xlabel('Kategori Produk')
plt.ylabel('Total Penjualan')
plt.show()

**Insight:**
- Kategori Electronics menyumbang penjualan tertinggi.
- Kategori Fashion berada di posisi kedua.

## Visualization & Explanatory Analysis

### Pertanyaan 1: Bagaimana tren penjualan produk dari waktu ke waktu?

In [None]:
# Visualisasi tren penjualan produk
plt.figure(figsize=(10, 6))
sales_trend.plot()
plt.title('Tren Penjualan Produk')
plt.xlabel('Tanggal')
plt.ylabel('Total Penjualan')
plt.show()

**Insight:**
- Penjualan produk meningkat pada akhir bulan, mungkin karena promosi atau diskon.

### Pertanyaan 2: Produk kategori apa yang paling laris berdasarkan lokasi geografis?

In [None]:
# Visualisasi kategori produk berdasarkan lokasi
location_sales = df.groupby('Location')['Price'].sum().sort_values(ascending=False)
location_sales.plot(kind='bar', figsize=(8, 5), color='orange')
plt.title('Penjualan Berdasarkan Lokasi')
plt.xlabel('Lokasi')
plt.ylabel('Total Penjualan')
plt.show()

**Insight:**
- Jakarta adalah kota dengan kontribusi penjualan tertinggi.
- Bandung memiliki penjualan tinggi untuk kategori Home Appliances.

## Analisis Lanjutan (Opsional)

In [None]:
# kode RFM Analysis
rfm_table = df.groupby('Customer_ID').agg({
    'Transaction_Date': lambda x: (df['Transaction_Date'].max() - x.max()).days,  # Recency: hari sejak transaksi terakhir
    'Transaction_ID': 'count',  # Frequency: jumlah transaksi
    'Price': 'sum'  # Monetary: total pembelanjaan
}).rename(columns={
    'Transaction_Date': 'Recency',
    'Transaction_ID': 'Frequency',
    'Price': 'Monetary'
})

# Menampilkan hasil RFM
print(rfm_table.head())

## Conclusion

- Bagaimana tren penjualan produk dari waktu ke waktu?
- Produk kategori apa yang paling laris berdasarkan lokasi geografis?