# Proyek Analisis Data: E-Commerce Public Dataset
- Nama: Niko Febrianur
- Email: nikofebrianur@gmail.com
- Id Dicoding: nikofebrianur

## Menentukan Pertanyaan Bisnis

- Kategori produk apa saja yang memiliki review paling bagus (skor 5) di tahun 2018 dengan harga lebih dari USD 2000?
- Metode pembayaran apa yang paling banyak digunakan pelanggan untuk membeli barang berharga lebih dari USD 1000?



## Menyiapkan semua library yang dibutuhkan

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
!pip install --upgrade setuptools

Collecting setuptools
  Obtaining dependency information for setuptools from https://files.pythonhosted.org/packages/4f/ab/0bcfebdfc3bfa8554b2b2c97a555569c4c1ebc74ea288741ea8326c51906/setuptools-68.1.2-py3-none-any.whl.metadata
  Downloading setuptools-68.1.2-py3-none-any.whl.metadata (6.2 kB)
Downloading setuptools-68.1.2-py3-none-any.whl (805 kB)
   ---------------------------------------- 0.0/805.1 kB ? eta -:--:--
    --------------------------------------- 10.2/805.1 kB ? eta -:--:--
   --- ----------------------------------- 71.7/805.1 kB 991.0 kB/s eta 0:00:01
   ------------ --------------------------- 256.0/805.1 kB 2.0 MB/s eta 0:00:01
   ------------------------- -------------- 522.2/805.1 kB 3.3 MB/s eta 0:00:01
   ---------------------------------------- 805.1/805.1 kB 3.9 MB/s eta 0:00:00
Installing collected packages: setuptools
  Attempting uninstall: setuptools
    Found existing installation: setuptools 68.0.0
    Uninstalling setuptools-68.0.0:
      Successfully uni

## Data Wrangling

### Gathering Data

In [2]:
from google.colab import drive
drive.mount('/content/gdrive')

!cp '/content/gdrive/MyDrive/Kaggle Datasets/E-Commerce Public Dataset'

ModuleNotFoundError: No module named 'google.colab'

####Products Data



> Membuat dataframe dari dataset products_dataset.csv



In [None]:
products_df = pd.read_csv("/content/gdrive/MyDrive/Kaggle Datasets/E-Commerce Public Dataset/products_dataset.csv")
products_df.head(10)

####Orders Data



> Membuat dataframe dari dataset order_items_dataset.csv



In [None]:
order_items_df = pd.read_csv("/content/gdrive/MyDrive/Kaggle Datasets/E-Commerce Public Dataset/order_items_dataset.csv")
order_items_df.head(10)




> Membuat dataframe dari dataset order_payments_dataset.csv



In [None]:
order_payments_df = pd.read_csv("/content/gdrive/MyDrive/Kaggle Datasets/E-Commerce Public Dataset/order_payments_dataset.csv")
order_payments_df.head(10)



> INNER JOIN dataframe order_items_df dengan order_payments_dataset_df



In [None]:
merged_order_items_payments_df = pd.merge(
    left=order_items_df,
    right=order_payments_df,
    how="inner",
    left_on="order_id",
    right_on="order_id"
)
merged_order_items_payments_df.head(10)



> Membuat dataframe dari dataset order_reviews_dataset.csv



In [None]:
order_reviews_df = pd.read_csv("/content/gdrive/MyDrive/Kaggle Datasets/E-Commerce Public Dataset/order_reviews_dataset.csv")
order_reviews_df.head(10)



> Membuat dataframe dari dataset orders_dataset_dataset.csv



In [None]:
orders_df = pd.read_csv("/content/gdrive/MyDrive/Kaggle Datasets/E-Commerce Public Dataset/orders_dataset.csv")
orders_df.head(10)



> INNER JOIN dataframe order_reviews_df dengan orders_df



In [None]:
merged_order_reviews_df = pd.merge(
    left=order_reviews_df,
    right=orders_df,
    how="inner",
    left_on="order_id",
    right_on="order_id"
)
merged_order_reviews_df.head(10)



> INNER JOIN dataframe merged_order_items_payments_df dengan merged_order_reviews_df



In [None]:
orders_data_df = pd.merge(
    left=merged_order_items_payments_df,
    right=merged_order_reviews_df,
    how="inner",
    left_on="order_id",
    right_on="order_id"
)
orders_data_df.head(10)

### Assessing Data

####Products Data



> Mendapatkan info column pada dataframe products_df



In [None]:
products_df.info()



> Mendapatkan informasi terkait missing value di dataframe products_df



In [None]:
products_df.isnull().sum()


> Mendapatkan informasi terkait duplikasi di dataframe products_df




In [None]:
print("Jumlah duplikasi: ", products_df.duplicated().sum())



> Mendapatkan rangkuman parameter statistik dari dataframe products_df



In [None]:
products_df.describe()

#### Orders Data

> Mendapatkan info column pada dataframe products_df



In [None]:
orders_data_df.info()

> Mengubah tipe data price ke integer



In [None]:
orders_data_df['price'] = orders_data_df['price'].astype(int)
orders_data_df.info()

> Mendapatkan informasi terkait missing value di dataframe products_df





In [None]:
orders_data_df.isnull().sum()



> Mendapatkan informasi terkait duplikasi di dataframe orders_data_df



In [None]:
print("Jumlah duplikasi: ", orders_data_df.duplicated().sum())



> Mendapatkan rangkuman parameter statistik dari dataframe orders_data_df



In [None]:
orders_data_df.describe()

### Cleaning Data

####Products Data

In [None]:
products_df.dropna(axis=0, inplace=True)
products_df.isnull().sum()

In [None]:
products_data = products_df[['product_id','product_category_name']]

In [None]:
products_data.describe()

####Orders Data

In [None]:
orders_data_df.dropna(axis=0, inplace=True)
orders_data_df.isnull().sum()

In [None]:
orders_data = orders_data_df[['order_id','product_id','price', 'payment_type','review_score','order_purchase_timestamp']]

In [None]:
orders_data.describe()

## Exploratory Data Analysis (EDA)



> Mendapatkan jumlah total produk unik dengan skor review 5



In [None]:
orders_data.groupby(by="review_score").product_id.nunique().sort_values(ascending=False)



> Mendapatkan produk id dengan skor review 5



In [None]:
best_reviewed_products_id_df = orders_data[orders_data['review_score'] == 5]
best_reviewed_products_id_df



> Mendapatkan nama kategori produk dengan skor review 5 dengan menggabungkan kedua dataframe



In [None]:
best_product_by_review_df = pd.merge(
    left=products_data,
    right=best_reviewed_products_id_df,
    how="inner",
    left_on="product_id",
    right_on="product_id"
)
best_product_by_review_df.head(10)



> Mendapatkan jumlah total tipe metode pembayaran



In [None]:
orders_data.groupby(by="payment_type").product_id.nunique().sort_values(ascending=False)


> Mendapatkan produk berharga lebih dari USD 1000



In [None]:
price_gt_1000_df = orders_data[orders_data['price'] > 1000]
price_gt_1000_df

In [None]:
price_gt_1000_payment_type_df = pd.merge(
    left=products_data,
    right=price_gt_1000_df,
    how="inner",
    left_on="product_id",
    right_on="product_id"
)
price_gt_1000_payment_type_df.head(10)

## Visualization & Explanatory Analysis

### Kategori produk apa saja yang memiliki review paling bagus (skor 5) di tahun 2018 dengan harga lebih dari USD 2000?




> Mendapatkan semua nama kategori produk dengan skor review 5 dengan harga lebih dari USD 2000 di tahun 2018



In [None]:
df = best_product_by_review_df
df['order_purchase_timestamp'] = pd.to_datetime(df['order_purchase_timestamp'])
top_products = df[(df['price'] > 2000) & (df['order_purchase_timestamp'].dt.year == 2018)]
unique_categories = top_products.drop_duplicates(subset='product_category_name')
unique_categories[['product_category_name','review_score','price']]



> Membuat visualisasi berupa plot batang



In [None]:
categories = unique_categories['product_category_name']
prices = unique_categories['price']

plt.figure(figsize=(12, 6))
plt.barh(categories, prices, color='skyblue')
plt.xlabel('Harga')
plt.ylabel('Kategori Produk')
plt.title('Kategori Produk Berharga > USD 2000 dengan Skor Review 5 di Tahun 2018')
plt.gca().invert_yaxis()
plt.show()

### Metode pembayaran apa yang paling banyak digunakan pelanggan untuk membeli barang berharga USD 1000?




> Mendapatkan kolom yang akan digunakan


In [None]:
price_gt_1000_payment_type_df[['product_category_name','price','payment_type']]



> Mendapatkan jumlah total payment_type



In [None]:
price_gt_1000_payment_type_df.groupby(by="payment_type").product_id.nunique().sort_values(ascending=False)



> Membuat visualisasi berupa pie chart



In [None]:
# Data
payment_types = ['credit_card', 'boleto', 'debit_card', 'voucher']
total_payments = [88, 9, 4, 4]

# Warna yang akan digunakan pada setiap bagian pie chart
colors = ['blue', 'green', 'red', 'purple']

# Explode: Untuk memisahkan sebagian potongan pie (opsional)
explode = (0.1, 0, 0, 0)  # Pemisahan potongan pertama (credit_card)

# Membuat pie chart
plt.figure(figsize=(8, 8))
plt.pie(total_payments, labels=payment_types, colors=colors, explode=explode, autopct='%1.1f%%', startangle=140)
plt.axis('equal')  # Membuat lingkaran menjadi bundar

# Menambahkan judul
plt.title('Metode Pembayaran Barang di atas USD 1000')

# Menampilkan pie chart
plt.show()

## Conclusion

Dari hasil analisis, dapat disimpulkan bahwa:
- Ada 10 kategori produk yang memiliki harga lebih dari USD 2000 dan mendapatkan skor review sebesar 5 selama tahun 2018. Ini menunjukkan bahwa meskipun produk-produk ini memiliki harga yang tinggi, pelanggan masih memberikan penilaian yang sangat positif terhadap kualitas dan kepuasan mereka terhadap produk-produk tersebut. Kombinasi dari harga tinggi dan skor review yang tinggi ini mungkin mencerminkan kualitas yang sangat baik dari produk-produk dalam kategori-kategori tersebut, yang dapat menarik perhatian calon pembeli yang mencari produk-produk berkualitas tinggi. Analisis ini dapat menjadi acuan yang berguna dalam strategi pemasaran dan penawaran produk di masa mendatang.
- Metode pembayaran yang paling banyak digunakan oleh pelanggan untuk produk dengan harga lebih dari USD 1000 adalah "credit_card" dengan jumlah transaksi sebanyak 88, yang jauh lebih dominan dibandingkan dengan metode pembayaran lainnya seperti "boleto," "debit_card," dan "voucher." Hal ini menunjukkan bahwa mayoritas pelanggan lebih memilih menggunakan kartu kredit sebagai metode pembayaran saat mereka membeli produk dengan nilai transaksi yang tinggi, mungkin karena kemudahan dan fleksibilitas yang ditawarkan oleh metode pembayaran ini.

In [None]:
all_df = pd.merge(
    left=products_data,
    right=orders_data_df,
    how="inner",
    left_on="product_id",
    right_on="product_id"
)
all_df

In [None]:
all_df.to_csv("all_data.csv", index=False)