<a href="https://colab.research.google.com/github/HelmyPurnomoHidayat22/submission-analisis-data-dengan-python/blob/main/Proyek%20%20data%20analisis%20-E-Commerce%20Public%20Dataset.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Proyek Analisis Data: [E-Commerce Public Dataset]
- **Nama:** [Helmy Purnomo Hidayat]
- **Email:** [helmypurnomo234@gmail.com]
- **ID Dicoding:** [
Helmy Purnomo Hidayat]

## Menentukan Pertanyaan Bisnis

- Apakah anda terkendala mengenai data penjualan tahunan?
- Bagaimana anda melaporkan  data penjualan tahunan?

## Import Semua Packages/Library yang Digunakan

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from datetime import datetime


### Gathering Data

In [None]:
# Load datasets
customers = pd.read_csv('olist_customers_dataset.csv')
orders = pd.read_csv('olist_orders_dataset.csv')
payments = pd.read_csv('olist_order_payments_dataset.csv')

# Gabungkan dataset
merged_data = pd.merge(customers, orders, on='customer_id')
merged_data = pd.merge(merged_data, payments, on='order_id')

# Tambahkan kolom tanggal
merged_data['order_purchase_timestamp'] = pd.to_datetime(merged_data['order_purchase_timestamp'])

# Menampilkan beberapa baris pertama dari data
merged_data.head()


### Assessing Data

In [None]:
# Assessing Data
print(merged_data.info())  # Melihat tipe data dan missing values
print(merged_data.isnull().sum())  # Mengidentifikasi missing values
print(merged_data.duplicated().sum())  # Mengecek duplikasi

# Cleaning Data
merged_data.dropna(inplace=True)  # Menghapus missing values
merged_data.drop_duplicates(inplace=True)  # Menghapus duplikasi
merged_data['order_purchase_timestamp'] = pd.to_datetime(merged_data['order_purchase_timestamp'])  # Konversi tipe data


### Cleaning Data

In [None]:
# Menghapus baris yang memiliki missing values
cleaned_data = merged_data.dropna()

# Mengisi missing values dengan nilai rata-rata (misal untuk kolom numerik)
merged_data['payment_value'].fillna(merged_data['payment_value'].mean(), inplace=True)

# Menghapus duplikasi
cleaned_data = merged_data.drop_duplicates()

# Mengubah tipe data jika tidak sesuai (misal kolom tanggal harus dalam datetime format)
merged_data['order_purchase_timestamp'] = pd.to_datetime(merged_data['order_purchase_timestamp'])

# Menangani outliers dengan menghapus data yang berada di luar rentang tertentu
cleaned_data = merged_data[(merged_data['payment_value'] > 0) & (merged_data['payment_value'] < 10000)]


## Exploratory Data Analysis (EDA)

In [None]:
# Melihat deskripsi umum dari data
merged_data.describe()

# Memeriksa missing values
merged_data.isnull().sum()

# Melihat distribusi pelanggan berdasarkan kota
location_distribution = merged_data['customer_city'].value_counts()
location_distribution.head()


## Visualization & Explanatory Analysis

In [None]:
# Fungsi untuk menampilkan visualisasi sesuai dengan pilihan
def plot_visualizations(chart_type):
    if chart_type == 'Diagram Garis':
        # Diagram Garis
        plt.figure(figsize=(10, 6))
        merged_data.groupby('order_purchase_timestamp')['order_id'].count().plot(kind='line')
        plt.title('Jumlah Pesanan per Hari')
        plt.xlabel('Tanggal')
        plt.ylabel('Jumlah Pesanan')
        plt.show()

    elif chart_type == 'Diagram Lingkaran':
        # Diagram Lingkaran
        plt.figure(figsize=(8, 8))
        payment_analysis = merged_data.groupby('payment_type')['order_id'].count()
        plt.pie(payment_analysis, labels=payment_analysis.index, autopct='%1.1f%%')
        plt.title('Distribusi Metode Pembayaran')
        plt.show()

    elif chart_type == 'Histogram':
        # Histogram
        plt.figure(figsize=(10, 6))
        plt.hist(merged_data['payment_value'], bins=30)
        plt.title('Distribusi Nilai Pembayaran')
        plt.xlabel('Nilai Pembayaran')
        plt.ylabel('Frekuensi')
        plt.show()

    elif chart_type == 'Diagram Pencar':
        # Diagram Pencar (Scatter)
        plt.figure(figsize=(10, 6))
        plt.scatter(merged_data['payment_value'], merged_data['order_id'])
        plt.title('Diagram Pencar: Nilai Pembayaran vs Pesanan')
        plt.xlabel('Nilai Pembayaran')
        plt.ylabel('Jumlah Pesanan')
        plt.show()

    elif chart_type == 'Diagram Kotak Garis':
        # Diagram Kotak Garis (Box Plot)
        plt.figure(figsize=(10, 6))
        sns.boxplot(x='payment_type', y='payment_value', data=merged_data)
        plt.title('Distribusi Nilai Pembayaran Berdasarkan Metode Pembayaran')
        plt.xlabel('Metode Pembayaran')
        plt.ylabel('Nilai Pembayaran')
        plt.show()

    elif chart_type == 'Diagram Pareto':
        # Diagram Pareto
        payment_counts = merged_data['payment_type'].value_counts()
        payment_cumsum = payment_counts.cumsum() / payment_counts.sum() * 100
        fig, ax = plt.subplots()
        ax.bar(payment_counts.index, payment_counts.values, color="C0")
        ax2 = ax.twinx()
        ax2.plot(payment_counts.index, payment_cumsum, color="C1", marker="D", ms=7)
        ax.set_xlabel('Metode Pembayaran')
        ax.set_ylabel('Jumlah Pesanan')
        ax2.set_ylabel('Persentase Kumulatif')
        plt.title('Diagram Pareto: Metode Pembayaran')
        plt.show()

    elif chart_type == 'Diagram Jaring Laba-laba':
        # Diagram Jaring Laba-laba (Radar Chart)
        categories = ['Credit Card', 'Debit', 'PayPal', 'Transfer Bank']
        values = [320, 250, 150, 80]
        values += values[:1]
        angles = np.linspace(0, 2 * np.pi, len(categories), endpoint=False).tolist()
        angles += angles[:1]

        fig, ax = plt.subplots(figsize=(6, 6), subplot_kw=dict(polar=True))
        ax.fill(angles, values, color='teal', alpha=0.25)
        ax.plot(angles, values, color='teal', linewidth=2)
        ax.set_yticklabels([])
        ax.set_xticks(angles[:-1])
        ax.set_xticklabels(categories)
        plt.title('Diagram Jaring Laba-laba: Metode Pembayaran')
        plt.show()

# Contoh pemanggilan fungsi untuk visualisasi diagram garis
plot_visualizations('Diagram Garis')


### Pertanyaan 2:

## Analisis Lanjutan (Opsional)

In [None]:
# Contoh analisis korelasi
correlation = merged_data[['payment_value', 'order_id']].corr()
sns.heatmap(correlation, annot=True, cmap='coolwarm')
plt.title('Korelasi Nilai Pembayaran dan Jumlah Pesanan')
plt.show()


## Conclusion

Terdapat korelasi positif antara nilai pembayaran dan jumlah pesanan