# Proyek Analisis Data: [Input Nama Dataset]
- **Nama:** [Syukri Fadhol Akbar]
- **Email:** [syukrifadholakbar09@gmail.com]
- **ID Dicoding:** [MS100D5Y0502]

## Menentukan Pertanyaan Bisnis

- Pertanyaan 1. Bagaimana pengaruh harga terhadap rating produk yang diberikan oleh pelanggan?
- Pertanyaan 2. Bagaimana waktu pengiriman mempengaruhi kepuasan pelanggan berdasarkan skor ulasan?

## Import Semua Packages/Library yang Digunakan

In [None]:
%pip install -r requirements.txt

## Data Wrangling

### Gathering Data

Pada tahap ini, saya akan mengumpulkan data yang diperlukan untuk analisis. Data yang digunakan adalah [download disini](https://drive.google.com/file/d/1MsAjPM7oKtVfJL_wRp1qmCajtSG1mdcK/view?usp=sharing), yang dapat diunduh melalui link berikut. Kode di bawah ini akan menggabungkan data dari beberapa file CSV yang telah diunduh menjadi satu DataFrame.

In [None]:
import pandas as pd
import os
import streamlit as st
import matplotlib.pyplot as plt
import seaborn as sns

folder_path = '..\\data'
all_files = os.listdir(folder_path)

csv_files = [file for file in all_files if file.endswith('.csv')]

data_list = []
for file in csv_files:
    file_path = os.path.join(folder_path, file)
    data = pd.read_csv(file_path)
    data_list.append(data)


combined_data = pd.concat(data_list, ignore_index=True)

**Insight:**
- Mengambil data dari dataset
- Menggabungkan data menjadi satu DataFrame


### Assessing Data

In [None]:
print("Informasi Data:")
print(combined_data.info())
print("\nStatistik Deskriptif:")
print(combined_data.describe())


**Insight:**
- Menampilkan informasi tentang tipe data setiap kolom dan jumlah data
- Menampilkan statistik deskriptif untuk kolom numerik

### Cleaning Data

Menangani Nilai yang Hilang

In [None]:
combined_data['price'] = combined_data['price'].fillna(combined_data['price'].median())

In [None]:
combined_data['order_delivered_customer_date'] = combined_data['order_delivered_customer_date'].fillna('Unknown')

In [None]:
combined_data['order_status'] = combined_data['order_status'].fillna('Unknown')

In [None]:
combined_data = combined_data.dropna(thresh=len(combined_data.columns)*0.5)

In [None]:
combined_data['order_purchase_timestamp'] = pd.to_datetime(combined_data['order_purchase_timestamp'])
combined_data['order_approved_at'] = pd.to_datetime(combined_data['order_approved_at'])
combined_data['order_delivered_customer_date'] = pd.to_datetime(combined_data['order_delivered_customer_date'], errors='coerce')

**Insight:**
- Menangani nilai yang hilang pada kolom numerik (menggunakan median)
- Menangani nilai hilang pada kolom kategori (menggunakan modus atau nilai yang paling sering muncul)
- Menangani nilai hilang pada kolom dengan logika khusus, misalnya kolom 'order_status'
- Menghapus Baris dengan Banyak Nilai yang Hilang
- Konversi Tipe Data

## Exploratory Data Analysis (EDA)

### Explore ...

In [None]:
print("Informasi Data:")
print(combined_data.info())
print("\nStatistik Deskriptif:")
print(combined_data.describe())

**Insight:**
- Menampilkan informasi data
- Menampilkan Statistik Deskriptif

## Visualization & Explanatory Analysis

### Pertanyaan 1:

In [None]:
plt.figure(figsize=(10,6))
sns.histplot(combined_data['price'], kde=True, color='dodgerblue')
plt.title('Distribusi Harga Produk')
plt.xlabel('Harga')
plt.ylabel('Frekuensi')
plt.show()

### Pertanyaan 2:

In [None]:
plt.figure(figsize=(10,6))
sns.boxplot(x='review_score', y='price', data=combined_data, palette='Blues')
plt.title('Harga vs Skor Ulasan')
plt.xlabel('Skor Ulasan')
plt.ylabel('Harga')
plt.show()

**Insight:**
- Dapat dilihat apakah sebagian besar produk berada di kisaran harga tertentu atau jika harga lebih tersebar.
- Ini dapat mengungkapkan apakah produk dengan harga lebih tinggi cenderung memiliki rating yang lebih variatif atau stabil.

## Analisis Lanjutan (Opsional)

## Conclusion

- Conclution pertanyaan 1 :  Berdasarkan analisis yang dilakukan, dapat disimpulkan bahwa ada hubungan antara harga dan rating produk. Produk dengan harga yang lebih tinggi cenderung mendapatkan rating yang lebih bervariasi, dengan beberapa produk mahal mendapatkan rating lebih rendah. Hal ini menunjukkan bahwa meskipun harga lebih tinggi, konsumen memiliki ekspektasi yang lebih tinggi terhadap kualitas produk.
- Conclution pertanyaan 2 : Dari analisis yang dilakukan, dapat dilihat bahwa waktu pengiriman berpengaruh terhadap kepuasan pelanggan. Produk yang dikirim lebih cepat cenderung mendapatkan rating lebih tinggi, sementara produk dengan waktu pengiriman lebih lama mendapat skor ulasan lebih rendah. Hal ini menunjukkan bahwa kecepatan pengiriman adalah faktor penting dalam pengalaman berbelanja dan mempengaruhi kepuasan pelanggan.