# Proyek Analisis Data:
- **Nama:** ARIFIN SETYAWAN
- **Email:** arifinscoutpasker@gmail.com
- **ID Dicoding:** Arifin Setyawan

## Menentukan Pertanyaan Bisnis

- Bagaimana pengaruh cuaca terhadap jumlah penyewaan sepeda?
- Bagaimana perbandingan tren persewaan sepedah pada hari kerja dan hari libur?

## Import Semua Packages/Library yang Digunakan

In [None]:
# Library

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Data Wrangling

### Gathering Data

In [None]:
!rm -rf /root/.config/Google/

#from google.colab import files
#uploaded = files.upload()
from google.colab import drive
drive.mount('/content/drive', force_remount=True)
!ls /content/drive/MyDrive



**Insight:**
- Terdapat 2 berkas / dataset yang berformat '.CSV' dengan nama file : day.CSV dan hour.CSV
- Kita perlu menggabungkan 2 dataset tersebut menjadi 1 data frame agar mudah untuk mengeksplorasinya.

### Assessing Data

In [None]:

drive_day = "/content/drive/MyDrive/submission_ds_dicoding/data/day.csv"
drive_hour = "/content/drive/MyDrive/submission_ds_dicoding/data/hour.csv"
df_day = pd.read_csv(drive_day)
df_hour = pd.read_csv(drive_hour)

# Mengecek data head/atas
print("                        Cek Data Per-hari:\n")
print(df_day.head())
print("\n                        Cek Data Per-jam:\n")
print(df_hour.head())

print("\n    Cek Duplikasi Data Per-hari:\n")
print(df_day.duplicated().sum())

print("\n    Cek Duplikasi Data Per-jam:\n")
print(df_hour.duplicated().sum())
print("\n    Info Data Per-hari:\n")
print(df_day.info())

print("\n    Info Data Per-jam:\n")
print(df_hour.info())

print("\n                        Statistik Data Per-hari:\n")
print(df_day.describe())

print("\n                        Statistik Data Per-jam:\n")
print(df_hour.describe())


dari readme dataset

- instant: record index
	- dteday : date
	- season : season (1:springer, 2:summer, 3:fall, 4:winter)
	- yr : year (0: 2011, 1:2012)
	- mnth : month ( 1 to 12)
	- hr : hour (0 to 23)
	- holiday : weather day is holiday or not (extracted from http://dchr.dc.gov/page/holiday-schedule)
	- weekday : day of the week
	- workingday : if day is neither weekend nor holiday is 1, otherwise is 0.
	+ weathersit :
		- 1: Clear, Few clouds, Partly cloudy, Partly cloudy
		- 2: Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist
		- 3: Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + Scattered clouds
		- 4: Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog
	- temp : Normalized temperature in Celsius. The values are divided to 41 (max)
	- atemp: Normalized feeling temperature in Celsius. The values are divided to 50 (max)
	- hum: Normalized humidity. The values are divided to 100 (max)
	- windspeed: Normalized wind speed. The values are divided to 67 (max)
	- casual: count of casual users
	- registered: count of registered users
	- cnt: count of total rental bikes including both casual and registered

**Insight:**
- Terdapat 2 dataset yang kita jadikan bahan analisis, rekapan per hari sebanyak 731 item data dan rekapan per jam sebanyak 17.379 item data
- Tidak terdapat nilai duplikasi dan nilai yang kosong/null

### Cleaning Data

In [None]:
# Mengecek Missing value
print("\n Missing Value di Data Per-hari:\n")
print(df_day.isnull().sum())

print("\n Missing Values di Data Per-jam:\n")
print(df_hour.isnull().sum())

# Ubah format tanggal menjadi datetime
df_day['dteday'] = pd.to_datetime(df_day['dteday'])
df_hour['dteday'] = pd.to_datetime(df_hour['dteday'])

df_day.drop(columns=['instant'], inplace=True)
df_hour.drop(columns=['instant'], inplace=True)

# Menampilkan struktur data setelah dibersihkan
print("\n        Struktur Data Harian Setelah Dibersihkan:\n ")
print(df_day.info())

print("\n        Struktur Data Per Jam Setelah Dibersihkan:\n ")
print(df_hour.info())

**Insight:**
- Tidak didapati masalah/Missing value pada dataframe
- Terdapat perbedaab tipe data pada kolom dtetime yang tidak dapat disertakan dalam penjumlahan nilai, maka dikecualikan saja.

## Exploratory Data Analysis (EDA)

### Explore ...

In [None]:
# 3. Exploratory Data Analysis (EDA)

# Distribusi jumlah peminjaman sepeda harian
plt.figure(figsize=(10, 5))
sns.histplot(df_day['cnt'], bins=30, kde=True, color='skyblue')
plt.title('Distribusi Jumlah Peminjaman Sepedah Per Hari')
plt.xlabel('Jumlah Peminjaman')
plt.ylabel('Frekuensi')
plt.grid()
plt.show()

# Distribusi jumlah peminjaman sepeda per jam
plt.figure(figsize=(10, 5))
sns.histplot(df_hour['cnt'], bins=50, kde=True, color='orange')
plt.title('Distribusi Jumlah Peminjaman Sepedah Per Jam')
plt.xlabel('Jumlah Peminjaman')
plt.ylabel('Frekuensi')
plt.grid()
plt.show()

**Insight:**
- Terdapat pola penggunaan sepedah pada hari-hari tertentu mengalami lonjakan signifikan.
- Data peminjaman sepedah per jam memiliki distribusi yang cenderung menunjukkan puncak pada jam-jam tertentu

## Visualization & Explanatory Analysis

### Pertanyaan 1:

Bagaimana pengaruh faktor cuaca terhadap jumlah peminjaman sepedah?

In [None]:
# Pengaruh Cuaca terhadap Peminjaman

plt.figure(figsize=(8, 6))
sns.barplot(x='weathersit', y='cnt',hue='season', data=df_day, estimator=sum, errorbar=None, palette='viridis')
plt.title('Pengaruh Cuaca terhadap Jumlah Peminjaman Sepeda')
plt.xlabel('Kondisi Cuaca (1=Clear, 2=Misty, 3=Light Snow/Rain)')
plt.ylabel('Total Jumlah Peminjaman')
plt.show()

plt.figure(figsize=(8, 6))
sns.boxplot(x='weathersit', y='cnt',hue='season', data=df_day, palette='Set2')
plt.title('Pengaruh Cuaca terhadap Jumlah Peminjaman Sepedah')
plt.xlabel('Kondisi Cuaca : (1=Clear, 2=Misty, 3=Light Snow/Rain)')
plt.ylabel('Jumlah Peminjaman')
plt.grid()
plt.show()

### Pertanyaan 2:

Bagaimana pola penggunaan sepeda berdasarkan jam dalam sehari?

In [None]:
# Analisis Pertanyaan 2: Pola Penggunaan Sepeda Berdasarkan Jam
df_hour_grouped = df_hour.groupby('hr').sum(numeric_only=True).reset_index()

plt.figure(figsize=(12, 6))
sns.lineplot(x='hr', y='cnt', data=df_hour_grouped, marker='o', color='red')
plt.title('Pola Penggunaan Sepeda Berdasarkan Jam')
plt.xlabel('Jam dalam Sehari')
plt.ylabel('Total Peminjaman')
plt.grid()
plt.show()

**Insight:**
- Cuaca cerah meningkatkan jumlah peminjaman sepeda, sedangkan kondisi cuaca buruk menurunkan peminjaman
- Peminjaman sepeda menunjukkan pola puncak pada jam sibuk, yaitu pagi hari (07:00-09:00) dan sore hari (17:00-19:00), kemungkinan untuk keperluan berangkat dan pulang kerja/sekolah.

## Analisis Lanjutan (Opsional)

## Conclusion

-  Faktor cuaca sangat memengaruhi jumlah peminjaman sepeda, dengan kondisi cerah cenderung meningkatkan jumlah peminjaman. Sediakan layanan dan stock barang sewaan yang cukup pada jam tersebut.
- Begitu juga terhaadap waktu aktivitas umum, peminjaman sepeda memiliki pola penggunaan yang jelas dengan lonjakan pada pagi dan sore hari, mencerminkan waktu produktif penyediaan layanan.

# Simpan data final

In [None]:
df_day.to_csv('/content/drive/MyDrive/submission_ds_dicoding/dashboard/main_data.csv', index=False)

#Pembuatan Dashboard

In [None]:
!pip install streamlit


In [None]:
import streamlit as st

# Load data
df_day = pd.read_csv("/content/drive/MyDrive/submission_ds_dicoding/dashboard/main_data.csv")

# Judul dashboard
st.title("Dashboard Pemantauan Penyewaan Sepeda")

# Tampilkan visualisasi
st.header("Pengaruh Cuaca terhadap Jumlah Peminjaman Sepeda")
fig, ax = plt.subplots(figsize=(8, 6))
sns.barplot(x='weathersit', y='cnt', hue='season', data=df_day, estimator=sum, errorbar=None, palette='viridis', ax=ax)
plt.title('Pengaruh Cuaca terhadap Jumlah Peminjaman Sepeda')
plt.xlabel('Kondisi Cuaca (1=Clear, 2=Misty, 3=Light Snow/Rain)')
plt.ylabel('Total Jumlah Peminjaman')
st.pyplot(fig)

# Tambahkan komponen interaktif (contoh)
st.header("Filter Data")
selected_season = st.selectbox("Pilih Musim", df_day['season'].unique())
filtered_data = df_day[df_day['season'] == selected_season]

# Tampilkan tabel data yang difilter
st.write(filtered_data)