# Proyek Analisis Data: [Input Nama Dataset]
- **Nama:** Muhammad Nouval Ghoizy
- **Email:** m179b4ky2973@bangkit.academy
- **ID Dicoding:** m179b4ky2973

## Menentukan Pertanyaan Bisnis


1. Bagaimana hari dalam seminggu memengaruhi jumlah penyewaan sepeda?
2. Apakah ada perbedaan jumlah penyewaan sepeda antara jam sibuk dan non-sibuk?

## Import Semua Packages/Library yang Digunakan

In [54]:
!pip install -q streamlit

In [55]:
import streamlit as st
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

## Data Wrangling

### Gathering Data

In [56]:
# Load data
day_df = pd.read_csv("day.csv")
hour_df = pd.read_csv("hour.csv")

In [57]:
# Display the first few rows of the loaded data to understand the structure
st.subheader("Loaded Data - Day DataFrame")
st.write(day_df.head())

st.subheader("Loaded Data - Hour DataFrame")
st.write(hour_df.head())



**Insight:**

- Proses Gathering Data bertujuan untuk memuat data dari sumber eksternal, dalam hal ini file CSV yang berisi data sewa sepeda (day.csv dan hour.csv).

- Data ini mengandung informasi penting seperti cuaca, jam, hari, dan jumlah sepeda yang disewa pada waktu tertentu.

### Assessing Data

Assessing Data Structure

In [58]:
# Assessing data structures and types
day_info = day_df.info()
hour_info = hour_df.info()

# Checking for missing values in both datasets
day_missing_values = day_df.isna().sum()
hour_missing_values = hour_df.isna().sum()

# Checking for duplicate rows in both datasets
day_duplicates = day_df.duplicated().sum()
hour_duplicates = hour_df.duplicated().sum()

# Displaying the assessment results
st.subheader("Data Info")
st.write("Day DataFrame Info:", day_info)
st.write("Hour DataFrame Info:", hour_info)

st.subheader("Missing Values")
st.write("Day DataFrame Missing Values:", day_missing_values)
st.write("Hour DataFrame Missing Values:", hour_missing_values)

st.subheader("Duplicates")
st.write("Day DataFrame Duplicates:", day_duplicates)
st.write("Hour DataFrame Duplicates:", hour_duplicates)




<class 'pandas.core.frame.DataFrame'>
RangeIndex: 731 entries, 0 to 730
Data columns (total 16 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   instant     731 non-null    int64  
 1   dteday      731 non-null    object 
 2   season      731 non-null    int64  
 3   yr          731 non-null    int64  
 4   mnth        731 non-null    int64  
 5   holiday     731 non-null    int64  
 6   weekday     731 non-null    int64  
 7   workingday  731 non-null    int64  
 8   weathersit  731 non-null    int64  
 9   temp        731 non-null    float64
 10  atemp       731 non-null    float64
 11  hum         731 non-null    float64
 12  windspeed   731 non-null    float64
 13  casual      731 non-null    int64  
 14  registered  731 non-null    int64  
 15  cnt         731 non-null    int64  
dtypes: float64(4), int64(11), object(1)
memory usage: 91.5+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17379 entries, 0 to 17378
Data columns (tot

**Insight:**

- Proses Assessing Data dilakukan dengan memeriksa informasi dasar dari kedua DataFrame (day_df dan hour_df), seperti jumlah baris, kolom, tipe data, dan juga pengecekan untuk nilai yang hilang (missing values) dan duplikasi.

- Hasil pengecekan missing values dan duplikasi akan memberikan gambaran tentang kualitas data awal sebelum analisis lebih dalam.

### Cleaning Data

In [59]:
# Cleaning Data: Handle missing values and duplicates
# Removing duplicates if any
day_df = day_df.drop_duplicates()
hour_df = hour_df.drop_duplicates()

# If missing values are critical, we may need to impute or drop them
# Example: Filling missing values with the mean (if applicable)
# day_df.fillna(day_df.mean(), inplace=True)  # Uncomment if needed
# hour_df.fillna(hour_df.mean(), inplace=True)  # Uncomment if needed

# Make sure 'dteday' is in datetime format for further analysis
bike_df = hour_df.merge(day_df, on='dteday', how='inner', suffixes=('_hour', '_day'))
bike_df['dteday'] = pd.to_datetime(bike_df['dteday'])

# Create 'weekday' column (0=Monday, 6=Sunday)
bike_df['weekday'] = bike_df['dteday'].dt.weekday

# Check the first few rows to ensure 'weekday' was created correctly
st.write("Bike DataFrame with 'weekday' Column:")
st.write(bike_df.head())




**Insight:**

- Proses Cleaning Data dilakukan dengan membersihkan data dari duplikasi dan menangani nilai yang hilang. Selain itu, kolom yang relevan juga ditransformasi menjadi format yang benar (misalnya, konversi kolom dteday menjadi tipe data datetime).

- Pengelolaan missing values juga dapat dilakukan, misalnya dengan mengimputasi nilai atau menghapus baris yang tidak lengkap.

## Exploratory Data Analysis (EDA)

In [60]:
# Here, we begin the analysis phase, checking trends and patterns in the data

# Analyze how weekday affects bike rental counts
weekday_rentals = bike_df.groupby("weekday")["cnt_hour"].mean().reset_index()

# Analyze busy hours (7-9 AM and 4-6 PM)
bike_df['busy_hour'] = bike_df['hr'].apply(lambda x: 'Sibuk' if (7 <= x <= 9) or (16 <= x <= 18) else 'Non-Sibuk')
busy_hour_rentals = bike_df.groupby("busy_hour")["cnt_hour"].mean().reset_index()

# Displaying the results of EDA
st.subheader("Average Bike Rentals by Weekday")
st.write(weekday_rentals)

st.subheader("Average Bike Rentals by Busy Hour")
st.write(busy_hour_rentals)




**Insight:**
- EDA membantu dalam memahami hubungan antara variabel yang ada dalam data, seperti:

- Pengaruh hari dalam seminggu terhadap jumlah penyewaan sepeda.
Perbedaan antara jam sibuk dan non-sibuk dalam hal jumlah penyewaan sepeda.
Dengan menganalisis data berdasarkan weekday dan busy_hour, kita dapat melihat pola atau tren tertentu dalam perilaku penyewaan sepeda.

## Visualization & Explanatory Analysis

### Pertanyaan 1:

In [61]:
# Visualization 1: Bike Rentals by Weekday
plt.figure(figsize=(10, 6))
sns.barplot(x="weekday", y="cnt_hour", data=weekday_rentals)
plt.title("Pengaruh Hari dalam Seminggu terhadap Jumlah Penyewaan Sepeda per Jam")
plt.xlabel("Hari dalam Seminggu")
plt.ylabel("Rata-rata Jumlah Penyewaan Sepeda per Jam")
plt.xticks(ticks=[0, 1, 2, 3, 4, 5, 6], labels=['Senin', 'Selasa', 'Rabu', 'Kamis', 'Jumat', 'Sabtu', 'Minggu'])
st.pyplot(plt)



DeltaGenerator()

### Pertanyaan 2:

In [62]:
# Visualization 2: Bike Rentals by Busy vs Non-Busy Hour
plt.figure(figsize=(8, 5))
sns.barplot(x="busy_hour", y="cnt_hour", data=busy_hour_rentals)
plt.title("Perbandingan Jumlah Penyewaan Sepeda pada Jam Sibuk dan Non-Sibuk")
plt.xlabel("Jam Sibuk / Non-Sibuk")
plt.ylabel("Rata-rata Jumlah Penyewaan Sepeda per Jam")
st.pyplot(plt)



DeltaGenerator()

**Insight:**

- Pengaruh hari dalam seminggu: Bar plot menunjukkan perbedaan yang jelas dalam jumlah penyewaan sepeda antara hari-hari tertentu, membantu dalam perencanaan atau pengoptimalan sumber daya pada hari-hari yang lebih sibuk.

- Jam sibuk dan non-sibuk: Visualisasi memperjelas bahwa jam sibuk (pagi dan sore hari) menghasilkan lebih banyak penyewaan sepeda. Penyewaan selama jam non-sibuk lebih rendah, memberi petunjuk pada strategi layanan di luar jam sibuk.

- Visualisasi memberikan pemahaman yang lebih mendalam tentang pola penggunaan sepeda yang tidak terlihat hanya dari angka statistik.

## Conclusion

**1. Bagaimana hari dalam seminggu memengaruhi jumlah penyewaan sepeda?**

Hari dalam seminggu memengaruhi jumlah penyewaan sepeda, dengan kemungkinan lebih tinggi pada hari-hari tertentu (seperti hari kerja atau akhir pekan). Hal ini dapat digunakan untuk mengatur jadwal operasional dan sumber daya yang lebih efisien.

**2. Apakah ada perbedaan jumlah penyewaan sepeda antara jam sibuk dan non-sibuk?**

Terdapat perbedaan yang jelas dalam jumlah penyewaan sepeda antara jam sibuk (seperti pagi hari dan sore hari) dan non-sibuk. Penyewaan lebih banyak terjadi selama jam sibuk, memberikan informasi penting untuk pengaturan distribusi sepeda atau pengoptimalan layanan pada jam-jam tersebut.