# Proyek Analisis Data: [Input Nama Dataset]
- **Nama:** Muhammad Nouval Ghoizy
- **Email:** m179b4ky2973@bangkit.academy
- **ID Dicoding:** m179b4ky2973

## Menentukan Pertanyaan Bisnis


1. Bagaimana suhu rata-rata memengaruhi jumlah penyewaan sepeda?
2. Apakah musim tertentu lebih populer untuk penyewaan sepeda?

## Import Semua Packages/Library yang Digunakan

In [53]:
import streamlit as st
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

## Data Wrangling

### Gathering Data

In [54]:
# Load data
day_df = pd.read_csv("day.csv")
hour_df = pd.read_csv("hour.csv")

**Insight:**

Data yang digunakan berasal dari dua file CSV, yaitu day.csv dan hour.csv, yang berisi informasi tentang penyewaan sepeda per hari dan per jam. Data ini penting untuk memahami pola penyewaan sepeda, baik dalam konteks harian maupun jam tertentu.

### Assessing Data

Assessing Data Structure

In [55]:
day_info = day_df.info()
hour_info = hour_df.info()
st.write("Day DataFrame Info:", day_info)
st.write("Hour DataFrame Info:", hour_info)



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 731 entries, 0 to 730
Data columns (total 16 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   instant     731 non-null    int64  
 1   dteday      731 non-null    object 
 2   season      731 non-null    int64  
 3   yr          731 non-null    int64  
 4   mnth        731 non-null    int64  
 5   holiday     731 non-null    int64  
 6   weekday     731 non-null    int64  
 7   workingday  731 non-null    int64  
 8   weathersit  731 non-null    int64  
 9   temp        731 non-null    float64
 10  atemp       731 non-null    float64
 11  hum         731 non-null    float64
 12  windspeed   731 non-null    float64
 13  casual      731 non-null    int64  
 14  registered  731 non-null    int64  
 15  cnt         731 non-null    int64  
dtypes: float64(4), int64(11), object(1)
memory usage: 91.5+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17379 entries, 0 to 17378
Data columns (tot

Checking for Missing Values

In [56]:
day_missing_values = day_df.isna().sum()
hour_missing_values = hour_df.isna().sum()
st.write("Day DataFrame Missing Values:", day_missing_values)
st.write("Hour DataFrame Missing Values:", hour_missing_values)



Checking for Duplicates

In [57]:
day_duplicates = day_df.duplicated().sum()
hour_duplicates = hour_df.duplicated().sum()
st.write("Day DataFrame Duplicates:", day_duplicates)
st.write("Hour DataFrame Duplicates:", hour_duplicates)



**Insight:**

- Data Info: Dari output info(), kita bisa mengetahui jumlah baris, kolom, tipe data, dan jumlah nilai non-null di setiap kolom. Ini penting untuk memastikan bahwa data memiliki struktur yang benar dan siap dianalisis.

- Missing Values: Dari pengecekan missing values menggunakan .isna().sum(), kita dapat mengidentifikasi apakah ada data yang hilang. Jika ada, kita bisa mengambil keputusan apakah akan menghapus atau mengganti nilai yang hilang tersebut.

- Duplicates: Menggunakan .duplicated().sum(), kita dapat memeriksa apakah ada baris duplikat yang dapat mengganggu analisis. Keberadaan duplikat bisa memberikan informasi mengenai keandalan dan kualitas data.

### Cleaning Data

In [58]:
# Drop duplicates if needed
day_df = day_df.drop_duplicates()
hour_df = hour_df.drop_duplicates()

# Fill missing values if necessary
day_df.fillna(method='ffill', inplace=True)
hour_df.fillna(method='bfill', inplace=True)

  day_df.fillna(method='ffill', inplace=True)
  hour_df.fillna(method='bfill', inplace=True)


**Insight:**

- Meskipun dalam kode yang diberikan tidak ada proses pembersihan yang diperlukan, dalam praktiknya, jika ada missing values atau duplikat yang terdeteksi, kita harus membersihkan data terlebih dahulu. Ini bisa dilakukan dengan menghapus duplikat atau mengisi nilai yang hilang (misalnya dengan imputasi atau forward fill).

## Exploratory Data Analysis (EDA)

In [59]:
day_df.describe(include="all")

Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
count,731.0,731,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0,731.0
unique,,731,,,,,,,,,,,,,,
top,,2012-12-31,,,,,,,,,,,,,,
freq,,1,,,,,,,,,,,,,,
mean,366.0,,2.49658,0.500684,6.519836,0.028728,2.997264,0.683995,1.395349,0.495385,0.474354,0.627894,0.190486,848.176471,3656.172367,4504.348837
std,211.165812,,1.110807,0.500342,3.451913,0.167155,2.004787,0.465233,0.544894,0.183051,0.162961,0.142429,0.077498,686.622488,1560.256377,1937.211452
min,1.0,,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.05913,0.07907,0.0,0.022392,2.0,20.0,22.0
25%,183.5,,2.0,0.0,4.0,0.0,1.0,0.0,1.0,0.337083,0.337842,0.52,0.13495,315.5,2497.0,3152.0
50%,366.0,,3.0,1.0,7.0,0.0,3.0,1.0,1.0,0.498333,0.486733,0.626667,0.180975,713.0,3662.0,4548.0
75%,548.5,,3.0,1.0,10.0,0.0,5.0,1.0,2.0,0.655417,0.608602,0.730209,0.233214,1096.0,4776.5,5956.0


Comparing Rentals Between Workdays and Holidays

In [60]:
hour_df.describe(include="all")

Unnamed: 0,instant,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
count,17379.0,17379,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0
unique,,731,,,,,,,,,,,,,,,
top,,2012-12-31,,,,,,,,,,,,,,,
freq,,24,,,,,,,,,,,,,,,
mean,8690.0,,2.50164,0.502561,6.537775,11.546752,0.02877,3.003683,0.682721,1.425283,0.496987,0.475775,0.627229,0.190098,35.676218,153.786869,189.463088
std,5017.0295,,1.106918,0.500008,3.438776,6.914405,0.167165,2.005771,0.465431,0.639357,0.192556,0.17185,0.19293,0.12234,49.30503,151.357286,181.387599
min,1.0,,1.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.02,0.0,0.0,0.0,0.0,0.0,1.0
25%,4345.5,,2.0,0.0,4.0,6.0,0.0,1.0,0.0,1.0,0.34,0.3333,0.48,0.1045,4.0,34.0,40.0
50%,8690.0,,3.0,1.0,7.0,12.0,0.0,3.0,1.0,1.0,0.5,0.4848,0.63,0.194,17.0,115.0,142.0
75%,13034.5,,3.0,1.0,10.0,18.0,0.0,5.0,1.0,2.0,0.66,0.6212,0.78,0.2537,48.0,220.0,281.0


Displaying DataFrames for Further Insight

In [None]:
# merge dataframe
bike_df = hour_df.merge(day_df, on='dteday', how='inner', suffixes=('_hour', '_day'))
bike_df.head()

Unnamed: 0,instant_hour,dteday,season_hour,yr_hour,mnth_hour,hr,holiday_hour,weekday_hour,workingday_hour,weathersit_hour,...,weekday_day,workingday_day,weathersit_day,temp_day,atemp_day,hum_day,windspeed_day,casual_day,registered_day,cnt_day
0,1,2011-01-01,1,0,1,0,0,6,0,1,...,6,0,2,0.344167,0.363625,0.805833,0.160446,331,654,985
1,2,2011-01-01,1,0,1,1,0,6,0,1,...,6,0,2,0.344167,0.363625,0.805833,0.160446,331,654,985
2,3,2011-01-01,1,0,1,2,0,6,0,1,...,6,0,2,0.344167,0.363625,0.805833,0.160446,331,654,985
3,4,2011-01-01,1,0,1,3,0,6,0,1,...,6,0,2,0.344167,0.363625,0.805833,0.160446,331,654,985
4,5,2011-01-01,1,0,1,4,0,6,0,1,...,6,0,2,0.344167,0.363625,0.805833,0.160446,331,654,985


**Insight:**
- Analisis: Grafik bar menunjukkan rata-rata jumlah penyewaan sepeda per jam berdasarkan kondisi cuaca (weathersit_hour). Dari hasil analisis, kita dapat melihat bagaimana cuaca mempengaruhi keputusan orang untuk menyewa sepeda.

- Insight: Cuaca cerah atau musim panas (Spring dan Summer) cenderung memiliki jumlah penyewaan sepeda yang lebih tinggi, sementara musim dingin (Winter) menunjukkan jumlah penyewaan yang lebih rendah. Hal ini dapat disebabkan oleh preferensi orang untuk beraktivitas lebih banyak ketika cuaca lebih hangat.

## Visualization & Explanatory Analysis

### Pertanyaan 1:

In [None]:
st.write("### Pertanyaan 1: Bagaimana suhu rata-rata memengaruhi jumlah penyewaan sepeda?")
temperature_hourly = bike_df.groupby("temp")["cnt_hour"].mean().reset_index()

plt.figure(figsize=(10, 6))
sns.lineplot(x="temp", y="cnt_hour", data=temperature_hourly)
plt.title("Pengaruh Suhu terhadap Jumlah Penyewaan Sepeda per Jam")
plt.xlabel("Suhu (dalam skala 0-1, dengan 1 sebagai suhu maksimal)")
plt.ylabel("Rata-rata Jumlah Penyewaan Sepeda per Jam")
st.pyplot(plt)



DeltaGenerator()

### Pertanyaan 2:

In [None]:
st.write("### Pertanyaan 2: Apakah musim tertentu lebih populer untuk penyewaan sepeda?")
season_hourly = bike_df.groupby("season")["cnt_hour"].mean().reset_index()

plt.figure(figsize=(10, 6))
sns.barplot(x="season", y="cnt_hour", data=season_hourly)
plt.title("Pengaruh Musim terhadap Jumlah Penyewaan Sepeda per Jam")
plt.xlabel("Musim")
plt.ylabel("Rata-rata Jumlah Penyewaan Sepeda per Jam")
plt.xticks(ticks=[0, 1, 2, 3], labels=['Spring', 'Summer', 'Fall', 'Winter'])
st.pyplot(plt)



DeltaGenerator()

**Insight:**

-Suhu yang lebih tinggi dan musim yang lebih hangat (seperti musim panas dan semi) cenderung meningkatkan jumlah penyewaan sepeda, menunjukkan hubungan positif antara suhu dan jumlah penyewaan sepeda.

- Musim yang lebih dingin, terutama musim gugur dan musim dingin, cenderung memiliki jumlah penyewaan sepeda yang lebih rendah, mungkin karena faktor kenyamanan dan cuaca yang kurang mendukung aktivitas luar ruangan.

## Conclusion

-Dari analisis yang dilakukan, terlihat bahwa suhu memiliki pengaruh signifikan terhadap jumlah penyewaan sepeda. Berdasarkan grafik yang dihasilkan, jumlah penyewaan sepeda meningkat seiring dengan naiknya suhu. Hal ini menunjukkan bahwa penyewaan sepeda lebih populer pada suhu yang lebih tinggi, kemungkinan karena cuaca yang lebih nyaman bagi orang-orang untuk beraktivitas di luar ruangan, seperti bersepeda. Pada suhu yang lebih rendah, jumlah penyewaan sepeda cenderung menurun, yang dapat dikaitkan dengan cuaca yang kurang mendukung untuk aktivitas fisik di luar ruangan.

-Hasil analisis terhadap musim menunjukkan bahwa ada perbedaan dalam jumlah penyewaan sepeda berdasarkan musimnya. Musim panas (Summer) menunjukkan jumlah penyewaan sepeda yang paling tinggi, diikuti oleh musim semi (Spring). Sementara itu, musim gugur (Fall) dan musim dingin (Winter) menunjukkan jumlah penyewaan yang lebih rendah. Hal ini mungkin disebabkan oleh kenyamanan cuaca yang lebih baik pada musim-musim yang lebih hangat, yang mendorong lebih banyak orang untuk menggunakan sepeda sebagai sarana transportasi atau rekreasi. Sebaliknya, di musim yang lebih dingin, orang cenderung menghindari aktivitas luar ruangan seperti bersepeda.