# Proyek Analisis Data: Bike-sharing-dataset
- **Nama:** Bella Melati Wiranur Dwifani
- **Email:** bellamelati21@if.unjani.ac.id
- **ID Dicoding:** JLX12JYJ6Z72

## Menentukan Pertanyaan Bisnis

- Bagaimana pola dari penggunaan bike-sharing-dataset bisa dipengaruhi oleh kondisi cuaca, contohnya seperti suhu dan kelembapan? Akankah ada perbedaan secara signifikan antara pengguna terdaftar dan pengguna yang bukan terdaftar dalam pola penggunaan pada hari kerja dan diluar hari kerja?
- Bagaimana korelasi antara suhu dan jumlah perjalanan pada hari kerja dan diluar hari kerja? Apakah terdapat sebuah trend tertentu yang nantinya dapat diidentifikasi berdasarkan variabel cuaca dan hari kerja?

## Import Semua Packages/Library yang Digunakan

In [None]:
#pip install streamlit

In [56]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import streamlit as st
import os

## Data Wrangling

### Gathering Data

In [58]:
current_directory = os.getcwd()
os.chdir(current_directory)
bike_data = pd.read_csv('day.csv')
print(bike_data.head())
print(bike_data.info()) #menampilkan informasi dari dataset
bike_data = bike_data.dropna()
bike_data['dteday'] = pd.to_datetime(bike_data['dteday']) #menampilkan tanggal

   instant      dteday  season  yr  mnth  holiday  weekday  workingday  \
0        1  2011-01-01       1   0     1        0        6           0   
1        2  2011-01-02       1   0     1        0        0           0   
2        3  2011-01-03       1   0     1        0        1           1   
3        4  2011-01-04       1   0     1        0        2           1   
4        5  2011-01-05       1   0     1        0        3           1   

   weathersit      temp     atemp       hum  windspeed  casual  registered  \
0           2  0.344167  0.363625  0.805833   0.160446     331         654   
1           2  0.363478  0.353739  0.696087   0.248539     131         670   
2           1  0.196364  0.189405  0.437273   0.248309     120        1229   
3           1  0.200000  0.212122  0.590435   0.160296     108        1454   
4           1  0.226957  0.229270  0.436957   0.186900      82        1518   

    cnt  
0   985  
1   801  
2  1349  
3  1562  
4  1600  
<class 'pandas.core.frame.

### Assessing Data

In [None]:
print(bike_data.describe())

### Cleaning Data

In [None]:
null_counts = bike_data.isnull().sum()
print("Jumlah Nilai Null pada Setiap Kolom : ")
print(null_counts)
bike_data = bike_data.dropna() #example untuk menghapus baris mengandung nilai null
duplicate_counts = bike_data.duplicated().sum() #menangani duplikat
print("Jumlah Duplikat dalam Dataset : ", duplicate_counts)
bike_data = bike_data.drop_duplicates() #example untuk menghapus data
print("Informasi Dataset setelah Pembersihan : ")
print(bike_data.info())


## Exploratory Data Analysis (EDA)

### Explore ...

In [None]:
st.title('Exploratory Data Analysis (EDA) - Bike Sharing Dataset')
st.subheader('Bike Sharing Dataset')
st.write(bike_data.head())

st.subheader('Distribusi Jumlah Perjalanan')
fig_hist = plt.figure(figsize=(10, 6))
sns.histplot(bike_data['cnt'], bins=30, kde=True)
st.pyplot(fig_hist)

#Variabel suhu dan cuaca
st.subheader('Suhu berdasarkan Kondisi Cuaca')
fig_boxplot = plt.figure(figsize=(12, 8))
sns.boxplot(x='weathersit', y='temp', data=bike_data)
st.pyplot(fig_boxplot)

#Untuk Variabel Numerik
st.subheader('Matriks Korelasi Variabel Numerik')
correlation_matrix = bike_data[['temp', 'hum', 'windspeed', 'cnt']].corr()
fig_heatmap = plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
st.pyplot(fig_heatmap)

#Analisis natara hari kerja dan hari lebar
st.subheader('Distribusi Jumlah Hari Kerja dan Hari Libur')
fig_workingday = plt.figure(figsize=(10, 6))
sns.countplot(x='workingday', data=bike_data)
st.pyplot(fig_workingday)

st.subheader('Perbandingan Jumlah Perjalanan pada Hari Kerja dan Hari Libur')
fig_barplot = plt.figure(figsize=(12, 8))
sns.barplot(x='workingday', y='cnt', data=bike_data, hue='registered')
st.pyplot(fig_barplot)

## Visualization & Explanatory Analysis

### Pertanyaan 1: Scatter Plot Suhu & dan jumlah perjalanan.
Membuat scatter plot ini gunanya untuk membandingkan suhu dengan jumlah perjalanan pada hari kerja. Seperti warna atau bentuk titik dapat digunakan untuk membedakan antara pengguna terdaftar dan pengguna yang belum terdaftar.

In [51]:
st.subheader('Distribusi Jumlah Hari Kerja dan Hari Libur')
fig_workingday = plt.figure(figsize=(10, 6))
sns.countplot(x='workingday', data=bike_data)
st.pyplot(fig_workingday)

DeltaGenerator()

### Pertanyaan 2: Grafik garis pola pengguna harian.
Membuat grafik garis dari pola pengguna harian pada bike-sharing-datasheet di hari kerja dan di hari luar kerja. Grafik ini dapat mencakup dua garis terpisah untuk pengguna terdaftar dan pengguna yang belum terdaftar untuk menyoroti perbedaan yang cukup signifikan dalam pola perjalanan.

In [52]:
st.subheader('Perbandingan Jumlah Perjalanan pada Hari Kerja dan Hari Libur')
fig_barplot = plt.figure(figsize=(12, 8))
sns.barplot(x='workingday', y='cnt', data=bike_data, hue='registered')
st.pyplot(fig_barplot)

DeltaGenerator()

## Conclusion

- Pertanyaan 1 : Menunjukkan bahwa pada hari kerja pengguna terdaftar cenderung menyewa sepeda lebih banyak utama saat suhu tinggi. Di hari libur, pola ini bisa saja berbeda dan terlihat adanya perbedaan secara signifikan diantara pengguna terdaftar dan tidak terdaftar.
- Pertanyaan 2 : Menunnjukkan bahwa pada hari kerja, terdapat korelasi positif antara suhu dan jumlah perjalanan, terutama untuk pengguna terdaftar saja. Namun, pada hari libur mungkin saja pola ini bisa berbeda dan memerlukan lebih banyak lagi eksplorasi untuk kedepannya.