# Proyek Analisis Data: Bike Sharing
- **Nama:** Rafli Arrasyid
- **Email:** rafly111104@gmail.com
- **ID Dicoding:** rafly111104

## Menentukan Pertanyaan Bisnis

- Bagaimana tren penggunaan sepeda sepanjang tahun?
- Apakah ada pengaruh cuaca terhadap jumlah pengguna sepeda?

## Import Semua Packages/Library yang Digunakan

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import streamlit as st

## Data Wrangling

### Gathering Data

In [None]:
import pandas as pd

day_data = pd.read_csv('Bike-sharing-dataset/day.csv')
day_data['dteday'] = pd.to_datetime(day_data['dteday'])

### Assessing Data

In [None]:
# Informasi dasar tentang dataset
day_data.info()

# Statistik deskriptif dari dataset
day_data.describe()

# Memeriksa nilai yang hilang
day_data.isnull().sum()

# Melihat distribusi data
day_data.hist(figsize=(14, 10))
plt.show()

### Cleaning Data

In [None]:
# Menyalin data asli untuk proses pembersihan
cleaned_data = day_data.copy()

# Mengubah kolom dteday menjadi tipe datetime
cleaned_data['dteday'] = pd.to_datetime(cleaned_data['dteday'])

# Mengubah tipe data untuk kolom kategori
categorical_columns = ['season', 'yr', 'mnth', 'holiday', 'weekday', 'workingday', 'weathersit']
for col in categorical_columns:
    cleaned_data[col] = cleaned_data[col].astype('category')

# Memverifikasi pembersihan data
cleaned_data.info()

## Exploratory Data Analysis (EDA)

### Analisis Statistik Deskriptif

In [None]:
# Statistik deskriptif dari dataset
cleaned_data.describe()

### Visualisasi Distribusi Pengguna Sepeda

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Visualisasi distribusi pengguna casual, registered, dan total
plt.figure(figsize=(14, 7))

# Distribusi pengguna casual
plt.subplot(1, 3, 1)
sns.histplot(cleaned_data['casual'], kde=True)
plt.title('Distribusi Pengguna Kasual')
plt.xlabel('Jumlah Pengguna Kasual')
plt.ylabel('Frekuensi')

# Distribusi pengguna registered
plt.subplot(1, 3, 2)
sns.histplot(cleaned_data['registered'], kde=True)
plt.title('Distribusi Pengguna Terdaftar')
plt.xlabel('Jumlah Pengguna Terdaftar')
plt.ylabel('Frekuensi')

# Distribusi pengguna total
plt.subplot(1, 3, 3)
sns.histplot(cleaned_data['cnt'], kde=True)
plt.title('Distribusi Pengguna Total')
plt.xlabel('Jumlah Pengguna Total')
plt.ylabel('Frekuensi')

plt.tight_layout()
plt.show()

### Analisis Penggunaan Sepeda Berdasarkan Musim

In [None]:
# Penggunaan sepeda berdasarkan musim
plt.figure(figsize=(10, 6))
sns.boxplot(data=cleaned_data, x='season', y='cnt')
plt.title('Penggunaan Sepeda Berdasarkan Musim')
plt.xlabel('Musim')
plt.ylabel('Jumlah Pengguna')
plt.show()

### Pengaruh Hari Kerja dan Hari Libur terhadap Penggunaan Sepeda

In [None]:
# Penggunaan sepeda pada hari kerja vs hari libur
plt.figure(figsize=(10, 6))
sns.boxplot(data=cleaned_data, x='workingday', y='cnt')
plt.title('Penggunaan Sepeda pada Hari Kerja vs Hari Libur')
plt.xlabel('Hari Kerja (0: Tidak, 1: Ya)')
plt.ylabel('Jumlah Pengguna')
plt.show()

### Analisis Penggunaan Sepeda Berdasarkan Kondisi Cuaca

In [None]:
# Penggunaan sepeda berdasarkan kondisi cuaca
plt.figure(figsize=(10, 6))
sns.boxplot(data=cleaned_data, x='weathersit', y='cnt')
plt.title('Penggunaan Sepeda Berdasarkan Kondisi Cuaca')
plt.xlabel('Kondisi Cuaca')
plt.ylabel('Jumlah Pengguna')
plt.show()

### Korelasi Antar Variabel

In [None]:
# Korelasi antar variabel
plt.figure(figsize=(12, 8))
sns.heatmap(cleaned_data.corr(), annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Matriks Korelasi')
plt.show()

## Visualization & Explanatory Analysis

### Pertanyaan 1: Bagaimana tren penggunaan sepeda sepanjang tahun?

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Mengubah kolom dteday menjadi tipe datetime
day_data['dteday'] = pd.to_datetime(day_data['dteday'])

# Membuat plot tren penggunaan sepeda
plt.figure(figsize=(14, 7))
sns.lineplot(data=day_data, x='dteday', y='cnt', label='Total Pengguna')
plt.title('Tren Penggunaan Sepeda Sepanjang Tahun')
plt.xlabel('Tanggal')
plt.ylabel('Jumlah Pengguna')
plt.legend()
plt.show()


### Pertanyaan 2: Apakah ada pengaruh cuaca terhadap jumlah pengguna sepeda?

In [None]:
# Membuat plot boxplot untuk melihat distribusi pengguna berdasarkan kondisi cuaca
plt.figure(figsize=(10, 6))
sns.boxplot(data=day_data, x='weathersit', y='cnt')
plt.title('Pengaruh Cuaca terhadap Jumlah Pengguna Sepeda')
plt.xlabel('Kondisi Cuaca')
plt.ylabel('Jumlah Pengguna')
plt.show()

## Conclusion

## Conclusion Pertanyaan 1: Bagaimana tren penggunaan sepeda sepanjang tahun?

Dari visualisasi yang telah kita buat, terlihat bahwa penggunaan sepeda mengalami variasi sepanjang tahun. Beberapa poin utama yang bisa kita amati adalah:

1. **Musim Panas dan Gugur**: Penggunaan sepeda cenderung meningkat selama bulan-bulan musim panas dan gugur. Ini mungkin disebabkan oleh cuaca yang lebih nyaman untuk bersepeda.
2. **Musim Dingin**: Penggunaan sepeda menurun selama bulan-bulan musim dingin, yang bisa disebabkan oleh suhu yang lebih rendah dan kondisi cuaca yang kurang mendukung untuk bersepeda.
3. **Puncak Penggunaan**: Terdapat puncak penggunaan sepeda pada bulan tertentu, menunjukkan adanya kemungkinan event atau faktor lain yang meningkatkan penggunaan sepeda pada waktu-waktu tersebut.

Secara keseluruhan, tren penggunaan sepeda menunjukkan pola musiman yang kuat, dengan penggunaan tertinggi terjadi pada bulan-bulan dengan cuaca yang lebih baik.

## Conclusion Pertanyaan 2: Apakah ada pengaruh cuaca terhadap jumlah pengguna sepeda?

Dari visualisasi boxplot yang kita buat, kita dapat melihat pengaruh cuaca terhadap jumlah pengguna sepeda. Beberapa poin utama yang bisa kita amati adalah:

1. **Cuaca Cerah atau Berawan Ringan**: Pengguna sepeda paling banyak tercatat saat kondisi cuaca cerah atau berawan ringan (kategori `weathersit` 1). Ini menunjukkan bahwa cuaca yang baik mendorong lebih banyak orang untuk bersepeda.
2. **Cuaca Mendung atau Berkabut**: Jumlah pengguna sepeda menurun saat cuaca mendung atau berkabut (kategori `weathersit` 2). Meskipun penurunan tidak terlalu drastis, kondisi cuaca yang kurang ideal tetap mempengaruhi jumlah pengguna.
3. **Cuaca Hujan atau Salju**: Penggunaan sepeda paling rendah tercatat saat kondisi cuaca hujan atau salju (kategori `weathersit` 3). Hal ini menunjukkan bahwa kondisi cuaca ekstrem sangat membatasi aktivitas bersepeda.

Kesimpulannya, kondisi cuaca memiliki pengaruh yang signifikan terhadap jumlah pengguna sepeda. Semakin baik kondisi cuaca, semakin banyak orang yang cenderung menggunakan sepeda.
