<a href="https://colab.research.google.com/github/triutama133/bike_dataset/blob/main/bike_sharing3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Proyek Analisis Data: Bike Sharing Dataset

- Nama: Trianka Priya Utama
- Email: triankaputama@gmail.com
- Id Dicoding: <a href='https://www.dicoding.com/users/tri_utama'>triankautama</a>
- Github:

# Menentukan Pertanyaan Bisnis

---



Specific: Berapa total jumlah sepeda yang disewakan selama musim gugur tahun 2012 (Season 3)?

Measurable: Berapa banyak pengguna yang menyewa sepeda selama hari-hari libur di musim panas tahun 2011?

Action-oriented: Bagaimana langkah-langkah yang bisa diambil untuk meningkatkan penggunaan sepeda sewaan oleh pelanggan reguler saat hari kerja?

Relevant: Apakah ada korelasi antara suhu dan jumlah pengguna yang terdaftar? Bagaimana cuaca memengaruhi jumlah sepeda yang disewakan (cnt) selama musim gugur (Season 3)?

Time-bound: Bagaimana distribusi sewa sepeda (cnt) per jam pada Hari Natal (hari libur = 1) tahun 2012 (tahun = 1)?

<!-- - **Specific**: What is the total count of rental bikes (cnt) for the year 2012 during the fall season (season 3)?
- **Measurable**: How many rental bikes were used on holidays (holiday = 1) during the summer season (season 2) in 2011?
- **Action-oriented**: How can we increase the number of rental bikes used by casual users (casual) on weekdays (workingday = 1)?
- **Relevant**:
    - What is the relationship between temperature (temp) and the number of registered users (registered)?
    - What effect does the weather (weathersit) have on the number of bicycle rentals (cnt) during autumn (season 3)?
- **Time-bound**: What was the hourly distribution of rental bikes (cnt) on Christmas Day (holiday = 1) in 2012 (yr = 1)? -->

# Menyiapkan semua library yang dibutuhkan

In [None]:
# Library
import pandas as pd
import plotly.express as px
import matplotlib.pyplot as fig
import warnings

# Data Wrangling

## Gathering Data

In [None]:
df_day = pd.read_csv("dataset/Bike-sharing-dataset/day.csv")
df_hour = pd.read_csv("dataset/Bike-sharing-dataset/hour.csv")

In [None]:
df_day.head()

In [None]:
df_hour.head()

## Assessing Data

### > Data Type

In [None]:
print('Dataframe day:')
print(df_day.info())

print('\nDataframe hour:')
print(df_hour.info())

(!) Berdasarkan hasil observasi pada df_day, terdapat kesalahan dalam jenis data pada kolom dteday yang awalnya berupa objek, tetapi seharusnya berupa tipe data datetime.

### > Missing value

In [None]:
print('Dataframe day:')
print(df_day.isna().sum())

print('\nDataframe hour:')
print(df_hour.isna().sum())

(✓) Dari hasil pemeriksaan pada dataset df_day dan df_hour, tidak ada nilai yang hilang atau kosong.

### > Duplicate Data

In [None]:
print('Dataframe day:', df_day.duplicated().sum())
print("Dataframe hour:", df_hour.duplicated().sum())

(✓) Tidak ada data yang duplicate.

### > Descriptive statistics

In [None]:
df_day.describe()

In [None]:
df_hour.describe()

**(⁜) Descriptive Analysis**

1. Dataset day
        - Terdapat 731 entri dalam dataset.
        - Musim yang paling umum adalah musim panas (season 2).
        - Tahun dominan dalam data adalah tahun 2012 (yr = 1).
        - Bulan dengan frekuensi paling tinggi adalah Juli (mnth 7).
        - Hari libur hanya muncul sekitar 2.87% dari total hari.
        - Mayoritas data mencatat hari kerja (sekitar 68.40%).
        - Cuaca cenderung baik (weathersit 1) dengan rata-rata suhu sekitar 0.50 (41°C) dan suhu perasaan rata-rata sekitar 0.47 (50°C).
        - Kelembaban rata-rata sekitar 0.47 (47%).
        - Kecepatan angin rata-rata sekitar 0.63 (67% dari kecepatan maksimal).
        - Jumlah pengguna casual rata-rata sekitar 848.
        - Jumlah pengguna terdaftar rata-rata sekitar 3656.
        - Rata-rata total rental sepeda per hari adalah sekitar 4504.

2. Dataset hour
    - Dataset terdiri dari 17,379 entri.
    - Rata-rata untuk kolom-kolom utama adalah sekitar:
        - Musim (season) 2.50, menunjukkan rata-rata musim.
        - Tahun (yr) 0.50, perbandingan antara tahun 2011 dan 2012.
        - Bulan (mnth) 6.54, menunjukkan rata-rata bulan dalam setahun.
        - Jam (hr) 11.55, rata-rata jam dalam sehari.
        - Hari libur (holiday) 0.03, presentase hari libur.
        - Hari dalam seminggu (weekday) 3.00, rata-rata hari dalam seminggu.
        - Hari kerja (workingday) 0.68, presentase hari kerja.
        - Kondisi cuaca (weathersit) 1.43, rata-rata kondisi cuaca.
        - Suhu (temp) 0.50, suhu rata-rata yang normal.
        - Suhu perasaan (atemp) 0.48, suhu perasaan mendekati suhu sebenarnya.
        - Kelembaban (hum) 0.48, kelembaban rata-rata.
        - Kecepatan angin (windspeed) 0.63, kecepatan angin rata-rata.
        - Pengguna casual (casual) 35.68, rata-rata jumlah pengguna casual.
        - Pengguna terdaftar (registered) 153.79, rata-rata jumlah pengguna terdaftar.
        - Total rental sepeda (cnt) 189.46, rata-rata total rental sepeda.

## Cleaning Data

### > Fixed data type

In [None]:
# df_day
df_day["dteday"] = pd.to_datetime(df_day["dteday"])
# df_hour
df_hour["dteday"] = pd.to_datetime(df_hour["dteday"])

In [None]:
# Check data type for df_day and df_hour
print('df_day["dteday"] : ', df_day["dteday"].dtypes)
print('df_hour["dteday"] : ', df_hour["dteday"].dtypes)

(✓) Fixed

# Exploratory Data Analysis (EDA)

**> Korelasi antara variabel numerik**

In [None]:
warnings.filterwarnings("ignore")

# df_day
correlation_matrix = df_day.corr()
fig = px.imshow(correlation_matrix)
fig.update_layout(title="Korelasi antara Variabel Numerik")
fig.show()

**> Distribusi variabel numerik**

In [None]:
numeric_cols = ['temp', 'atemp', 'hum', 'windspeed', 'casual', 'registered', 'cnt']
for col in numeric_cols:
    fig = px.histogram(df_day, x=col, title=f'Distribusi {col}')
    fig.show()

**> Distribusi variabel kategorikal**

In [None]:
categorical_cols = ['season', 'yr', 'mnth', 'holiday', 'weekday', 'workingday', 'weathersit']
for col in categorical_cols:
    fig = px.bar(df_day[col].value_counts().reset_index(), x='index', y=col)
    fig.update_layout(title=f'Distribusi {col}')
    fig.show()

**> Hubungan antara musim (season) dan jumlah sewa (cnt)**

In [None]:
fig = px.box(df_day, x='season', y='cnt')
fig.update_layout(title='Hubungan antara Musim dan Jumlah Sewa')
fig.show()

**> Hubungan antara hari libur (holiday) dan jumlah sewa (cnt)**

In [None]:
fig = px.box(df_day, x='holiday', y='cnt')
fig.update_layout(title='Hubungan antara Hari Libur dan Jumlah Sewa')
fig.show()

**> Hubungan antara cuaca (weathersit) dan jumlah sewa (cnt)**

In [None]:
fig = px.box(df_day, x='weathersit', y='cnt')
fig.update_layout(title='Hubungan antara Cuaca dan Jumlah Sewa')
fig.show()

**> Scatter plot antara suhu (temp) dan jumlah sewa (cnt)**

In [None]:
fig = px.scatter(df_day, x='temp', y='cnt', title='Scatter Plot antara Suhu dan Jumlah Sewa')
fig.show()

# Visualization & Explanatory Analysis

**1. Berapa jumlah total sewa sepeda (cnt) untuk tahun 2012 selama musim gugur (musim 3)?**

In [None]:
# Filter tahun 2012 dan musim gugur (season 3)
filtered_data = df_day[(df_day["yr"] == 1) & (df_day["season"] == 3)]

# Hitung jumlah total sewa sepeda (cnt)
total_sewa_sepeda = filtered_data["cnt"].sum()

print("Jumlah total sewa sepeda untuk tahun 2012 selama musim gugur (musim 3):", total_sewa_sepeda)

**2. Berapa banyak sepeda sewaan yang digunakan pada hari libur (liburan = 1) selama musim panas (musim 2) pada tahun 2011?**

In [None]:
# Filter tahun 2011, musim panas (season 2), dan hari libur (holiday = 1)
filtered_data = df_day[(df_day["yr"] == 0) & (df_day["season"] == 2) & (df_day["holiday"] == 1)]

# Hitung jumlah total sepeda sewaan
total_sepeda_sewaan = filtered_data["cnt"].sum()

print("Jumlah total sepeda sewaan yang digunakan pada hari libur selama musim panas tahun 2011:", total_sepeda_sewaan)

**3. Bagaimana cara meningkatkan jumlah rental sepeda yang digunakan oleh pengguna biasa (casual) pada hari kerja (hari kerja = 1)?**

In [None]:
# Filter pengguna casual (casual) pada hari kerja (workingday = 1)
filtered_data = df_day[(df_day["workingday"] == 1) & (df_day["casual"] > 0)]

# Visualisasikan jumlah sewa sepeda casual pada hari kerja
fig = px.bar(filtered_data, x="weekday", y="casual", title="Jumlah Sewa Sepeda Casual pada Hari Kerja")
fig.update_xaxes(title="Hari Kerja")
fig.update_yaxes(title="Jumlah Sewa Sepeda Casual")
fig.show()

**Strategi:**
Pengembangan promosi khusus pada hari-hari dengan tingkat penyewaan rendah, seperti Senin dan Rabu, dengan menawarkan diskon atau penawaran spesial yang hanya berlaku pada hari kerja tertentu.
Perbaikan aksesibilitas dan kondisi fasilitas penyewaan sepeda, termasuk stasiun dan lokasi, terutama pada hari kerja, untuk memastikan penggunaan yang optimal.
Menambah jumlah sepeda yang tersedia pada hari kerja guna mengakomodasi permintaan yang lebih tinggi selama periode tersebut.
Meningkatkan strategi pemasaran khusus pada hari kerja, seperti kampanye iklan online yang fokus pada pengguna biasa selama hari-hari tersebut.
Implementasi program loyalitas atau diskon berkelanjutan untuk pengguna biasa yang sering menggunakan layanan penyewaan sepeda pada hari kerja, sebagai insentif tambahan.

**4. Apa hubungan suhu (temp) dengan jumlah pengguna yang terdaftar?**

In [None]:
# Buat scatter plot dengan Plotly untuk memvisualisasikan hubungan suhu (temp) dengan jumlah pengguna terdaftar (registered)
fig = px.scatter(df_day, x="temp", y="registered", title="Hubungan Suhu dengan Jumlah Pengguna Terdaftar")
fig.update_xaxes(title="Suhu (temp)")
fig.update_yaxes(title="Jumlah Pengguna Terdaftar")
fig.show()

**Insight:**

Pada grafik terlihat korelasi positif yang menunjukkan bahwa meningkatnya suhu (temp)  berpengaruh juga terhadap meningkatnya jumlah pengguna yang terdaftar.

**5. Apa pengaruh cuaca (weathersit) terhadap jumlah sewa sepeda (cnt) selama musim gugur (season 3)?**

In [None]:
# Filter musim gugur (season 3)
filtered_data = df_day[df_day["season"] == 3]

# Buat plot dengan Plotly untuk menganalisis pengaruh cuaca terhadap jumlah sewa sepeda
fig = px.bar(filtered_data, x="weathersit", y="cnt", title="Pengaruh Cuaca terhadap Jumlah Sewa Sepeda (Musim Gugur)")
fig.update_xaxes(title="Cuaca (weathersit)")
fig.update_yaxes(title="Jumlah Sewa Sepeda (cnt)")

# Tampilkan plot
fig.show()

**(Info):**
- weathersit :
	- 1: Clear, Few clouds, Partly cloudy, Partly cloudy
	- 2: Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist
	- 3: Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + Scattered clouds
	- 4: Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog

**Insight:**

Dari informasi yang disajikan, kita dapat menyimpulkan bahwa cuaca memiliki peran yang sangat penting dalam jumlah penyewaan sepeda. Perubahan kondisi cuaca secara jelas mempengaruhi perilaku orang dalam menggunakan layanan sepeda. Lebih tepatnya, saat cuaca cerah atau sebagian berawan (weathersit 1), terjadi peningkatan yang signifikan dalam jumlah sepeda yang disewa.

Hasil analisis ini menyoroti bahwa aspek seperti cuaca dapat menjadi faktor kunci yang harus dipertimbangkan oleh penyedia layanan sewa sepeda. Hal ini karena kondisi cuaca berpotensi memengaruhi tingkat permintaan sepeda. Pemahaman ini dapat memberikan wawasan penting kepada pengambil keputusan untuk mengelola stok sepeda, menyesuaikan harga sewa, atau merancang strategi pemasaran yang lebih efisien berdasarkan variasi cuaca yang terjadi.

**6. Berapa distribusi per jam sewa sepeda (cnt) pada Hari Natal (hari libur = 1) pada tahun 2012 (tahun = 1)?**

In [None]:
# Filter data tahun 2012 (yr = 1), Hari Natal (holiday = 1), dan musim panas (season 2)
filtered_data = df_hour[(df_hour["yr"] == 1) & (df_hour["holiday"] == 1) & (df_hour["season"] == 2)]

# Hitung distribusi per jam sewa sepeda (cnt)
distribusi_per_jam = filtered_data.groupby("hr")["cnt"].sum()

print("Distribusi per jam sewa sepeda pada Hari Natal tahun 2012:")
print(distribusi_per_jam)

**Insight:**

Distribusi ini menunjukkan bahwa pada pukul 17:00 (5:00 sore), terjadi lonjakan paling tinggi dalam jumlah sewa sepeda dengan 1.117 sewa, yang mungkin karena banyak orang menghabiskan waktu sore untuk bersepeda saat liburan Natal. Selain itu, aktivitas sewa sepeda mulai meningkat sejak pukul 6:00 pagi dan mencapai puncaknya antara pukul 17:00 dan 18:00. Setelah itu, jumlah sewa sepeda mulai turun secara perlahan hingga larut malam.

Ini menggambarkan pola penggunaan sepeda selama Hari Natal, yang mencerminkan kegiatan liburan dan rutinitas masyarakat pada tanggal tersebut.

# Conclusion

Tentang pengaruh faktor cuaca terhadap tren penyewaan sepeda, data menunjukkan dampak yang signifikan. Selama musim gugur 2012, total penyewaan mencapai 641.479, menyoroti potensi bisnis yang kuat, yang dipengaruhi oleh cuaca, acara, serta promosi yang ada.

Selama liburan musim panas 2011, penggunaan sepeda sewaan mencapai 7224, menandakan tingginya minat bersepeda selama liburan. Hal ini mencerminkan investasi infrastruktur dan meningkatnya antusiasme dalam bersepeda.

Puncak penyewaan sepeda terjadi pada hari Jumat, menunjukkan peningkatan signifikan dalam penggunaan sepeda menjelang akhir pekan.

Adanya korelasi antara suhu dan jumlah pengguna terdaftar dalam penyewaan sepeda menunjukkan bahwa cuaca memainkan peran penting dalam minat bersepeda, di mana peningkatan suhu cenderung meningkatkan jumlah pengguna.

Pada Hari Natal tahun 2012, puncak aktivitas sewa sepeda terjadi antara jam 17:00 hingga 18:00, mencapai 1117 penyewaan, menunjukkan lonjakan signifikan sejak pagi hari pukul 8.

# Mendapatkan file required.txt dari library yang digunakan