# Proyek Analisis Data: [Bike Sharing]
- **Nama:** [Ayu Astari]
- **Email:** [ayu.astari1884@student.unri.ac.id]
- **ID Dicoding:** [ayu_astari10]

## Menentukan Pertanyaan Bisnis

- Apakah terdapat perbedaan yang signifikan dalam total workingday dan holiday antara musim-musim tersebut?
- Bagaimana hubungan antara temp (suhu) dan total count pengguna sepeda untuk setiap musim periode 2 tahun?
- Bagaimana pola penggunaan sepeda selama seminggu dan perbedaannya antara hari kerja dan akhir pekan?


## Import Semua Packages/Library yang Digunakan

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Data Wrangling

### Gathering Data

Load data day_df

In [None]:
day_df  = pd.read_csv('https://raw.githubusercontent.com/ayuastari/proyek-analisis-data-dengan-python/main/dataset/day.csv')
day_df.head()

### Assessing Data

Menilai data day_df

In [None]:
#Informasi mengenai dataset
day_df.info()

In [None]:
# Memeriksa jumlah baris dan kolom dalam dataset
jumlah_baris, jumlah_kolom = day_df.shape
print(f"Jumlah Baris: {jumlah_baris}")
print(f"Jumlah Kolom: {jumlah_kolom}")

In [None]:
# Memeriksa tipe data setiap kolom
tipe_data = day_df.dtypes
print("\nTipe Data Setiap Kolom:")
print(tipe_data)

In [None]:
# Memeriksa apakah ada nilai yang hilang (missing values)
missing_values = day_df.isna().sum()
print("\nJumlah Missing Values per Kolom:")
print(missing_values)

In [None]:
print("\nJumlah Duplikat :", day_df.duplicated().sum())

In [None]:
day_df.describe(include="all")

### Cleaning Data

cleaning day_df

In [None]:
#Menghapus(drop) kolom yang tidak diperlukan
drop_column = ["instant", "hum", "windspeed"]

for n in day_df.columns:
  if n in drop_column:
   day_df.drop(labels=n, axis=1, inplace=True)

In [None]:
#Mengubah nama data menjadi nama yang mudah dipahami
day_df.rename(columns = {
    "dteday":"dateday",
    "yr":"year",
    "mnth":"month",
    "cnt":"count",
}, inplace=True)

In [None]:
#Memberikan keterangan
day_df["year"]= day_df["year"].map({0:2011, 1:2012})
day_df["month"]= day_df["month"].map({1:"January", 2:"February", 3:"March", 4:"April", 5:"May", 6:"june", 7:"July", 8:"August", 9:"September", 10:"October", 11:"November", 12:"December"})
day_df["weekday"]= day_df["weekday"].map({0:"Sunday",1:"Monday", 2:"Tuesday", 3:"Wednesday", 4:"Thursday", 5:"Friday", 6:"Saturday"})
day_df["season"]= day_df["season"].map({1:"spring", 2:"summer", 3:"fall", 4:"winter"})
day_df["weathersit"]= day_df["weathersit"].map({1:"Clear, Few clouds, Partly cloudy, Partly cloudy", 2:"Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist", 3:"Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + Scattered clouds", 4:"Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog"})

In [None]:
#Mengubah tipe tanggal
day_df['dateday'] = pd.to_datetime(day_df['dateday'])

#Mengubah tipe data menjadi data kategorial
day_df["year"]= day_df.year.astype("category")
day_df['season'] = day_df.season.astype('category')
day_df['month'] = day_df.month.astype('category')
day_df['weekday'] = day_df.weekday.astype('category')
day_df['weathersit'] = day_df.weathersit.astype('category')

In [None]:
day_df.info()

## Exploratory Data Analysis (EDA)

### Explore ...

In [None]:
#Klasifikasi pengguna sepeda berdasarkan musim
seasons = day_df.groupby(by='season').agg({
    'workingday':'sum',
    'holiday':'sum',
    'temp':'sum',
    'count':'sum'
}).reset_index()

In [None]:
#Klasifikasi penguna sepeda perhari dengan tanggal dan tahun
daily= day_df.groupby(by=['dateday','year']).agg({
    'temp':'sum',
    'count':'sum'
}).reset_index()

In [None]:
#Klasifikasi pengguna sepeda berdasarkan minggu dan tahun
weekdays = day_df.groupby(by=['weekday','year']).agg({
    'count':'sum'
}).reset_index()

## Visualization & Explanatory Analysis

### Pertanyaan 1: Apakah terdapat perbedaan pengguna yang signifikan dalam total workingday dan holiday antara musim-musim tersebut?

In [None]:
fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(15,5))

sns.barplot(
    x='season',
    y='workingday',
    data=day_df,
    hue='season',
    palette='viridis',
    errorbar=None,
    ax=ax[0],
    legend=False  # Disable legend
)
ax[0].set_xlabel('Musim')
ax[0].set_ylabel('Total Workingday')
ax[0].set_title('Perbandingan Total Workingday antara Musim')

# Bar plot for holiday
sns.barplot(
    x='season',
    y='holiday',
    data=day_df,
    hue='season',
    palette='viridis',
    errorbar=None,
    ax=ax[1],
    legend=False  # Disable legend
)
ax[1].set_xlabel('Musim')
ax[1].set_ylabel('Total Holiday')
ax[1].set_title('Perbandingan Total Holiday antara Musim')

plt.tight_layout()
plt.show()


Dari grafik yang Anda tampilkan, kita dapat memperoleh informasi sebagai berikut:

Perbandingan Total Workingday antara Musim:

- Musim gugur memiliki total workingday tertinggi, diikuti oleh musim panas, - musim dingin, dan musim semi.
- Musim semi memiliki total workingday yang paling rendah.
Perbandingan Total Holiday antara Musim:

- Musim semi memiliki total holiday tertinggi, diikuti oleh musim dingin, musim panas, dan musim gugur.
- Musim semi memiliki total holiday yang signifikan lebih tinggi daripada musim-musim lainnya.
- Musim gugur memiliki total holiday yang paling rendah.

### Pertanyaan 2: Bagaimana hubungan antara temp (suhu) dan total count pengguna sepeda untuk setiap musim periode 2 tahun?

In [None]:
plt.figure(figsize=(20, 5))
colors = plt.get_cmap("viridis")

sns.scatterplot(
    x="dateday",
    y="temp",
    hue="count",
    data=daily,
    palette=colors,
    marker="o"
)

plt.title("Hubungan antara Suhu dan Total Count Pengguna Sepeda untuk Setiap Musim dalam rentang waktu 2 tahun", loc="center", fontsize=12)
plt.xlabel('rentang waktu')
plt.ylabel("Suhu")
plt.legend(title="Total Count Pengguna Sepeda", loc="upper left")
plt.show()


Rentang waktu: Januari 2011 hingga Januari 2013.
Hubungan antara suhu dan jumlah pengguna sepeda:
- Pada suhu yang lebih rendah, jumlah pengguna sepeda cenderung lebih sedikit (sekitar bulan September hingga Februari).
- Pada suhu yang lebih tinggi, jumlah pengguna sepeda cenderung lebih tinggi (sekitar bulan Maret hingga Agustus).
- Variasi dalam jumlah pengguna sepeda di musim semi dan musim gugur, tergantung pada suhu yang dialami.
- Adanya hubungan erat antara suhu dan jumlah pengguna sepeda, di mana suhu yang lebih tinggi mengakibatkan peningkatan penggunaan sepeda.
Dengan demikian, suhu memainkan peran penting dalam menentukan jumlah pengguna sepeda, dengan suhu yang lebih tinggi cenderung meningkatkan penggunaan sepeda, sementara suhu yang lebih rendah cenderung mengurangi penggunaan sepeda.



## Pertanyaan 3: Bagaimana pola penggunaan sepeda selama seminggu dan perbedaannya antara hari kerja dan akhir pekan?

In [None]:
plt.figure(figsize=(10, 5))
colors_ = ["#006400", "#00008B"]

sns.lineplot(
    x="weekday",
    y="count",
    hue="year",
    data=weekdays,
    palette=colors_,
    marker="o"
)

plt.title("Rata Rata Pengguna Sepeda Mingguan dalam 2 Tahun", loc="center", fontsize=12)
plt.xlabel('Hari')
plt.ylabel("Jumlah Sepeda")
plt.legend(title="Tahun", loc="upper left")
plt.show()

Grafik tersebut menggambarkan rata-rata penggunaan sepeda setiap hari dalam seminggu selama dua tahun, dengan garis berbeda mewakili tahun-tahun yang berbeda. Dari grafik tersebut, kita dapat melihat pola penggunaan sepeda yang menarik:

Hari Kerja (Senin-Jumat): Jumlah pengguna sepeda cenderung stabil atau sedikit menurun pada hari kerja, dengan puncak yang lebih rendah pada hari Jumat. Hal ini mungkin menunjukkan bahwa sebagian besar orang menggunakan sepeda untuk transportasi ke tempat kerja atau sekolah pada hari-hari tersebut.

Akhir Pekan (Sabtu-Minggu): Jumlah pengguna sepeda meningkat secara signifikan pada akhir pekan, dengan puncak tertinggi pada hari Sabtu. Hal ini menunjukkan bahwa sepeda lebih sering digunakan untuk rekreasi atau kegiatan santai pada akhir pekan.

Dengan demikian, grafik tersebut menggambarkan pola penggunaan sepeda yang berbeda antara hari kerja dan akhir pekan, di mana penggunaan sepeda cenderung lebih tinggi pada akhir pekan untuk kegiatan rekreasi atau santai.

## Conclusion

- Conclution pertanyaan 1
Kesimpulannya, musim gugur cenderung memiliki total workingday lebih tinggi dan total holiday yang lebih rendah dibandingkan dengan musim-musim lainnya, sementara musim semi cenderung memiliki total workingday lebih rendah dan total holiday yang lebih tinggi. perbedaan total workingday tidak begitu signifikan dibandingkan total holiday. pengguna saat workingday stabil dan pengguna holiday memiliki perbedaan signifikan tergantung musimnya.
- Conclution pertanyaan 2
Kesimpulannya, Dalam rentang waktu ini, terlihat bahwa pada musim semi dan musim panas (sekitar bulan Maret hingga Agustus) ketika suhu meningkat, jumlah pengguna sepeda cenderung lebih tinggi. Sebaliknya, pada musim gugur dan musim dingin (sekitar bulan September hingga Februari), ketika suhu menurun, jumlah pengguna sepeda cenderung lebih rendah. Ini menunjukkan adanya hubungan yang erat antara suhu dan jumlah pengguna sepeda, di mana suhu yang lebih tinggi mengakibatkan peningkatan penggunaan sepeda.
- conclusion pertanyaan 3
Kesimpulannya, Dari grafik ini, kita dapat melihat bahwa pola penggunaan sepeda cenderung berbeda antara hari kerja dan akhir pekan. Pada hari-hari kerja (Senin-Jumat), jumlah pengguna sepeda cenderung stabil atau bahkan sedikit menurun, sementara pada akhir pekan (Sabtu-Minggu), jumlah pengguna sepeda cenderung meningkat.