# Proyek Analisis Data: [Bike Sharing Dataset]
- **Nama:** [Lutfi Aundrie Hermawan]
- **Email:** [lutfiaunher@gmail.com]
- **ID Dicoding:** [A126YBF254]

## Menentukan Pertanyaan Bisnis

- Bagaimana musim dapat berpengaruh dalam penyewaan sepeda ?
- Bagaimana kepopuleran penyewaan sepeda dalam setahun terakhir, apakah 2011 atau 2012 ?
- Bagaimana cuaca dapat mempengaruhi dalam penyewaan sepeda ?
- Berapa banyaknya seseorang yang memilih registered dibandingkan casual ?
- Apakah suhu lingkungan atau suhu yang dirasakan tubuh manusia dapat mempengaruhi jumlah penyewaan ?

## Import Semua Packages/Library yang Digunakan

In [None]:
# Perintah untuk menginstall library
!pip install numpy
!pip install pandas
!pip install matplotlib
!pip install seaborn

# Library yang akan dipakai
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Data Wrangling

### Gathering Data

Tahap pertama kita mengumpulkan data yang telah dikumpulkan sebagai DataFrame. Dengan saya memilih Bike Sharing Dataset, terdapat dataset berupa file day.csv dan hour.csv
1. Day.CSV


In [None]:
# Memuat tabel day
bike_day_df = pd.read_csv('day.csv')
bike_day_df.head()

**Insight:**
- Membuat DataFrame bike_day_df yang berisikan file day.csv

2. Hour.CSV

In [None]:
# Memuat tabel hour
bike_hour_df = pd.read_csv('hour.csv')
bike_hour_df.head()

**Insight:**
- Membuat DataFrame bike_hour_df yang berisikan file day.csv

### Assessing Data

#### A. bike_day_df

  1. Dataset Information

In [None]:
# Melihat informasi mengenai tipe data dan jumlah data pada file CSV day
bike_day_df.info()

**Insight:**
- Pada bagian column dteday terdapat tipe data yang tidak sesuai
- Tipe data dteday diubah dari object -> datetime64[ns]

  2. Checking Missing Value

In [None]:
# Menampilkan informasi mengenai missing values pada file CSV day
bike_day_df.isna().sum()

**Insight:**
- Dari informasi DataFrame tersebut tidak terdapat missing values yang dapat mempengaruhi analisis selanjutnya


  3. Checking Duplicated Data

In [None]:
# Menampilkan jumlah yang terduplikasi pada file CSV day
print("Jumlah duplikasi: ", bike_day_df.duplicated().sum())

**Insight:**
- Dari DataFrame ini tidak terdapat duplikasi yang dapat mempengarhi hasil analisis nanti

  4. Statistical Description of the Dataset

In [None]:
# Menampilkan ringkasan parameter statistik
bike_day_df.describe()

**Insight:**
- Dari DataFrame ini bahwa data statistik menunjukkan bahwa feature tertampil normal dan sesuai juga dengan file readme Bike Sharing Dataset

#### B. bike_hour_df

  1. Dataset Information

In [None]:
# Melihat informasi mengenai tipe data dan jumlah data pada file CSV hour
bike_hour_df.info()

**Insight:**
- Pada bagian column dteday terdapat tipe data yang tidak sesuai
- Tipe data dteday diubah dari object -> datetime64[ns]

  2. Checking Missing Value

In [None]:
# Menampilkan informasi mengenai missing values pada file CSV hour
bike_hour_df.isna().sum()

**Insight:**
- Dari informasi DataFrame tersebut tidak terdapat missing values yang dapat mempengaruhi analisis selanjutnya

  3. Checking Duplicated Data

In [None]:
# Menampilkan jumlah yang terduplikasi pada file CSV hour
print("Jumlah duplikasi: ", bike_hour_df.duplicated().sum())

**Insight:**
- Dari DataFrame ini tidak terdapat duplikasi yang dapat mempengarhi hasil analisis nanti

  4. Statistical Description of the Dataset

In [None]:
# Menampilkan ringkasan parameter statistik
bike_hour_df.describe()

**Insight:**
- Dari DataFrame ini bahwa data statistik menunjukkan bahwa feature tertampil normal dan sesuai juga dengan file readme Bike Sharing Dataset

### Cleaning Data

#### A. Cleaning Data bike_day_df

In [None]:
# Mengubah jenis tipe data pada DataFrame bike_day_df
bike_day_df["dteday"] = pd.to_datetime(bike_day_df["dteday"])

**Insight:**
- Mengubah tipe data pada dteday dari object menjadi datetime64[ns] pada DataFrame bike_day_df

  2. Change name in column

In [None]:
# Mengubah nama pada column
bike_day_df.rename(columns={
    'dteday': 'dateday',
    'yr': 'year',
    'mnth': 'month',
    'weathersit': 'weather_cond',
    'cnt': 'count'
}, inplace=True)

bike_day_df.head()

**Insight:**
- Dari perubahan nama column dapat memudahkan dalam pembacaan

  3. Change name in row

In [None]:
# Season = 1:Spring, 2:Summer, 3:Fall, 4:Winter
bike_day_df.season.replace((1,2,3,4), ('Spring','Summer','Fall','Winter'), inplace=True)

# Month = 1:Jan, 2:Feb, 3:Mar, 4:Apr, 5:May, 6:Jun, 7:Jul, 8:Aug, 9:Sep, 10:Oct, 11:Nov, 12:Dec
bike_day_df.month.replace((1,2,3,4,5,6,7,8,9,10,11,12),('Jan','Feb','Mar','Apr','May','Jun','Jul','Aug','Sep','Oct','Nov','Dec'), inplace=True)

# Weather_cond = 1:Clear, 2:Misty, 3:Light_RainSnow 4:Heavy_RainSnow
bike_day_df.weather_cond.replace((1,2,3,4), ('Clear','Misty','Light_rainsnow','Heavy_rainsnow'), inplace=True)

# weekday = 0:Sun, 1:Mon, 2:Tue, 3:Wed, 4:Thu, 5:Fri, 6:Sat
bike_day_df.weekday.replace((0,1,2,3,4,5,6), ('Sunday','Monday','Tuesday','Wednesday','Thursday','Friday','Saturday'), inplace=True)

# Year = 0:2011, 1:2012
bike_day_df.year.replace((0,1), ('2011','2012'), inplace=True)

**Insight:**
- Perubahan nama row disebabkan dari data yang ditemukan hanya berupa angka dan mempermudahkan pembacaan data

  4. Checking again after Cleaning Data

In [None]:
# Mengecek tipe data dan nama column
bike_day_df.info()

**Insight:**
- Pengecekan kembali untuk mengetahui apabila tipe data sudah diubah pada DataFrame bike_day_df dan nama pada column

#### B. Cleaning Data bike_hour_df


  1. Fixing Data Type on the "dteday" Feature to Datetime in bike_hour_df DataFrame

In [None]:
# Mengubah jenis tipe data pada DataFrame bike_hour_df
bike_hour_df["dteday"] = pd.to_datetime(bike_hour_df["dteday"])

**Insight:**
- Mengubah tipe data pada dteday dari object menjadi datetime64[ns] pada DataFrame day

  2. Change name in column

In [None]:
# Mengubah nama pada column
bike_hour_df.rename(columns={
    'dteday': 'dateday',
    'yr': 'year',
    'mnth': 'month',
    'weathersit': 'weather_cond',
    'cnt': 'count'
}, inplace=True)

bike_hour_df.head()

  3. Change name in row

In [None]:
# Season = 1:Spring, 2:Summer, 3:Fall, 4:Winter
bike_hour_df.season.replace((1,2,3,4), ('Spring','Summer','Fall','Winter'), inplace=True)

# Month = 1:Jan, 2:Feb, 3:Mar, 4:Apr, 5:May, 6:Jun, 7:Jul, 8:Aug, 9:Sep, 10:Oct, 11:Nov, 12:Dec
bike_hour_df.month.replace((1,2,3,4,5,6,7,8,9,10,11,12),('Jan','Feb','Mar','Apr','May','Jun','Jul','Aug','Sep','Oct','Nov','Dec'), inplace=True)

# Weather_cond = 1:Clear, 2:Misty, 3:Light_RainSnow 4:Heavy_RainSnow
bike_hour_df.weather_cond.replace((1,2,3,4), ('Clear','Misty','Light_rainsnow','Heavy_rainsnow'), inplace=True)

# weekday = 0:Sun, 1:Mon, 2:Tue, 3:Wed, 4:Thu, 5:Fri, 6:Sat
bike_hour_df.weekday.replace((0,1,2,3,4,5,6), ('Sunday','Monday','Tuesday','Wednesday','Thursday','Friday','Saturday'), inplace=True)

# Year = 0:2011, 1:2012
bike_hour_df.year.replace((0,1), ('2011','2012'), inplace=True)

  4. Checking again after Cleaning Data

In [None]:
# Mengecek tipe data dan nama column
bike_hour_df.info()

**Insight:**
- Pengecekan kembali untuk mengetahui apabila tipe data sudah diubah pada DataFrame bike_hour_df dan nama pada column

## Exploratory Data Analysis (EDA)

### Explore Data bike_day_df

1. Parameter Statistik

In [None]:
# Melihat rangkuman parameter pada DataFrame bike_day_df
bike_day_df.describe(include="all")

**Insight:**
- Berdasarkan rangkuman parameter di atas, memperoleh informasi bahwa pada jumlah pemakaian casual berada di kisaran 2 sampai 3410 orang dengan standar deviasi adalah 686.62
-

2. Jumlah penyewaan sepeda tiap season

In [None]:
# Melihat jumlah penyewaan tiap season
bike_day_df.groupby(by="season").agg({
    'count': ['max', 'min', 'mean', 'sum']
})

**Insight:**
- Berdasarkan season yang menyumbang penyewaan terbesar adalah season Fall

  2. Correlation Matrix

In [None]:
fig, ax = plt.subplots(figsize=(10,6))
correlation_matrix = bike_day_df.corr(numeric_only=True)
mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))

sns.heatmap(
    correlation_matrix,
    annot=True,
    mask=mask,
    cmap="coolwarm",
    center=0,
    fmt=".2f")
plt.title("Correlation Heatmap")
plt.show()

Berikut feature correlation positive yaitu
  1. 'atemp' dengan 'temp'
  2. 'count' dengan 'registered'

### Explore Data bike_hour_df

1. Parameter Statistik

In [None]:
# Membuat rangkuman parameter pada DataFrame bike_hour_df
bike_hour_df.describe(include="all")

**Insight:**
- Berdasarkan rangkuman parameter di atas, memperoleh informasi bahwa pada jumlah pemakaian casual berada di kisaran 0 sampai 367 orang dengan standar deviasi adalah 49.30
-

  2. Correlation Matrix

In [None]:
fig, ax = plt.subplots(figsize=(10,6))
correlation_matrix = bike_hour_df.corr(numeric_only=True)
mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))

# Buat matrix
sns.heatmap(
    correlation_matrix,
    annot=True,
    mask=mask,
    cmap="coolwarm",
    center=0,
    fmt=".2f")

# Mengatur Judul untuk subplot tersebut
plt.title("Correlation Heatmap")

# Menampilkan plot
plt.show()

Berikut feature correlation positive yaitu
  1. 'atemp' dengan 'temp'
  2. 'count' dengan 'registered'

## Visualization & Explanatory Analysis

### Pertanyaan 1: Bagaimana musim dapat berpengaruh dalam penyewaan sepeda ?


In [None]:
# Membuat suplot
fig, ax = plt.subplots()

# Membuat barplot
sns.barplot(
    data=bike_day_df.sort_values(by="season", ascending= False),
    x="season",
    y="count",
    hue="year",
    palette="viridis")

# Membuat judul, label X dan label Y
plt.ylabel("Jumlah")
plt.xlabel("Season")
plt.title("Jumlah total sepeda yang disewakan berdasarkan Musim")
plt.legend(
    title="Tahun",
    loc="upper right")

for container in ax.containers:
    ax.bar_label(container, fontsize= 8, color= 'white', weight= 'bold', label_type= 'edge')
plt.tight_layout()

# Menampilkan plot
plt.show()

**Insight:**
- Berdasarkan visualisasi data yang dibuat, dapat disimpulkan bahwa terdapat hubungan antara season dengan jumlam penyewa, yang paling diminati untuk menggunakan sepeda adalah season fall sedangkan sedikit menggunakan sepeda adalah season spring

### Pertanyaan 2: Bagaimana kepopuleran penyewaan sepeda dalam setahun terakhir, apakah 2011 atau 2012 ?


In [None]:
monthly_counts = bike_day_df.groupby(by=["month","year"]).agg({
    "count": "sum"
}).reset_index()

fig, ax = plt.subplots()

# Buat lineplot
sns.lineplot(
    data=monthly_counts,
    x="month",
    y="count",
    hue="year",
    palette="rocket",
    marker="o")

# Mengatur judul, label y, dan label x
plt.title("Jumlah total sepeda yang disewakan berdasarkan Bulan dan tahun")
plt.xlabel("Bulan")
plt.ylabel("Jumlah Penyewa")
plt.legend(title="Tahun", loc="upper right")
plt.tight_layout()

# Menampilkan plot
plt.show()

**Insight:**
- Berdasarkan visualisasi data yang dibuat, dapat disimpulkan bahwa terdapat kenaikan jumlah penyewaan sepeda dari tahun 2011 sampai 2012

### Pertanyaan 3: Bagaimana cuaca dapat mempengaruhi dalam penyewaan sepeda ?


In [None]:
# membuat subplot
fig, ax = plt.subplots(figsize=(20, 10))

# Buat barplot
sns.barplot(
    data=bike_day_df.sort_values(by="weather_cond", ascending= True),
    x="weather_cond",
    y="count",
    hue="year",
    palette="viridis")

# Mengatur judul, label y, dan label x
plt.ylabel("Jumlah Penyewa")
plt.xlabel("Cuaca")
plt.title("Jumlah total sepeda yang disewakan berdasarkan Cuaca")
plt.legend(title="Tahun", loc="upper right")

for container in ax.containers:
    ax.bar_label(container, fontsize= 8, color= 'white', weight= 'bold', label_type= 'edge')
plt.tight_layout()

# Menampilkan plot
plt.show()

**Insight:**
- Berdasarkan visualisasi data yang dibuat, dapat disimpulkan bahwa cuaca yang cerah dapat membuat aktivitas manusia tidak terhambat dan beraktivitas menggunakan sepeda mengakibatkan naiknya jumlah penyewaan sepeda

### Pertanyaan 4: Berapa banyaknya seseorang yang memilih registered dibandingkan casual ?


In [None]:
# Data Untuk Casual
total_casual = sum(bike_day_df['casual'])

# Data Untuk Registered
total_registered = sum(bike_day_df['registered'])

# Data untuk Pieplot
data = [total_casual, total_registered]
labels = ['Casual', 'Registered']

# Membuat label Pieplot
plt.pie(
    data,
    labels=labels,
    autopct='%1.1f%%',
    colors=["gold", "tomato"]
    )

# Menampilkan plot
plt.show()

### Pertanyaan 5: Apakah suhu lingkungan atau suhu yang dirasakan tubuh manusia dapat mempengaruhi jumlah penyewaan ?


1. Suhu Lingkungan

In [None]:
# Membuat Regplot
sns.regplot(
    x=bike_day_df["temp"],
    y=bike_day_df["count"])

# Membuat label Regplot
plt.title("Analisis Regresi berdasarkan Suhu Lingkungan")
plt.xlabel("Temperatur (Celcius)")
plt.ylabel("Jumlah Penyewaan Sepeda")
plt.tight_layout()

# Menampilkan plot
plt.show()

2. Suhu yang dirasakan tubuh

In [None]:
# Membuat Regplot
sns.regplot(
    x=bike_day_df["atemp"],
    y=bike_day_df["count"])

# Membuat label Regplot
plt.title("Analisis Regresi berdasarkan Suhu yang dirasakan Tubuh")
plt.xlabel("Temperatur (Celcius)")
plt.ylabel("Jumlah Penyewaan Sepeda")

# Menampilkan plot
plt.show()

## Analisis Lanjutan (Opsional)

## Conclusion

- Conclution pertanyaan 1: Berdasarkan visualisasi data yang dibuat, terlihat para penyewa menyukai season fall dimana season tersebut memiliki suhu yang sejuk dan cocok untuk mengendarai sepeda  sedikit menggunakan sepeda adalah season spring
- Conclution pertanyaan 2