# Proyek Analisis Data: Bike Sharing
- **Nama:** Shinta Praylina
- **Email:** shintapraylina007@gmail.com
- **ID Dicoding:** shinta_praylina_t3lo

## Menentukan Pertanyaan Bisnis

- What season do most and least people rent bicycles?


- Is there a difference in the number of bicycle renters each month?

## Import Semua Packages/Library yang Digunakan

In [5]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
from google.colab import drive


# sns.set(style="whitegrid")


ModuleNotFoundError: No module named 'google.colab'

## Data Wrangling

### Gathering Data

In [None]:
drive.mount('/content/drive')
phatData="/content/drive/MyDrive/day.csv"
df = pd.read_csv(phatData)
df.info()
print(df.head())


**Insight:**

Bagian menampilkan data info dari data set yang tersedia

### Assessing Data

In [None]:
missing_val = df.isnull().sum()
print("Jumlah nilai yang hilang dalam setiap kolom:")
print(missing_val)

# Data duplikat
duplicate_data = df.duplicated().sum()
print("Jumlah nilai yang duplikat:")
print(duplicate_data)

num_cols = ['temp', 'atemp', 'hum', 'windspeed', 'casual', 'registered', 'cnt']

# Korelasi data
corr_matrix = df[num_cols].corr()
plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Correlation Matrix')
plt.show()

# Outlier data
plt.figure(figsize=(12, 10))
for i, col in enumerate(num_cols, 1):
    plt.subplot(4, 2, i)
    sns.boxplot(x=df[col])
    plt.title(f'Boxplot {col}')
plt.tight_layout()
plt.show()

**Insight:**

Bagian ini memeriksa dan menampilkan jumlah data duplikat, jumlah data yang hilang, korelasi antar variabel, dan outlier pada setiap variabel.

### Cleaning Data

In [19]:
# Hapus data row yang data nya hilang
df_no_missing = df.dropna()
# Menghapus duplikasi jika ada
df_cleaned = df_no_missing.drop_duplicates()

**Insight:**

Tahap cleaning data ini sepertinya kurang diperlukan karena dataset yang digunakan sudah cukup bersih dan tidak memiliki data yang hilang atau duplikat.

## Exploratory Data Analysis (EDA)

### Explore ...

In [6]:
# Hitung jumlah total penyewaan berdasarkan musim
seasonal_rental_data = df.groupby('season')['cnt'].sum().reset_index()

# Tentukan dictionary untuk map season numbers ke label yang sesuai
season_mapping = {1: 'Winter', 2: 'Spring', 3: 'Summer', 4: 'Autumn'}
seasonal_rental_data['season'] = seasonal_rental_data['season'].map(season_mapping)

# Temukan musim dengan penyewaan terbanyak dan paling sedikit
peak_season = seasonal_rental_data.loc[seasonal_rental_data['cnt'].idxmax()]
off_peak_season = seasonal_rental_data.loc[seasonal_rental_data['cnt'].idxmin()]

# Membuat bar plot untuk visualisasi data nya
plt.figure(figsize=(8, 6))
sns.barplot(data=seasonal_rental_data, x='season', y='cnt', palette='viridis')

# Menambahkan anotasi untuk peak and off-peak seasons
plt.annotate(f"Peak season: {peak_season['cnt']}", xy=(peak_season['season'], peak_season['cnt']), xytext=(0, 10), textcoords='offset points', ha='center', arrowprops=dict(arrowstyle="->"))
plt.annotate(f"Off-peak season: {off_peak_season['cnt']}", xy=(off_peak_season['season'], off_peak_season['cnt']), xytext=(0, -10), textcoords='offset points', ha='center', arrowprops=dict(arrowstyle="->"))

plt.title('Bike Rental Patterns by Season')
plt.xlabel('Time of Year')
plt.ylabel('Rental Volume')
plt.xticks(rotation=45)
plt.show()

NameError: name 'df' is not defined

**Insight:**
disiini saya menampilkan descrip dari dataset dan juga data penyewa berdasarkan musim disini terlihat musim panas paling tinggi

## Visualization & Explanatory Analysis

### What season do most and least people rent bicycles?

In [None]:

# Hitung jumlah total penyewaan berdasarkan musim
seasonal_rental_data = df.groupby('season')['cnt'].sum().reset_index()

# Tentukan dictionary untuk map season numbers ke label yang sesuai
season_mapping = {1: 'Winter', 2: 'Spring', 3: 'Summer', 4: 'Autumn'}
seasonal_rental_data['season'] = seasonal_rental_data['season'].map(season_mapping)

# Temukan musim dengan penyewaan terbanyak dan paling sedikit
peak_season = seasonal_rental_data.loc[seasonal_rental_data['cnt'].idxmax()]
off_peak_season = seasonal_rental_data.loc[seasonal_rental_data['cnt'].idxmin()]

# Membuat bar plot untuk visualisasi data nya
plt.figure(figsize=(10, 8))
sns.barplot(data=seasonal_rental_data, x='season', y='cnt', palette='viridis')

# Menambahkan anotasi untuk peak and off-peak seasons
plt.annotate(f"Peak season: {peak_season['cnt']}", xy=(peak_season['season'], peak_season['cnt']), xytext=(0, 10), textcoords='offset points', ha='center', arrowprops=dict(arrowstyle="->"))
plt.annotate(f"Off-peak season: {off_peak_season['cnt']}", xy=(off_peak_season['season'], off_peak_season['cnt']), xytext=(0, -10), textcoords='offset points', ha='center', arrowprops=dict(arrowstyle="->"))

plt.title('Bike Rental Patterns by Season')
plt.xlabel('Time of Year')
plt.ylabel('Rental Volume')
plt.xticks(rotation=45)
plt.show()

**Insight:**

Disini saya menampilkan grafik untuk menunjukan perbedaan jumlah penyewa sepeda berdasarkan musim, dan ditarik kesimpulan bahwa summer merupakan musim yang memiliki jumlah penyewa terbanyak, sedangkan winter memiliki jumlah penyewa paling sedikit.

### Is there a difference in the number of bicycle renters each month?

In [None]:

# Menghitung jumlah penyewa sepeda pada setiap bulan dalam setahun
month_counts = df.groupby('mnth')['cnt'].sum().reset_index()

# Mengganti nilai 1-12 dengan label bulan yang lebih jelas
month_labels = {1: 'January', 2: 'February', 3: 'March', 4: 'April', 5: 'May', 6: 'June', 7: 'July', 8: 'August', 9: 'September', 10: 'October', 11: 'November', 12: 'December'}
month_counts['mnth'] = month_counts['mnth'].map(month_labels)

# Membuat plot untuk menampilkan hasil
plt.figure(figsize=(12, 6))
sns.barplot(data=month_counts, x='mnth', y='cnt', palette='Blues')
plt.title('Number of Bicycle Renters in Each Month of the Year')
plt.xlabel('Month')
plt.ylabel('Number of Renters')
plt.xticks(rotation=45)  # Menambahkan rotasi label untuk memudahkan pembacaan
plt.tight_layout()  # Menambahkan plt.tight_layout() untuk membuat grafik menjadi lebih presisi
plt.show()

**Insight:**

Disini saya menampilkan grafik dari penyewa sepeda berdasarkan bulan dalam se tahun.

## Analisis Lanjutan (Opsional)

In [None]:
# Menghitung Recency
df['dteday'] = pd.to_datetime(df['dteday'])
last_date = df['dteday'].max()
df['Recency'] = (last_date - df['dteday']).dt.days

# Menghitung Frequency dan Monetary
frequency = df.groupby('registered')['cnt'].count().reset_index(name='Frequency')
monetary = df.groupby('registered')['cnt'].sum().reset_index(name='Monetary')

# Menggabungkan data Frequency dan Monetary
rfm = pd.merge(frequency, monetary, on='registered')

# Menghitung Recency untuk setiap pelanggan yang terdaftar
rfm['Recency'] = df.groupby('registered')['Recency'].mean().reset_index(drop=True)

print('RFM Analysis:')
print(rfm)

## Conclusion

Dari grafik 1 kita bisa melihat bahwa musim panas (summer) memiliki jumlah penyewa tertinggi dibandingkan dengan 3 musim yang lainnya, sedangkan musim dingin (winter) memiliki jumlah penyewa paling sedikit diantara musim yang lain.Hal ini membuktikan bahwa musim mempengaruhi jumlah penyewa sepeda.

Lalu grafik kedua menunjukkan bahwa terdapat perbedaan jumlah penyewa sepeda di tiap bulan, dan jumlah penyewa sepeda tertinggi terjadi pada bulan Agustus.