In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# 1. Data Loading
df = pd.read_csv('day.csv')
print(df.head())

# 2. Data Cleaning & Wrangling
# Mengubah kolom 'dteday' menjadi datetime
df['dteday'] = pd.to_datetime(df['dteday'])
# Mengubah label musim agar mudah dibaca
df['season'] = df['season'].map({1: 'Spring', 2: 'Summer', 3: 'Fall', 4: 'Winter'})
# Cek missing value
print(df.isnull().sum())

# 3. Exploratory Data Analysis (EDA)
print(df.describe())

# Pertanyaan 1: Tren Penyewaan per Bulan
df['month_year'] = df['dteday'].dt.to_period('M')
monthly_counts = df.groupby('month_year')['cnt'].sum()

# Pertanyaan 2: Korelasi Cuaca
correlation = df[['temp', 'atemp', 'hum', 'windspeed', 'cnt']].corr()

# 4. Visualisasi Data
plt.figure(figsize=(12, 6))
monthly_counts.plot(kind='line', marker='o', color='b')
plt.title('Tren Total Penyewaan Sepeda per Bulan')
plt.xlabel('Bulan')
plt.ylabel('Total Sewa')
plt.grid(True)
plt.show()

plt.figure(figsize=(8, 6))
sns.barplot(x='season', y='cnt', data=df, palette='coolwarm')
plt.title('Rata-rata Penyewaan Sepeda Berdasarkan Musim')
plt.show()

# 5. Machine Learning (Linear Regression)
# Fitur: temp (suhu), hum (kelembaban), windspeed (kecepatan angin)
X = df[['temp', 'hum', 'windspeed']]
y = df['cnt']

# Split Data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Model Training
model = LinearRegression()
model.fit(X_train, y_train)

# Prediksi & Evaluasi
y_pred = model.predict(X_test)
print(f"R2 Score: {r2_score(y_test, y_pred)}")

# 6. Conclusion
print("Kesimpulan:")
print("1. Tren penyewaan cenderung meningkat dari tahun ke tahun.")
print("2. Musim gugur (Fall) memiliki rata-rata penyewaan tertinggi.")
print("3. Suhu memiliki korelasi positif yang kuat dengan jumlah penyewaan.")

# Proyek Analisis Data: Bike Sharing Analysis
- **Nama:** Farhan Bayu Maulana
- **Email:** farhanbayu31@gmail.com
- **ID Dicoding/Kampus:** 09011282429105

## Menentukan Pertanyaan Bisnis
1. Bagaimana tren penyewaan sepeda dalam beberapa tahun terakhir?
2. Apakah kondisi cuaca dan musim berpengaruh signifikan terhadap jumlah penyewaan sepeda?

## Landasan Teori
### 1. Pengertian Analisis Data
Analisis data adalah proses inspeksi, pembersihan, transformasi, dan pemodelan data dengan tujuan menemukan informasi yang berguna, menginformasikan kesimpulan, dan mendukung pengambilan keputusan.

### 2. Perbedaan Descriptive Analysis dan EDA
- **Descriptive Analysis:** Berfokus pada "apa yang terjadi" di masa lalu. Ini memberikan gambaran ringkas tentang karakteristik data (mean, median, modus).
- **Exploratory Data Analysis (EDA):** Berfokus pada penyelidikan data untuk menemukan pola, anomali, atau hubungan yang belum diketahui sebelumnya tanpa asumsi awal yang kaku.

### 3. Pentingnya Data Cleaning & Wrangling
Data mentah seringkali kotor (missing value, duplikat, format salah). Cleaning memastikan data akurat sehingga hasil analisis tidak bias. Wrangling mengubah format data agar siap untuk dianalisis (misal: parsing tanggal).

### 4. Peran Visualisasi Data
Visualisasi mengubah angka rumit menjadi grafik yang mudah dipahami otak manusia, membantu stakeholder melihat tren, outlier, dan pola dengan cepat.

### 5. Teknik Machine Learning (Opsional)
Pada proyek ini digunakan **Linear Regression**. Alasannya adalah karena target variabel (jumlah sewa sepeda) berbentuk numerik kontinu (continuous), dan kita ingin melihat hubungan linear antara fitur (suhu, kelembaban) dengan target.