# Proyek Analisis Data: Air Quality
- **Nama:** Sheina Azima
- **Email:** sheizana09@gmail.com
- **ID Dicoding:** M248B4KX413

## Menentukan Pertanyaan Bisnis

- Is there a difference in the number of bicycles used based on environmental and seasonal factors?
- Is there a variation in the number of rentals per season?

## Import Semua Packages/Library yang Digunakan

In [136]:
# 1. Import Packages/Library yang Digunakan
import pandas as pd
import plotly.express as px
import plotly.io as pio
import streamlit as st
import matplotlib.pyplot as plt  
import seaborn as sns 
import os
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# Set template Plotly
pio.templates.default = "plotly_white"


## Data Wrangling

### Gathering Data

In [137]:
file_path_day = os.path.join("C:", "Users", "User", "Downloads", "Bike Sharing Analysis", "day.csv")
file_path_hour = os.path.join("C:", "Users", "User", "Downloads", "Bike Sharing Analysis", "hour.csv")

# Membaca file day.csv
try:
    data_day = pd.read_csv(file_path_day)
    st.write("Data hari berhasil dimuat.")
except FileNotFoundError:
    st.error(f"File {file_path_day} tidak ditemukan. Pastikan jalur file sudah benar.")
    st.stop()
except pd.errors.EmptyDataError:
    st.error("File tidak memiliki data. Periksa file CSV.")
    st.stop()
except pd.errors.ParserError:
    st.error("Kesalahan saat mem-parsing file CSV. Pastikan format file benar.")
    st.stop()

# Membaca file hour.csv
try:
    data_hour = pd.read_csv(file_path_hour)
    st.write("Data jam berhasil dimuat.")
except FileNotFoundError:
    st.error(f"File {file_path_hour} tidak ditemukan. Pastikan jalur file sudah benar.")
    st.stop()
except pd.errors.EmptyDataError:
    st.error("File tidak memiliki data. Periksa file CSV.")
    st.stop()
except pd.errors.ParserError:
    st.error("Kesalahan saat mem-parsing file CSV. Pastikan format file benar.")
    st.stop()




**Insight:**
- xxx
- xxx

### Assessing Data

In [138]:
# 3. Assessing Data
# Menggabungkan data dari kedua file
try:
    data = pd.concat([data_day, data_hour], ignore_index=True)  # data sudah didefinisikan di sini

    # Mengubah kolom 'date' menjadi datetime jika ada
    if 'date' in data.columns:
        data['date'] = pd.to_datetime(data['date'], errors='coerce')
        data.dropna(subset=['date'], inplace=True)

    # Pastikan kolom numerik lainnya tidak mengandung string
    numeric_columns = data.select_dtypes(include=['object']).columns
    for col in numeric_columns:
        try:
            data[col] = pd.to_numeric(data[col], errors='coerce')  
        except Exception as e:
            st.error(f"Kesalahan saat mengonversi kolom {col}: {e}")

    # Tampilkan informasi dan beberapa baris data
    st.write("Informasi DataFrame:")
    st.write(data.info())
    st.write("Beberapa Baris dari Data:")
    st.write(data.head())

except Exception as e:
    st.error(f"Terjadi kesalahan: {e}")




**Insight:**
- xxx
- xxx

### Cleaning Data

In [139]:
# 4. Cleaning Data

try:
    # Menghapus baris dengan nilai yang hilang dan duplikat
    data_cleaned = data.dropna().drop_duplicates()

    # Korelasi variabel numerik
    if not data_cleaned.select_dtypes(include=['number']).empty:
        corr_matrix = data_cleaned.corr()
        st.write("Korelasi Antar Variabel Numerik:")
        plt.figure(figsize=(10, 8))
        sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', linewidths=0.5)
        plt.title('Korelasi Antar Variabel Numerik')
        st.pyplot()
    else:
        st.error("Data bersih tidak memiliki kolom numerik untuk menghitung korelasi.")

    st.write("Data setelah pembersihan:")
    st.write(data_cleaned.head())  # Tampilkan beberapa baris dari data yang sudah dibersihkan

except Exception as e:
    st.error(f"Terjadi kesalahan saat membersihkan data: {e}")





**Insight:**
- xxx
- xxx

## Exploratory Data Analysis (EDA)

### Explore ...

In [140]:
# 5. Exploratory Data Analysis (EDA)

try:
    # Menampilkan informasi dasar dari data yang sudah dibersihkan
    st.write("Informasi DataFrame yang sudah dibersihkan:")
    st.write(data_cleaned.info())  # Pastikan 'data_cleaned' sudah terdefinisi di sini

    # Menampilkan beberapa baris dari data yang sudah dibersihkan
    st.write("Beberapa Baris dari Data yang Sudah Dibersihkan:")
    st.write(data_cleaned.head())

    # Analisis distribusi pengguna kasual dan terdaftar
    st.subheader("Distribusi Pengguna Kasual dan Terdaftar")
    plt.figure(figsize=(10, 5))
    sns.histplot(data_cleaned['casual'], bins=30, kde=True, color='blue', label='Kasual', alpha=0.5)
    sns.histplot(data_cleaned['registered'], bins=30, kde=True, color='orange', label='Terdaftar', alpha=0.5)
    plt.title("Distribusi Pengguna Kasual dan Terdaftar")
    plt.xlabel("Jumlah Pengguna")
    plt.ylabel("Frekuensi")
    plt.legend()
    st.pyplot()

    # Analisis perbandingan penggunaan sepeda berdasarkan musim
    st.subheader("Penggunaan Sepeda berdasarkan Musim")
    season_usage = data_cleaned.groupby('season')['cnt'].sum().reset_index()
    fig = px.bar(season_usage, x='season', y='cnt', title='Total Penggunaan Sepeda per Musim', labels={'season': 'Musim', 'cnt': 'Total Pengguna'})
    st.plotly_chart(fig)

    # Analisis penggunaan sepeda berdasarkan hari kerja vs hari libur
    st.subheader("Penggunaan Sepeda berdasarkan Hari Kerja dan Hari Libur")
    working_day_usage = data_cleaned.groupby('workingday')['cnt'].sum().reset_index()
    fig2 = px.bar(working_day_usage, x='workingday', y='cnt', title='Penggunaan Sepeda berdasarkan Hari Kerja (1 = Ya, 0 = Tidak)', labels={'workingday': 'Hari Kerja', 'cnt': 'Total Pengguna'})
    st.plotly_chart(fig2)

    # Menampilkan informasi lebih lanjut
    st.write("Total Pengguna Kasual:", data_cleaned['casual'].sum())
    st.write("Total Pengguna Terdaftar:", data_cleaned['registered'].sum())

except Exception as e:
    st.error(f"Terjadi kesalahan saat melakukan EDA: {e}")





**Insight:**
- xxx
- xxx

## Visualization & Explanatory Analysis

### Pertanyaan 1:

In [141]:
# Pastikan Anda sudah memuat data dan membersihkannya sebelum bagian ini

# 6. Clustering
try:
    # Pilih fitur yang relevan untuk clustering
    features = data_cleaned[['temp', 'hum', 'windspeed', 'season']]  # Pastikan data_cleaned sudah terdefinisi

    # One-hot encoding untuk season (musim)
    features = pd.get_dummies(features, columns=['season'], drop_first=True)

    # Normalisasi fitur (jika perlu)
    from sklearn.preprocessing import StandardScaler
    scaler = StandardScaler()
    features_scaled = scaler.fit_transform(features)

    # Terapkan metode clustering (contoh: KMeans)
    from sklearn.cluster import KMeans
    kmeans = KMeans(n_clusters=3)
    features['cluster'] = kmeans.fit_predict(features_scaled)

    # Menampilkan hasil clustering
    st.write("Hasil Clustering:")
    st.write(features.head())

except Exception as e:
    st.error(f"Terjadi kesalahan saat melakukan clustering: {e}")




### Pertanyaan 2:

In [142]:
# Visualisasi Jumlah Penyewaan per Musim
st.subheader("Visualisasi Jumlah Penyewaan per Musim")

try:
    # Pastikan data_cleaned sudah terdefinisi
    if 'season' in data_cleaned.columns and 'cnt' in data_cleaned.columns:
        # Mengelompokkan jumlah penyewaan per musim
        season_usage = data_cleaned.groupby('season')['cnt'].sum().reset_index()
        
        # Menggunakan Plotly untuk membuat visualisasi
        fig_season = px.bar(season_usage, 
                            x='season', 
                            y='cnt', 
                            title='Jumlah Penyewaan per Musim', 
                            labels={'season': 'Musim', 'cnt': 'Total Penyewaan'})
        
        st.plotly_chart(fig_season)
    else:
        st.error("Kolom 'season' atau 'cnt' tidak ditemukan dalam data yang dibersihkan.")
except Exception as e:
    st.error(f"Terjadi kesalahan saat membuat visualisasi: {e}")





**Insight:**
- xxx
- xxx

## Analisis Lanjutan (Opsional)

## Conclusion

- Conclution pertanyaan 1
- Conclution pertanyaan 2