In [None]:
# ============================================================
# Rainwater Harvesting + XAI (SHAP) Pipeline for Vilnius Maironis Progimnazija
#
# Developed by / Geliştiren: Dr. Tevfik Denizhan Müftüoğlu
#
# License / Lisans:
# This code is free to use, either as-is or modified, provided
# that proper attribution is given to the author.
#
# Bu kod, aynen veya değiştirilerek kullanılabilir. Ancak,
# Dr. Tevfik Denizhan Müftüoğlu’na atıf yapılması şarttır.
# ============================================================

# === RWH + XAI (SHAP) for Vilnius Maironis Progimnazija — ONE-CELL ROBUST PIPELINE ===
# Usage in Google Colab:
# 1) Run this cell.
# 2) When prompted, upload: POWER_Vilnius_Maironis_2000_2025.xlsx
# 3) Wait until it finishes; download the ZIP with all outputs.
#
# --- EN: This pipeline performs data upload, preprocessing, rainwater harvesting simulation,
#         statistical summaries, XGBoost surrogate modeling, SHAP explainability,
#         and exports all outputs (figures, tables) in a reproducible package.
# --- TR: Bu kod; veri yükleme, ön işleme, yağmur suyu hasadı simülasyonu,
#         istatistiksel özetler, XGBoost modelleme, SHAP açıklanabilirlik analizi
#         ve tüm çıktıların (grafik, tablo) paket halinde dışa aktarımını sağlar.

!pip -q install xgboost shap openpyxl scipy

import os, zipfile, numpy as np, pandas as pd, matplotlib.pyplot as plt
from scipy.stats import skew, kurtosis
from sklearn.model_selection import train_test_split
from xgboost import XGBRegressor
import shap

# -----------------------------
# 0) Folders / Klasörler
# -----------------------------
# EN: Create directories for saving outputs and results.
# TR: Çıktı ve sonuçların kaydedileceği klasörler oluşturulur.
os.makedirs("outputs", exist_ok=True)
os.makedirs("results", exist_ok=True)

# -----------------------------
# 1) File upload (Excel) / Dosya yükleme (Excel)
# -----------------------------
# EN: Upload the NASA POWER Excel file (2000–2025 data).
# TR: NASA POWER Excel dosyası (2000–2025 verisi) yüklenir.
from google.colab import files
uploaded = files.upload()
file_name = list(uploaded.keys())[0]

# -----------------------------
# 2) Helpers / Yardımcı fonksiyonlar
# -----------------------------
# EN: Functions for column detection and building a proper date column.
# TR: Sütun tespiti ve doğru tarih sütunu oluşturmak için fonksiyonlar.
def find_col(df, candidates):
    ...

def detect_or_build_date(df):
    ...

# -----------------------------
# 3) Read Excel / Excel verisini oku
# -----------------------------
# EN: Read uploaded file, detect date and key climate variables.
# TR: Yüklenen dosyayı oku, tarih ve iklim değişkenlerini tespit et.
df0 = pd.read_excel(file_name)
...

# -----------------------------
# 4) Fixed design parameters / Sabit tasarım parametreleri
# -----------------------------
# EN: Define roof area, runoff coefficient, flush volume, and demand scenarios.
# TR: Çatı alanı, akış katsayısı, ilk yıkama hacmi ve talep senaryoları tanımlanır.
roof_m2        = 3370.0
...

# -----------------------------
# 5) Inflow calculation / Giriş debisi hesabı
# -----------------------------
# EN: Calculate effective precipitation and inflow volume into the tank.
# TR: Etkin yağış ve depoya giriş hacmi hesaplanır.
df["mm_eff"]    = (df[prec_col] - first_flush_mm).clip(lower=0)
...

# -----------------------------
# 6) School-day mask / Okul günü maskesi
# -----------------------------
# EN: Build a 180-day instructional year mask (Sep–Jun weekdays).
# TR: 180 günlük akademik yıl maskesi oluşturulur (Eylül–Haziran hafta içi).
def school_mask_180(dates):
    ...
school_day_mask = school_mask_180(df["date"])

# -----------------------------
# 7) Descriptive stats & correlation / Tanımlayıcı istatistikler ve korelasyon
# -----------------------------
# EN: Generate descriptive statistics, correlation matrix, and visualizations.
# TR: Tanımlayıcı istatistikler, korelasyon matrisi ve görseller oluşturulur.
desc = df[met_cols].describe().T
...

# -----------------------------
# 8) RWH simulation / Yağmur suyu hasadı simülasyonu
# -----------------------------
# EN: Simulate storage, shortage, spillage across tank sizes and demands.
# TR: Farklı tank boyutları ve talep senaryoları için depolama, eksik karşılama ve taşma simülasyonu yapılır.
def simulate_rwh_array(inflows, Darr, V):
    ...
sim = pd.DataFrame(summary_rows)
...

# -----------------------------
# 9) ML surrogate + SHAP / Makine öğrenmesi ve SHAP analizi
# -----------------------------
# EN: Train XGBoost model on inflow data, explain results with SHAP.
# TR: Depo giriş verileriyle XGBoost modeli eğitilir, SHAP ile açıklanır.
if not feat_cols:
    ...
else:
    model = XGBRegressor(...)
    ...
    shap_vals = explainer(X_test)
    ...

# -----------------------------
# 10) Save & package / Kaydetme ve paketleme
# -----------------------------
# EN: Save outputs, results, and zip everything for download.
# TR: Çıktılar, sonuçlar kaydedilir ve indirilebilir zip paketi oluşturulur.
def save_both(df_obj, base):
    ...
with zipfile.ZipFile(zip_path, "w", zipfile.ZIP_DEFLATED) as z:
    ...
files.download(zip_path)


Saving POWER_Vilnius_Maironis_2000_2025.xlsx to POWER_Vilnius_Maironis_2000_2025 (1).xlsx
Test R^2 (daily inflow surrogate): 0.462





Ready. Use these filenames in the paper text:
  Figure 1 -> outputs/Rv_vs_Tank_with_staff_19_19.png
  Figure 2 -> outputs/SHAP_beeswarm.png
  Figure 3 -> outputs/Correlation_heatmap.png
  Figure 4 -> outputs/TS_Precip_30dMA.png
  Figure 5 -> outputs/TS_Inflow_30dMA.png
  Figure 6 -> outputs/Hist_Precip.png
  Figure 7 -> outputs/Hist_Inflow.png
  Figure 8 -> outputs/Boxplot_Inflow_Monthly.png
  Figure 9 -> outputs/Rv_vs_Tank_ALL_staff19.png
  Figure 10 -> outputs/Shortage_vs_Tank_ALL_staff19.png
  Figure 11 -> outputs/Spillage_vs_Tank_ALL_staff19.png
  Figure 12 -> outputs/Annual_Rv_students20_staff19.png
  Table 1  -> results/RWH_summary_with_staff.xlsx
  Table 2  -> results/Descriptive_stats_full.xlsx
  Table 3  -> results/Correlation_matrix_full.xlsx
  Table 4  -> results/Annual_reliability_students20_staff19.xlsx

Zipping all outputs...


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>