##  Setup Environment
You can use conda for this assignment.


### Steps
```bash
# Create and activate a fresh environment (Python 3.13)
conda create -n vm_env python=3.13
conda activate vm_env

# Go to the project folder and install dependencies
cd Okyanus_Dalgalarinda_Anomali
pip install -r Requirements.txt

In [None]:
import pandas as pd
import numpy as np
import requests
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import IsolationForest
from sklearn.cluster import DBSCAN
from sklearn.decomposition import PCA
from sklearn.metrics import roc_curve, auc

# =======================================================
# 1) NOAA Veri İndirme (Sabit Genişlikli Okuma - FWF)
# =======================================================
print("Veri indiriliyor ve işleniyor...")

url = "https://www.ndbc.noaa.gov/data/realtime2/46047.txt"

# Senin belirttiğin güvenli sütun aralıkları
colspecs = [
    (0, 4),   # YYYY
    (5, 7),   # MM
    (8, 10),  # DD
    (11, 13), # hh
    (14, 16), # mm
    (17, 21), # WD
    (22, 26), # WSPD
    (27, 31), # GST
    (32, 37), # WVHT
    (38, 42), # DPD
    (43, 47), # APD
    (48, 52), # MWD
    (53, 59), # PRES
    (60, 66), # ATMP
    (67, 73), # WTMP
    (74, 80), # DEWP
    (81, 84), # VIS
    (85, 88), # PTDY
    (89, 92)  # TIDE
]

names = [
    "YY","MM","DD","hh","mm","WD","WSPD","GST","WVHT","DPD",
    "APD","MWD","PRES","ATMP","WTMP","DEWP","VIS","PTDY","TIDE"
]

# NOAA'da eksik veriler "MM", "99.0", "999" vb. olabilir. Hepsini yakalıyoruz.
missing_values = ["MM", "99.0", "99.00", "999.0", "999", "nan"]

df = pd.read_fwf(
    url, 
    colspecs=colspecs, 
    names=names, 
    skiprows=[0, 1],       # İlk iki satır başlık ve birim, atlıyoruz
    na_values=missing_values # Eksik verileri NaN yap
)

# ---- Tarih Formatını Oluşturma ----
# Verileri stringe çevirip birleştiriyoruz
df['Time'] = pd.to_datetime(
    df['YY'].astype(str) + '-' +
    df['MM'].astype(str).str.zfill(2) + '-' +
    df['DD'].astype(str).str.zfill(2) + ' ' +
    df['hh'].astype(str).str.zfill(2) + ':' +
    df['mm'].astype(str).str.zfill(2),
    errors='coerce' # Hatalı tarih olursa NaT yap
)

# Geçersiz tarihleri temizle ve index yap
df = df.dropna(subset=['Time'])
df = df.set_index('Time')

# Analiz için gerekli sütunları seç (Hs, Tp, WSPD)
df_analiz = df[['WVHT', 'DPD', 'WSPD']].copy()
df_analiz.rename(columns={"WVHT": "Hs", "DPD": "Tp", "WSPD": "WindSpeed"}, inplace=True)

# Veri tiplerini sayısal yap (garanti olsun)
df_analiz = df_analiz.astype(float)

# =======================================================
# 2) Eksik Değerleri Doldur + Gürültü Azaltma
# =======================================================

# Lineer enterpolasyon
df_analiz = df_analiz.interpolate(method='linear')
# Baştaki/sondaki boşlukları doldur (Python 3.13 uyumlu)
df_analiz = df_analiz.ffill().bfill()

# Rolling Median (Gürültü filtresi)
df_analiz = df_analiz.rolling(window=3, center=True).median()
df_analiz = df_analiz.dropna()

print(f"İşlenen veri sayısı: {len(df_analiz)} satır.")

# =======================================================
# 3) Z-score Normalizasyonu
# =======================================================

scaler = StandardScaler()
scaled = scaler.fit_transform(df_analiz)
df_scaled = pd.DataFrame(scaled, index=df_analiz.index, columns=df_analiz.columns)

# =======================================================
# 4) Görselleştirme 1: Zaman Serisi
# =======================================================

plt.figure(figsize=(12, 4))
plt.plot(df_analiz.index, df_analiz['Hs'], label="Hs (m)", color='#1f77b4')
plt.title("Okyanus Dalga Yüksekliği (Hs) - Zaman Serisi")
plt.xlabel("Tarih")
plt.ylabel("Hs (m)")
plt.grid(True, alpha=0.3)
plt.legend()
plt.tight_layout()
plt.show() # Notebook'ta görmek için

# =======================================================
# 5) Görselleştirme 2: FFT Spektral Analizi
# =======================================================

hs_detrended = df_analiz['Hs'] - df_analiz['Hs'].mean()
fft_vals = np.abs(np.fft.rfft(hs_detrended))
fft_freq = np.fft.rfftfreq(len(hs_detrended), d=1.0/6.0) # 10dk veri -> saatte 6 örnek

plt.figure(figsize=(12, 4))
plt.plot(fft_freq, fft_vals, color='purple')
plt.title("FFT Spektrumu (Dalga Enerjisi)")
plt.xlabel("Frekans (Saat başı döngü)")
plt.ylabel("Genlik")
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# =======================================================
# 6) Isolation Forest Anomali Tespiti
# =======================================================

isf = IsolationForest(contamination=0.05, random_state=42)
df_analiz['anomaly_if'] = isf.fit_predict(df_scaled)
df_analiz['score_if'] = isf.decision_function(df_scaled)

plt.figure(figsize=(12, 4))
plt.plot(df_analiz.index, df_analiz['Hs'], label="Normal Dalga", color='gray', alpha=0.5)
# Anomalileri kırmızı noktalarla işaretle
anomalies = df_analiz[df_analiz['anomaly_if'] == -1]
plt.scatter(anomalies.index, anomalies['Hs'], color='red', label='Tespit Edilen Anomali', s=20, zorder=5)

plt.title("Isolation Forest - Fırtına Anomalisi Tespiti")
plt.xlabel("Tarih")
plt.ylabel("Hs (m)")
plt.legend()
plt.tight_layout()
plt.show()

# =======================================================
# 7) DBSCAN Clustering (PCA ile)
# =======================================================

pca = PCA(n_components=2)
X2 = pca.fit_transform(df_scaled)

# DBSCAN parametreleri veriye göre ayarlanabilir
db = DBSCAN(eps=0.3, min_samples=5).fit(X2)
labels = db.labels_

plt.figure(figsize=(7, 5))
scatter = plt.scatter(X2[:, 0], X2[:, 1], c=labels, cmap='viridis', s=15, alpha=0.7)
plt.title("DBSCAN Kümeleme (PCA İndirgeme)")
plt.xlabel("PC1")
plt.ylabel("PC2")
plt.colorbar(scatter, label='Küme ID')
plt.tight_layout()
plt.show()

# =======================================================
# 8) ROC Eğrisi (Performans Değerlendirme)
# =======================================================

# Basit ground truth varsayımı: %90 üzerindeki dalgaları "fırtına" kabul et
true_labels = (df_analiz['Hs'] > df_analiz['Hs'].quantile(0.90)).astype(int)

fpr, tpr, thresholds = roc_curve(true_labels, -df_analiz['score_if'])
roc_auc = auc(fpr, tpr)

plt.figure(figsize=(6, 6))
plt.plot(fpr, tpr, color='darkorange', lw=2, label=f"AUC = {roc_auc:.3f}")
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlabel("False Positive Rate")
plt.ylabel("True Positive Rate")
plt.title("ROC Curve (Başarım Ölçümü)")
plt.legend(loc="lower right")
plt.tight_layout()
plt.show()

print("Tüm işlemler başarıyla tamamlandı.")