In [14]:
"""
Talent Academy — Veri Temizleme ve EDA Pipeline
------------------------------------------------
Bu dosya, adım adım temizleme, normalizasyon, eksik doldurma,
encoding ve basit EDA işleri için modüler fonksiyonlar içerir.

Kullanım:
    from talent_academy_pipeline import main_pipeline
    main_pipeline(file_path="/path/to/Talent_Academy_Case_DT_2025.xlsx",
                  save_path=None, perform_eda=True, scale_uygulama=True)

Notlar:
- Orijinal dosyayı otomatik üzerine yazmamak için default olarak
  temizlenmiş dosyayı "*_cleaned.xlsx" olarak kaydeder.
- Fonksiyonlar bağımsızdır; ihtiyacına göre sırayı değiştirebilirsin.
"""

import re
import unicodedata
import ast
import math
from typing import List, Optional, Dict

import numpy as np
import pandas as pd
from rapidfuzz import process, fuzz

# Görselleştirme sadece isteğe bağlı
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler

# ==================================================================
# Yardımcı Fonksiyonlar
# ==================================================================

def load_data(file_path: str, sheet_name: str = "Sheet1") -> pd.DataFrame:
    """Excel dosyasını yükler ve DataFrame döndürür."""
    df = pd.read_excel(file_path, sheet_name=sheet_name)
    print(f"Veri yüklendi: {df.shape[0]} satır, {df.shape[1]} sütun")
    return df


def save_data(df: pd.DataFrame, save_path: Optional[str]):
    """DataFrame'i kaydeder. Eğer save_path None ise dosya adı otomatik oluşturulur."""
    if save_path is None:
        save_path = "Talent_Academy_Case_DT_2025_cleaned.xlsx"
    df.to_excel(save_path, index=False)
    print(f"Veri kaydedildi: {save_path}")


# Daha güvenli boş kontrolü
def is_empty(val) -> bool:
    try:
        if pd.isna(val):
            return True
    except Exception:
        pass

    if isinstance(val, str):
        return val.strip() == ""

    if isinstance(val, (list, tuple, np.ndarray)):
        return len(val) == 0

    return False


# ==================================================================
# 1) Sayısal dönüşümler
# ==================================================================

def convert_to_numeric(df: pd.DataFrame, numeric_cols_info: Dict[str, str]) -> pd.DataFrame:
    """Metin içeren süre gibi sütunlardaki birimleri temizleyip sayıya çevirir.

    numeric_cols_info: {"KolonAdi": "silinecek metin"}
    """
    for col, remove_text in numeric_cols_info.items():
        if col not in df.columns:
            print(f"Uyarı: {col} bulunamadı, atlanıyor.")
            continue
        df[col] = df[col].astype(str).str.replace(remove_text, "", regex=False).str.strip()
        df[col] = pd.to_numeric(df[col], errors="coerce")
        # NaN'ları 0 ile doldurma davranışı isteğe bağlı — default dolduruluyor
        df[col].fillna(0, inplace=True)
    print("Sayısal dönüşümler tamamlandı.")
    return df


# ==================================================================
# 2) Grup bazlı eksik değer doldurma (KronikHastalik, Alerji gibi değişmeyen bilgiler)
# ==================================================================

def fill_groupwise_static_columns(df: pd.DataFrame, group_cols: List[str],
                                  fill_cols: List[str]) -> pd.DataFrame:
    """Her hasta/grup için eğer o grupta tek tip değer varsa eksikleri doldurur.

    Örneğin: group_cols = ["HastaNo", "Yas", "Cinsiyet", "KanGrubu"]
                 fill_cols = ["KronikHastalik", "Alerji"]
    """
    # Önce grup anahtarı ile grupla
    if not set(group_cols).issubset(df.columns):
        missing = list(set(group_cols) - set(df.columns))
        raise ValueError(f"Gruplama için gerekli kolon bulunamadı: {missing}")

    for fill_col in fill_cols:
        if fill_col not in df.columns:
            print(f"Uyarı: Doldurulacak kolon bulunamadı: {fill_col} -> atlanıyor")
            continue

        # Grup bazında unique non-empty değerleri bul
        def get_unique_non_empty(series):
            normalized_vals = []
            for v in series.dropna():
                if is_empty(v):
                    continue
                # Eğer listeyse stringe çevir
                if isinstance(v, list):
                    v = ", ".join(map(str, v))
                normalized_vals.append(v)
            return list(pd.unique(normalized_vals))  # Tekrarlayanları kaldır

        # Özet tablosu oluştur
        grp = df.groupby(group_cols)[fill_col].apply(lambda s: get_unique_non_empty(s))

        # Gruplara göre doldur
        filled = 0
        for key, vals in grp.items():
            if len(vals) == 1:
                # key tuple olarak gelebilir, bunu mask'e çevir
                if not isinstance(key, tuple):
                    key = (key,)
                mask = True
                for col_name, v in zip(group_cols, key):
                    mask &= (df[col_name] == v) if not pd.isna(v) else pd.isna(df[col_name])
                # Bu mask içindeki boş hücreleri doldur
                mask_to_fill = mask & (df[fill_col].isna() | df[fill_col].apply(is_empty))
                df.loc[mask_to_fill, fill_col] = vals[0]
                filled += mask_to_fill.sum()

        print(f"{fill_col} için doldurulan kayıt sayısı: {filled}")
    return df


# ==================================================================
# 3) Metin normalizasyonu (virgül ile ayrılmış listeleri auto-normalize etme)
# ==================================================================

auto_normalization_dict: Dict[str, str] = {}


def clean_text_basic(text: str) -> str:
    text = str(text).strip()
    if any(char.isdigit() for char in text):
        return text
    text_lower = text.lower()
    # Türkçe karakterleri koruyarak noktalama işaretlerini temizle
    text_lower = re.sub(r"[^\w\sçğıöşüÇĞİÖŞÜ-]", "", text_lower)
    text_lower = re.sub(r"\s+", " ", text_lower).strip()
    return text_lower


def normalize_auto(text: str, threshold: int = 90) -> Optional[str]:
    if pd.isna(text):
        return None
    cleaned = clean_text_basic(text)
    if any(char.isdigit() for char in cleaned):
        return cleaned
    if cleaned in auto_normalization_dict:
        return auto_normalization_dict[cleaned]
    if auto_normalization_dict:
        result = process.extractOne(cleaned, list(auto_normalization_dict.keys()), scorer=fuzz.ratio)
        if result:
            match, score, *_ = result
            if score >= threshold:
                auto_normalization_dict[cleaned] = auto_normalization_dict[match]
                return auto_normalization_dict[match]
    auto_normalization_dict[cleaned] = cleaned
    return cleaned


def split_and_normalize_column_auto(df: pd.DataFrame, kolon_adi: str) -> pd.DataFrame:
    """Virgülle ayrılmış stringleri listeye çevirir ve normalize eder."""
    if kolon_adi not in df.columns:
        print(f"Uyarı: {kolon_adi} bulunamadı, atlandı.")
        return df

    def process_value(value):
        if pd.isna(value):
            return None
        parts = [p.strip() for p in str(value).split(",") if p.strip()]
        parts = [normalize_auto(p) for p in parts]
        # unique ve sıra koru
        parts = list(dict.fromkeys([p for p in parts if p is not None]))
        return parts if parts else None

    df[kolon_adi] = df[kolon_adi].apply(process_value)
    print(f"{kolon_adi} normalize edildi (liste formatı).")
    return df


def normalize_text_columns(df: pd.DataFrame, kolonlar: List[str]) -> pd.DataFrame:
    for k in kolonlar:
        df = split_and_normalize_column_auto(df, k)
    return df


# ==================================================================
# 4) TedaviAdi özel ayrıştırması ve normalize edilmesi
# ==================================================================

def normalize_text_unicode(s: str) -> str:
    s = str(s).strip()
    s = " ".join(s.split())
    s = unicodedata.normalize("NFKC", s)
    s = s.casefold()
    return s


def split_tedavi(value: str) -> List[str]:
    if pd.isna(value):
        return []
    s = str(value).strip()
    if "-" in s:
        parts = [p.strip() for p in s.split("-")]
        if parts and parts[-1].isdigit():
            return [s]
        return [p for p in parts if p]
    if "+" in s:
        if any(word in s.casefold().split() for word in ["sağ", "sol"]):
            return [s]
        parts = [p.strip() for p in s.split("+")]
        if parts and parts[-1].isdigit():
            return [s]
        return [p for p in parts if p]
    return [s]


def normalize_tedavi_column(df: pd.DataFrame, kolon_adi: str = "TedaviAdi") -> pd.DataFrame:
    if kolon_adi not in df.columns:
        print(f"Uyarı: {kolon_adi} bulunamadı, atlanıyor")
        return df

    df[kolon_adi] = df[kolon_adi].apply(lambda value: " ".join([normalize_text_unicode(x) for x in split_tedavi(value)]))
    print(f"{kolon_adi} normalize edildi.")
    return df


# ==================================================================
# 5) Liste kolonlarını normalize etme (case-preserving ilk versiyon)
# ==================================================================

def normalize_list_cell(cell):
    if cell is None or (isinstance(cell, float) and math.isnan(cell)):
        return cell
    try:
        if isinstance(cell, str):
            if cell.startswith('[') and cell.endswith(']'):
                items = ast.literal_eval(cell)
            else:
                items = [x.strip() for x in cell.split(',') if x.strip()]
        elif isinstance(cell, (list, np.ndarray)):
            items = list(cell)
        else:
            return cell

        norm_map = {}
        for item in items:
            if item is None or (isinstance(item, float) and math.isnan(item)):
                continue
            key = str(item).strip().lower()
            if key not in norm_map:
                # Orijinal formda sakla (ilk görüleni)
                norm_map[key] = item.strip() if isinstance(item, str) else item
        new_list = list(norm_map.values())
        return new_list
    except Exception:
        return cell


def normalize_list_columns(df: pd.DataFrame, kolonlar: List[str]) -> pd.DataFrame:
    total_changes = 0
    for col in kolonlar:
        if col not in df.columns:
            print(f"Uyarı: {col} bulunamadı, atlanıyor")
            continue
        before = df[col].copy()
        df[col] = df[col].apply(normalize_list_cell)
        total_changes += (before != df[col]).sum()
    print(f"Toplam değişiklik yapılan satır sayısı: {total_changes}")
    return df


# ==================================================================
# 6) Encoding ve Feature Engineering
# ==================================================================

def encode_cinsiyet(df: pd.DataFrame, column: str = "Cinsiyet") -> pd.DataFrame:
    if column not in df.columns:
        print(f"Uyarı: {column} bulunamadı.")
        return df
    mapping = {"Kadın": 0, "Erkek": 1, "Kadin": 0, "E": 1, "K": 0}
    df[column] = df[column].map(mapping).fillna(df[column])
    # Eğer hala stringler varsa (ör. küçük harf) bir daha map yap
    df[column] = df[column].replace({"kadın": 0, "erkek": 1})
    print("Cinsiyet encode edildi (kısmi map).")
    return df


def extract_kan_grubu_and_rh(df: pd.DataFrame, column: str = "KanGrubu") -> pd.DataFrame:
    if column not in df.columns:
        print(f"Uyarı: {column} bulunamadı.")
        return df

    def split_kan(s):
        if pd.isna(s):
            return (pd.NA, pd.NA)
        s = str(s).strip()
        # Örn "A Rh+" veya "A+" veya "0 Rh-" gibi formatlar olabilir
        # İlk olarak Rh kısmını ayıkla
        rh_match = re.search(r"(rh\+|rh\-|\+|-)", s, flags=re.IGNORECASE)
        rh = pd.NA
        if rh_match:
            token = rh_match.group(0)
            if token.lower().startswith('rh'):
                rh = token.capitalize()
            else:
                rh = 'Rh+' if token == '+' else 'Rh-'
            # kan türünü çıkar
            kan = re.sub(re.escape(token), '', s, flags=re.IGNORECASE).strip()
        else:
            # eğer A+, B- gibi boşluk yoksa
            if len(s) <= 3 and ('+' in s or '-' in s):
                kan = s.replace('+', '').replace('-', '').strip()
                rh = 'Rh+' if '+' in s else ('Rh-' if '-' in s else pd.NA)
            else:
                kan = s
        return (kan, rh)

    df[['KanGrubuTürü', 'RhFaktörü']] = df[column].apply(lambda s: pd.Series(split_kan(s)))
    print("KanGrubuTürü ve RhFaktörü sütunları oluşturuldu.")
    return df


def one_hot_encode_uyruk(df: pd.DataFrame, column: str = "Uyruk") -> pd.DataFrame:
    if column not in df.columns:
        print(f"Uyarı: {column} bulunamadı.")
        return df
    dummies = pd.get_dummies(df[column], prefix='Uyruk')
    df = pd.concat([df.drop(columns=[column]), dummies], axis=1)
    print("Uyruk için one-hot encoding uygulandı.")
    return df


def age_group_encoding_col(df: pd.DataFrame, column: str = 'Yas', new_column: str = 'YasGrubu') -> pd.DataFrame:
    if column not in df.columns:
        print(f"Uyarı: {column} bulunamadı.")
        return df

    def age_group(age):
        try:
            age = float(age)
        except Exception:
            return pd.NA
        if age <= 14:
            return 0
        elif age <= 24:
            return 1
        elif age <= 64:
            return 2
        elif age <= 79:
            return 3
        else:
            return 4

    df[new_column] = df[column].apply(age_group).astype('Int64')
    print(f"{new_column} oluşturuldu.")
    return df


def scale_column(df: pd.DataFrame, column: str = 'UygulamaSuresi') -> pd.DataFrame:
    if column not in df.columns:
        print(f"Uyarı: {column} bulunamadı.")
        return df
    scaler = StandardScaler()
    # reshape gibi hatalara karşı
    vals = df[[column]].astype(float).fillna(0)
    df[column] = scaler.fit_transform(vals)
    print(f"{column} ölçeklendi (z-score).")
    return df


# ==================================================================
# 7) EDA fonksiyonları (opsiyonel görselleştirme)
# ==================================================================

def eda_summary(df: pd.DataFrame, n_head: int = 10):
    pd.set_option('display.max_columns', None)
    print("===== VERİ SETİ GENEL BİLGİLER =====")
    print(df.info())
    print('\nİlk {} kayıt:'.format(n_head))
    print(df.head(n_head))
    print('\n===== EKSİK VERİLER (satır bazında) =====')
    miss = df.isnull().sum()
    miss_pct = (miss / len(df) * 100).round(2)
    print(pd.concat([miss, miss_pct], axis=1, keys=['missing_count', 'missing_pct']).sort_values('missing_count', ascending=False))
    print('\n===== TEMEL İSTATİSTİKSEL BİLGİLER =====')
    print(df.describe(include='all'))


def plot_numeric_distributions(df: pd.DataFrame, exclude_cols: List[str] = None):
    exclude_cols = exclude_cols or []
    numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
    numeric_cols = [c for c in numeric_cols if c not in exclude_cols]
    for col in numeric_cols:
        plt.figure(figsize=(6, 3.5))
        sns.histplot(df[col].dropna(), kde=True, bins=20)
        plt.title(f"{col} dağılımı")
        plt.tight_layout()
        plt.show()


def plot_categorical_distributions(df: pd.DataFrame, categorical_cols: List[str]):
    for col in categorical_cols:
        if col not in df.columns:
            continue
        plt.figure(figsize=(6, 3.5))
        order = df[col].value_counts().index
        sns.countplot(y=df[col], order=order)
        plt.title(f"{col} kategorik dağılımı")
        plt.tight_layout()
        plt.show()


def correlation_heatmap(df: pd.DataFrame, exclude_cols: List[str] = None):
    exclude_cols = exclude_cols or []
    numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
    numeric_cols = [c for c in numeric_cols if c not in exclude_cols]
    if not numeric_cols:
        print("Sayısal kolon yok, korelasyon çizilemez.")
        return
    plt.figure(figsize=(10, 6))
    sns.heatmap(df[numeric_cols].corr(), annot=True, cmap='coolwarm', linewidths=0.5)
    plt.title('Sayısal Değişkenler Korelasyon Matrisi')
    plt.tight_layout()
    plt.show()


# ==================================================================
# Ana Pipeline fonksiyonu
# ==================================================================

def main_pipeline(file_path: str,
                  save_path: Optional[str] = None,
                  perform_eda: bool = True,
                  scale_uygulama: bool = True,
                  one_hot_uyruk: bool = True) -> pd.DataFrame:
    """Pipeline'i çalıştırır ve temizlenmiş DataFrame döndürür.

    Args:
        file_path: Girdi Excel dosyası
        save_path: Kaydetme yolu (None ise default cleaned.xlsx)
        perform_eda: Eğer True ise özet ve grafikler gösterilir
        scale_uygulama: UygulamaSuresi sütununu z-score ile ölçekle
        one_hot_uyruk: Uyruk için one-hot uygula
    """
    df = load_data(file_path)

    # EDA
    if perform_eda:
        eda_summary(df)

    # 1) sayısal dönüşümler
    numeric_cols_info = {"TedaviSuresi": " Seans", "UygulamaSuresi": " Dakika"}
    df = convert_to_numeric(df, numeric_cols_info)

    # 2) metin kolonlarını normalize et (list ve virgül parçalama)
    text_cols = [c for c in ["KronikHastalik", "Bolum", "Alerji", "Tanilar", "UygulamaYerleri"] if c in df.columns]
    df = normalize_text_columns(df, text_cols)

    # 3) TedaviAdi özel normalize
    if 'TedaviAdi' in df.columns:
        df = normalize_tedavi_column(df, 'TedaviAdi')

    # 4) Liste kolonlarını normalize et
    list_cols = [c for c in ["TedaviAdi", "KronikHastalik", "Tanilar"] if c in df.columns]
    df = normalize_list_columns(df, list_cols)

    # 5) grup bazlı doldurma (KronikHastalik ve Alerji)
    group_cols = [c for c in ["HastaNo", "Yas", "Cinsiyet", "KanGrubu"] if c in df.columns]
    fill_cols = [c for c in ["KronikHastalik", "Alerji"] if c in df.columns]
    if group_cols and fill_cols:
        df = fill_groupwise_static_columns(df, group_cols=group_cols, fill_cols=fill_cols)

    # 6) Cinsiyet encoding
    if 'Cinsiyet' in df.columns:
        df = encode_cinsiyet(df, 'Cinsiyet')

    # 7) KanGrubu'dan tür ve RH çıkart
    if 'KanGrubu' in df.columns:
        df = extract_kan_grubu_and_rh(df, 'KanGrubu')

    # 8) Uyruk one-hot
    if one_hot_uyruk and 'Uyruk' in df.columns:
        df = one_hot_encode_uyruk(df, 'Uyruk')

    # 9) Yaş grubu
    if 'Yas' in df.columns:
        df = age_group_encoding_col(df, 'Yas', 'YasGrubu')

    # 10) UygulamaSuresi ölçekle
    if scale_uygulama and 'UygulamaSuresi' in df.columns:
        df = scale_column(df, 'UygulamaSuresi')

    # Opsiyonel EDA grafiklerini tekrar göster
    if perform_eda:
        # Bazı görsellerin çok sık çıkmaması için sadece özet seçeneği
        try:
            plot_numeric_distributions(df, exclude_cols=['HastaNo'])
            cat_cols = [c for c in ['Cinsiyet', 'KanGrubu', 'Uyruk', 'Bolum', 'UygulamaSuresi', 'TedaviSuresi'] if c in df.columns]
            plot_categorical_distributions(df, cat_cols)
            correlation_heatmap(df, exclude_cols=['HastaNo'])
        except Exception as e:
            print(f"Görselleştirme sırasında hata: {e}")

    # Son kaydet
    save_data(df, save_path)
    return df




In [13]:
if __name__ == '__main__':
    # Örnek çağrı (kendi yolunu buraya yaz)
    df_cleaned = main_pipeline(file_path=r"Talent_Academy_Data.xlsx",
                               save_path=None,
                               perform_eda=False,
                               scale_uygulama=True,
                               one_hot_uyruk=True)
    print('Pipeline çalıştı. Temizlenmiş DataFrame döndürüldü.')

Veri yüklendi: 2235 satır, 13 sütun
Sayısal dönüşümler tamamlandı.
KronikHastalik normalize edildi (liste formatı).
Bolum normalize edildi (liste formatı).
Alerji normalize edildi (liste formatı).
Tanilar normalize edildi (liste formatı).
UygulamaYerleri normalize edildi (liste formatı).
TedaviAdi normalize edildi.
Toplam değişiklik yapılan satır sayısı: 2921


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(0, inplace=True)
  return list(pd.unique(normalized_vals))  # Tekrarlayanları kaldır


KronikHastalik için doldurulan kayıt sayısı: 5


  return list(pd.unique(normalized_vals))  # Tekrarlayanları kaldır


Alerji için doldurulan kayıt sayısı: 0
Cinsiyet encode edildi (kısmi map).
KanGrubuTürü ve RhFaktörü sütunları oluşturuldu.
Uyruk için one-hot encoding uygulandı.
YasGrubu oluşturuldu.
UygulamaSuresi ölçeklendi (z-score).


  df[column] = df[column].map(mapping).fillna(df[column])


Veri kaydedildi: Talent_Academy_Case_DT_2025_cleaned.xlsx
Pipeline çalıştı. Temizlenmiş DataFrame döndürüldü.
