In [None]:
{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Loan Risk Analysis - EDA\n",
    "Bu notebook'ta loan risk verisi üzerinde temel keşifsel veri analizi yapacağız."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd\n",
    "import numpy as np\n",
    "import matplotlib.pyplot as plt\n",
    "import seaborn as sns\n",
    "import sys\n",
    "sys.path.append('../src')\n",
    "from data_loader import load_data\n",
    "\n",
    "plt.style.use('default')\n",
    "sns.set_palette('husl')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 1. Veri Yükleme"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "df = load_data()\n",
    "print(f\"Dataset shape: {df.shape}\")\n",
    "df.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 2. Temel Bilgiler"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "print(\"Veri Tipleri:\")\n",
    "print(df.dtypes)\n",
    "print(\"\\nEksik Değerler:\")\n",
    "print(df.isnull().sum())\n",
    "print(\"\\nTemel İstatistikler:\")\n",
    "df.describe()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 3. Target Değişken Analizi"
   ]
  },
  {
    "categorical_cols = df.select_dtypes(include=['object']).columns.tolist()\n",
    "print(f\"Kategorik kolonlar: {categorical_cols}\")\n",
    "\n",
    "# Her kategorik değişken için dağılım\n",
    "for col in categorical_cols[:4]:  # İlk 4 kategorik değişken\n",
    "    print(f\"\\n{col} dağılımı:\")\n",
    "    print(df[col].value_counts())\n",
    "    \n",
    "    plt.figure(figsize=(8, 4))\n",
    "    df[col].value_counts().plot(kind='bar')\n",
    "    plt.title(f'{col} Dağılımı')\n",
    "    plt.xticks(rotation=45)\n",
    "    plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 6. Korelasyon Analizi"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Sayısal değişkenler arası korelasyon\n",
    "if len(numeric_cols) > 1:\n",
    "    plt.figure(figsize=(10, 8))\n",
    "    correlation_matrix = df[numeric_cols].corr()\n",
    "    sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0)\n",
    "    plt.title('Korelasyon Matrisi')\n",
    "    plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 7. Target vs Features Analizi"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Target değişken ile diğer değişkenler arası ilişki\n",
    "if 'target_col' in locals() and len(numeric_cols) > 1:\n",
    "    fig, axes = plt.subplots(2, 2, figsize=(12, 10))\n",
    "    axes = axes.ravel()\n",
    "    \n",
    "    numeric_features = [col for col in numeric_cols if col != target_col][:4]\n",
    "    \n",
    "    for i, col in enumerate(numeric_features):\n",
    "        df.boxplot(column=col, by=target_col, ax=axes[i])\n",
    "        axes[i].set_title(f'{col} by {target_col}')\n",
    "    \n",
    "    plt.tight_layout()\n",
    "    plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 8. Veri Kalitesi Kontrolü"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "print(\"Veri Kalitesi Raporu:\")\n",
    "print(f\"Toplam satır sayısı: {len(df)}\")\n",
    "print(f\"Toplam kolon sayısı: {len(df.columns)}\")\n",
    "print(f\"Eksik değer oranı: {(df.isnull().sum().sum() / (len(df) * len(df.columns))) * 100:.2f}%\")\n",
    "print(f\"Duplicate satır sayısı: {df.duplicated().sum()}\")\n",
    "\n",
    "# Aykırı değer kontrolü (basit IQR yöntemi)\n",
    "print(\"\\nAykırı Değer Analizi (IQR):\")\n",
    "for col in numeric_cols:\n",
    "    Q1 = df[col].quantile(0.25)\n",
    "    Q3 = df[col].quantile(0.75)\n",
    "    IQR = Q3 - Q1\n",
    "    lower_bound = Q1 - 1.5 * IQR\n",
    "    upper_bound = Q3 + 1.5 * IQR\n",
    "    outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]\n",
    "    print(f\"{col}: {len(outliers)} aykırı değer ({len(outliers)/len(df)*100:.1f}%)\")"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.0"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}