
## 🔥 Outlier Analizi & IQR Yöntemi 

### 🎯 Amacımız ne?
Veride “uç” yani **aykırı** değerleri bulmak.  
Mesela biri şirkette 45 yıldır çalışıyor, ama diğer herkes 1-10 yıl arasında. İşte bu kişi **outlier** olabilir.

---

## 🧮 IQR Yöntemi Nedir?

IQR = Interquartile Range = **Çeyrekler Arası Aralık**  
Bu, verinin **ortalama değerlerden ne kadar uzaklaştığını** anlamamıza yarar.

---

### 🧠 4 Ana Terim:

| Adı        | Anlamı |
|------------|--------|
| Q1 (1. çeyrek) | Verinin %25’i bu değerin altında. |
| Q2 (Medyan)   | Ortanca değer. |
| Q3 (3. çeyrek) | Verinin %75’i bu değerin altında. |
| IQR         | Q3 - Q1 (verinin orta %50'si buradadır) |

---

## 🔐 Outlier Kuralları:

Bir değer:

- **Q1 – 1.5 * IQR**'den küçükse → Alt outlier  
- **Q3 + 1.5 * IQR**'den büyükse → Üst outlier  

Bu **“1.5”** sabiti, genelde istatistikçiler tarafından “makul sınır” olarak belirlenmiş. Yani:
> "Eğer veri ortalamanın **1.5 katından** fazla uzaksa, bu sıra dışıdır" diyorlar.

---

## 🔧 Örnek – Pratikle Görelim

Diyelim elimizde şu değerler var:
```python
data = [1, 2, 3, 4, 5, 6, 50]
```

Şimdi outlier’ı bulalım:

```python
import pandas as pd

seri = pd.Series([1, 2, 3, 4, 5, 6, 50])
q1 = seri.quantile(0.25)     # 2.5
q3 = seri.quantile(0.75)     # 5.5
iqr = q3 - q1                 # 3.0

alt_sinir = q1 - 1.5 * iqr   # 2.5 - 4.5 = -2
ust_sinir = q3 + 1.5 * iqr   # 5.5 + 4.5 = 10

outlierlar = seri[(seri < alt_sinir) | (seri > ust_sinir)]
print(outlierlar)
```

📌 Çıktı:
```
6    50
dtype: int64
```

👉 50 değeri, ortalamaya göre çok yukarıda → **Outlier** 🎯

---

## 🧑‍🏫 Kısa Özet:

| Terim | Açıklama |
|-------|----------|
| `Q1` = `0.25` | Verinin en alt %25’lik sınırı |
| `Q3` = `0.75` | Verinin en üst %25’lik sınırı |
| `IQR` = `Q3 - Q1` | Ortadaki %50'lik bölüm |
| `1.5 * IQR` | Aykırı değer sınırı için marj |
| `Q1 - 1.5*IQR` → Alt limit |
| `Q3 + 1.5*IQR` → Üst limit |

---




In [None]:

# ## 🎯 Outlier Alıştırması: “Şirkette Uçanlar” 🚀

# **Konu:** HR Data.csv  
# **Hedef:** Şirkette diğer çalışanlardan **çok farklı davranan (outlier)** çalışanları bulmak

# ---
import pandas as pd

df = pd.read_csv("HR Data.csv")
# ### 🧪 Görevler:

# #### 🔹 Görev 1:
# `TotalWorkingYears` sütunundaki aykırı (outlier) değerleri **IQR yöntemiyle** tespit et.

# - Q1, Q3 ve IQR değerlerini hesapla  
# - Alt ve üst sınırları bul  
# - Bu sınırlara göre outlier olan satırları filtrele ve yazdır

q1 = df["TotalWorkingYears"].quantile(0.25)
q3 = df["TotalWorkingYears"].quantile(0.75)
iqr = q3 -q1

alt = q1 - 1.5 * iqr
ust = q3 + 1.5 * iqr

outlier = df[(df["TotalWorkingYears"] < alt ) | (df["TotalWorkingYears"] >  ust )]
outlier

# #### 🔹 Görev 2:
# Bulduğun outlier’ların sadece şu bilgilerini yazdır:
# - `Age`, `TotalWorkingYears`, `MonthlyIncome`
outlier[["Age", "TotalWorkingYears", "MonthlyIncome"]]

# #### 🔹 Görev 3:
# Outlier çalışanların ortalama maaşı ile normal çalışanların ortalama maaşını karşılaştır.
outliermask = (df["TotalWorkingYears"] < alt ) | (df["TotalWorkingYears"] >  ust )
outlier_olmayanlar = df[~outliermask]
outlier_olmayanlar["MonthlyIncome"].mean() 
outlier["MonthlyIncome"].mean()

# ```python
# # örnek fikir:
# outlier_olmayanlar = df[~(outlier filtresi)]
# ```

# #### 🔹 Görev 4 (Bonus):
# Outlier çalışanlar genelde genç mi yaşlı mı? Ortalamalarını karşılaştır ve yorum yap.
# 🎯 Görev Adımları:
# 1. Daha önce oluşturduğun outlier ve outlier_mask değişkenlerini kullan.
# 2. Şu iki ortalamayı karşılaştır:
outlier = outlier["Age"].mean().round(2)
inlier = outlier_olmayanlar["Age"].mean().round(2)

outlier > inlier

# 3. Sonucu yazdır ve yorumla:
print("Outlier: " , outlier)
print("Outlier olmayan: ", inlier)
# Hangi grup daha yaşlı?# Sence neden?
# outlier ortalamasi dah fazla cunku normaldan fazla caliwmiwsa daha onceden iwe alinmiw, yani daha yasli

# ---

# ## 📌 İpucu:
# Aynı mantığı kullan:
# ```python
# q1 = df["TotalWorkingYears"].quantile(0.25)
# q3 = df["TotalWorkingYears"].quantile(0.75)
# iqr = q3 - q1
# alt_sinir = q1 - 1.5 * iqr
# ust_sinir = q3 + 1.5 * iqr
# ```



Outlier:  53.41
Outlier olmayan:  36.19
