## Data Normalization

> **Qeyd:** Sadəcə **data analitika** ilə məşğul olduğunda və **model qurmadıqda**, **datanı normal paylanmaya gətirmək** zəruri deyil. Amma bəzi hallarda **vizual analiz** və ya **statistik təhlillər** üçün normal paylanma **faydalı ola bilər**.

---

## 💡 1. **Normal paylanmaya gətirmək nə üçündür?**

Normal paylanma – ortasında çox, kənarlara doğru az dəyər olan zəngvari (bell curve) paylanmadır.

Model quranda (məsələn, Linear Regression, Logistic Regression, SVM, t-test və s.) – bu çox vacibdir. Amma sadəcə data analitika və dashboard üçün aşağıdakı səbəblərlə faydalı ola bilər:

---

## ✅ 2. **Nə vaxt normal paylanmaya gətirmək faydalıdır (analitikada)?**

### 📊 a) **Vizualizasiyanın daha təmiz görünməsi üçün**

Məsələn, əgər **histogram** və ya **boxplot** çəkirsənsə və dəyişənin dəyərləri çox "sağdan uzun quyruqludursa" (skewed), bu zaman grafiklər çox balanssız görünə bilər. Log transformasiya və ya başqa normalizasiya bu disbalansı aradan qaldıra bilər və **vizual izahı asanlaşar.**

---

### 📐 b) **Statistik təhlillər üçün (z-test, t-test və s.)**

Əgər **t-test**, **ANOVA**, **correlation** (Pearson) kimi statistik metodlardan istifadə edirsənsə, bu testlərin çoxu **normal paylanma fərziyyəsinə əsaslanır.**

---

### 📈 c) **İstisna dəyərləri (outlier) daha asan müəyyən etmək üçün**

Outlier-lərin təsirini azaltmaq və onları **normal kontekstdə** analiz etmək üçün log və ya box-cox transformasiyaları ilə datanı normallaşdırmaq faydalı ola bilər.

---

## ❌ 3. **Nə vaxt ehtiyac yoxdur?**

Aşağıdakı hallarda heç bir şəkildə datanı normal paylanmaya gətirməyə ehtiyac **YOXDUR**:

* Sadəcə **descriptive statistics** (ortalama, median, min-max, count və s.) aparırsansa,
* Dashboardda **əsas fikir vermək istədiyin şeylər sadədir**: satışların trendi, istifadəçi sayı, qruplara bölünmüş cəmlər və s.,
* Heç bir statistik test və ya klassik ML modeli istifadə etmirsənsə.

---

## 🔚 Nəticə:

| Sual                                           | Cavab                                                                                                            |
| ---------------------------------------------- | ---------------------------------------------------------------------------------------------------------------- |
| Data analitikada normal paylanma məcburidirmi? | **Xeyr.**                                                                                                        |
| Bəs niyə bəzən edilir?                         | Daha yaxşı vizual analiz, statistik testlərin düzgünlüyü, outlier-lərin idarəsi üçün.                            |
| Dashboardda göstərəndə mütləq lazımdırmı?      | **Yox.** Dashboard üçün daha çox **açıqlıq**, **faydalı info** və **düzgün interpretasiya** vacibdir, forma yox. |

---


## Datanı **Normal paylanmaya gətirmək** (**"Normalizasiya" və ya "Transformasiya"**)



## 🔄 1. **Log Transform (Log10, ln)**

Ən çox istifadə edilən üsuldur. Skewed (qeyri-normal) paylanmanı simmetrik hala gətirir.

### 🎯 Uyğundur: Sağ quyruqlu (right-skewed) datalar üçün.

```python
import numpy as np
df['log_x'] = np.log(df['x'] + 1)  # +1 NaN və ya 0-ların qarşısını almaq üçündür
```

🔹 **Excel-də:**

* **Formula (natural log):** `=LN(A2+1)`
* **Formula (log10):** `=LOG10(A2+1)`

> `+1` sıfır və mənfi dəyərlərə qarşı müdafiədir.

---

## 📈 2. **Square Root Transform**

Dəyərin kökünü alır. Log qədər güclü deyil, amma daha "yumşaq" dəyişiklik verir.

```python
df['sqrt_x'] = np.sqrt(df['x'])
```

🔹 **Excel-də:**

* **Formula:** `=SQRT(A2)`

> `A2` hüceyrədəki saydır. Mənfi dəyərlər üçün `#NUM!` səhvi verəcək, əvvəlcə `=IF(A2<0,"",SQRT(A2))` şəklində qoruma tətbiq oluna bilər.

---

## 📉 3. **Box-Cox Transform**

Yarı-avtomatik üsuldur. Ən uyğun lambda dəyərini taparaq **ən yaxşı normallığı** təmin etməyə çalışır.

### Şərt: `x > 0` olmalıdır.

```python
from scipy import stats
df['boxcox_x'], _ = stats.boxcox(df['x'])
```

🔹 **Excel-də:**

Excel-də **Box-Cox** avtomatik yoxdur, amma **təxmini tətbiqi** bu düsturla mümkündür:

```
=IF(LAMBDA=0, LN(A2), (A2^LAMBDA - 1)/LAMBDA)
```

Burada `LAMBDA`–nı özün tapmalısan (məs. `0.2`).
Alternativ olaraq, **Excel Add-in** və ya **Power Query M dili** ilə daha avtomatlaşdırıla bilər.


---

## 🧮 4. **Yeo-Johnson Transform**

Box-Cox-un inkişaf etmiş versiyasıdır. Mənfi və sıfır dəyərlərlə də işləyə bilir.

```python
from sklearn.preprocessing import PowerTransformer
pt = PowerTransformer(method='yeo-johnson')
df['yj_x'] = pt.fit_transform(df[['x']])
```

🔹 **Excel-də:**

Yeo-Johnson transformasiyası çox daha mürəkkəbdir və Excel-də **birbaşa dəstəklənmir**. Tətbiq etmək üçün:

1. **Python ilə Yeo-Johnson dəyərləri hesabla**.
2. Excel-ə **qaytar və daxil et**.


---

## 🔃 5. **Z-score Normalization (Standardization)**

Datanı ortalama = 0 və std = 1 edərək normallaşdırır. Paylanmanı dəyişməz, amma statistik testlər üçün istifadə edilir.

```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df['zscore_x'] = scaler.fit_transform(df[['x']])
```


🔹 **Excel-də:**

```excel
=(A2 - AVERAGE($A$2:$A$100)) / STDEV.P($A$2:$A$100)
```

> `A2` – cari hüceyrə, `A2:A100` – sütünun tam sahəsi.

---

## 📊 6. **Min-Max Scaling**

Minimumu 0, maksimumu 1 edir. Paylanma formasını dəyişməz, sadəcə miqyaslandırır. ML üçün lazımdır, amma normal paylanma yaratmır.

```python
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
df['minmax_x'] = scaler.fit_transform(df[['x']])
```

🔹 **Excel-də:**

```excel
=(A2 - MIN($A$2:$A$100)) / (MAX($A$2:$A$100) - MIN($A$2:$A$100))
```

---

## 🔍 Hansını Seçməli?

| Transformasiya | Paylanma təsiri          | Mənfi dəyərlə işləyir? | Ən çox istifadə sahəsi             |
| -------------- | ------------------------ | ---------------------- | ---------------------------------- |
| Log transform  | Sağ quyruqluluğu azaldır | ❌                      | Vizual analiz, outlier azaldılması |
| Square root    | Yumşaq simmetrikləşmə    | ❌                      | Vizual analiz                      |
| Box-Cox        | Optimal simmetriya       | ❌                      | Statistik analiz                   |
| Yeo-Johnson    | Optimal simmetriya       | ✅                      | Statistik analiz                   |
| Z-score        | Paylanma dəyişmir        | ✅                      | Statistik testlər, ML              |
| Min-Max        | Paylanma dəyişmir        | ✅                      | ML, vizual miqyas uyğunluğu        |

---

## 🔚 Qeyd:

| Metod       | Excel Dəstəyi    | Qeydlər                           |
| ----------- | ---------------- | --------------------------------- |
| Log         | ✅ `LOG`, `LN`    | Mənfi və 0 üçün `+1` əlavə et     |
| Square Root | ✅ `SQRT`         | Mənfi dəyərlər üçün ehtiyatlı ol  |
| Box-Cox     | ⚠️ Yarı dəstək   | Lambda öz əllə verilməlidir       |
| Yeo-Johnson | ❌ Yox            | Python-da et, sonra Excel-ə gətir |
| Z-score     | ✅ AVERAGE, STDEV | Ən asan tətbiq edilənlərdəndir    |
| Min-Max     | ✅ MIN, MAX       | Sadə normalizasiya üsuludur       |

---


## **Robust scaling** və ya **Robust transformasiya**

> **Qeyd:**  – xüsusilə **outlier-lərin çox olduğu hallarda** istifadə olunan **dayanıqlı (robust)** normallaşdırma üsuludur. 

---

## 🛡️ **RobustScaler nədir?**

**RobustScaler**, `median` və `IQR` (interquartile range: Q3 − Q1) istifadə edir. Yəni:

$$
\text{RobustScaled}(x) = \frac{x - \text{median}}{IQR}
$$

Bu üsul **outlier-lərə qarşı həssas deyil**, çünki nə ortalama (mean), nə də standart sapma (std) istifadə olunmur.

---

## 🔎 **Niyə istifadə edilir?**

| Klassik scalerlər (StandardScaler, MinMaxScaler) | RobustScaler                  |
| ------------------------------------------------ | ----------------------------- |
| Mean və Std istifadə edir                        | Median və IQR istifadə edir   |
| Outlier-lərlə çox həssasdır                      | Outlier-lərə qarşı davamlıdır |
| Normal paylanmanı gözləyir                       | Normal paylanma vacib deyil   |

---

## 🧪 **Python nümunəsi:**

```python
from sklearn.preprocessing import RobustScaler

scaler = RobustScaler()
df['robust_x'] = scaler.fit_transform(df[['x']])
```

---

## 🔬 Nümunə:

Təsəvvür elə `x` sütununda belə dəyərlər var:

```
[10, 12, 13, 11, 14, 1000]
```

* **StandardScaler** bu `1000`-i görəndə `mean` və `std` partlayır və bütün digər dəyərlər sıxışır.
* **RobustScaler** isə median və IQR istifadə etdiyinə görə `1000`-i **görməzlikdən gəlir**.

---

## ❗ Amma bir məsələ:

**RobustScaler** **paylanmanı “normal” etməz**. Sadəcə **outlier-ləri idarə etməyə kömək edir** və model və ya vizual analiz zamanı balans yaradır.

---

## ✅ Qısaca:

| Sual                                        | Cavab                                                                           |
| ------------------------------------------- | ------------------------------------------------------------------------------- |
| RobustScaler normal paylanma verir?         | **Xeyr**                                                                        |
| Nəyə görə istifadə olunur?                  | **Outlier-lərə dayanıqlı** transformasiya üçün                                  |
| Statistik testlərdə istifadə oluna bilərmi? | Əgər normal paylanma tələb olunmursa, bəli. Yoxdursa, **log və ya boxcox** daha uyğundur. |



## **`RobustScaler`**-ın  Excel-də tətbiqi



## 🧱 **RobustScaler nədir?**

`RobustScaler`, **orta** və **standart sapma** əvəzinə:

* **Median** və
* **IQR (interquartile range)** – yəni `Q3 - Q1`

istifadə edərək **normalizasiya** edir.

---

## 📐 **Formulu:**

```text
x_scaled = (x - median) / IQR
```

Burada:

* `median` – median dəyər (orta yox!)
* `IQR = Q3 - Q1`

  * `Q1` – 25-ci percentil
  * `Q3` – 75-ci percentil

---

## 📊 **Excel-də tətbiqi**

Məsələn, sütun `A2:A100` olsun.

### 🔹 1. **Median hesabla:**

```excel
=MEDIAN(A2:A100)
```

### 🔹 2. **Q1 (25%) və Q3 (75%) hesabla:**

```excel
=QUARTILE.INC(A2:A100, 1)   → Q1  
=QUARTILE.INC(A2:A100, 3)   → Q3
```

> Alternativ olaraq `QUARTILE.EXC` da istifadə edə bilərsən.

### 🔹 3. **IQR hesabla:**

```excel
=QUARTILE.INC(A2:A100, 3) - QUARTILE.INC(A2:A100, 1)
```

---

### 🔹 4. **RobustScaler tətbiqi hər hüceyrəyə:**

Deyək ki, bu dəyərləri ayrıca hüceyrələrə yazdın:

* `B1` – Median
* `B2` – IQR

**O zaman A2 üçün:**

```excel
=(A2 - $B$1) / $B$2
```

Bunu aşağı doğru `fill` edərək bütün dəyərləri skal edə bilərsən.

---

## ✅ Nəticə:

| Element         | Excel Formulu               |
| --------------- | --------------------------- |
| Median          | `=MEDIAN(A2:A100)`          |
| Q1 (25%)        | `=QUARTILE.INC(A2:A100, 1)` |
| Q3 (75%)        | `=QUARTILE.INC(A2:A100, 3)` |
| IQR             | `=Q3 - Q1`                  |
| Robust Scaled x | `=(A2 - Median) / IQR`      |

---



## Exponential Transformasiya 



## ⚡ **Exponential Transformasiya nədir?**

**Exponential transformasiya** – bir dəyişənin hər bir dəyərini **eksponent (üst) şəklində artırmaq** deməkdir:

$$
x' = e^{x} \quad \text{və ya} \quad x' = a^x
$$

Ən çox istifadə olunan variant:

```python
import numpy as np
df['exp_x'] = np.exp(df['x'])
```

---

## ❓ **Nə vaxt istifadə olunur?**

Əksər hallarda **exponential transformasiya** datanı **çox sürətlə böyüdür** və bu səbəblə **normal paylanma yaratmaq üçün istifadə olunmur**. Amma bəzi hallar var ki:

### 📌 1. **Sol quyruqlu (left-skewed) datanı sağa çəkmək üçün**

Əgər dəyişən **çox sol tərəfə meyillidirsə**, exponential transformasiya ilə onu **sağa çəkə bilərsən**, beləliklə simmetrikliyə yaxınlaşa bilər.

---

## ⚠️ Amma diqqət:

| Transformasiya | Təsiri                   | Normal paylanma üçün uyğundur?         |
| -------------- | ------------------------ | -------------------------------------- |
| `log(x)`       | Sağ quyruqluluğu azaldır | ✅                                      |
| `sqrt(x)`      | Sağ quyruqluluğu azaldır | ✅                                      |
| `exp(x)`       | Sol quyruqluluğu artırır | ❌ (çox vaxt normallıqdan uzaqlaşdırır) |

---

## 📊 Nümunə:

```python
import matplotlib.pyplot as plt
import seaborn as sns

# Sol skewed bir dəyişən (məsələn, mənfi normal)
x = np.random.normal(loc=-2, scale=1, size=1000)
df = pd.DataFrame({'x': x})

# Eksponential transformasiya
df['exp_x'] = np.exp(df['x'])

# Vizual müqayisə
fig, axes = plt.subplots(1, 2, figsize=(12, 4))
sns.histplot(df['x'], kde=True, ax=axes[0])
axes[0].set_title("Original (left-skewed)")

sns.histplot(df['exp_x'], kde=True, ax=axes[1])
axes[1].set_title("Exponential Transformed")

plt.show()
```

---

## ✅ Nəticə:

| Sual                                                           | Cavab                                                                               |
| -------------------------------------------------------------- | ----------------------------------------------------------------------------------- |
| Exponential transformasiya datanı normal paylanmaya gətirirmi? | **Yox, əksər hallarda uzaqlaşdırır**                                                |
| Harada istifadə olunur?                                        | **Sol quyruqlu datanı balanslaşdırmaq** istədikdə                                   |
| Alternativi nədir?                                             | **Log, sqrt, boxcox, yeo-johnson** – bunlar **sağ quyruqlu** datanı balanslaşdırır. |

---


## Exponential Transformasiya Excelde tətbiqi



## 📌 **1. Eksponential Transformasiya Excel-də necə edilir?**

Əgər A sütununda sayısal dəyərlərin varsa (məsələn, `A2:A100` aralığında), bu dəyərlərə eksponential transformasiya etmək üçün aşağıdakı formulları istifadə edə bilərsən:

### ✅ **a) Natural exponential (`e^x`) üçün:**

```excel
=EXP(A2)
```

> `EXP()` funksiyası Excel-də təbii eksponent funksiyasıdır. Yəni `e ≈ 2.718` əsasında `e^x` hesablayır.

---

### ✅ **b) İstədiyin əsasla (`a^x`) eksponent üçün:**

Əgər sən özün, məsələn, `2^x` kimi bir transformasiya etmək istəyirsənsə:

```excel
=POWER(2, A2)
```

və ya

```excel
=2^A2
```

---

## 📊 **2. Praktik Nümunə:**

| A (x) | B (`EXP(x)`) |
| ----- | ------------ |
| 1     | `=EXP(A2)`   |
| 2     | `=EXP(A3)`   |
| -1    | `=EXP(A4)`   |
| 0     | `=EXP(A5)`   |

Nəticədə B sütununda aşağıdakı kimi olacaq:

| x  | e^x   |
| -- | ----- |
| 1  | 2.718 |
| 2  | 7.389 |
| -1 | 0.368 |
| 0  | 1     |

---

## 📈 **3. Vizualizasiya (Chart ilə)**

1. A və B sütunlarını seç.
2. `Insert` → `Chart` → `Scatter with smooth lines` və ya `Line Chart` seç.
3. Orijinal və transformasiya olunmuş dəyərləri müqayisə et.

---

## 📌 Qeyd:

* **Eksponential transformasiya** ilə **çox sürətli artım** olacaq, böyük dəyərlər çox daha böyüyəcək.
* Əgər datan **outlier-lərlə doludursa**, bu transformasiya vəziyyəti daha da pisləşdirə bilər. Bu səbəblə ehtiyatla istifadə edilməlidir.

---


## Z-score nə edir



## 🔑 Əsas Açar Nüans:

**Z-score transformasiyası datanı normal paylanmaya çevirmir.**
Əsas işi: **datanı standartlaşdırır (mean = 0, std = 1)**.
Bu, normal paylanmaya çevirmə deyil, **miqyaslama və mərkəzləşdirmədir.**

---

## 🧠 Z-score nə edir?

Z-score formuludur:

$$
z = \frac{x - \mu}{\sigma}
$$

* $x$: hər bir müşahidə dəyəri
* $\mu$: dəyişənin orta qiyməti
* $\sigma$: standart sapması

Bu transformasiya ilə **hər bir dəyər orta qiymətdən nə qədər standart sapma uzaqda olduğunu** göstərir. Beləliklə:

* Orta: **0** olur
* Standart sapma: **1** olur
* Skewness və ya dağılım forması dəyişmir

---

## ❗️Bəs niyə deyirlər "Z-score ilə normal paylanmaya gətiririk"?

Bu, bir **yanlış anlayış**dan qaynaqlanır:

| Gerçək məqsəd                      | Qeyri-dəqiq anlayış                   |
| ---------------------------------- | ------------------------------------- |
| Datanı **standard scale**-ə salmaq | Datanı **normal paylanmaya çevirmək** |

---

## 🧪 Nəticə

* Əgər datan **zaten təxminən normal** paylanıbsa, Z-score onu **daha səliqəli və müqayisəyə hazır formaya** salır.
* Amma **skewed** və ya **bimodal** datanı sadəcə Z-score ilə **normal etmə mümkün deyil**.
* Bu hallarda **log, box-cox, yeo-johnson, power transforms** lazımdır.

---

## 📌 Yekun

> 🔹 **Z-score datanı normal paylanmaya çevirmir**, sadəcə **mərkəzləşdirir və standartlaşdırır**.
> 🔹 Normal paylanma üçün, əgər data skewed-dursa, **transformasiya metodları** tətbiq olunmalıdır (log, root, yeo-johnson və s.).



##  Log, root, Box-Cox, Yeo-Johnson kimi transformasiyalar hansı datanı və necə "normal paylanmaya" gətirir?



> 🔍 **Log, root, Box-Cox, Yeo-Johnson kimi transformasiyalar datanı necə "normal paylanmaya" gətirir?**

Burada məqsəd sadəcə ortalama və standart sapmanı dəyişmək deyil, **paylanmanın formasını – yəni asimmetriyəni (skewness)** düzəltməkdir.

---

## 🧠 Əsas Nüans:

Bu transformasiyalar **skewed** (sağa və ya sola əyilmiş) paylanmaları **simmetrikləşdirmək** üçün tətbiq olunur.
Nəticədə data **normal paylanmaya yaxınlaşdırılır**, çünki bir çox statistik metod (məsələn, t-test, linear regression) normal paylanmanı fərz edir.

---

## 📦 Ən çox istifadə olunan transformasiya üsulları və necə işlədikləri:

---

### 1. ✅ **Log Transform**

$$
x' = \log(x)
$$

* **Nə zaman işləyir?** Sağ əyilmiş (right-skewed) datalarda
* **Nə edir?** Böyük dəyərləri **sıxır**, kiçik dəyərləri az dəyişir → simmetriya yaranır
* **Nümunə:** gəlir, satış, qiymət, əhali sayı

> 🔸 Məsələn: 10, 100, 1000 → log → 1, 2, 3

---

### 2. ✅ **Square Root Transform**

$$
x' = \sqrt{x}
$$

* Sağ əyilmiş datalarda tətbiq olunur
* Log transform qədər agresiv deyil (daha yumşaq düzəldir)
* Zero və pozitiv dəyərlərdə işləyir

---

### 3. ✅ **Box-Cox Transform**

$$
x' = 
\begin{cases}
\frac{x^\lambda - 1}{\lambda}, & \text{əgər } \lambda \neq 0 \\
\log(x), & \text{əgər } \lambda = 0
\end{cases}
$$

* ✅ Sağ əyilmiş (right-skewed) data
* **Ən güclü transformasiyalardan biridir**
* **Optimal lambda** avtomatik tapılır → normal paylanmaya **maksimum yaxınlaşdırır**
* Amma **yalnız pozitiv dəyərlərdə** işləyir

---

### 4. ✅ **Yeo-Johnson Transform**

Box-Cox-un təkmilləşmiş formasıdır:

* ✅ Sağ və ya sol əyilmiş (skewed) data
* **Həm müsbət, həm mənfi** dəyərlərdə işləyir
* **Optimal lambda** tapılır → normal paylanma təqrib edilir
* `sklearn.preprocessing.PowerTransformer` bu metodu dəstəkləyir

---

### 5. ✅ **Exponential və Power Transformlar**

* Sol əyilmiş dataları düzəltmək üçün
* Məsələn: $x^2, x^3$ → böyük dəyərlər daha da böyüyür → sağa əyiklik yaradır (və ya kompensasiya edir)

---

## 🎯 Nəticə:

> Bu transformasiyalar **data üzərində qeyri-xətti funksiya tətbiq edərək** onun paylanmasını **simmetrikləşdirir və normal paylanmaya yaxınlaşdırır**.



## Log transformasiya nə edir?



## 🎯 Məqsəd:

Sağ əyilmiş datada çoxlu **kiçik dəyərlər**, az sayda **çox böyük dəyərlər** var.
Böyük dəyərlər **uzun sağ quyruq** yaradır → **asimmetriya**.

> **Log transform** isə bu asimmetriyanı "çəkərək" **balanslaşdırır**, beləliklə dağılım daha **simmetrik** və **normal** olur.

---

## 🧠 Nə edir log funksiyası?

$$
x' = \log(x)
$$

* **Kiçik dəyərlər** çox az dəyişir (məs. log(1) = 0, log(10) = 1)
* **Böyük dəyərlər** isə **çox sıxılır** (məs. log(1000) = 3)

Yəni, **böyük dəyərlər kiçikləşdirilir**, aralarındakı fərq azaldılır.

---

### 📊 Məsələn:

| Əsas dəyərlər | Log10(dəyər) |
| ------------- | ------------ |
| 1             | 0.00         |
| 10            | 1.00         |
| 100           | 2.00         |
| 1000          | 3.00         |
| 10000         | 4.00         |

Gördüyün kimi, dəyərlər **ekspo potensial artım göstərsə də**, log transformasiya ilə **linearlığa yaxınlaşır** və **qurulan histogram daha simmetrik olur**.

---

## 🔧 Qrafik Təsəvvür

| Əvvəl (right-skewed) | Log sonra (düzləşmiş) |
| -------------------- | --------------------- |
| 📈📉📉📉📉📉📉📉➡️   | 🔁🔁🔁🔁🔁🔁🔁📉📈    |

Sağ quyruq "bükülür", kütlə mərkəzə yaxınlaşır.

---

## ✅ Nəticə:

**Log transformasiya**:

* Böyük dəyərləri sıxır
* Asimmetriyanı azaldır
* Paylanmanı **normal formaya yaxınlaşdırır**
* Xüsusilə **maliyyə**, **satış**, **gəlir** və s. tipli **sağ əyilmiş datalar** üçün effektivdir



## exponential (`exp`) transformasiya  nə edir?



## 🔁 `exp(x)` nə edir?

$$
x' = e^x \quad \text{və ya} \quad x' = \exp(x)
$$

### **Əsas xüsusiyyətlər:**

* **Kiçik dəyərlər** çox **böyüyür** (çox tez artır)
* **Böyük dəyərlər** isə artmağa davam edir, amma artıq **fərqləri çox da dəyişmir**

---

## 📊 Nümunə:

| x | exp(x) |
| - | ------ |
| 1 | 2.72   |
| 2 | 7.39   |
| 3 | 20.09  |
| 4 | 54.60  |
| 5 | 148.41 |

Buradan görünür:

* **1 → 2.7** (2x böyüyür)
* **4 → 54.6**, **5 → 148**, fərq kəskin artır

---

## ❗ Exponential transformasiyanın istifadəsi:

**Exponential transformasiya** adətən bu məqsədlə istifadə olunur:

### ✅ 1. **Sol əyilmiş (left-skewed) datanı düzləşdirmək üçün**

* Çünki bu zaman **kiçik dəyərləri şişirdərək** paylanmanı sağa çəkir → simmetrikləşdirir

### ✅ 2. **Log transformasiyasının əksini almaq üçün**

* Məsələn: modeldə log(x) istifadə etmisənsə və nəticəni orijinal miqyasa qaytarmaq istəsən → `exp(pred)` ilə geri qaytarırsan

---

## 🎯 Sadə müqayisə:

| Funksiya | Effekt                                       | Tətbiq olunan data         |
| -------- | -------------------------------------------- | -------------------------- |
| `log(x)` | Böyük dəyərləri **sıxır**, simmetrləşdirir   | Sağ əyilmiş (right-skewed) |
| `exp(x)` | Kiçik dəyərləri **böyüdür**, simmetrləşdirir | Sol əyilmiş (left-skewed)  |



## Box-Cox nədir



## 📦 Box-Cox nədir və nə edir?

**Box-Cox transformasiyası** – statistikada **right-skewed** (və bir qədər də left-skewed) **paylanmaları daha normal formaya gətirmək üçün** istifadə olunur.

Bu, **log, sqrt, power və s. transformasiyaların ümumiləşdirilmiş versiyasıdır.**
Yəni, o avtomatik olaraq hansı transformasiyanın daha uyğun olduğunu **öz içindəki `λ` (lambda) parametrinə əsasən** tapır.

---

## 📐 Formulu:

$$
x' =
\begin{cases}
\frac{x^\lambda - 1}{\lambda}, & \text{əgər } \lambda \neq 0 \\
\log(x), & \text{əgər } \lambda = 0
\end{cases}
$$

Burada:

* $x$: orijinal dəyər (yalnız **müsbət olmalıdır!** $x > 0$)
* $\lambda$: transformasiyanın **forması**nı təyin edən parametr

---

## 🔁 λ (lambda) nə iş görür?

| λ dəyəri | Effekt           | Təyin olunan transformasiya  |
| -------- | ---------------- | ---------------------------- |
| λ = 1    | Dəyişiklik etmir | Original data qalır          |
| λ = 0    | Log(x) transform | Sağ əyilmiş datalar üçün     |
| λ = 0.5  | √x (square root) | Orta əyilmə                  |
| λ < 0    | 1/x və s.        | Aşağıya əyilmiş datalar üçün |

**Sklearn və SciPy** funksiyalar bu λ dəyərini **maksimum normal paylanma yaxınlığına əsasən avtomatik tapır.**

---

## 🧠 Nə üçün bu qədər faydalıdır?

Çünki sən əvvəlcədən bilmirsən:

* `log(x)` mi yaxşı işləyəcək?
* `sqrt(x)` mi?
* Yoxsa `x^0.3`?

Amma **Box-Cox avtomatik olaraq ən uyğun λ** seçərək, datanı **ən çox normal paylanmaya yaxınlaşdıran dönüşümü** tətbiq edir.

---

## ⚠️ Qeyd:

* **Yalnız `x > 0` üçün işləyir.** Mənfi və sıfır dəyərlərdə **`Yeo-Johnson`** istifadə edilməlidir.

---

## ✅ Python misalı:

```python
from scipy.stats import boxcox
import numpy as np

data = np.array([1, 2, 3, 4, 5, 10, 50, 100])  # right-skewed
transformed_data, fitted_lambda = boxcox(data)

print("Optimal lambda:", fitted_lambda)
```

---

## 🎯 Yekun

> **Box-Cox** transformasiyası:

* Müxtəlif power transformasiyaları **avtomatik sınayır**
* Ən uyğun `λ` ilə **normal paylanmaya yaxınlaşdırır**
* Sağ əyilmiş datalarda **çox effektlidir**
* **Yalnız müsbət dəyərlərdə** işləyir


## Yeo-Johnson nədir və nə edir



## 📌 **Yeo-Johnson nədir və nə edir?**

**Yeo-Johnson transformasiyası**, **Box-Cox** transformasiyasının genişləndirilmış versiyasıdır.

> **Əsas üstünlüyü:**
> **Mənfi və sıfır dəyərlərdə də işləyir!**
> (Box-Cox isə **yalnız müsbət dəyərlərdə** işləyir.)

---

## 📐 Rəsmi formul:

$$
x' =
\begin{cases}
\frac{(x + 1)^\lambda - 1}{\lambda}, & \text{əgər } x \geq 0, \lambda \neq 0 \\
\log(x + 1), & \text{əgər } x \geq 0, \lambda = 0 \\
\\
- \frac{(-x + 1)^{2 - \lambda} - 1}{2 - \lambda}, & \text{əgər } x < 0, \lambda \neq 2 \\
- \log(-x + 1), & \text{əgər } x < 0, \lambda = 2
\end{cases}
$$

Bəli, bir az mürəkkəb görünür, amma məqsəd sadədir:

---

## 🎯 Məqsəd:

* Həm **sağ**, həm də **sol əyilmiş** dataları **simmetrikləşdirmək**,
* Datanı **normal paylanmaya yaxınlaşdırmaq**,
* Və bunu **həm müsbət, həm də mənfi dəyərlərlə işləyərək** etmək.

---

## ✅ Üstünlükləri:

| Özəllik           | Yeo-Johnson | Box-Cox |
| ----------------- | ----------- | ------- |
| Müsbət dəyərlər   | ✅           | ✅       |
| Mənfi dəyərlər    | ✅           | ❌       |
| Sıfır dəyərlər    | ✅           | ❌       |
| λ optimallaşdırma | ✅           | ✅       |

---

## 💡 Praktik misal (Python):

```python
from sklearn.preprocessing import PowerTransformer
import numpy as np

data = np.array([[-100], [-5], [0], [1], [2], [10], [50]])

# Yeo-Johnson transform
pt = PowerTransformer(method='yeo-johnson', standardize=False)
transformed = pt.fit_transform(data)

print("Optimal lambda:", pt.lambdas_)
```

---

## 📊 Nəticə:

* Datanı **qeyri-xətti şəkildə dəyişir** (log, sqrt, power və s. uyğun gələndə ona bənzəyir)
* **Əyik (skewed)** paylanmanı **simmetrik** və **normal formalı** edir
* Tətbiq olunduqda çox vaxt **model performansını artırır** (xüsusilə linear modellərdə)

---

## 🔁 Vizual təsvir:

| Əvvəl (sağ və sol əyilmiş) | → | Yeo-Johnson sonra (normal formaya yaxın) |
| -------------------------- | - | ---------------------------------------- |
| 📉📉📈📈📈➡️               | → | 🔁🔁🔁📊🔁🔁🔁                           |

---

İstəyirsənsə, həm **Box-Cox**, həm **Yeo-Johnson** eyni datada tətbiq edilib fərqi vizuallaşdırım (histogram + lambda). Yaz “bəli” kifayətdir.


##  Yeo-Johnson transformasiyası da Box-Cox fərqləri



## 🔑 **Yeo-Johnson nə edir? (Sadə dillə)**

> 🔹 **Box-Cox** → sadəcə **müsbət dəyərlərdə** işləyir
> 🔹 **Yeo-Johnson** → həm **müsbət**, həm **mənfi**, hətta **0** olan dəyərlərdə də işləyir

---

## 🎯 Məqsəd eynidir:

* Datanı **normal paylanmaya yaxınlaşdırmaq**
* Əyilmiş (skewed) paylanmanı **simmetrikləşdirmək**
* Dəyər aralığını **çəkərək düzləşdirmək**
* Model üçün **daha stabil və uyğun input** vermək

---

## ⚙️ Necə edir?

Hər bir müşahidəyə bu **formul** tətbiq olunur:

* Kiçik dəyərlər → bir az böyüyür
* Böyük dəyərlər → sıxılır
* Mənfi dəyərlər → çevrilərək simmetrikləşdirilir

**Daxilində `λ` (lambda) parametri var** — bu parametri **avtomatik tapır**, hansı transformasiya daha yaxşıdırsa onu tətbiq edir:

* log(x)
* sqrt(x)
* power(x, λ)
* və s. — avtomatik uyğunlaşdırılır

---

## ✅ Sadə müqayisə cədvəli:

| Özəllik                   | Box-Cox | Yeo-Johnson |
| ------------------------- | ------- | ----------- |
| Müsbət dəyərlərdə işləyir | ✅       | ✅           |
| Mənfi dəyərlərdə işləyir  | ❌       | ✅           |
| Sıfır dəyərində işləyir   | ❌       | ✅           |
| λ (lambda) optimallaşır   | ✅       | ✅           |
| Paylanmanı normallaşdırır | ✅       | ✅           |

---

## 📌 Qısaca:

> **Yeo-Johnson, Box-Cox-un “hər tip data üçün işləyən” versiyasıdır.**
> Məqsədi eyni: **paylanmanı simmetrikləşdirib normal hala salmaq.**
