## **로그 변환(Log Transformation)**

 데이터의 각 값에  로그($\log$)를 취하여 데이터의 분포를 변화시키는 기법입니다. 주로 데이터가 한쪽으로 심하게 치우쳐 있거나(왜도가 클 때), 수치의 범위가 너무 넓어 분석이 어려울 때 사용합니다.

 **"큰 숫자는 작게 만들고, 작은 숫자들 사이의 간격은 넓혀서 전체적으로 고르게 만드는 기법"**

---

### 1. 로그 변환을 하는 이유?

주로 다음과 같은 통계적 문제를 해결하기 위해 사용합니다.

* **정규성 확보 (왜도 해결):** 데이터가 왼쪽으로 쏠려 있고 오른쪽 꼬리가 긴 경우(예: 소득, 집값), 로그를 취하면 종 모양의 정규 분포에 가까워집니다.

* **분산의 안정화 (이분산성 해결):** 데이터의 값이 커질수록 변동폭(오차)도 커지는 경우가 많습니다. 로그 변환은 이렇게 퍼져 있는 데이터를 모아주는 효과가 있습니다.

* **비선형 관계를 선형으로:** 독립변수와 종속변수가 곱셈의 관계(지수적 증가)일 때, 로그를 취하면 덧셈의 관계(직선)로 바뀌어 회귀 분석이 쉬워집니다.

---

### 2. 수학적 원리 (간단히)

로그 함수($y = \log x$)의 그래프.

<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/7/7f/Graph_of_common_logarithm.svg/500px-Graph_of_common_logarithm.svg.png'>


* 값이 1, 10, 100, 1000으로 기하급수적으로 커져도,  값은 0, 1, 2, 3으로 **일정한 간격**이 됩니다.
* 즉, **"배수(Multiplicative)"** 관계의 데이터를 **"차이(Additive)"** 관계로 압축해 줍니다.

---

### 3. 파이썬 코드 예시

`numpy` 라이브러리를 사용하면 아주 간단하게 변환할 수 있습니다.

```python
import numpy as np
import pandas as pd

# 1. 오른쪽으로 꼬리가 긴 가상의 데이터 (집값 등)
data = [100, 120, 150, 500, 1000, 5000, 20000]
df = pd.DataFrame(data, columns=['Price'])

# 2. 로그 변환 (log1p는 x가 0일 때 무한대로 가는 것을 방지하기 위해 1을 더해줌)
df['Log_Price'] = np.log1p(df['Price'])

print(df)

```

---

### 4. 주의사항: 결과 해석의 변화

로그 변환을 하고 나면 회귀 분석 결과의 해석이 달라진다.

* **변환 전:** "공부 시간이 1시간 늘면, 점수가 **5점** 오른다." (단위당 변화)
* **로그 변환 후:** "공부 시간이 1% 늘면, 점수가 **약 0.05%** 오른다." (퍼센트 단위의 **탄력성** 해석)

> **주의:** 데이터에 **0이나 음수**가 포함되어 있다면 로그를 취할 수 없다. 그래서 보통 1을 더한 후 로그를 취하는 `log1p()` 함수를 많이 사용.


In [1]:
import numpy as np
import pandas as pd

# 1. 오른쪽으로 꼬리가 긴 가상의 데이터 (집값 등)
data = [100, 120, 150, 500, 1000, 5000, 20000]
df = pd.DataFrame(data, columns=['Price'])

# 2. 로그 변환 (log1p는 x가 0일 때 무한대로 가는 것을 방지하기 위해 1을 더해줌)
df['Log_Price'] = np.log1p(df['Price'])

print(df)


   Price  Log_Price
0    100   4.615121
1    120   4.795791
2    150   5.017280
3    500   6.216606
4   1000   6.908755
5   5000   8.517393
6  20000   9.903538
