<a href="https://colab.research.google.com/github/TAEO2474/python-dev/blob/main/408_%EB%8D%B0%EC%9D%B4%ED%84%B0_%EC%82%AC%EC%A0%84%EC%B2%98%EB%A6%AC_%EB%B2%94%EC%A3%BC%ED%98%95(%EC%B9%B4%ED%85%8C%EA%B3%A0%EB%A6%AC).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ✅ 1. 연속형 데이터 (Continuous / 수치형)

숫자처럼 **연속적인 크기와 단위를 가지는 데이터**  
→ 값을 정렬할 수 있고, **평균·합계 등 수학적 계산이 가능**

###  특징
- 수학 연산 가능 (`+`, `-`, `/`, `*`)
- 숫자 간 **크기 비교가 의미 있음**
- 축적되거나 변화하는 양을 나타냄

###  예시

| 변수       | 설명                 |
|------------|----------------------|
| 키(cm)     | 예: 170.5, 181.2     |
| 몸무게(kg) | 예: 65.2, 72.0       |
| 나이       | 예: 23, 31, 45       |
| 소득       | 예: 3,200,000원 등   |
| 온도       | 예: 22.1°C, 24.6°C   |

---

# ✅ 2. 범주형 데이터 (Categorical / 질적)

**크기보다 ‘종류’가 중요한 데이터**  
→ 숫자가 들어있어도 **계산보다는 구분/분류**가 목적

###  특징
- 연산 불가능 (예: 남자 + 여자 = ❌)
- 숫자가 있어도 그건 **코드일 뿐**
- 그룹, 레이블, 카테고리 구분에 사용

###  분류
- **명목형(Nominal)**: 순서 없음  
  → 예: 성별(M/F), 색상(빨강/파랑), 도시(서울/부산)
  
- **순서형(Ordinal)**: 순서 있음  
  → 예: 학점(A/B/C), 만족도(매우만족/만족/보통/불만족)

###  예시

| 변수           | 설명                             |
|----------------|----------------------------------|
| 성별           | M, F                             |
| 혈액형         | A, B, AB, O                      |
| 지역           | 서울, 부산, 대전                 |
| 고객 등급      | 일반, VIP, VVIP (순서형 가능)    |
| 상품 카테고리  | 전자, 식품, 의류                 |

---

# 예제 비교

| 데이터 열     | 값 예시           | 데이터 유형          |
|---------------|-------------------|-----------------------|
| age           | 25, 32, 41        | 연속형               |
| height        | 170.2, 180.5      | 연속형               |
| gender        | M, F              | 범주형 (명목형)       |
| satisfaction  | 높음, 보통, 낮음 | 범주형 (순서형)       |

---

#  왜 이 구분이 중요할까?

| 분석 단계     | 연속형 데이터                        | 범주형 데이터                          |
|---------------|--------------------------------------|-----------------------------------------|
| 전처리 방법   | 정규화, 스케일링, 결측 대체(평균 등) | 인코딩(라벨/원핫),


## ✅ 구간 분할
  - 연속형 데이터를 범주형 데이터로 사용할때  필요한 작업이다
  
pd.cut()은 값의 범위를 기준으로 나누고,    
pd.qcut()은 **데이터 분포(분위수)**를 기준으로 나눈다.  
labels=False를 쓰면 정수형으로 범주값이 출력된다.  
right=False를 쓰면 구간이 왼쪽 포함 [ ) 방식이 된다.  
retbins=True를 쓰면 구간분할 영역을 리턴해 준다.

| 항목           | `pd.cut()`              | `pd.qcut()`                  |
| ------------ | ----------------------- | ---------------------------- |
| 나누는 기준    | **값의 범위 (equal width)** | **데이터 개수 (equal frequency)** |
| 각 구간의 개수  | **다를 수 있음**             | **거의 동일함** (데이터 수 기준)        |
| 데이터 분포 고려 | 고려하지 않음               | 분위수 기반으로 분포 고려함            |
|  사용 예시     | 연령대를 10살 단위로 나누기 등      | 상위 25%, 중간 50%, 하위 25% 등     |

labels=False를 쓰면 정수형으로 범주값이 출력된다.  
right=False를 쓰면 구간이 왼쪽 포함 [ ) 방식이 된다.  
retbins=True를 쓰면 구간분할 영역을 리턴해 준다.

- ① 고정 구간 (Equal-Width Binning)
- ② 동등 분포 구간 (Equal-Frequency / Quantile Binning)

# ① 고정 구간 (Equal-Width Binning)
  - 데이터 범위를 일정한 간격으로 나누는 방식

In [None]:
import pandas as pd
import numpy as np

# 예시 데이터
data = pd.DataFrame({
    'age': [18, 25, 32, 40, 52, 60, 70, 85]
})

# 고정 구간으로 나누기 (예: 나이를 4개 구간으로 나눔)
data['age_bin'], bin_dividers= pd.cut(data['age'], bins=4, labels=False, retbins=True) #right: True
print(bin_dividers)
print(data)

[17.933 34.75  51.5   68.25  85.   ]
   age  age_bin
0   18        0
1   25        0
2   32        0
3   40        1
4   52        2
5   60        2
6   70        3
7   85        3


# ② 동등 분포 구간 (Equal-Frequency / Quantile Binning)
- 각 구간에 데이터가 거의 같은 수로 들어가도록 분할

In [None]:
# 데이터 수가 동일하게 분포되도록 4개 구간으로 나눔
data['age_qbin'] , bin_dividers= pd.qcut(data['age'], q=4, labels=False, retbins=True)
print(bin_dividers)
print(data)

[18.   30.25 46.   62.5  85.  ]
   age  age_bin  age_qbin
0   18        0         0
1   25        0         0
2   32        0         1
3   40        1         1
4   52        2         2
5   60        2         2
6   70        3         3
7   85        3         3


# ③ 사용자 정의 구간 지정 (Custom Binning)

In [None]:
# 구간 수동 정의
bins = [0, 30, 50, 70, 100]
labels = ['청년', '중년', '장년', '노년']

data['age_group'] , bin_dividers= pd.cut(data['age'], bins=bins, labels=labels, right=False, retbins=True)
print(bin_dividers)
print(data)

[  0  30  50  70 100]
   age  age_bin  age_qbin age_group
0   18        0         0        청년
1   25        0         0        청년
2   32        0         1        중년
3   40        1         1        중년
4   52        2         2        장년
5   60        2         2        장년
6   70        3         3        노년
7   85        3         3        노년


## ※ 더미변수
- *범주형 변수(category)**를 0과 1로 이루어진 변수들로 나눈 것

- 0과 1만 가짐

- 특정 범주에 속하면 1, 아니면 0

- **원핫 인코딩(one-hot encoding)**이라고도 불림

<더미변수로 변환 예시>

| Color | is\_Green | is\_Red |
| ----- | --------- | ------- |
| Red   | 0         | 1       |
| Green | 1         | 0       |
| Blue  | 0         | 0       |


In [None]:
import pandas as pd

# 예시 연속형 데이터
df = pd.DataFrame({'age': [18, 25, 32, 40, 52, 60, 70, 85]})

# 1단계: 구간으로 나누기
df['age_bin'] , bin_dividers= pd.cut(df['age'], bins=[0, 30, 50, 70, 100], labels=['청년', '중년', '장년', '노년'], retbins=True)
print(bin_dividers)
print(df)

# 2단계: 더미 변수로 변환
age_dummies = pd.get_dummies(df['age_bin'], prefix='age')

# 결과 병합
df = pd.concat([df, age_dummies], axis=1)

print(df)


[  0  30  50  70 100]
   age age_bin
0   18      청년
1   25      청년
2   32      중년
3   40      중년
4   52      장년
5   60      장년
6   70      장년
7   85      노년
   age age_bin  age_청년  age_중년  age_장년  age_노년
0   18      청년    True   False   False   False
1   25      청년    True   False   False   False
2   32      중년   False    True   False   False
3   40      중년   False    True   False   False
4   52      장년   False   False    True   False
5   60      장년   False   False    True   False
6   70      장년   False   False    True   False
7   85      노년   False   False   False    True




# KBinsDiscretizer
 - **연속형 데이터(continuous features)**를 지정한 개수의 **구간(bin)**으로 분할하여, **범주형처럼 취급**할 수 있도록 변환하고,  
원-핫 인코딩 등을 통해 즉시 인코딩까지 수행 가능한 전처리 도구
### 주요 파라미터

| 파라미터         | 설명 |
|------------------|------|
| n_bins=4      | 데이터를 4개의 구간으로 분할 |
| encode='onehot-dense'| dense 배열 형태로 **원-핫 인코딩 결과 반환** (0/1 벡터) |
| strategy='uniform'    | 전체 범위를 동일한 너비로 분할 *(최솟값–최댓값 기준)* :contentReference[oaicite:2]{index=2} |

---

#fit_transform()

- fit() 단계: 각 특성(feature)에 대해 **구간 경계값(bin_edges\_)을 계산**합니다.  
- transform() 단계: 입력 데이터를 **해당 구간에 따라 원-핫 인코딩된 벡터**로 변환합니다.  
- fit_transform()은 **위 두 과정을 한 번에 실행**하는 메서드입니다. :contentReference[oaicite:3]{index=3}

예를 들어, **18~85 사이의 나이 데이터를 4개 균등 구간으로 나눈 경우**, 구간 경계값은 대략 아래와 같이 계산될 수 있습니다:



In [None]:
from sklearn.preprocessing import KBinsDiscretizer
import pandas as pd
import numpy as np

# 예시 데이터
X = np.array([[18], [25], [32], [40], [52], [60], [70], [85]])

# KBinsDiscretizer 사용 (원-핫 인코딩)
# strategy='uniform' : 전체 최솟값~최댓값 범위를 n_bins개의 동일한 길이로 분할
kbd = KBinsDiscretizer(n_bins=4, encode='onehot-dense', strategy='uniform')
X_binned = kbd.fit_transform(X)

# 결과 출력
df = pd.DataFrame(X_binned, columns=[f'bin_{i}' for i in range(X_binned.shape[1])])
df['age'] = X.flatten()

print(df)



   bin_0  bin_1  bin_2  bin_3  age
0    1.0    0.0    0.0    0.0   18
1    1.0    0.0    0.0    0.0   25
2    1.0    0.0    0.0    0.0   32
3    0.0    1.0    0.0    0.0   40
4    0.0    0.0    1.0    0.0   52
5    0.0    0.0    1.0    0.0   60
6    0.0    0.0    0.0    1.0   70
7    0.0    0.0    0.0    1.0   85


※ 위 코드에서 fit_transform()을 호출하면,
내부적으로 fit() → transform() 순으로 실행되어
**0/1로 변환된 결과(X_binned)**를 반환합니다.

따라서 "어디서 0과 1로 변환"하는지 코드 상에는 보이지 않지만, 내부 라이브러리 함수에서 자동 처리되는 거예요

In [None]:
# LabelEncoder  : 카테고리형 데이터 → 숫자로 변환
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
y = encoder.fit_transform(["red", "blue", "green"])
y

array([2, 0, 1])

In [None]:
# OneHotEncoder : 카테고리형 데이터 → 원-핫 벡터로 변환
from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder(sparse_output=False)
X = encoder.fit_transform([["red"], ["blue"], ["green"]])
X


array([[0., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.]])

In [None]:
# OrdinalEncoder : 카테고리형 데이터를 순서형 숫자로 변환
from sklearn.preprocessing import OrdinalEncoder

encoder = OrdinalEncoder()
X = encoder.fit_transform([["low"], ["medium"], ["high"]])
X

array([[1.],
       [2.],
       [0.]])

# < 인코딩의 종류>
| 인코딩 종류                 | 설명                             | 적용 대상                   | 장점                   | 단점                   | 예시                                    |
| ---------------------- | ------------------------------ | ----------------------- | -------------------- | -------------------- | ------------------------------------- |
| **One-Hot Encoding**   | 각 카테고리를 고유한 위치에 1, 나머지는 0으로 표현 | 명목형 범주형 데이터 (Nominal)   | 직관적, 대부분 ML 알고리즘에 적합 | 차원이 급격히 증가할 수 있음     | \['red', 'blue'] → \[1,0], \[0,1]     |
| **Label Encoding**     | 각 카테고리를 정수로 매핑                 | 순서가 없거나 있을 수 있는 범주형 데이터 | 간단하고 빠름              | 모델이 순서로 오해할 수 있음     | \['red', 'blue'] → \[0, 1]            |
| **Ordinal Encoding**   | 순서가 있는 카테고리를 순차적인 숫자로 매핑       | 순서가 명확한 범주형 데이터         | 순서 정보 유지             | 순서가 없는 데이터에는 부적합     | \['low', 'medium', 'high'] → \[0,1,2] |
| **Binary Encoding**    | 정수를 이진수로 변환하여 비트 단위로 인코딩       | 고차원 명목형 데이터             | 차원 수 절감              | 해석이 어려울 수 있음         | 7 → 111 (3비트)                         |
| **Frequency Encoding** | 각 카테고리의 출현 빈도를 숫자로 표현          | 범주형 데이터                 | 범주 분포 반영             | 빈도만으로는 의미가 제한적일 수 있음 | 'cat'이 100번 등장 → 100                  |
| **Target Encoding**    | 각 카테고리를 타겟 변수의 평균값 등으로 대체      | 지도학습 시 범주형 데이터          | 예측력 향상 가능            | 과적합 위험, 데이터 누수 주의    | 'cat' → 타겟 평균 0.7                     |




>  참고로 **Softmax는 인코딩이 아닙니다.**
> 👉 **모델의 출력값을 "확률처럼" 바꿔주는 함수*

---

## 🔍 왜 Softmax는 인코딩이 아닐까?

### 🔸 인코딩(Encoding)이란?

* 데이터를 컴퓨터가 **이해할 수 있는 숫자 형태로 바꾸는 것**
* 주로 **입력 데이터**에 적용됨
* 예시: One-Hot, Label, Ordinal Encoding 등

python
성별: ['M', 'F'] → [1, 0] (One-hot)


---

### 🔹 Softmax란?

* **모델의 최종 출력층에서** 사용되는 수학 함수
* 여러 개의 점수(logits)를 받아서, 그걸 **0\~1 사이의 확률 분포로 변환**
* 주로 **분류 문제의 출력 단계**에서 사용됨

python
logits: [2.1, 0.5, -1.2] → softmax → [0.75, 0.20, 0.05]


* 결과의 합이 항상 1 → 확률처럼 해석 가능
* 가장 높은 확률을 가진 클래스가 **최종 예측**

---

## 📊 비교 정리 표

| 구분    | Softmax                             | 인코딩 (One-hot 등)            |
| ----- | ----------------------------------- | -------------------------- |
| 위치    | 모델 출력단                              | 모델 입력 전처리                  |
| 목적    | 점수 → 확률 변환                          | 텍스트/범주 → 숫자 변환             |
| 대상    | 모델의 예측값 (logits)                  | 원본 데이터 (예: 성별, 지역 등)       |
| 예시    | \[2.3, 1.1, 0.5] → \[0.7, 0.2, 0.1] | \['red', 'blue'] → \[1, 0] |
| 확률 성질 | ✅ 확률처럼 합이 1                         | ❌ 확률과 무관                   |

---

## ✅ 정리 한 줄 요약

> **Softmax는 인코딩이 아니라, 모델 출력값을 확률로 바꾸는 수학적 함수**입니다.
> 인코딩은 입력 데이터를 숫자로 바꾸는 전처리 과정이고, Softmax는 출력 해석용 도구




