# 데이터의 유형

## 순서가 있는 데이터 (Ordinal Data):

* 순서나 등급을 나타내는 데이터로, 상대적인 순서 관계가 존재합니다.  
예시: 학생들의 학점(A, B, C, D, F), 제품 등급(우수, 보통, 불량), 만족도(매우만족, 만족, 불만족)

## 순서가 없는 데이터 (Nominal Data):

* 범주 간에 순서가 없이 서로 독립적인 데이터로, 레이블링에 사용됩니다.  
예시: 성별(남성, 여성), 동물 종류(고양이, 개, 새), 혈액형(A형, B형, O형, AB형)

## 연속형 데이터 (Continuous Data):

* 연속적인 값을 가지며, 측정된 결과의 범위에서 무한한 값을 가질 수 있습니다.  
예시: 키, 몸무게, 온도, 시간

## 이산형 데이터 (Discrete Data):

* 정수와 같이 연속적이지 않은 값을 가지며, 한정된 개수의 값을 가집니다.  
예시: 가족 구성원 수, 학생 수

# 데이터 유형 별 통계예측 모델에서 활용전략

* 전통적인 통계예측 모델은 수치를 기반으로 한 통계모델이다.  
  따라서 모델에 입력하는 독립변수의 타입은 수치형이어야 한다.
* 연속형 데이터, 이산형 데이터는 기본적으로 수치형 데이터이기 때문에 전처리없이 활용 가능하다.
* Ordinal Data(순서가 있는 데이터)는 수치형 데이터로 변환이 가능하고 데이터의 크기를 내포하기 때문에 전처리 후 활용가능하다.
* Nominal Data(순서가 없는 데이터)는 수치형 데이터로 변환이 가능하나 데이터의 크기를 내포하고 있지 않기 때문에 적용을 할 필요가 없다.  
 (적용시 모델의 예측력에 악영향을 끼칠 수도 있다.)

# 예시

## 학점 데이터

In [4]:
import pandas as pd

# 데이터 프레임 생성 예시
data = {
    'category': ['A', 'B', 'C', 'A', 'C', 'B']
}
df = pd.DataFrame(data)

# 사용자가 원하는 레이블 매핑을 딕셔너리로 정의합니다.
# 각 유형 별 레이블을 해석하여 정의하는 것을 추천
label_mapping = {
    'A': 3,
    'B': 2,
    'C': 1
}

# 데이터 프레임의 범주형 데이터를 사용자가 지정한 레이블로 매핑합니다.
df['encoded_category'] = df['category'].map(label_mapping)

print(df)

  category  encoded_category
0        A                 3
1        B                 2
2        C                 1
3        A                 3
4        C                 1
5        B                 2


## 흡연 데이터

In [5]:
data = {
    '금연이력': ['현재흡연중', '금연시도 1년 이상', '금연시도 6개월 미만', '현재 금연', '현재흡연중', '현재 금연', '금연이력 없음', '현재 금연', '금연시도 6개월 미만', '현재흡연중']
}

In [6]:
df = pd.DataFrame(data)
df

Unnamed: 0,금연이력
0,현재흡연중
1,금연시도 1년 이상
2,금연시도 6개월 미만
3,현재 금연
4,현재흡연중
5,현재 금연
6,금연이력 없음
7,현재 금연
8,금연시도 6개월 미만
9,현재흡연중


In [8]:
df.금연이력.unique()

array(['현재흡연중', '금연시도 1년 이상', '금연시도 6개월 미만', '현재 금연', '금연이력 없음'],
      dtype=object)

In [9]:
label_mapping={
    '금연이력 없음':0,
    '현재 금연':1,
    '금연시도 1년 이상':2,
    '금연시도 6개월 미만':3,
    '현재흡연중':4
}
df['금연이력_level']=df['금연이력'].map(label_mapping)

df

Unnamed: 0,금연이력,금연이력_level
0,현재흡연중,4
1,금연시도 1년 이상,2
2,금연시도 6개월 미만,3
3,현재 금연,1
4,현재흡연중,4
5,현재 금연,1
6,금연이력 없음,0
7,현재 금연,1
8,금연시도 6개월 미만,3
9,현재흡연중,4
