In [1]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

In [2]:
# 1. 교통 데이터 생성
data = pd.DataFrame({
    'Trip ID': [1, 2, 3, 4, 5],  # 각 트립(여행)의 고유 ID
    'Vehicle Type': ['Sedan', 'SUV', 'Truck', 'Sedan', 'SUV'],  # 차량 유형
    'Destination From': ['A', 'B', 'C', 'A', 'B'],  # 출발지
    'Destination To': ['X', 'Y', 'Z', 'X', 'Y']  # 도착지
})

In [3]:
# 2. One-Hot Encoding (Vehicle Type 컬럼 변환)
# One-Hot Encoding은 범주형(문자형) 데이터를 0과 1로 변환하여 모델이 이해할 수 있도록 하는 기법
# pandas의 get_dummies() 함수를 사용하여 'Vehicle Type' 컬럼을 One-Hot Encoding 방식으로 변환
# get_dummies() 함수는 문자열 데이터를 여러 개의 컬럼으로 변환하여, 해당 값이면 1, 아니면 0으로 표시함
# 예: 'Sedan' -> [1, 0, 0], 'SUV' -> [0, 1, 0], 'Truck' -> [0, 0, 1]
data_encoded = pd.get_dummies(data, columns=['Vehicle Type'], prefix='Type')

In [5]:
# 3. Label Encoding (출발지 및 도착지 컬럼 변환)
# Label Encoding은 범주형 데이터를 정수 값(0, 1, 2 등)으로 변환하는 기법
# 각 고유한 문자열 값을 고유한 숫자로 변환하여 저장함
# 예: 'A' -> 0, 'B' -> 1, 'C' -> 2

# LabelEncoder 객체 생성
label_encoder = LabelEncoder()

# 'Destination From' 컬럼을 라벨 인코딩하여 변환
data_encoded['Destination From'] = label_encoder.fit_transform(data_encoded['Destination From'])

# 'Destination To' 컬럼을 라벨 인코딩하여 변환
data_encoded['Destination To'] = label_encoder.fit_transform(data_encoded['Destination To'])


In [6]:
# 결과 출력
print(data_encoded)


   Trip ID  Destination From  Destination To  Type_SUV  Type_Sedan  Type_Truck
0        1                 0               0     False        True       False
1        2                 1               1      True       False       False
2        3                 2               2     False       False        True
3        4                 0               0     False        True       False
4        5                 1               1      True       False       False
