# Data Preprocessing (데이터 전처리)

1. 데이터 수집

In [1]:
import pandas as pd

# 가상의 직원 급여 데이터 생성
data = {
    '직원': ['John', 'Anna', 'Peter', 'Linda', 'James'],
    '연봉': [50000, 60000, 55000, None, 65000],
    '근속연수': [5, 7, None, 8, 9]
}

df = pd.DataFrame(data)
print("원본 데이터셋:")
print(df)

원본 데이터셋:
      직원       연봉  근속연수
0   John  50000.0   5.0
1   Anna  60000.0   7.0
2  Peter  55000.0   NaN
3  Linda      NaN   8.0
4  James  65000.0   9.0


2. 결측값 처리

In [2]:
# 결측값 처리 (중앙값으로 대체)
df.loc[:, '연봉'] = df['연봉'].fillna(df['연봉'].median())
df.loc[:, '근속연수'] = df['근속연수'].fillna(df['근속연수'].median())
print("\n결측값 처리 후 데이터셋:")
print(df)


결측값 처리 후 데이터셋:
      직원       연봉  근속연수
0   John  50000.0   5.0
1   Anna  60000.0   7.0
2  Peter  55000.0   7.5
3  Linda  57500.0   8.0
4  James  65000.0   9.0


3. 이상치 제거

In [3]:
# 이상치 제거 (연봉이 0 이하인 경우 제거)
df = df[df['연봉'] > 0]
print("\n이상치 제거 후 데이터셋:")
print(df)


이상치 제거 후 데이터셋:
      직원       연봉  근속연수
0   John  50000.0   5.0
1   Anna  60000.0   7.0
2  Peter  55000.0   7.5
3  Linda  57500.0   8.0
4  James  65000.0   9.0


4. 데이터 정규화

In [4]:
# pip install scikit-learn 

In [5]:
from sklearn.preprocessing import MinMaxScaler

# 데이터 정규화 (0과 1 사이 값으로 스케일링)
scaler = MinMaxScaler()
df[['연봉', '근속연수']] = scaler.fit_transform(df[['연봉', '근속연수']])
print("\n데이터 정규화 후 데이터셋:")
print(df)


데이터 정규화 후 데이터셋:
      직원        연봉   근속연수
0   John  0.000000  0.000
1   Anna  0.666667  0.500
2  Peter  0.333333  0.625
3  Linda  0.500000  0.750
4  James  1.000000  1.000


5. 데이터 변환

In [6]:
# 예제: 원-핫 인코딩 (직원 이름을 카테고리 변수로 변환)
df_dum = pd.get_dummies(df, columns=['직원'])
print("\n데이터 변환 후 데이터셋:")
print(df_dum)


데이터 변환 후 데이터셋:
         연봉   근속연수  직원_Anna  직원_James  직원_John  직원_Linda  직원_Peter
0  0.000000  0.000    False     False     True     False     False
1  0.666667  0.500     True     False    False     False     False
2  0.333333  0.625    False     False    False     False      True
3  0.500000  0.750    False     False    False      True     False
4  1.000000  1.000    False      True    False     False     False


In [7]:
# onehot encoding of df['직원'] w/o library
def onehot_encode(column):
    unique_values = column.unique()
    print(f"Unique values: {unique_values}")
    onehot_dict = {value: [1 if value == uv else 0 for uv in column] for value in unique_values}
    print(f"One-hot encoded dict: {onehot_dict}")
    return pd.DataFrame(onehot_dict)

df_onehot = onehot_encode(df['직원'])
df_onehot


Unique values: ['John' 'Anna' 'Peter' 'Linda' 'James']
One-hot encoded dict: {'John': [1, 0, 0, 0, 0], 'Anna': [0, 1, 0, 0, 0], 'Peter': [0, 0, 1, 0, 0], 'Linda': [0, 0, 0, 1, 0], 'James': [0, 0, 0, 0, 1]}


Unnamed: 0,John,Anna,Peter,Linda,James
0,1,0,0,0,0
1,0,1,0,0,0
2,0,0,1,0,0
3,0,0,0,1,0
4,0,0,0,0,1


6. 데이터 분할

In [8]:
from sklearn.model_selection import train_test_split

# 데이터 분할 (학습용 80%, 검증용 20%)
train, test = train_test_split(df_dum, test_size=0.2, random_state=42)
print("\n학습용 데이터셋:")
print(train)
print("\n검증용 데이터셋:")
print(test)


학습용 데이터셋:
         연봉   근속연수  직원_Anna  직원_James  직원_John  직원_Linda  직원_Peter
4  1.000000  1.000    False      True    False     False     False
2  0.333333  0.625    False     False    False     False      True
0  0.000000  0.000    False     False     True     False     False
3  0.500000  0.750    False     False    False      True     False

검증용 데이터셋:
         연봉  근속연수  직원_Anna  직원_James  직원_John  직원_Linda  직원_Peter
1  0.666667   0.5     True     False    False     False     False
