<a href="https://colab.research.google.com/github/cown0211/machinelearning_with_python/blob/main/ch6_2_%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%A0%84%EC%B2%98%EB%A6%AC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 6.2.1 결측치 처리

---



In [2]:
import numpy as np
import pandas as pd

In [3]:
df = pd.DataFrame([
    [42, 'male', 12, 'reading', 'class2'], 
    [35, 'unknown', 3, 'cooking', 'class1'], 
    [1000, 'female', 7, 'cycling', 'class3'], 
    [1000, 'unknown', 21, 'unknown', 'unknown']
])
df.columns =  ['age', 'gender', 'month_birth', 'hobby', 'target']

# DataFrame 안의 리스트는 각각 df에서의 행

In [4]:
df

Unnamed: 0,age,gender,month_birth,hobby,target
0,42,male,12,reading,class2
1,35,unknown,3,cooking,class1
2,1000,female,7,cycling,class3
3,1000,unknown,21,unknown,unknown


*   **모든 변수에 대해 unique 값 찾기**









In [5]:
df['age'].unique()

array([  42,   35, 1000])

In [6]:
df['gender'].unique()

array(['male', 'unknown', 'female'], dtype=object)

In [7]:
df['month_birth'].unique()

array([12,  3,  7, 21])

In [8]:
df['hobby'].unique()

array(['reading', 'cooking', 'cycling', 'unknown'], dtype=object)

In [9]:
df['target'].unique()

array(['class2', 'class1', 'class3', 'unknown'], dtype=object)



*   **DataFrame의 특정 행,열 조회**


```
# df.loc[]
```

> 괄호 안에 조건 or 숫자 넣으면 df의 행을 조회함



```
# df.loc[0]
```


> df의 0행 조회





```
# df.loc[0, ['age']]
```


> df의 0행 ['age']열 조회






```
# df.loc[df['age'] > 150, ['age]]
```


> df의 ['age']가 150을 초과하는 ['age']열 조회



In [10]:
df.loc[0]

age                 42
gender            male
month_birth         12
hobby          reading
target          class2
Name: 0, dtype: object

In [11]:
df.loc[0, ['age']]

age    42
Name: 0, dtype: object

In [12]:
df.loc[df['age'] > 150]

Unnamed: 0,age,gender,month_birth,hobby,target
2,1000,female,7,cycling,class3
3,1000,unknown,21,unknown,unknown


In [13]:
df.loc[df['age'] > 150, ['age']]

Unnamed: 0,age
2,1000
3,1000


In [14]:
df.loc[df['age'] > 150, ['gender']]

Unnamed: 0,gender
2,female
3,unknown


In [15]:
df.loc[df['age'] > 150, ['age']] = np.nan
df.loc[df['gender'] == 'unknown', ['gender']] = np.nan
df.loc[df['month_birth'] > 12, ['month_birth']] = np.nan
df.loc[df['hobby'] == 'unknown', ['hobby']] = np.nan
df.loc[df['target'] == 'unknown', ['target']] = np.nan

# df의 부적절한 값을 결측치(np.nan)로 대체

In [16]:
df
# 결측치는 NaN으로 표시됨

Unnamed: 0,age,gender,month_birth,hobby,target
0,42.0,male,12.0,reading,class2
1,35.0,,3.0,cooking,class1
2,,female,7.0,cycling,class3
3,,,,,


In [17]:
df.isnull() # df의 결측치(NaN) 여부 반환
df.isnull().sum() # df의 열 별로 결측치의 개수 반환

age            2
gender         2
month_birth    1
hobby          1
target         1
dtype: int64

In [18]:
df2 = df.dropna(axis = 0); df2

# 결측치를 포함하는 모든 행 삭제

Unnamed: 0,age,gender,month_birth,hobby,target
0,42.0,male,12.0,reading,class2


In [19]:
df3 = df.dropna(axis = 1); df3

# 결측치를 포함하는 모든 열 삭제

0
1
2
3


In [20]:
# 모든 데이터가 결측치인 행 삭제
df4 = df.dropna(how = 'all'); df4

Unnamed: 0,age,gender,month_birth,hobby,target
0,42.0,male,12.0,reading,class2
1,35.0,,3.0,cooking,class1
2,,female,7.0,cycling,class3


In [21]:
# 결측치가 n개 미만인 행만 삭제
df5 = df.dropna(thresh = 1); df5

Unnamed: 0,age,gender,month_birth,hobby,target
0,42.0,male,12.0,reading,class2
1,35.0,,3.0,cooking,class1
2,,female,7.0,cycling,class3


In [22]:
df6 = df.dropna(subset = ['gender']); df6
# 특정 열에 결측치가 있는 경우의 행만 삭제

Unnamed: 0,age,gender,month_birth,hobby,target
0,42.0,male,12.0,reading,class2
2,,female,7.0,cycling,class3


In [23]:
# 결측치를 대체하기
alter_values = {'age': 0,
                'gender': 'U',
                'month_birth': 0,
                'hobby': 'U',
                'target': 'class4'
                }

df7 = df.fillna(value = alter_values); df7

Unnamed: 0,age,gender,month_birth,hobby,target
0,42.0,male,12.0,reading,class2
1,35.0,U,3.0,cooking,class1
2,0.0,female,7.0,cycling,class3
3,0.0,U,0.0,U,class4


---

# 6.2.2 클래스 라벨 설정
---




**1.   sklearn을 활용한 클래스 라벨링(class labeling)**



In [24]:
from sklearn.preprocessing import LabelEncoder
df8 = df7
class_label = LabelEncoder() # 라벨링 모형 설정
data_value = df8['target'].values # 라벨링 할 데이터를 가져옴
y_new = class_label.fit_transform(data_value) # 변환(여기서는 문자 -> 숫자)
y_new

array([1, 0, 2, 3])

In [28]:
df8['target'] = y_new; df8
# 기존 df에 덮어 씌움

Unnamed: 0,age,gender,month_birth,hobby,target
0,42.0,male,12.0,reading,1
1,35.0,U,3.0,cooking,0
2,0.0,female,7.0,cycling,2
3,0.0,U,0.0,U,3


In [29]:
y_ori = class_label.inverse_transform(y_new); y_ori
# inverse_transform()을 이용해 역변환 가능

array(['class2', 'class1', 'class3', 'class4'], dtype=object)

In [31]:
df8['target'] = y_ori; df8

Unnamed: 0,age,gender,month_birth,hobby,target
0,42.0,male,12.0,reading,class2
1,35.0,U,3.0,cooking,class1
2,0.0,female,7.0,cycling,class3
3,0.0,U,0.0,U,class4




**2.   직접 클래스 라벨링(class labeling)하는 방법**



In [32]:
y_arr = df8['target'].values
y_arr.sort()
y_arr

array(['class1', 'class2', 'class3', 'class4'], dtype=object)

In [39]:
# 딕셔너리 활용한 맵핑

num_y = 0 # 딕셔너리의 가장 초기값이 될 값으로 설정; 클래스1->0, 클래스2->1, ...
dic_y = {} # 빈 딕셔너리 정의

for ith_y in y_arr:
  dic_y[ith_y] = num_y
  num_y += 1

In [40]:
dic_y # 기존 target에 숫자로 대응하는 딕셔너리

{'class1': 0, 'class2': 1, 'class3': 2, 'class4': 3}

In [46]:
df8['target'] = df8['target'].replace(dic_y); df8

Unnamed: 0,age,gender,month_birth,hobby,target
0,42.0,male,12.0,reading,0
1,35.0,U,3.0,cooking,1
2,0.0,female,7.0,cycling,2
3,0.0,U,0.0,U,3



# 6.2.3 원-핫 인코딩(one-hot encoding)
---




**1.   pandas 원핫인코딩**



In [48]:
df9 = df8
df9['target'] = df9['target'].astype(str) # 타겟 데이터를 문자형으로 변환
df10 = pd.get_dummies(df9['target']) # pd.get_dummies()로 원핫인코딩
df10

# 결과에서 target 0 = (1, 0, 0, 0)
# target 1 = (0, 1, 0, 0)
# ...
# 행 기준!

Unnamed: 0,0,1,2,3
0,1,0,0,0
1,0,1,0,0
2,0,0,1,0
3,0,0,0,1


In [47]:
df9['target'] = df9['target'].astype(str)
df11 = pd.get_dummies(df9['target'], drop_first = True)
df11

# drop_first = True 조건을 사용해 첫 더미를 (1,0,0,0)이 아닌 (0,0,0)으로 설정 가능
# 벡터의 길이를 하나 줄일 수 있음

Unnamed: 0,1,2,3
0,0,0,0
1,1,0,0
2,0,1,0
3,0,0,1


In [49]:
df12 = df8
df13 = pd.get_dummies(df12)
df13

# DataFrame을 통째로 변환할 수도 있음
# 숫자열은 건들지 않고 문자열만 건드림

Unnamed: 0,age,month_birth,gender_U,gender_female,gender_male,hobby_U,hobby_cooking,hobby_cycling,hobby_reading,target_0,target_1,target_2,target_3
0,42.0,12.0,0,0,1,0,0,0,1,1,0,0,0
1,35.0,3.0,1,0,0,0,1,0,0,0,1,0,0
2,0.0,7.0,0,1,0,0,0,1,0,0,0,1,0
3,0.0,0.0,1,0,0,1,0,0,0,0,0,0,1




**2.   sklearn 원핫인코딩**



In [57]:
from sklearn.preprocessing import OneHotEncoder
hot_encoder = OneHotEncoder()
y = df7[['target']]
y_hot = hot_encoder.fit_transform(y)
print(y_hot.toarray()) # array 형식으로 출력

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


**3.   tensorflow 원핫인코딩**



In [58]:
from tensorflow.keras.utils import to_categorical
y_hotec = to_categorical(y)
print(y_hotec)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


---

# 6.2.4 데이터 스케일링(data scaling)
---

**1.   표준화 스케일링(standard scaling)**

평균이 0, 분산이 1이 되도록 변경하는 방법

In [60]:
from sklearn.preprocessing import StandardScaler

std = StandardScaler() # 표준화 스케일러 정의
std.fit(df8[['month_birth']]) # 스케일러에 데이터 적합
x_std = std.transform(df8[['month_birth']]) # 변환
x_std

array([[ 1.44444444],
       [-0.55555556],
       [ 0.33333333],
       [-1.22222222]])

In [61]:
x_std2 = std.fit_transform(df8[['month_birth']]); x_std2
# x_std를 한 줄로도 구현 가능

array([[ 1.44444444],
       [-0.55555556],
       [ 0.33333333],
       [-1.22222222]])

In [64]:
np.mean(x_std) # 표준화 스케일러이므로 평균 = 0

-5.551115123125783e-17

In [63]:
np.std(x_std) # 표준편차 = 1

1.0

**2.   로버스트 스케일링(robust scaling)**

사분위수를 활용하는 방법

(x - q2) / (q3 - q1)

In [65]:
from sklearn.preprocessing import RobustScaler

robust = RobustScaler()
x_robust = robust.fit_transform(df8[['month_birth']])
x_robust

array([[ 1.16666667],
       [-0.33333333],
       [ 0.33333333],
       [-0.83333333]])

**3.   최소-최대 스케일링(min-max scaling)**

데이터의 최대값을 1로, 최소값을 0으로 표준화

(x - min(x)) / (max(x) - min(x))

In [67]:
from sklearn.preprocessing import MinMaxScaler

minmax = MinMaxScaler()
x_minmax = minmax.fit_transform(df8[['month_birth']])
x_minmax

array([[1.        ],
       [0.25      ],
       [0.58333333],
       [0.        ]])

**4.   노멀 스케일링(normalizer)**

 행 기준, 벡터의 유클리디안 길이가 1이 되도록 변경

 x / (x^2 + y^2 + z^2)^0.5

In [68]:
from sklearn.preprocessing import Normalizer

normal = Normalizer()
normal.fit(df8[['age', 'month_birth']])
x_normal = normal.transform(df8[['age', 'month_birth']])
x_normal

# 1행; age 42, month_birth 12 => 0.961, 0.274
# 2행; age 35, month_birth 3 => 0.996, 0.085

array([[0.96152395, 0.27472113],
       [0.99634665, 0.08540114],
       [0.        , 1.        ],
       [0.        , 0.        ]])

---