In [1]:
import numpy as np
#수학적 계산 관련 함수 제공
import pandas as pd
#데이터를 데이터 프레임 형식으로 다루는 라이브러리. 데이터 이용시 필수

In [None]:
주어진 데이터 셋중 일부의 데이터가 손실된 경우 결측치라고 하고
머신러닝 알고리즘 적용 전에 이를 처리해야함

In [5]:
df = pd.DataFrame([
    [42,'male',12,'reading','class2'],
    [35,'unknown',3,'cooking','class1'],
    [1000,'female',7,'cycling','class3'],
    [1000,'unknown',21,'unknown','unknown']
])
df.columns = ['age','gender','month_birth','hobby','target']

In [6]:
df

Unnamed: 0,age,gender,month_birth,hobby,target
0,42,male,12,reading,class2
1,35,unknown,3,cooking,class1
2,1000,female,7,cycling,class3
3,1000,unknown,21,unknown,unknown


여기서 age가 1000인것, 출생 달이 21인것은 말이 안되기 때문에 결측값으로 전환이 필요하다

In [10]:
print(df['age'].unique())
print(df['gender'].unique())
print(df['month_birth'].unique())
print(df['hobby'].unique())
print(df['target'].unique())

[  42   35 1000]
['male' 'unknown' 'female']
[12  3  7 21]
['reading' 'cooking' 'cycling' 'unknown']
['class2' 'class1' 'class3' 'unknown']


In [17]:
#부적절한 값 결측치로 바꾸기
df.loc[df['age']>110,['age']]=np.nan
df.loc[df['gender']=='unknown',['gender']]=np.nan
df.loc[df['month_birth']>12,['month_birth']]=np.nan
df.loc[df['hobby']=='unknown',['hobby']]=np.nan
df.loc[df['target']=='unknown',['target']]=np.nan
df

Unnamed: 0,age,gender,month_birth,hobby,target
0,42.0,male,12.0,reading,class2
1,35.0,,3.0,cooking,class1
2,,female,7.0,cycling,class3
3,,,,,


In [19]:
#결측치 갯수 새기
df.isnull().sum()

age            2
gender         2
month_birth    1
hobby          1
target         1
dtype: int64

In [28]:
#결측치 처리 방법 1. 삭제 
df2 = df.dropna(axis=0)    #axis=0은 row, 즉 - 행을 삭제한다는 뜻
print(df2)
df3 = df.dropna(axis=1)    #axis=0은 column, 즉 | 행을 삭제한다는 뜻
print(df3)
df4 = df.dropna(how='all') #모든 열이 NaN인 행 삭제
print(df4)
df5 = df.dropna(thresh=2)  #값이 2개 미만인 행 삭제
print(df5)
df6 =df.dropna(subset='gender') #특정 열 (feature 종류)에 결측값이 있는 행을 삭제
print(df6)

    age gender  month_birth    hobby  target
0  42.0   male         12.0  reading  class2
Empty DataFrame
Columns: []
Index: [0, 1, 2, 3]
    age  gender  month_birth    hobby  target
0  42.0    male         12.0  reading  class2
1  35.0     NaN          3.0  cooking  class1
2   NaN  female          7.0  cycling  class3
    age  gender  month_birth    hobby  target
0  42.0    male         12.0  reading  class2
1  35.0     NaN          3.0  cooking  class1
2   NaN  female          7.0  cycling  class3
    age  gender  month_birth    hobby  target
0  42.0    male         12.0  reading  class2
2   NaN  female          7.0  cycling  class3


In [46]:
#결측치 처리 방법 2. 값 교체(대체)
alter_values = {'age' : 0,    
                'gender':'U',        
                'month_birth':0,            
                'hobby':'U',                
                'target':'class4'}
df7=df.fillna(value=alter_values)                    
        

In [47]:
#사이킷 런을 사용한 클래스 라벨 설정
##라벨 : 이름표 => 해당 피처 데이터가 나타내는게 무엇인지 
###df의 'target'은 class시리즈 인데 이는 str형태이므로 int형태로 바꿔보자
from sklearn.preprocessing import LabelEncoder #라벨링 함수
df8 = df7
class_label = LabelEncoder()#라벨링 모형 설정
data_value = df8['target'].values#타깃 변수 값 불러오기
y_new = class_label.fit_transform(data_value)#데이터 값 변환
y_new

array([1, 0, 2, 3])

In [48]:
df8['target']=y_new #덮어쓰기
df8

Unnamed: 0,age,gender,month_birth,hobby,target
0,42.0,male,12.0,reading,1
1,35.0,U,3.0,cooking,0
2,0.0,female,7.0,cycling,2
3,0.0,U,0.0,U,3


In [49]:
y_ori = class_label.inverse_transform(y_new) #덮어쓰기 전 target 원본
y_ori

array(['class2', 'class1', 'class3', 'class4'], dtype=object)

In [50]:
df8['target']=y_ori
df8

Unnamed: 0,age,gender,month_birth,hobby,target
0,42.0,male,12.0,reading,class2
1,35.0,U,3.0,cooking,class1
2,0.0,female,7.0,cycling,class3
3,0.0,U,0.0,U,class4


In [53]:
#사이킷런 미사용 라벨링
y_arr = df8['target'].values #타깃값 불러오기
y_arr.sort()                 #target을 오름차순 정렬
y_arr
num_y=0                      #숫자형 타깃 이름 설정. 가장 첫 타깃 이름 0
dic_y={}                     #타깃과 숫자형을 매핑하는 딕셔너리
for ith_y in y_arr:          #반복문을 통해 클래스 라벨과 숫자형 라벨 설정
    dic_y[ith_y] = num_y
    num_y+=1

In [54]:
dic_y

{'class1': 0, 'class2': 1, 'class3': 2, 'class4': 3}

In [56]:
df8['target']=df8['target'].replace(dic_y)
df8

Unnamed: 0,age,gender,month_birth,hobby,target
0,42.0,male,12.0,reading,0
1,35.0,U,3.0,cooking,1
2,0.0,female,7.0,cycling,2
3,0.0,U,0.0,U,3


In [58]:
#원-핫 인코딩 (더미 변수)
##클래스 라벨링의 다른 방법임
##0과 1만 사용한 벡터를 이용해 데이터값을 나타냄
df9 = df8
df9['target']=df9['target'].astype(str) #타깃 변숫값을 문자형으로 바꿈 (df8의 타깃은 0~4임)
df10 = pd.get_dummies(df9['target'])    #판다스에서 제공하는 get_dummies에 타깃 변수를 넣고 원-핫 인코딩 
print(df10)

   0  1  2  3
0  1  0  0  0
1  0  1  0  0
2  0  0  1  0
3  0  0  0  1


In [59]:
df9['target']=df9['target'].astype(str)
df11 = pd.get_dummies(df9['target'],drop_first=True)#get_dummies를 사용할때 drop_first=True옵션을 사용 ##더미 변수 생성 시 첫 번째 카테고리를 삭제하는 효과가 있음
print(df11)

   1  2  3
0  0  0  0
1  1  0  0
2  0  1  0
3  0  0  1


In [60]:
df12 = df8
df13 = pd.get_dummies(df12)
df13

Unnamed: 0,age,month_birth,gender_U,gender_female,gender_male,hobby_U,hobby_cooking,hobby_cycling,hobby_reading,target_0,target_1,target_2,target_3
0,42.0,12.0,0,0,1,0,0,0,1,1,0,0,0
1,35.0,3.0,1,0,0,0,1,0,0,0,1,0,0
2,0.0,7.0,0,1,0,0,0,1,0,0,0,1,0
3,0.0,0.0,1,0,0,1,0,0,0,0,0,0,1


In [61]:
#사이킷런을 이용한 원-핫 인코딩
#array 형식으로 출력함
from sklearn.preprocessing import OneHotEncoder
hot_encoder = OneHotEncoder()
y=df7[['target']]
y_hot=hot_encoder.fit_transform(y)
print(y_hot.toarray())

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


In [64]:
#텐서플로를 이용한 원-핫 인코딩
from tensorflow.keras.utils import to_categorical
y_hotec = to_categorical(y)
print(y_hotec)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]
