## 예제 11-3-1  내부 값 변환하기

In [1]:
import numpy as np            ## 다차원 배열을 처리하는 모듈을 사용한다 


In [2]:
from sklearn import preprocessing            ## 머신러닝 중에 전처리용 모듈을 사용한다 

In [3]:
import pandas as pd                         ## 판다스 모듈을 사용한다 

## 이진화 (binarization)

  숫자를 0 과 1로 변환하는 방식 
  
  변환 기준인 값을 threshold에 지정한다

In [6]:
input_data = np.arange(1,10).reshape(3,3)          ## 9개의 원소를 만든 후에 3행 3열로 변환한다 

In [7]:
input_data

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [6]:
type(preprocessing.Binarizer)                        ## 전처리 모듈 중에 바이너리로 변환하는 클래스를 확인한다 

type

In [7]:
data_bin = preprocessing.Binarizer(threshold=2.1).transform(input_data)      ## 임계값을 지정해서 객체를 만든다.
                                                                             ## 다차원 배열을 변경한다. 그러면 임계값을 기준으로
                                                                             ## 작은면 0과 크면 1로 변환한다 

In [8]:
data_bin

array([[0, 0, 1],
       [1, 1, 1],
       [1, 1, 1]])

In [9]:
data_bin_ = preprocessing.Binarizer(threshold=5.1).transform(input_data)   ## 임계값을 키우면 0과 1로 변환되는 원소들이 달라진다. 

In [10]:
data_bin_

array([[0, 0, 0],
       [0, 0, 1],
       [1, 1, 1]])

## 양자화(binning 처리)

### 연속적인 수를 일정한 폭으로 간격을 가지도록 재 정렬

In [11]:
large_counts = [30000,200,8907, 1000789, 2, 80,678,9876,1111,32,44,2222,345,2,45,78]         ## 큰 수와 작은 수를 가진 리스트를 만든다 

In [12]:
a = np.floor(np.log10(large_counts))                   ## 이 리스트를 로그로 변환하고 소수점 이하를 절사한다 

In [13]:
s_a = pd.Series(a)                                    ## 시리즈 객체로 변환한다 

In [14]:
s_a.value_counts()                                    ##  시리즈의 값을 범주화한다 

1.0    5
3.0    4
2.0    3
0.0    2
6.0    1
4.0    1
dtype: int64

### 분위수에  맞도록 분류하기

In [15]:
s_a = pd.Series(large_counts)                                 ##  시리즈로 바로 면환한다 

In [16]:
deciles = s_a.quantile([.1,.2,.3,.4,.5,.6,.7,.8,.9])        ##  분위수로 분류할 수 있다 

In [17]:
deciles

0.1       17.0
0.2       44.0
0.3       61.5
0.4       80.0
0.5      272.5
0.6      678.0
0.7     1666.5
0.8     8907.0
0.9    19938.0
dtype: float64

In [18]:
labels = pd.qcut(large_counts, 10)                     ## 특정 부분으로 분리할 수도 있다. 

In [19]:
labels.categories.values[:2]                           ## ( 는 미포함 ] s포함 관계로 분류된다 

IntervalArray([(1.999, 17.0], (17.0, 44.0]],
              closed='right',
              dtype='interval[float64]')

In [20]:
labels.categories.values[8:10]

IntervalArray([(8907.0, 19938.0], (19938.0, 1000789.0]],
              closed='right',
              dtype='interval[float64]')

In [21]:
labels_F = pd.qcut(large_counts, 10, labels=False)       ## 범주의 순서 값만 처리하기 

In [22]:
labels_F

array([9, 4, 7, 9, 0, 3, 5, 8, 6, 1, 1, 7, 5, 0, 2, 3])

In [23]:
df_si = pd.DataFrame(large_counts, index=labels)            ## 범주형을 행의 인덱스르 지정해서 처리할 수 있다 

In [24]:
df_si.head()

Unnamed: 0,0
"(19938.0, 1000789.0]",30000
"(80.0, 272.5]",200
"(1666.5, 8907.0]",8907
"(19938.0, 1000789.0]",1000789
"(1.999, 17.0]",2


## 피처 스케일링(feature scaleing)

### 평균값 크기 조정 

  특징 벡터 값들이 0을 준심으로 분포하게 만들 때 사용

In [25]:
input_data.mean()              ## 앞에서 정의한 배열의 평균을 구한다 

5.0

In [26]:
input_data.mean(axis=0)           ## 앞에서 정의한 배열의 열에 대한 평균을 구한다 

array([4., 5., 6.])

In [27]:
input_data.std(axis=0)                              ## 앞에서 정의한 배열의 열에 대한 표준편차를 구한다 

array([2.44948974, 2.44948974, 2.44948974])

In [28]:
type(preprocessing.scale)            ## 전처리를 수행할 scale 함수를 확인한다 

function

In [29]:
data = preprocessing.scale(input_data)                     ##  평균0 과 표준편차 1로 스케일 조정을 한다  

In [30]:
data

array([[-1.22474487, -1.22474487, -1.22474487],
       [ 0.        ,  0.        ,  0.        ],
       [ 1.22474487,  1.22474487,  1.22474487]])

In [31]:
data.mean(axis=0)

array([0., 0., 0.])

In [32]:
data.std(axis=0)

array([1., 1., 1.])

###  최소 최대값 크기 조정(Scaling)

특징 벡터의 각 요소에 대한 값으 범위가 일정하지 않다. 

모든 특징을 동일 선상에서 비교할 수 있도록 특징에 대한 값의 범위를 일정한 기준오로 조정

feature_range(min, max)

In [33]:
type(preprocessing.MinMaxScaler)                ## 최소 및 최대값 조정하는 클래스를 확인한다 

type

In [34]:
data_minmax = preprocessing.MinMaxScaler(feature_range=(0,1)).fit_transform(input_data)   ##  갑의 범위를 지정하고 객체를 만든다. 
                                                                                          ##  입력데이터를 받고 변환한다 

In [35]:
data_minmax

array([[0. , 0. , 0. ],
       [0.5, 0.5, 0.5],
       [1. , 1. , 1. ]])

In [36]:
data_minmax_ = preprocessing.MinMaxScaler(feature_range=(0,3)).fit_transform(input_data)   ##  갑의 범위를 지정하고 객체를 만든다. 
                                                                                          ##  입력데이터를 받고 변환한다 

In [37]:
data_minmax_

array([[0. , 0. , 0. ],
       [1.5, 1.5, 1.5],
       [3. , 3. , 3. ]])

### 표준화 처리하기

In [8]:
data_standard_ = preprocessing.StandardScaler().fit_transform(input_data)  ##  평균과 표준편차에 에 맞도록 변환된다 
                                                                           

In [9]:
data_standard_ 

array([[-1.22474487, -1.22474487, -1.22474487],
       [ 0.        ,  0.        ,  0.        ],
       [ 1.22474487,  1.22474487,  1.22474487]])

In [10]:
data_standard_ .mean(), data_standard_.std()

(2.4671622769447922e-17, 1.0)

### 정규화 크기 조정

   특징 벡터의 값을 일정한 기준으로 측정하려면 정규화 처리
    
    대표전이 정규화 기법은 총 합이 1이 되도록 값을 조정하는 방법 
    
    L1 정규화 : 최소 절대편차는 각 행의 절대값의 합이 1
    L2 정규화 : 최소제곱곱 제곱의 합이 1

In [38]:
data_normal_l1 = preprocessing.normalize(input_data, norm="l1")   ## 벡터의 크기에 맞춰 정규화하기 

In [39]:
data_normal_l1

array([[0.16666667, 0.33333333, 0.5       ],
       [0.26666667, 0.33333333, 0.4       ],
       [0.29166667, 0.33333333, 0.375     ]])

In [40]:
data_normal_l2 = preprocessing.normalize(input_data, norm="l2")   ## 벡터의 크기에 맞춰 정규화하기 

In [41]:
data_normal_l2 

array([[0.26726124, 0.53452248, 0.80178373],
       [0.45584231, 0.56980288, 0.68376346],
       [0.50257071, 0.57436653, 0.64616234]])

### 함수를 정의해서 변환하기

In [14]:
data_function = preprocessing.FunctionTransformer(lambda x : x + 10, validate=True).transform(input_data)
                                                                                ## 함수를 정의하고 이를 기준으로 값을 변환하기 

In [15]:
data_function

array([[11, 12, 13],
       [14, 15, 16],
       [17, 18, 19]])

## 레이블 인코딩

    특정 문자들을 숫자로 변형해서 처리

In [42]:
input_labels = ["red", "black", "green"]            ## 문자열 리스트를 지정한다 

In [43]:
encoder = preprocessing.LabelEncoder()              ## 문자열을 특정 숫자로 변환하는 클래스로 객체를 만든다 

In [45]:
encoder.fit(input_labels)                           

LabelEncoder()

In [46]:
encoder.transform(input_labels)                    ## 변환을 시키면 3개의 문자열에 해당되는 인덱스 번호가 부여된다 

array([2, 0, 1])

In [4]:
a = np.array(['a', 'b', 'c', 'a', 'b', 'c'])

In [5]:
np.unique(a)

array(['a', 'b', 'c'], dtype='<U1')

In [7]:
b = pd.get_dummies(a)                              ## 하나의 배열을 판다스의 함수도도 변환이 가능하다 

In [8]:
b

Unnamed: 0,a,b,c
0,1,0,0
1,0,1,0
2,0,0,1
3,1,0,0
4,0,1,0
5,0,0,1


## 예제 11-3-2  비정형 값을 변환하기


## 배열값을 분리하기

In [47]:
d = { 0  : [10, 23, 29, 33, 37, 40, 16 ],
      1  : [9, 13, 21, 25, 32, 42, 2 ],
      2  : [11, 16, 19, 21, 27, 31, 30 ],
      3  : [14, 27, 30, 31, 40, 42, 2 ],
      4  : [16, 24, 29, 40, 41, 42, 3 ] }

In [48]:
s = pd.Series(d)
df = pd.DataFrame(s)

In [49]:
df

Unnamed: 0,0
0,"[10, 23, 29, 33, 37, 40, 16]"
1,"[9, 13, 21, 25, 32, 42, 2]"
2,"[11, 16, 19, 21, 27, 31, 30]"
3,"[14, 27, 30, 31, 40, 42, 2]"
4,"[16, 24, 29, 40, 41, 42, 3]"


In [50]:
df_explode = df[0].apply(pd.Series)            ## 배열의 값을 Series 클래스로 분리가 가능하다. 

In [51]:
df_explode

Unnamed: 0,0,1,2,3,4,5,6
0,10,23,29,33,37,40,16
1,9,13,21,25,32,42,2
2,11,16,19,21,27,31,30
3,14,27,30,31,40,42,2
4,16,24,29,40,41,42,3


In [52]:
df.apply(lambda x:x[0], axis=1, result_type="expand")         ## 람바 함수를 정의해서 리스트를 확장한다 

Unnamed: 0,0,1,2,3,4,5,6
0,10,23,29,33,37,40,16
1,9,13,21,25,32,42,2
2,11,16,19,21,27,31,30
3,14,27,30,31,40,42,2
4,16,24,29,40,41,42,3


In [53]:
ds = pd.DataFrame.from_dict({'a':["[1,2,3]"]})                  ## 문자열 값으로 리스트를 넣고 데이터 프레임 객체를 만든다 

In [54]:
ds['a'] = ds['a'].str.replace("[","")                        ## 시리즈에 str 객체를 사용해서 괄호를 없앴다 

In [55]:
ds['a'] = ds['a'].str.replace("]","")

In [56]:
ds

Unnamed: 0,a
0,123


In [57]:
ds.dtypes

a    object
dtype: object

In [59]:
ds['a'].str.split(',')                                ##  이 문자열을 쉼표로 분리하면 다시 리스트 객체로 변환된다 

0    [1, 2, 3]
Name: a, dtype: object

In [58]:
ds['a'].str.split(',').apply(pd.Series)            ##  다시 apply 함수내에 Series를 전달해서 리스트를 열로 변환한다 

Unnamed: 0,0,1,2
0,1,2,3
