# Data 전처리(Data Preprocessing)란

-   데이터 분석이나 머신러닝 모델에 적합한 형태로 데이터셋을 변환 또는 조정하는 과정을 말한다.
-   데이터 분석, 머신러닝 모델링 전에 수행하는 작업이다.
-   Garbage in, Garbage out.
    -   좋은 dataset으로 학습 해야 좋은 예측 결과를 만드는 모델을 학습할 수 있다.
    -   좋은 train dataset을 만드는 것은 모델의 성능에 가장 큰 영향을 준다.
-   Data 전처리에는 다음과 같은 작업이 있다.
    -   **Data Cleaning (데이터 정제)**
        -   데이터셋에 있는 오류값, 불필요한 값, 결측치, 중복값 등을 제거하는 작업
    -   컬럼 선택 및 파생변수 생성
        -   컬럼들 중 분석에 필요한 컬럼들만 선택하거나 기존 컬럼들을 계산한 결과값을 가지는 파생변수를 생성한다.
    -   Feature의 데이터 타입 변환
        -   문자열을 날짜 타입으로 변환, 범주형을 수치형으로 변환등과 같이 원래 데이터의 형식에 맞게 변환하는 작업.
    -   수치형 데이터 Feature Scaling
        -   수치형 컬럼들의 scale(척도) 를 맞춰 주는 작업.
    -   범주형 데이터 인코딩
        -   문자열 형태로 되어있는 범주형 데이터를 숫자 형태로 변경하는 작업.

# 결측치(Missing Value) 처리

-   결측치(Missing Value)
    -   수집하지 못한 값. 모르는 값. 없는 값
    -   결측치 값은 `NA, NaN, None, null` 로 표현한다. (언어마다 차이가 있다.)
-   결측치는 데이터 분석이나 머신러닝 모델링 전의 데이터 전처리 과정에서 처리해줘야 한다.

### 결측치 처리 방법

결측치를 처리하기 전에 **"이 값이 기록되지 않아서 누락된 것인가, 아니면 존재하지 않아서 누락된 것인가?"** 를 확인해야 한다.  
존재하지 않아서 누락된 값이라면 이것은 어떤 값일까 추측할 필요 없이 결측치로 유지하면 되지만  
값이 기록되지 않아서(수집하지 못해서) 누락된 경우는 해당 열과 행의 다른 값을 기반으로 값이 무엇이었을지 추측해 볼 수 있다

1. #### 결측치 삭제(Complete Case Analysis):

-   리스트와이즈 삭제(Listwise Deletion)
    -   결측치가 있는 행들을 삭제한다.
    -   수집한 데이터도 같이 삭제되는 단점이 있다.
    -   데이터가 충분히 크고 결측치가 많지 않을 때 적합하다.
-   컬럼 삭제 (Drop column)
    -   컬럼자체에 결측차가 너무 많을 경우 컬럼을 제거할 수도 있다.
-   페어와이즈 삭제(Pairwise deletion)
    -   분석에 필요한 특정 컬럼들에 대해서만 결측치를 제거하고 분석한다.
    -   전체 데이터셋에서 결측치를 제거하지 않기 때문에 데이터 손실을 최소화 하는 장점이 있다.
    -   모든 분석에 사용될 수 없고 상관관계 분석 처럼 컬럼들간의 관계등을 분석하는 경우 유용할 수있다.
    -   선택된 컬럼마다 결측치의 개수와 결측치의 위치(다 다른 행에 결측치가 있으므로)가 다르므로 일관성 있는 분석이 안된다.
    -   머신러닝 학습에는 사용할 수없다.

In [1]:
import pandas as pd
import numpy as np
data = {
    "name" : ['건호','주훈','제임스','성현','마틴'],
    "age"  : [23, 18, 20, 25, np.nan],
    "weight" : [np.nan, 70, np.nan, 65, 73]
}
df = pd.DataFrame(data)
df

Unnamed: 0,name,age,weight
0,건호,23.0,
1,주훈,18.0,70.0
2,제임스,20.0,
3,성현,25.0,65.0
4,마틴,,73.0


In [2]:
# 결측치 확인 - 전체
df.isna().sum() # 컬럼별 결측치 개수

name      0
age       1
weight    2
dtype: int64

In [3]:
df.isna().sum(axis=1) # 행별로 결측치 개수

0    1
1    0
2    1
3    0
4    1
dtype: int64

In [4]:
# 결측치 확인 - Series
df['name'].isna().sum()

np.int64(0)

In [5]:
# 조회한 원소가 결측치 인지
pd.isna(df.loc[2,'weight']) # isna() 함수: arg  값이 결측치인지
pd.isna(None)
pd.isna(np.nan)

True

In [6]:
# 제거 - 행단위(리스트와이즈)
df.dropna() # axis = 0

Unnamed: 0,name,age,weight
1,주훈,18.0,70.0
3,성현,25.0,65.0


In [7]:
# 컬럼단위
df.dropna(axis=1)

Unnamed: 0,name
0,건호
1,주훈
2,제임스
3,성현
4,마틴


In [8]:
## pair wise 삭제 - 나이와 몸무게간의 상관관계를 분석.
### 상관관계를 분석 결과 : 상관계수. -1 ~ +1 사이의 실수.
###  양수(0 ~ 1): 양의 상관관계. 비례 관계.
###  음수(0 ~ -1): 음의 상관관계. 반비례 관계
###  0 : 관계가 없다. 

df[['age','weight']].dropna().corr()

Unnamed: 0,age,weight
age,1.0,-1.0
weight,-1.0,1.0


In [9]:
df

Unnamed: 0,name,age,weight
0,건호,23.0,
1,주훈,18.0,70.0
2,제임스,20.0,
3,성현,25.0,65.0
4,마틴,,73.0


#### 2. 결측치 대체(imputation)

결측치가 수집하지 못해 누락된 경우 그 값일 가능성이 가장 높은 값으로 대체할 수 있다.  
대체할 값으로 일정한 값을 사용하는 경우와 분석을 통해 찾는 방법이 있다.

-   **평균/중앙값/최빈값 대체**
    -   수치형 변수의 경우 평균이나 중앙값으로, 범주형 변수의 경우 최빈값으로 결측치를 대체한다.
    -   **평균으로 대체** - 수치형 컬럼으로 outlier(극단치)의 영향을 받지 않는 모델이거나 컬럼의 데이터들이 **정규 분포를 따르거나 outlier(극단치)가 없는 경우** 적합.
    -   **중앙값으로 대체**
        -   수치형 컬럼으로 outlier(극단치)가 존재하거나 데이터 분포가 비대칭인 컬럼의 결측치 대체에 적합.
        -   보통 평균보다 중앙값을 사용한다.
    -   **최빈값으로 대체**
        -   범주형 컬럼의 경우 대푯값인 최빈값으로 대체한다.
    
-   **모델링 기반 대체**
    -   결측치가 있는 컬럼을 output(종속변수)으로 결측치가 없는 행들(독립변수)을 input으로 하여 결측치를 예측하는 모델을 정의한다.
    -   **K-최근접 이웃(K-NN) 대체**
        -   결측치가 있는 데이터 포인트와 가장 가까운 K개의 데이터 포인트를 찾아, 그 값들의 평균(수치형 데이터)이나 최빈값(범주형 데이터)으로 결측치를 대체한다.
-   **결측치를 표현하는 값으로 대체**
    -   예를 들어 나이컬럼의 nan을 -1, 혈액형의 nan을 "없음" 등과 같이 그 컬럼이 가질 수없는 값을 nan 대신 사용한다.
-   #### 다중 대체 (multiple imputation)
    -   여러 방식으로 결측치를 대체한 데이터셋을 만든다. 각 데이터셋마다 분석하고 추론한 뒤 그 결과들을 합쳐서 최종 결론을 낸다.

In [10]:
import pandas as pd
import numpy as np

df = pd.DataFrame([
        [1, 2, np.nan],
        [3, 4, 3], 
        [np.nan, 6, 5],
        [8, np.nan, 7],
        [1, 2, 5],
        [np.nan, 1, 7]
    ], columns=['A', 'B', 'C']
)
org = df.copy()

In [11]:
# 전체 NA를 100으로 대체
df.fillna(100)

Unnamed: 0,A,B,C
0,1.0,2.0,100.0
1,3.0,4.0,3.0
2,100.0,6.0,5.0
3,8.0,100.0,7.0
4,1.0,2.0,5.0
5,100.0,1.0,7.0


In [12]:
# 컬럼별(속성) 처리.
## 평균 대체
df['A'] = df['A'].fillna(df['A'].mean())

In [13]:
### 중앙값
df['B'] = df['B'].fillna(df['B'].median())

In [14]:
### 최빈값(범주형)
df['C'] = df['C'].fillna(df['C'].mode()[0]) # mode(): Series를 반환

In [15]:
df

Unnamed: 0,A,B,C
0,1.0,2.0,5.0
1,3.0,4.0,3.0
2,3.25,6.0,5.0
3,8.0,2.0,7.0
4,1.0,2.0,5.0
5,3.25,1.0,7.0


In [16]:
# scikit-learn 패키지를 이용해서 전처리
# !pip install scikit-learn
from sklearn.impute import SimpleImputer

df = org.copy()
# 객체 생성 -> 어떤값으로 변경할지를 설정
imputer = SimpleImputer(strategy='median')
# strategy="median": 중앙값, "mean": 평균, "most_frequent": 최빈값, "constant": 상수(fill_value=채울값)
result = imputer.fit_transform(df)
# imputer.fit(df) # 컬럼별로 변환할 값들을 계산.
# result = imputer.transform(df) # fit()에서 찾은 값으로 대체.
# 변환. axis=0 기준으로 strategy 연산한 값으로 결측치를 대체함. 처리결과: ndarray(numpy)
result

array([[1., 2., 5.],
       [3., 4., 3.],
       [2., 6., 5.],
       [8., 2., 7.],
       [1., 2., 5.],
       [2., 1., 7.]])

In [17]:
result_df = pd.DataFrame(result, columns=df.columns)
result_df

Unnamed: 0,A,B,C
0,1.0,2.0,5.0
1,3.0,4.0,3.0
2,2.0,6.0,5.0
3,8.0,2.0,7.0
4,1.0,2.0,5.0
5,2.0,1.0,7.0


In [18]:
df = org.copy()
# "A", "B": 중앙값, "C": 평균
imputer1 = SimpleImputer(strategy='median')
imputer2 = SimpleImputer(strategy='mean')
# fit(): 변환할 때 필요한 값들을 찾아서 instance변수에 저장. (컬럼별 평균, 중앙값)
# transform(): 변환 작업
# fit_transform() : fit(), transform()을 순서대로 한번에 처리.
result1 = imputer1.fit_transform(df[['A','B']])
result2 = imputer2.fit_transform(df['C'].to_frame())  #변환대상은 행/열의 2차원으로 입력해야한다. (6, ) -> (6, 1)

result_df = pd.concat([pd.DataFrame(result1), pd.DataFrame(result2)], axis=1)
result_df.columns = df.columns
result_df

Unnamed: 0,A,B,C
0,1.0,2.0,5.4
1,3.0,4.0,3.0
2,2.0,6.0,5.0
3,8.0,2.0,7.0
4,1.0,2.0,5.0
5,2.0,1.0,7.0


In [19]:
df['C'].to_frame()  #Series.to_frame(): Series를 DataFrame으로 변환. (1차원->2차원)

Unnamed: 0,C
0,
1,3.0
2,5.0
3,7.0
4,5.0
5,7.0


In [20]:
df['C'].shape # 시리즈
df['C'].to_frame().shape # 데이터프레임

(6, 1)

In [21]:
df.C

0    NaN
1    3.0
2    5.0
3    7.0
4    5.0
5    7.0
Name: C, dtype: float64

In [22]:
# KNNImputer  이용해 결측치를 대체
## K-NN 알고리즘을 이용 (K 최근접(Nearest) 이웃(Neighbors))
from sklearn.impute import KNNImputer

df = org.copy()
df

Unnamed: 0,A,B,C
0,1.0,2.0,
1,3.0,4.0,3.0
2,,6.0,5.0
3,8.0,,7.0
4,1.0,2.0,5.0
5,,1.0,7.0


In [23]:
imputer = KNNImputer(n_neighbors=3) # 가장 가까운값 몇개(1)를 이용해서 결측치를 찾을지.
result = imputer.fit_transform(df)
result_df = pd.DataFrame(result, columns=df.columns)
result_df

Unnamed: 0,A,B,C
0,1.0,2.0,5.0
1,3.0,4.0,3.0
2,4.0,6.0,5.0
3,8.0,3.666667,7.0
4,1.0,2.0,5.0
5,3.333333,1.0,7.0


# 이상치(Outlier) 처리

-   데이터 집합에서 다른 관측치들과 크게 다른 값을 가지는 데이터 포인트를 말한다.
    -   잘못된 값이나 극단치가 있다.
-   이상치가 생기는 원인은 데이터 수집과정에서의 문제, 측정 오류, 극단적 변이가 반영된 값(엄청 튀는 값)이 수집된 경우 등이 있다.
-   이상치는 이상치들은 일반적인 경향에서 벗어난 값이므로 **정확하게 식별하고 처리하는 것이 분석의 정확성과 신뢰성을 높이는데 중요하다.**

## 분포에서 벗어난 이상치(Outlier) 식별

-   통계적 기준과 도메인 기준이 있다.

### 통계적 기준

-   **표준편차 기준**
    -   데이터가 **정규분포**를 따른다고 가정할 때 평균으로 부터 _k_ 표준편차 범위 밖으로 떨어진 데이터 포인트를 outlier 로 판단한다.

\begin{align}
&정상범위\,값: \mu - k \times \sigma \ \leq value \leq \mu + k \times \sigma \\
&\mu: 평균,\, \sigma: 표준편차
\end{align}

-   **분위수 기준**
    -   IQR(Inter quantile Range) 을 이용해 Outlier 여부를 찾는다.
    -   1분위, 3분위 에서 IQR \* 1.5 보다 더 떨어진 값을 outlier로 판단한다. 단 정상 범위를 조정하려고 할때는 1.5값을 변경할 수 있다.

\begin{align}
&IQR = 3분위 - 1분위 \\
&정상범위\,값:  (1분위 - 1.5\times IQR) \leq value \leq  (3분위 + 1.5\times IQR)
\end{align}

-   **극단치(분포에서 벗어난 값)**
    -   정상적이 값이지만 다른 값들과 다른 패턴을 가지는 값.
    -   일반적으로 극단적으로 크거나 작은 값
    -   처리
        1. 제거한다.
            - 결측치로 제거 하거나 데이터 포인트(행)으로 대체한다.
            - outlier가 분석 결과에 부정적 영항을 미치는 경우.
            - outlier값이 대상 집단을 대표하지 않는다고 판단할 경우 .
            - 명확히 잘못수집 된 오류값일 경우
        1. 윈저화 (Winsorization)
            - 최소값과 최대값을 정해 놓고 그 범위를 넘어서는 작은 값은 최소값으로 범위를 넘어선 큰 값은 최대값으로 대체한다.
        1. 대체 (Imputation)
            - 평균, 중앙값, 최빈값 등으로 대체한다.


In [24]:
import pandas as pd
import numpy as np
np.random.seed(0)
### np.random.normal(10, 2, size=(10, 3))  
# 평균:10, 표준편차:2 기준의 정규분포를 따르는 난수를 생성. 10행, 3열 형태로 생성.
df = pd.DataFrame(np.random.normal(10, 2, size=(10, 3)), columns=['a', 'b', 'c'])
df.iloc[[0, 3], [0, 2]] = [[100, 200],[300,-100]]
df

Unnamed: 0,a,b,c
0,100.0,10.800314,200.0
1,14.481786,13.735116,8.045444
2,11.900177,9.697286,9.793562
3,300.0,10.288087,-100.0
4,11.522075,10.24335,10.887726
5,10.667349,12.988158,9.589683
6,10.626135,8.291809,4.89402
7,11.307237,11.728872,8.51567
8,14.539509,7.091269,10.091517
9,9.625632,13.065558,12.938718


In [25]:
# 4 분위수 기준으로 outlier를 찾기(식별)
## 1분위(100분위기준 25분위), 3분위(100분위 기준 75분위) 계산.
q1, q3 = df['a'].quantile(q=[0.25, 0.75])  # 시리즈 대입
iqr = q3 - q1 # IQR: 1분위 ~ 3분위 간격 크기. (3분위수 - 1분위수)
iqr *= 1.5
#정상: q1 - iqr *1.5 <= v <= q3 + iqr*1.5
df['a'][~df['a'].between(q1 - iqr, q3 + iqr)]  # outlier값 조회

0    100.0
3    300.0
Name: a, dtype: float64

In [26]:
# outlier 계산 함수
def is_outlier(column, whis=1.5):
    # whis (whisker) : 정상범위를 조정하는 값. 기본값 1.5. 범위를 넓힐 경우 더 큰값.
    # 1, 3분위수 계산
    q1, q3 = column.quantile(q=[0.25,0.75])
    iqr = (q3 - q1) * whis # IQR의 whis 배 한 값
    # 원소별로 outlier인지 체크
    return ~column.between(q1 - iqr, q3 + iqr) # ~: not

In [27]:
is_outlier(df['a'])

0     True
1    False
2    False
3     True
4    False
5    False
6    False
7    False
8    False
9    False
Name: a, dtype: bool

In [28]:
result = df.apply(is_outlier)
result

Unnamed: 0,a,b,c
0,True,False,True
1,False,False,False
2,False,False,False
3,True,False,True
4,False,False,False
5,False,False,False
6,False,False,False
7,False,False,False
8,False,False,False
9,False,False,False


In [29]:
result.sum()

a    2
b    0
c    2
dtype: int64

# Feature 타입 별 전처리

## Feature(변수)의 타입

-   **범주형(Categorical) 변수**
    -   범주를 구분하는 이름을 가지는 변수.
        -   **범주(範疇)** 의미: 동일한 성질을 가진 부류나 범위
        -   각 값 사이에 값이 없는 이산적 특징을 가진다.
        -   값이 될 수있는 값들이 정해져 있다.
    -   **명목(Norminal) 변수/비서열(Unordered) 변수**
        -   범주에 속한 값간에 서열(순위)가 없는 변수
        -   성별, 혈액형, 지역
    -   **순위(Ordinal) 변수/서열(Ordered) 변수**
        -   범주에 속한 값 간에 서열(순위)가 있는 변수
        -   성적, 직급, 만족도
-   **수치형(Numeric) 변수**
    -   수량을 표현하는 값들을 가지는 변수.
    -   **이산형(Discrete) 변수**
        -   수치를 표현하지만 소수점의 형태로 표현되지 못하는 데이터. 정수형 값들을 가진다.
        -   예) 하루 방문 고객수, 가격(원화), 물건의 개수
    -   **연속형(Continuous) 변수**
        -   수치를 표현하며 소수점으로 표현가능한 데이터. 실수형 값들을 가진다.
        -   예) 키, 몸무게, 시간

> -   실수형 데이터로 구성된 Feature는 수치형 값이다.
> -   문자열 데이터로 구성된 Feature는 단순 문자열값이거나 범주형 값이다.
> -   정수형 데이터로 구성된 Feature는 범주형이거나 수치형 값이다.
>     -   몇개의 고유값으로 구성되었는지를 봐야 한다. 또는 평균의 의미를 확인해 본다. 평균이 그 feature를 표현하는 값이면 수치형 아니면 범주형.

# 범주형 데이터 전처리

-   Scikit-learn의 머신러닝 API들은 Feature나 Label의 값들이 숫자(정수/실수)인 것만 처리할 수 있다.
-   문자열(str)일 경우 숫자 형으로 변환해야 한다.
    -   **범주형 변수의 경우** 전처리를 통해 정수값으로 변환한다.
    -   범주형이 아닌 **단순 문자열인** 경우 일반적으로 제거한다.

## 범주형 Feature의 처리

-   Label Encoding
-   One-Hot Encoding

## 레이블 인코딩(Label encoding)

-   범주형 Feature의 고유값들 오름차순 정렬 후 0 부터 1씩 증가하는 값으로 변환
-   **숫자의 크기의 차이가 모델에 영향을 주지 않는 트리 계열 모델(의사결정나무, 랜덤포레스트)에 적용한다.**
-   **숫자의 크기의 차이가 모델에 영향을 미치는 선형 계열 모델(로지스틱회귀, SVM, 신경망)에는 사용하면 안된다.**
-   **sklearn.preprocessing.LabelEncoder** 사용
    -   fit(): 어떻게 변환할 지 학습
    -   transform(): 문자열를 숫자로 변환
    -   fit_transform(): 학습과 변환을 한번에 처리
    -   inverse_transform():숫자를 문자열로 변환
    -   classes\_ : 인코딩한 클래스 조회

In [30]:
# LabelEncoder를 이용해서 인코딩할 때 입력값은 1차원 자료구조
items = ['TV', '냉장고', '컴퓨터', '컴퓨터', '냉장고', '에어컨',  'TV', '에어컨']

In [31]:
import numpy as np
from sklearn.preprocessing import LabelEncoder

# LabelEncoder의 instance 생성
le = LabelEncoder()
# 학습(fit()) -> 각 고유값들을 찾고 그 고유값을 어떤 정수로 바꿀지 계산.
le.fit(items)
# 변환(transform()) -> 학습 결과에 맞춰서 값들을 변환
result1 = le.transform(items)  # 처리결과: ndarray(numpy 자료구조)
print(result1)

[0 1 3 3 1 2 0 2]


In [32]:
# 어떻게 변환했는지 fit(학습)한 결과를 조회.
print(le.classes_)  # 값: 고유값, index: encoding 값

['TV' '냉장고' '에어컨' '컴퓨터']


In [33]:
le.classes_[result1]

array(['TV', '냉장고', '컴퓨터', '컴퓨터', '냉장고', '에어컨', 'TV', '에어컨'], dtype='<U3')

In [34]:
# fit 대상과 transform 대상이 동일한 경우. -> fit_transform() 한번에 변환.
le2 = LabelEncoder()
result2 = le2.fit_transform(items)
result2

array([0, 1, 3, 3, 1, 2, 0, 2])

In [35]:
# encoding된 것을 decoding (정수 -> 원래 범주값)
le2.inverse_transform([1, 1, 1, 2, 2 ])

array(['냉장고', '냉장고', '냉장고', '에어컨', '에어컨'], dtype='<U3')

In [36]:
# 학습대상과 변환대상이 다른 경우
le3 = LabelEncoder()
le3.fit(['TV', '에어컨', '컴퓨터', '냉장고', '공기청정기' ,'청소기'])
le3.classes_

array(['TV', '공기청정기', '냉장고', '에어컨', '청소기', '컴퓨터'], dtype='<U5')

In [37]:
le3.transform(items)

array([0, 2, 5, 5, 2, 3, 0, 3])

### adult data 에 label encoding 적용

-   Adult 데이터셋은 1994년 인구조사 데이터 베이스에서 추출한 미국 성인의 소득 데이터셋.
-   target 은 income 이며 수입이 $50,000 이하인지 초과인지 두개의 class를 가진다.
-   https://archive.ics.uci.edu/ml/datasets/adult

##### 데이터 로딩

In [38]:
cols = ['age', 'workclass','fnlwgt','education', 'education-num', 'marital-status', 'occupation','relationship', 'race', 'gender','capital-gain','capital-loss', 'hours-per-week','native-country', 'income']

In [39]:
import pandas as pd

data = pd.read_csv('data/adult.data',
                    header = None,   # 컬럼 명이 없다. 첫 번째 줄 부터 데이터 행
                    names = cols,    # 컬럼명 설정
                    na_values='?',
                    skipinitialspace=True  # , 다음의 공백을 제거. (첫번째 글자가 공백이면 무시)
)

data.shape

(32561, 15)

In [40]:
data.isna().sum()

age                  0
workclass         1836
fnlwgt               0
education            0
education-num        0
marital-status       0
occupation        1843
relationship         0
race                 0
gender               0
capital-gain         0
capital-loss         0
hours-per-week       0
native-country     583
income               0
dtype: int64

In [41]:
data.dropna(inplace=True)
data.isna().sum()

age               0
workclass         0
fnlwgt            0
education         0
education-num     0
marital-status    0
occupation        0
relationship      0
race              0
gender            0
capital-gain      0
capital-loss      0
hours-per-week    0
native-country    0
income            0
dtype: int64

In [42]:
data.to_csv('data/adult_dropna.csv')

In [43]:
import pandas as pd
data = pd.read_csv('data/adult_dropna.csv', index_col=0)
data.shape

(30162, 15)

In [44]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 30162 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             30162 non-null  int64 
 1   workclass       30162 non-null  object
 2   fnlwgt          30162 non-null  int64 
 3   education       30162 non-null  object
 4   education-num   30162 non-null  int64 
 5   marital-status  30162 non-null  object
 6   occupation      30162 non-null  object
 7   relationship    30162 non-null  object
 8   race            30162 non-null  object
 9   gender          30162 non-null  object
 10  capital-gain    30162 non-null  int64 
 11  capital-loss    30162 non-null  int64 
 12  hours-per-week  30162 non-null  int64 
 13  native-country  30162 non-null  object
 14  income          30162 non-null  object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


### adult dataset - 레이블 인코딩 처리

-   범주형: 'workclass','education', 'marital-status', 'occupation','relationship', 'race', 'gender','native-country', 'income'
-   연속형: 'age', fnlwgt', 'education-num', 'capital-gain', 'capital-loss', 'hours-per-week'

**encoding_columns 컬럼들은 Label Encoding 처리,**  
**not_encoding_columns 컬럼들의 값들은 그대로 유지.**

encoding_columns의 값들은 LabelEncoding 된 값으로 not_encoding_columns의 값들은 원래값 그대로 구성된 DataFrame을 생성해서 반환한다.

> 주의: LabelEncoding은 Feature(컬럼) 별로 처리해야 한다. 한번에 여러컬럼을 하나의 LabelEncoder로 처리할 수 없다.

In [45]:
encoding_columns = ['workclass','education','marital-status', 'occupation','relationship','race','gender','native-country', 'income']
not_encoding_columns = ['age','fnlwgt', 'education-num','capital-gain','capital-loss','hours-per-week']

In [46]:
from sklearn.preprocessing import LabelEncoder

encoder_dict = {}
for col in encoding_columns:
    le = LabelEncoder()
    data[col] = le.fit_transform(data[col]) # data[col] 을 label encoding 한 뒤 그 값들로 변경.
    encoder_dict[col] = le # 학습된 LabelEncoder를 저장

In [47]:
data.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,5,77516,9,13,4,0,1,4,1,2174,0,40,38,0
1,50,4,83311,9,13,2,3,0,4,1,0,0,13,38,0
2,38,2,215646,11,9,0,5,1,4,1,0,0,40,38,0
3,53,2,234721,1,7,2,5,0,2,1,0,0,40,38,0
4,28,2,338409,9,13,2,9,5,2,0,0,0,40,4,0


In [48]:
encoder_dict['workclass'].classes_
encoder_dict['workclass'].inverse_transform([1, 1, 1, 2, 0, 0])

array(['Local-gov', 'Local-gov', 'Local-gov', 'Private', 'Federal-gov',
       'Federal-gov'], dtype=object)

## 원핫 인코딩(One-Hot encoding)

-   N개의 클래스를 N 차원의 One-Hot 벡터로 표현되도록 변환
    -   고유값들을 피처(컬럼)로 만들고 정답에 해당하는 열은 1로 나머진 0으로 표시한다..
-   **숫자의 크기 차이가 모델에 영향을 미치는 선형 계열 모델(로지스틱회귀, SVM, 신경망)에서 범주형 데이터 변환시 Label Encoding보다 One Hot Encoding을 사용한다.**
-   **DecisionTree 계열의 알고리즘은 Feature에 0이 많은 경우(Sparse Matrix라고 한다.) 성능이 떨어지기 때문에 Label Encoding을 한다.**

### One-Hot Encoding 변환 처리

-   **sklearn.preprocessing.OneHotEncoder**
    -   fit(데이터셋): 데이터셋을 기준으로 어떻게 변환할 지 학습
    -   transform(데이터셋): Argument로 받은 데이터셋을 원핫인코딩 처리
    -   fit_transform(데이터셋): 학습과 변환을 한번에 처리
    -   get_feature_names_out() : 원핫인코딩으로 변환된 Feature(컬럼)들의 이름을 반환
    -   **데이터셋은 2차원 배열을 전달 하며 Feature별로 원핫인코딩 처리한다.**
        -   DataFrame도 가능
        -   원핫인코딩 처리시 모든 타입의 값들을 다 변환한다. (연속형 값들도 변환) 그래서 변환려는 변수들만 모아서 처리해야 한다.

> OneHotEncoder객체 생성시 sparse 매개변수의 값을 False로 설정하지 않으면 scipy의 csr_matrix(희소행렬 객체)로 반환.  
> 희소행렬은 대부분 0으로 구성된 행렬과 계산이나 메모리 효율을 이용해 0이 아닌 값의 index만 관리한다.  
> csr_matrix.toarray()로 ndarray로 바꿀수 있다.

In [49]:
import numpy as np
items = [['TV'],['냉장고'],['전자렌지'],['컴퓨터'],['선풍기'],['선풍기'],['믹서'],['믹서']]
print(np.shape(items))
items  # 2차원 입력. 컬럼(axis=0) 단위로 인코딩 처리.


(8, 1)


[['TV'], ['냉장고'], ['전자렌지'], ['컴퓨터'], ['선풍기'], ['선풍기'], ['믹서'], ['믹서']]

In [50]:
from sklearn.preprocessing import OneHotEncoder
# 객체 생성
ohe = OneHotEncoder()
# 학습 - 어떻게 바꿀지
ohe.fit(items)
# 변환
result = ohe.transform(items)

In [51]:
print(type(result))
result

<class 'scipy.sparse._csr.csr_matrix'>


<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 8 stored elements and shape (8, 6)>

In [52]:
print(result)

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 8 stored elements and shape (8, 6)>
  Coords	Values
  (0, 0)	1.0
  (1, 1)	1.0
  (2, 4)	1.0
  (3, 5)	1.0
  (4, 3)	1.0
  (5, 3)	1.0
  (6, 2)	1.0
  (7, 2)	1.0


In [53]:
result[0,0], result[3,2]

(np.float64(1.0), np.float64(0.0))

In [54]:
result.toarray()

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.]])

In [55]:
# one hot encoding된 컬럼이 어떤 class(고유값)을 나타내는 것인지 반환
ohe.get_feature_names_out()

array(['x0_TV', 'x0_냉장고', 'x0_믹서', 'x0_선풍기', 'x0_전자렌지', 'x0_컴퓨터'],
      dtype=object)

In [56]:
## 학습대상과 변환대상이 같은 경우 - fit_transform()
ohe2 = OneHotEncoder(sparse_output=False) # ndarray로 결과를 반환
result2 = ohe2.fit_transform(items)
result2

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.]])

### adult dataset - one-hot encoding 적용

-   **전체 Feature 중 'age', 'workclass','education', 'occupation', 'gender', 'hours-per-week', 'income' 만 사용.**
-   범주형 Feature중 **income은 출력 데이터이므로 Label Encoding 처리**를 한 뒤 y로 뺀다.
-   나머지 범주형Feature들은 One-hot encoding 처리한다.
    -   'workclass','education', 'occupation', 'gender'

##### 데이터 로딩

In [57]:
cols = ['age', 'workclass','fnlwgt','education', 'education-num', 'marital-status', 'occupation','relationship', 'race', 'gender','capital-gain','capital-loss', 'hours-per-week','native-country', 'income']
use_cols =['age', 'workclass','education', 'occupation', 'gender', 'hours-per-week', 'income']

df = pd.read_csv('data/adult.data', 
                    header=None,  
                    names=cols, 
                    na_values='?',
                    skipinitialspace=True
)
# 사용할 컬럼들(use_cols)만 조회해서 DataFrame을 생성.
adult_df = df[use_cols].copy()
adult_df.shape

(32561, 7)

In [58]:
adult_df.isna().sum()

age                  0
workclass         1836
education            0
occupation        1843
gender               0
hours-per-week       0
income               0
dtype: int64

In [59]:
adult_df.isna().mean()

age               0.000000
workclass         0.056386
education         0.000000
occupation        0.056601
gender            0.000000
hours-per-week    0.000000
income            0.000000
dtype: float64

In [60]:
adult_df.dropna(inplace=True)
adult_df.shape

(30718, 7)

In [61]:
# 행이름(index name)이 자동증가 값으로 만들어 진 상태에서 행을 제거한 경우
# 다시 정리해 준다. (자동증가 값으로.)
adult_df.reset_index(drop=True, inplace=True)
adult_df.tail(10)

Unnamed: 0,age,workclass,education,occupation,gender,hours-per-week,income
30708,32,Private,10th,Handlers-cleaners,Male,40,<=50K
30709,43,Private,Assoc-voc,Sales,Male,45,<=50K
30710,32,Private,Masters,Tech-support,Male,11,<=50K
30711,53,Private,Masters,Exec-managerial,Male,40,>50K
30712,22,Private,Some-college,Protective-serv,Male,40,<=50K
30713,27,Private,Assoc-acdm,Tech-support,Female,38,<=50K
30714,40,Private,HS-grad,Machine-op-inspct,Male,40,>50K
30715,58,Private,HS-grad,Adm-clerical,Female,40,<=50K
30716,22,Private,HS-grad,Adm-clerical,Male,20,<=50K
30717,52,Self-emp-inc,HS-grad,Exec-managerial,Female,40,>50K


### encoding 처리

In [62]:
# One Hot Encoding
category_colnames = ['workclass','education', 'occupation', 'gender']
# 유지
continuous_colnames = ['age', 'hours-per-week']
# LabelEncoding
target = 'income'

In [63]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
income_le = LabelEncoder()
adult_df['income'] = income_le.fit_transform(adult_df['income'])

In [64]:
adult_df.head(10)

Unnamed: 0,age,workclass,education,occupation,gender,hours-per-week,income
0,39,State-gov,Bachelors,Adm-clerical,Male,40,0
1,50,Self-emp-not-inc,Bachelors,Exec-managerial,Male,13,0
2,38,Private,HS-grad,Handlers-cleaners,Male,40,0
3,53,Private,11th,Handlers-cleaners,Male,40,0
4,28,Private,Bachelors,Prof-specialty,Female,40,0
5,37,Private,Masters,Exec-managerial,Female,40,0
6,49,Private,9th,Other-service,Female,16,0
7,52,Self-emp-not-inc,HS-grad,Exec-managerial,Male,45,1
8,31,Private,Masters,Prof-specialty,Female,50,1
9,42,Private,Bachelors,Exec-managerial,Male,40,1


In [65]:
ohe = OneHotEncoder()
ohe_result = ohe.fit_transform(adult_df[category_colnames])

In [66]:
ohe_result

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 122872 stored elements and shape (30718, 39)>

In [67]:
ohe.get_feature_names_out()

array(['workclass_Federal-gov', 'workclass_Local-gov',
       'workclass_Private', 'workclass_Self-emp-inc',
       'workclass_Self-emp-not-inc', 'workclass_State-gov',
       'workclass_Without-pay', 'education_10th', 'education_11th',
       'education_12th', 'education_1st-4th', 'education_5th-6th',
       'education_7th-8th', 'education_9th', 'education_Assoc-acdm',
       'education_Assoc-voc', 'education_Bachelors',
       'education_Doctorate', 'education_HS-grad', 'education_Masters',
       'education_Preschool', 'education_Prof-school',
       'education_Some-college', 'occupation_Adm-clerical',
       'occupation_Armed-Forces', 'occupation_Craft-repair',
       'occupation_Exec-managerial', 'occupation_Farming-fishing',
       'occupation_Handlers-cleaners', 'occupation_Machine-op-inspct',
       'occupation_Other-service', 'occupation_Priv-house-serv',
       'occupation_Prof-specialty', 'occupation_Protective-serv',
       'occupation_Sales', 'occupation_Tech-support',
   

In [68]:
# 원핫인코딩한 결과를 DataFrame으로 생성
# 수치형(age, hours_per_wee, item) 과 합치기
ohe_df = pd.DataFrame(ohe_result.toarray(),columns=ohe.get_feature_names_out())
ohe_df

Unnamed: 0,workclass_Federal-gov,workclass_Local-gov,workclass_Private,workclass_Self-emp-inc,workclass_Self-emp-not-inc,workclass_State-gov,workclass_Without-pay,education_10th,education_11th,education_12th,...,occupation_Machine-op-inspct,occupation_Other-service,occupation_Priv-house-serv,occupation_Prof-specialty,occupation_Protective-serv,occupation_Sales,occupation_Tech-support,occupation_Transport-moving,gender_Female,gender_Male
0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
1,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
2,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
3,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
4,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
30713,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0
30714,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
30715,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
30716,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0


In [69]:
result_df = pd.concat([ohe_df, adult_df[['age', 'hours-per-week', 'income']]], axis=1)
result_df.shape

(30718, 42)

In [70]:
result_df.columns

Index(['workclass_Federal-gov', 'workclass_Local-gov', 'workclass_Private',
       'workclass_Self-emp-inc', 'workclass_Self-emp-not-inc',
       'workclass_State-gov', 'workclass_Without-pay', 'education_10th',
       'education_11th', 'education_12th', 'education_1st-4th',
       'education_5th-6th', 'education_7th-8th', 'education_9th',
       'education_Assoc-acdm', 'education_Assoc-voc', 'education_Bachelors',
       'education_Doctorate', 'education_HS-grad', 'education_Masters',
       'education_Preschool', 'education_Prof-school',
       'education_Some-college', 'occupation_Adm-clerical',
       'occupation_Armed-Forces', 'occupation_Craft-repair',
       'occupation_Exec-managerial', 'occupation_Farming-fishing',
       'occupation_Handlers-cleaners', 'occupation_Machine-op-inspct',
       'occupation_Other-service', 'occupation_Priv-house-serv',
       'occupation_Prof-specialty', 'occupation_Protective-serv',
       'occupation_Sales', 'occupation_Tech-support',
       'oc

In [71]:
result_df.head()

Unnamed: 0,workclass_Federal-gov,workclass_Local-gov,workclass_Private,workclass_Self-emp-inc,workclass_Self-emp-not-inc,workclass_State-gov,workclass_Without-pay,education_10th,education_11th,education_12th,...,occupation_Prof-specialty,occupation_Protective-serv,occupation_Sales,occupation_Tech-support,occupation_Transport-moving,gender_Female,gender_Male,age,hours-per-week,income
0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,1.0,39,40,0
1,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,1.0,50,13,0
2,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,1.0,38,40,0
3,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,1.0,53,40,0
4,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,1.0,0.0,0.0,0.0,0.0,1.0,0.0,28,40,0


# 수치형 데이터 전처리

-   연속형 데이터는 변수가 가지는 값들이 연속된 값인 경우로 보통 정해진 범위 안의 모든 실수가 값이 될 수 있다.

## Feature Scaling(정규화)

-   각 피처들간의 값의 범위(척도-Scale)가 다를 경우 이 값의 범위를 일정한 범위로 맞추는 작업
-   트리계열을 제외한 대부분의 머신러닝 알고리즘들이 Feature간의 서로 다른 척도(Scale)에 영향을 받는다.
    -   선형모델, SVM 모델, 신경망 모델
-   **Scaling(정규화)은 train set으로 fitting 한다. test set이나 예측할 새로운 데이터는 train set으로 fitting한 것으로 변환한다.**
    -   Train Set으로 학습한 scaler를 이용해 Train/Validation/Test set들을 변환한다.

### 종류

-   표준화(Standardization) Scaling
    -   StandardScaler 사용
-   Min Max Scaling
    -   MinMaxScaler 사용
  
### 메소드

-   fit(): 어떻게 변환할 지 학습
    -   2차원 배열을 받으면 0축을 기준으로 학습한다. (DataFrame으로는 컬럼기준)
-   transform(): 변환
    -   2차원 배열을 받으며 0축을 기준으로 변환한다. (DataFrame으로는 컬럼기준)
-   fit_transform(): 학습과 변환을 한번에 처리
-   inverse_transform(): 변환된 값을 원래값으로 복원

## 표준화(StandardScaler)

-   피쳐의 값들이 평균이 0이고 표준편차가 1인 범위에 있도록 변환한다.
    -   0을 기준으로 모든 데이터들이 모여있게 된다

\begin{align}
&New\,x_i = \cfrac{X_i-\mu}{\sigma}\\
&\mu-평균,\; \sigma-표준편차
\end{align}

-   **sklearn.preprocessing.StandardScaler** 를 이용

In [72]:
data = np.array([[10], [2], [30]])  # ndarray 생성.
print(data.shape)
data

(3, 1)


array([[10],
       [ 2],
       [30]])

In [73]:
# 평균, 표준편차 계산
m = data.mean()
s = data.std()
print(m,s)

14.0 11.775681155103795


In [74]:
# Standard Scaling
result = (data-m)/s #element-wise 연산
result

array([[-0.33968311],
       [-1.01904933],
       [ 1.35873244]])

In [75]:
print(result.mean(), result.std())

0.0 1.0


In [76]:
from sklearn.preprocessing import StandardScaler
# 객체 생성
s_scaler = StandardScaler()
# 어떻게 변환할지 학습
s_scaler.fit(data)
# 변환
result2 = s_scaler.transform(data)
# result3 = s_scaler.fit_transform(data) # 학습/변환 대상이 같은 경우.
result2


array([[-0.33968311],
       [-1.01904933],
       [ 1.35873244]])

## MinMaxScaler

-   데이터셋의 모든 값을 0(Min value)과 1(Max value) 사이의 값으로 변환한다.
    $$
    New\,x_i = \cfrac{x_i - min(X)}{max(X) - min(X)}
    $$

In [77]:
data = np.array([[10],[2],[30]])
data

array([[10],
       [ 2],
       [30]])

In [78]:
minimum = data.min() # 최소값
maximum = data.max() # 최대값
print(minimum, maximum)

2 30


In [79]:
result = (data - minimum) / (maximum - minimum)
result

array([[0.28571429],
       [0.        ],
       [1.        ]])

In [80]:
from sklearn.preprocessing import MinMaxScaler
# 객체 생성
mm_scaler = MinMaxScaler()
# 학습
mm_scaler.fit(data)
result2 = mm_scaler.transform(data)
result3 = mm_scaler.fit_transform(data) # 학습/변환 대상이  같은 경우
result2

array([[0.28571429],
       [0.        ],
       [1.        ]])

In [81]:
result3

array([[0.28571429],
       [0.        ],
       [1.        ]])

### 위스콘신 유방암 데이터셋으로 Scaling

-   위스콘신 대학교에서 제공한 유방암 진단결과 데이터
    -   https://archive.ics.uci.edu/dataset/15/breast+cancer+wisconsin+original
-   Feature: 종양 측정값들
    -   모든 Feature들은 **연속형(continous)** 이다.
-   target: 악성, 양성 여부
-   scikit-learn 패키지에서 toy dataset으로 제공한다.
    -   load_breast_cancer() 함수 이용

In [82]:
from sklearn.datasets import load_breast_cancer

data = load_breast_cancer()
feature = data['data']     # 속성 - 중앙 검사 기록
target = data['target']    # 타겟 - 악성/양성 종양 여부

In [83]:
feature.shape, target.shape

((569, 30), (569,))

In [84]:
df = pd.DataFrame(feature, columns = data['feature_names'])
df.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


In [85]:
# 컬럼별 평균, 표준편차
df.agg(['mean','std']).T

Unnamed: 0,mean,std
mean radius,14.127292,3.524049
mean texture,19.289649,4.301036
mean perimeter,91.969033,24.298981
mean area,654.889104,351.914129
mean smoothness,0.09636,0.014064
mean compactness,0.104341,0.052813
mean concavity,0.088799,0.07972
mean concave points,0.048919,0.038803
mean symmetry,0.181162,0.027414
mean fractal dimension,0.062798,0.00706


In [87]:
# Standard Scaling (평균: 0, 표준편차: 1)
scaler = StandardScaler()
result = scaler.fit_transform(df)
result_df = pd.DataFrame(result, columns = data['feature_names'])


In [88]:
result_df.agg(['mean','std']).T

Unnamed: 0,mean,std
mean radius,-3.153111e-15,1.00088
mean texture,-6.568462e-15,1.00088
mean perimeter,-6.993039e-16,1.00088
mean area,-8.553985e-16,1.00088
mean smoothness,6.081447e-15,1.00088
mean compactness,-1.136369e-15,1.00088
mean concavity,-2.997017e-16,1.00088
mean concave points,1.023981e-15,1.00088
mean symmetry,-1.860648e-15,1.00088
mean fractal dimension,-1.504752e-15,1.00088


In [89]:
#### MinMax Scaling
df.agg(['min','max']).T

Unnamed: 0,min,max
mean radius,6.981,28.11
mean texture,9.71,39.28
mean perimeter,43.79,188.5
mean area,143.5,2501.0
mean smoothness,0.05263,0.1634
mean compactness,0.01938,0.3454
mean concavity,0.0,0.4268
mean concave points,0.0,0.2012
mean symmetry,0.106,0.304
mean fractal dimension,0.04996,0.09744


In [90]:
scaler = MinMaxScaler()
result = scaler.fit_transform(df)
result_df = pd.DataFrame(result, columns = data['feature_names'])

In [92]:
result_df.agg(['min','max']).T

Unnamed: 0,min,max
mean radius,0.0,1.0
mean texture,0.0,1.0
mean perimeter,0.0,1.0
mean area,0.0,1.0
mean smoothness,0.0,1.0
mean compactness,0.0,1.0
mean concavity,0.0,1.0
mean concave points,0.0,1.0
mean symmetry,0.0,1.0
mean fractal dimension,0.0,1.0
