# [[[1_Main1]]]

### 5_1) Checking missing values 부분

## Imputer
- strategy = 'mean' : 각 속성의 평균 값을 계산
- strategy = 'most_frequent' : 각 속성의 가장 빈도가 높은 값을 계산
- strategy = 'median' : 각 속성의 중앙 값을 계산

In [1]:
from sklearn.preprocessing import Imputer
a = Imputer(strategy = 'median') 



In [None]:
a.fit_transform(df['column'])

### 5_2) 범주형 변수의 카디널리티 확인 부분

## 가정 설정문 : assert

assert는 뒤의 조건이 True가 아니면 AssertError를 발생한다.

쓰는 이유 : 어떤 함수는 성능을 높이기 위해 반드시 정수만을 입력받아 처리하도록 만들 수 있다. 이런 함수를 만들기 위해서는 반드시 함수에 정수만 들어오는지 확인할 필요가 있다. 이를 위해 if문을 사용할 수도 있고 '예외 처리'를 사용할 수도 있지만 '가정 설정문'을 사용하는 방법도 있다.
[https://wikidocs.net/21050]

In [1]:
# 함수 인자가 정수인지 확인하는 코드
lists = [1, 3, 6, 3, 8, 7, 13, 23, 13, 2, 3.14, 2, 3, 7]

def test(t):
    assert type(t) is int, '정수 아닌 값이 있다.'

for i in lists:
    test(i)

AssertionError: 정수 아닌 값이 있다.

### 6_2) Interval variables 부분

## 랜덤 샘플의 추출  : sample()
- 객체 내에서 랜덤한 샘플을 추출할 수 있도록 하는 메서드
- Series 와 DataFrame 둘 다 적용 가능하다.
- 행을 기본 값으로 샘플링 한다.

- Series.sample(n=None, frac=None, replace=False, weights = None, random_state = None, axis = None)
- DataFrame.sample(~)

- n : 추출할 샘플의 수(frac과 중복사용 불가)
- frac : 전체 개수의 비율 만큼 샘플을 반환할 경우 사용
- replace : 같은 샘플을 중복되게 추출할지 여부 (기본 값 : False_중복 허용X)
- weights : 샘플 추출 시 샘플마다 뽑힐 확률
- random_state : 같은 시드에서는 항상 같은 결과를 도출
- axis : 샘플을 추출할 방향 
    - 0 : 행 방향
    - 1 : 열 방향

In [6]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(0,15).reshape(5,3))
df

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11
4,12,13,14


In [13]:
df.sample()

Unnamed: 0,0,1,2
3,9,10,11


In [12]:
df.sample(n = 2, axis = 1)

Unnamed: 0,2,1
0,2,1
1,5,4
2,8,7
3,11,10
4,14,13


### 7_2) interaction 변수 만들기 부분

## PolynomialFeatures : 다항 변환
: 입력값  x 를 다항식으로 변환한다.
- x => [1,x,x^2,x^3,⋯]
- [x1,x2] => [1,x1,x2,x1^2,x1x2,x2^2]

- degree : 차수
- interaction_only: True면 2차항에서 상호작용항만 출력
- include_bias : 상수항 생성 여부

https://datascienceschool.net/view-notebook/f43be7d6515b48c0beb909826993c856/

In [7]:
from sklearn.preprocessing import PolynomialFeatures
X = np.arange(6).reshape(3, 2)
X

array([[0, 1],
       [2, 3],
       [4, 5]])

In [15]:
poly = PolynomialFeatures(2)
poly.fit_transform(X)

array([[ 1.,  0.,  1.,  0.,  0.,  1.],
       [ 1.,  2.,  3.,  4.,  6.,  9.],
       [ 1.,  4.,  5., 16., 20., 25.]])

In [16]:
poly = PolynomialFeatures(interaction_only=True)
poly.fit_transform(X)

array([[ 1.,  0.,  1.,  0.],
       [ 1.,  2.,  3.,  6.],
       [ 1.,  4.,  5., 20.]])

In [10]:
poly = PolynomialFeatures(degree=2, interaction_only=False, include_bias=False)
poly.fit_transform(X)

array([[ 0.,  1.,  0.,  0.,  1.],
       [ 2.,  3.,  4.,  6.,  9.],
       [ 4.,  5., 16., 20., 25.]])

### 8_1) 분산이 낮거나 0인 피처 제거 부분

## VarianceThreshold
분산이 0인 피처를 제거해 준다.

In [22]:
from sklearn.feature_selection import VarianceThreshold

X = [[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]]

selector = VarianceThreshold()
selector.fit_transform(X)

array([[2, 0],
       [1, 4],
       [1, 1]])

In [24]:
selector.get_support(indices=True)

array([1, 2], dtype=int64)

In [26]:
selector.get_support() # indices 기본값이 False

array([False,  True,  True, False])

## vectorize
 numpy에서는 array가 기본데이터 형태이므로 바로 array에 적용하는 방법이 필요하게 된다. 

=> 그 역할을 하는 함수가 vectorize

In [38]:
import numpy as np

array = np.arange(6).reshape(3, 2)
print(array)

[[0 1]
 [2 3]
 [4 5]]


In [39]:
def f(x):
    return x * x 

f = np.vectorize(f)  # 함수를 적용.  array에 적용가능하도록 변경. 

f(array)  # Arr는 array의 이름임. 

array([[ 0,  1],
       [ 4,  9],
       [16, 25]])

In [40]:
f = np.vectorize(lambda x : not x) 
f(array)

array([[ True, False],
       [False, False],
       [False, False]])

https://woolulu.tistory.com/66

# [[[04_Main4]]]

### 3_2) Real features 부분

## pow함수
pow(x, y) : x**y

In [1]:
2**3

8

In [2]:
pow(2,3)

8

In [4]:
# 2의 5승을 7로 나눈 나머지
pow(2,5,7)

4