<a href="https://colab.research.google.com/github/esay2077/bigdata_analysis/blob/main/%ED%8C%8C%EC%9D%B4%EC%8D%AC%EC%9D%84_%ED%99%9C%EC%9A%A9%ED%95%9C_%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D_%EC%BF%A1%EB%B6%81_4%EC%9E%A5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [37]:
# 수치형 데이터 다루기

# 특성 스케일 바꾸기
# 수치형 특성이 두값의 범위에 놓이도록 스케일 변경
# MinMaxScaler 사용
import numpy as np
from sklearn import preprocessing

feature = np.array([[-500.5],[-100.1],[0],[100.1],[900.9]])
# 스케일러 객체
minmax_scale = preprocessing.MinMaxScaler(feature_range = (0,1)) #일반적으로 0~1, -1~1 사이
# 스케일 변환
scaled_feature = minmax_scale.fit_transform(feature)

scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

In [38]:
preprocessing.MinMaxScaler().fit_transform(feature[:3])
# 훈련 세트

array([[0. ],
       [0.8],
       [1. ]])

In [39]:
preprocessing.MinMaxScaler().fit_transform(feature[3:])
# 테스트 세트

array([[0.],
       [1.]])

In [40]:
# 특성을 표준화하기
# 평균이 0 표준편차가 1
# StandardScaler 사용

import numpy as np
from sklearn import preprocessing

x = np.array([[-1000.1],[-200.2],[500.5],[600.6],[9000.9]])

scaler = preprocessing.StandardScaler()

standardized = scaler.fit_transform(x)

standardized

print('평균:',round(standardized.mean()))
print('표준편차:',standardized.std())

평균: 0
표준편차: 1.0


In [41]:
# 데이터에 이상치 존재시 사분위 범위 사용
# RobustScaler
robust_scaler = preprocessing.RobustScaler()
# 특성변환
robust_scaler.fit_transform(x)

array([[-1.87387612],
       [-0.875     ],
       [ 0.        ],
       [ 0.125     ],
       [10.61488511]])

In [42]:
interquatile_range = x[3] - x[1]
(x - np.median(x)) / interquatile_range

array([[-1.87387612],
       [-0.875     ],
       [ 0.        ],
       [ 0.125     ],
       [10.61488511]])

In [43]:
# QuantileTransformer 1000개의 분위로 나누어 0~1 사이에 분포시킴

preprocessing.QuantileTransformer().fit_transform(x)



array([[0.  ],
       [0.25],
       [0.5 ],
       [0.75],
       [1.  ]])

In [44]:
# 정규화 하기
# 샘플의 특성값을 전체길이가 1인 노름(norm)으로 변환
# Normalizer 사용

import numpy as np
from sklearn.preprocessing import Normalizer
# 특성 행렬
features = np.array([[0.5,0.5],[1.1,3.4],[1.5,20.2],[1.63,34.4],[10.9,3.3]])

#변환기 객체
normalizer = Normalizer(norm='l2') # L2 유클리드 노름 기본값
# 변환
normalizer.transform(features)

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.07405353, 0.99725427],
       [0.04733062, 0.99887928],
       [0.95709822, 0.28976368]])

In [45]:
feature_l2_norm = Normalizer(norm='l2').transform(features)

feature_l2_norm

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.07405353, 0.99725427],
       [0.04733062, 0.99887928],
       [0.95709822, 0.28976368]])

In [46]:
# L1 맨해튼 노름
feature_l1_norm = Normalizer(norm='l1').transform(features)
feature_l1_norm

array([[0.5       , 0.5       ],
       [0.24444444, 0.75555556],
       [0.06912442, 0.93087558],
       [0.04524008, 0.95475992],
       [0.76760563, 0.23239437]])

In [47]:
print('첫번쨰 샘플 값의 합:',feature_l1_norm[0,0]+feature_l1_norm[0,1])

첫번쨰 샘플 값의 합: 1.0


In [48]:
# Normalizer는 행단위로 변환 - fit.transform 안쓰고 transform 바로 사용 가능
# l1 노름 사용한 변환 구조
features / np.sum(np.abs(features),axis = 1,keepdims = True) # axis = 1 행

array([[0.5       , 0.5       ],
       [0.24444444, 0.75555556],
       [0.06912442, 0.93087558],
       [0.04524008, 0.95475992],
       [0.76760563, 0.23239437]])

In [49]:
# l2 노름 사용한 변환 구조
features / np.sqrt(np.sum(np.square(features),axis = 1, keepdims= True))

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.07405353, 0.99725427],
       [0.04733062, 0.99887928],
       [0.95709822, 0.28976368]])

In [50]:
# max 옵션 각행의 최댓값으로 행의 값 나누기

Normalizer(norm='max').transform(features)

array([[1.        , 1.        ],
       [0.32352941, 1.        ],
       [0.07425743, 1.        ],
       [0.04738372, 1.        ],
       [1.        , 0.30275229]])

In [51]:
# 다항 특성과 교차항 특성 생성

import numpy as np
from sklearn.preprocessing import PolynomialFeatures

features = np.array([[2,3],[2,3],[2,3]])

polynomial_interaction = PolynomialFeatures(degree = 2, include_bias = False)

polynomial_interaction.fit_transform(features)

array([[2., 3., 4., 6., 9.],
       [2., 3., 4., 6., 9.],
       [2., 3., 4., 6., 9.]])

In [52]:
# degree 다항식의 최대 차수
# ex) degree = 2 2제곱/ 3 2,3제곱
# interaction_only를 True로 지정시 교차항 특성만 만듬

interaction = PolynomialFeatures(degree=2,interaction_only=True, include_bias=False)
interaction.fit_transform(features)

array([[2., 3., 6.],
       [2., 3., 6.],
       [2., 3., 6.]])

In [53]:
# 특성과 비선형 관계가 있다고 가정할시 다항특성 생성
# 질병과 나이의 영향
# 특성이 다른특성에 의존시
# 커피가 달콤한지 예측할 경우, 1. 저었는지 2. 설탕넣었는지 둘다 동시에 성립할때 가능
# --> 교차항

In [54]:
# include_bias 기본값은 True

# 상수항 1 추가

polynomial_bias = PolynomialFeatures(degree=2, include_bias=True).fit(features)

polynomial_bias.transform(features)

array([[1., 2., 3., 4., 6., 9.],
       [1., 2., 3., 4., 6., 9.],
       [1., 2., 3., 4., 6., 9.]])

In [55]:
polynomial_bias.get_feature_names_out()

# get_feature_names_out 로 개정

array(['1', 'x0', 'x1', 'x0^2', 'x0 x1', 'x1^2'], dtype=object)

In [56]:
# 특성 변환하기
# 하나의 특성이상에 사용자 정의 변환 적용

import numpy as np
from sklearn.preprocessing import FunctionTransformer # 함수 적용

features = np.array([[2,3],
                      [2,3],
                      [2,3]])

#함수
def add_ten(x):
    return x+10

#변환기
ten_transform = FunctionTransformer(add_ten)
#변환
ten_transform.transform(features)
#ten_transform = add_ten(features)
#ten_transform

array([[12, 13],
       [12, 13],
       [12, 13]])

In [57]:
import pandas as pd

df = pd.DataFrame(features, columns= ['feature_1','feature_2'])

df.apply(add_ten)

# Must pass 2-d input 괄호 오류...[]갯수 확인

Unnamed: 0,feature_1,feature_2
0,12,13
1,12,13
2,12,13


In [58]:
FunctionTransformer(add_ten, validate=False).transform(np.array([1,2,3]))
#validate=False 일차원 배열 적용

array([11, 12, 13])

In [59]:
from sklearn.compose import ColumnTransformer # 열마다 다른 변환 적용 가능

def add_hundred(x):
    return x+100

ct = ColumnTransformer(
    [('add_ten',FunctionTransformer(add_ten,validate=True),['feature_1']),
      ('add_hundred',FunctionTransformer(add_hundred,validate=True),
       ['feature_2'])])

ct.fit_transform(df)

array([[ 12, 103],
       [ 12, 103],
       [ 12, 103]])

In [60]:
# 이상치 감지하기

import numpy as np
from sklearn.covariance import EllipticEnvelope  # 사이킷런의 이상치 감지 모델을 가져옵니다.
from sklearn.datasets import make_blobs  # 가상의 클러스터 데이터를 생성하는 함수를 가져옵니다.

# 가상의 데이터를 생성합니다.
features, _ = make_blobs(n_samples=10, n_features=2, centers=1, random_state=1)

# 이상치를 생성합니다.
features[0, 0] = 10000
features[0, 1] = 10001

# 이상치 감지 모델을 생성합니다.
outlier_detector = EllipticEnvelope(contamination=0.1)  # 10%를 이상치로 간주합니다.

# 이상치 감지 모델을 훈련합니다.
outlier_detector.fit(features)

# 각 샘플에 대한 이상치 여부를 예측합니다.
predicted = outlier_detector.predict(features)
# 이상치인 경우 -1로, 정상적인 경우 1로 예측됩니다.


`make_blobs` 함수는 가상의 클러스터 데이터를 생성하는 함수입니다. 이 함수를 사용하면 주어진 중심점(centers) 주변에 클러스터를 생성하여 가상의 데이터셋을 만들 수 있습니다.

- `n_samples`: 생성할 데이터 포인트의 총 개수를 나타냅니다. 여기서는 10개의 데이터 포인트를 생성합니다.
  
- `n_features`: 각 데이터 포인트의 특성 개수입니다. 이 예제에서는 각 데이터 포인트가 2차원 공간 상에 위치하므로 2개의 특성을 가집니다.

- `centers`: 생성할 클러스터의 중심점 개수입니다. 여기서는 1개의 중심점 주변에 클러스터를 생성합니다.

- `random_state`: 데이터를 생성할 때 사용되는 난수 발생기의 시드(seed) 값입니다. 시드를 고정하면 동일한 데이터셋이 재현 가능합니다.

이 코드에서는 `centers=1`로 설정되어 있기 때문에 데이터는 한 개의 클러스터 주변에 생성됩니다. 따라서 생성된 데이터셋은 한 개의 클러스터를 가지고 있으며, 이 클러스터의 중심점을 중심으로 데이터 포인트가 분포합니다.

In [61]:
feature= features[:,0]

#이상치 인덱스 반환 함수
def indicies_of_outliers(x):
    q1, q3 = np.percentile(x,[25,75])
    iqr = q3 - q1
    lower_bound = q1 - (iqr*1.5)
    upper_bound = q3 + (iqr*1.5)
    return np.where((x>upper_bound)| (x < lower_bound))

indicies_of_outliers(feature)

(array([0]),)

1. `features[:, 0]`:
   - `:`는 모든 행을 선택함을 의미합니다.
   - `, 0`은 첫 번째 열을 선택함을 의미합니다.
   - 따라서 모든 행에서 첫 번째 열의 데이터를 선택합니다.
   - 결과는 1차원 배열입니다.

2. `features[:1]`:
   - `:1`은 첫 번째 행까지를 선택함을 의미합니다.
   - `,`가 없는 것은 열에 대한 슬라이싱을 생략했다는 의미입니다.
   - 따라서 첫 번째 행까지의 모든 열의 데이터를 선택합니다.
   - 결과는 2차원 배열입니다.

결국 `features[:, 0]`는 모든 행에서 첫 번째 열의 데이터를 1차원 배열로 반환하고, `features[:1]`는 첫 번째 행까지의 모든 열의 데이터를 2차원 배열로 반환합니다. 이것이 두 슬라이싱의 차이입니다.

In [62]:
# 이상치 다루기
# 1. 이상치 삭제

import pandas as pd

houses = pd.DataFrame()
houses['price'] = [1234,2345,3456,56789]
houses['bathroom'] = [1,2,3,40]
houses['square_feet'] = [1000,1200,3000,50000]

houses[houses['bathroom']< 20] #필터링

Unnamed: 0,price,bathroom,square_feet
0,1234,1,1000
1,2345,2,1200
2,3456,3,3000


In [63]:
#2. 표시
import numpy as np
houses['outlier'] = np.where(houses['bathroom']<20,0,1)

houses# 아웃라이어 1

Unnamed: 0,price,bathroom,square_feet,outlier
0,1234,1,1000,0
1,2345,2,1200,0
2,3456,3,3000,0
3,56789,40,50000,1


In [64]:
# 특성변환

houses['log_of_square_feet'] = [np.log(x) for x in houses['square_feet']]

houses

Unnamed: 0,price,bathroom,square_feet,outlier,log_of_square_feet
0,1234,1,1000,0,6.907755
1,2345,2,1200,0,7.090077
2,3456,3,3000,0,8.006368
3,56789,40,50000,1,10.819778


In [65]:
# 특성 이산화하기

import numpy as np
from sklearn.preprocessing import Binarizer

age = np.array([[6],
                [12],
                [20],
                [36],
                [65]])
binarizer = Binarizer(threshold=18)
#Binarizer(18)으로 초기화하고 있지만, 이는 threshold=18을 명시하지 않고 전달하고 있는 것입니다. 이로 인해 에러가 발생

binarizer.fit_transform(age)

array([[0],
       [0],
       [1],
       [1],
       [1]])

`Binarizer`는 scikit-learn의 데이터 전처리 모듈(preprocessing module)에 포함된 클래스 중 하나입니다. 주로 연속형(continuous) 데이터를 이진화(binary)하는 데 사용됩니다. 이진화는 주어진 임계값(threshold)을 기준으로 값을 0 또는 1로 변환하는 프로세스를 의미합니다.

`Binarizer` 클래스는 다음과 같은 중요한 메서드와 속성을 가지고 있습니다:

1. **`__init__(self, threshold=0.0, copy=True)`**: `Binarizer` 객체를 초기화합니다.
   - `threshold`: 이진화를 위한 임계값으로, 기본값은 0.0입니다.
   - `copy`: 복사 여부를 결정하는 불리언 값으로, 기본값은 `True`입니다. 만약 `True`로 설정하면 이진화된 데이터의 복사본을 반환합니다.

2. **`fit(self, X, y=None)`**: 이진화를 위한 학습을 수행합니다. `X`는 데이터 배열이며, `y`는 레이블(타겟) 배열입니다. `fit` 메서드는 일반적으로 `Binarizer`에서는 필요하지 않습니다. 따라서 대부분의 경우에는 무시될 수 있습니다.

3. **`fit_transform(self, X, y=None)`**: 이진화를 위한 학습과 변환을 한 번에 수행합니다. `X`는 데이터 배열이며, `y`는 레이블(타겟) 배열입니다. 이 메서드는 데이터를 이진화하여 변환된 데이터를 반환합니다.

4. **`transform(self, X, copy=None)`**: 주어진 데이터를 이진화하여 반환합니다. `X`는 데이터 배열이며, `copy`는 복사 여부를 결정하는 불리언 값입니다.

5. **`get_params(self, deep=True)`**: `Binarizer` 객체의 매개변수를 반환합니다. `deep=True`로 설정하면 중첩된 객체의 매개변수도 검색합니다.

6. **`set_params(self, **params)`**: `Binarizer` 객체의 매개변수를 설정합니다. 인자로는 키워드 매개변수를 받습니다.

이와 같은 메서드와 속성을 사용하여 `Binarizer` 클래스를 통해 데이터를 이진화할 수 있습니다. 주로 연속형 변수를 이진형 변수로 변환하여 모델에 입력으로 사용하거나, 데이터 전처리 과정에서 사용됩니다.

In [66]:
np.digitize(age, bins= [20,30,64])
#np.digitize() 함수는 주어진 데이터 배열을 구간(bins)에 따라 이산화하여 변환하는 함수입니다

array([[0],
       [0],
       [1],
       [2],
       [3]])

In [67]:
np.digitize(age,bins=[20,30,64],right=True)

array([[0],
       [0],
       [0],
       [2],
       [3]])

예를 들어, bins=[20, 30, 64]로 설정했을 때:

- right=False인 경우: [20, 30), [30, 64)로 구간이 정의됩니다.
- right=True인 경우: `[20, 30], (30, 64]로 구간이 정의됩니다.
- 즉, right=True로 설정하면 구간의 오른쪽 경계값이 포함되며, right=False로 설정하면 구간의 오른쪽 경계값은 포함되지 않습니다.

구간을 나타내는 괄호들은 수학적인 표기법으로, 해당 값이 포함되는지 여부를 나타냅니다. 다음과 같이 구분됩니다:

- ( ): 값이 포함되지 않음을 나타냄
- [ ]:  값이 포함됨을 나타냄


In [68]:
np.digitize(age,bins=[18])

array([[0],
       [0],
       [1],
       [1],
       [1]])

In [70]:
from sklearn.preprocessing import KBinsDiscretizer # 연속적인 값을 여러구간으로 나누어줌

kb = KBinsDiscretizer(4, encode = 'ordinal', strategy = 'quantile')

kb.fit_transform(age)

array([[0.],
       [1.],
       [2.],
       [3.],
       [3.]])

 `KBinsDiscretizer`는 scikit-learn 라이브러리에서 제공하는 클래스로, 연속형 특성을 구간(bin)으로 이산화(discretization)하는 데 사용됩니다. 여러분이 제공한 매개변수는 다음을 설정하고 있습니다:

- `n_bins=4`: 연속형 데이터를 몇 개의 구간으로 나눌지를 결정합니다. 이 경우에는 4개의 구간으로 나누고자 합니다.
- `encode='ordinal'`: 이산화된 구간을 순서형(ordinal)으로 인코딩하도록 설정합니다. 이는 구간을 숫자로 변환할 때 각 구간에 대해 연속적인 정수를 부여하는 방식입니다.
- `strategy='quantile'`: 이산화를 수행할 때 사용할 전략을 결정합니다. 'quantile' 전략은 구간을 데이터의 분위수(quantile)에 따라 지정하는 것으로, 각 구간에는 동일한 수의 데이터 포인트가 들어가도록 합니다.

이 코드는 연속형 데이터를 4개의 구간으로 나누어서, 각 구간을 0부터 3까지의 정수로 인코딩하고자 한다는 의도입니다.

In [75]:
kb = KBinsDiscretizer(4, encode = 'onehot-dense', strategy='quantile')
kb.fit_transform(age)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [0., 0., 0., 1.]])

원-핫 인코딩(One-Hot Encoding)은 범주형 데이터를 수치형 데이터로 변환하는 방법 중 하나입니다. 주어진 범주형 변수의 각 범주(category)를 이진수로 표현하여 범주를 나타내는 새로운 이진형 변수들을 만듭니다.

예를 들어, 세 가지 과일이 있는 경우("사과", "바나나", "오렌지"), 원-핫 인코딩을 사용하여 다음과 같이 변환됩니다:

- "사과"는 [1, 0, 0]
- "바나나"는 [0, 1, 0]
- "오렌지"는 [0, 0, 1]

즉, 각 과일은 하나의 요소만 1이고 나머지는 0인 벡터로 표현됩니다. 이런식으로 변환함으로써 머신러닝 모델에 범주형 데이터를 입력으로 사용할 수 있게 됩니다.

원-핫 인코딩된 데이터는 희소 행렬(sparse matrix) 또는 밀집 배열(dense array)로 나타낼 수 있습니다. 희소 행렬은 대부분의 요소가 0인 행렬로, 1로 채워진 요소의 위치만 기억합니다. 이것은 많은 양의 범주형 데이터를 효율적으로 저장할 때 유용합니다. 반면, 밀집 배열은 0이 아닌 모든 요소를 메모리에 저장하는 행렬입니다. 따라서 메모리 사용량이 더 많지만 일반적으로 계산이 더 빠릅니다.

`encode='onehot-dense'`로 설정하면 `KBinsDiscretizer`는 원-핫 인코딩된 밀집 배열을 반환합니다.

In [77]:
kb = KBinsDiscretizer(4, encode= 'onehot-dense',strategy='uniform')
kb.fit_transform(age)

array([[1., 0., 0., 0.],
       [1., 0., 0., 0.],
       [1., 0., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [78]:
kb.bin_edges_

array([array([ 6.  , 20.75, 35.5 , 50.25, 65.  ])], dtype=object)

In [6]:
# 군집으로 샘플 그룹 묶기
# 비슷한 샘플끼리 그룹으로 묶기
# K - 평균 군집 사용

import pandas as pd
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

features, _ = make_blobs(n_samples = 50, n_features = 2, centers = 3, random_state = 1)
df = pd.DataFrame(features,columns = ['feature_1','feature_2'])

cluster = KMeans(3,n_init=10,random_state = 0)

cluster.fit(features)

df['group'] = cluster.predict(features)

df.head(5)

Unnamed: 0,feature_1,feature_2,group
0,-9.877554,-3.336145,0
1,-7.28721,-8.353986,2
2,-6.943061,-7.023744,2
3,-7.440167,-8.791959,2
4,-6.641388,-8.075888,2


`make_blobs` 함수는 주어진 중심과 표준 편차를 갖는 가상의 클러스터링을 생성하는 함수입니다. 이 함수는 주어진 형태에 맞게 가상의 클러스터링 데이터를 생성하여 반환합니다. 주로 클러스터링 알고리즘을 테스트하거나 시각화를 위해 사용됩니다.

여기서 사용된 매개변수들의 의미는 다음과 같습니다:

- `n_samples`: 생성할 샘플의 개수를 지정합니다.
- `n_features`: 각 샘플이 가질 특성의 수를 지정합니다. 예를 들어, 2차원 공간에서의 샘플을 생성하려면 이 값을 2로 설정합니다.
- `centers`: 생성할 클러스터의 수를 지정합니다. 클러스터의 수만큼 중심점이 생성됩니다.
- `random_state`: 난수 발생을 제어하기 위한 시드(seed) 값입니다. 동일한 시드 값에 대해 호출할 때마다 동일한 데이터가 생성됩니다.
  
이 함수를 사용하면 주어진 클러스터의 수와 중심점, 표준 편차 등에 따라 가상의 데이터를 생성할 수 있습니다. 이 데이터를 통해 클러스터링 알고리즘의 동작을 이해하거나 테스트할 수 있습니다.

`KMeans` 함수는 scikit-learn 라이브러리에서 제공되는 K-평균 군집화 알고리즘을 사용하는 클래스입니다. 이 함수는 다음과 같이 사용됩니다:

```python
from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=3, init='k-means++', n_init=10, max_iter=300, random_state=0)
```

여기서 각 매개변수의 역할은 다음과 같습니다:

- `n_clusters`: 생성할 클러스터의 개수를 지정합니다.
- `init`: 초기 중심점을 선택하는 방법을 지정합니다. 기본값은 `'k-means++'`로, 중심점을 더욱 효과적으로 선택하기 위해 사용되는 방법입니다. 다른 옵션으로는 `'random'` 등이 있습니다.
- `n_init`: 초기 중심점을 선택하는 시도 횟수를 지정합니다. 기본값은 10입니다. 초기 중심점 선택이 무작위하게 이루어지기 때문에 여러 번 시도하여 가장 좋은 결과를 얻을 수 있습니다.
- `max_iter`: 알고리즘의 최대 반복 횟수를 지정합니다. 기본값은 300입니다. 이 값 이후에는 알고리즘이 종료됩니다.
- `random_state`: 무작위성을 제어하기 위한 시드(seed) 값입니다. 동일한 시드를 사용하면 항상 동일한 결과를 얻을 수 있습니다.

`KMeans` 객체를 생성한 후에는 `fit()` 메서드를 사용하여 데이터에 모델을 적합시키고, `predict()` 메서드를 사용하여 각 샘플이 속한 클러스터를 예측할 수 있습니다. 또는 `fit_predict()` 메서드를 사용하여 두 작업을 한 번에 수행할 수도 있습니다.

```python
kmeans.fit(data)
labels = kmeans.predict(data)
```

이렇게 하면 데이터에 대한 K-평균 군집화 모델을 만들고, 각 데이터 포인트가 어떤 클러스터에 속하는지 예측할 수 있습니다.

In [9]:
# 누락된 값을 가진 샘플 삭제

import numpy as np

features = np.array([[1.1,11.1],[2.2,22.2],[3.3,33.3],[4.4,44.4],[np.nan,55]])

features[~np.isnan(features).any(axis = 1)] # 행



array([[ 1.1, 11.1],
       [ 2.2, 22.2],
       [ 3.3, 33.3],
       [ 4.4, 44.4]])

1. `np.isnan(features)`는 `features` 배열에서 NaN인 요소를 True로, 그렇지 않은 요소를 False로 하는 불리언 배열을 생성합니다.
2. `np.isnan(features).any(axis=1)`은 각 행에 대해 하나 이상의 NaN 값이 있는지를 나타내는 1차원 배열을 생성합니다. `axis=1`은 행 방향으로 연산을 수행하라는 것을 나타냅니다.
3. `~` 연산자는 불리언 배열의 요소를 반전시킵니다. 따라서 `~np.isnan(features).any(axis=1)`은 하나 이상의 NaN 값을 가진 행이 아닌 행에 대해 True를 반환하고, 그 외의 경우에는 False를 반환하는 불리언 배열을 생성합니다.
4. `features[~np.isnan(features).any(axis=1)]`는 3번 단계에서 생성한 불리언 배열을 사용하여 원래 배열 `features`에서 해당하는 행만 선택하여 새로운 배열을 생성합니다. 따라서 NaN 값을 가진 행이 제거된 결과가 됩니다.


In [10]:
import pandas as pd

df = pd.DataFrame(features, columns = ['features_1','features_2'])
df.dropna()

Unnamed: 0,features_1,features_2
0,1.1,11.1
1,2.2,22.2
2,3.3,33.3
3,4.4,44.4


In [21]:
pip install fancyimpute

Collecting fancyimpute
  Downloading fancyimpute-0.7.0.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting knnimpute>=0.1.0 (from fancyimpute)
  Downloading knnimpute-0.1.0.tar.gz (8.3 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting nose (from fancyimpute)
  Downloading nose-1.3.7-py3-none-any.whl (154 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m154.7/154.7 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
Building wheels for collected packages: fancyimpute, knnimpute
  Building wheel for fancyimpute (setup.py) ... [?25l[?25hdone
  Created wheel for fancyimpute: filename=fancyimpute-0.7.0-py3-none-any.whl size=29881 sha256=8515391c17f5ca2cf5f8112b5a0a60788815fdf0c636a9fa5601866f1346bab8
  Stored in directory: /root/.cache/pip/wheels/7b/0c/d3/ee82d1fbdcc0858d96434af108608d01703505d453720c84ed
  Building wheel for knnimpute (setup.py) ... [?25l[?25hdone
  Created wheel for knnimpute: filename=knnimpute-0.1.0-py3-none-

In [37]:
# 누락된 값 채우기
# 최근접 이웃 알고리즘 사용

import numpy as np
from fancyimpute import KNN
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_blobs

feature, _ = make_blobs(n_samples = 1000, n_features = 2, random_state= 1)

scaler = StandardScaler()
standardized_features = scaler.fit_transform(features)

scalar = standardized_features[0,0]
true_value = standardized_features[0,0]

standardized_features[0,0] = np.nan
features_knn_imputed = KNN(5,verbose = 0).fit_transform(standardized_features)

print('실체값:',true_value)
print('대체된 값',features_knn_imputed[0,0])

실체값: 0.8730186113995938
대체된 값 1.0955332713113226


누락된 값을 K-최근접 이웃(KNN) 방법

1. `make_blobs` 함수를 사용하여 가상의 데이터를 생성합니다. 이 데이터에는 1000개의 샘플과 2개의 특성이 있습니다.
2. `StandardScaler`를 사용하여 특성을 표준화합니다. 이렇게 함으로써 각 특성의 평균이 0이고 표준 편차가 1이 되도록 데이터를 변환합니다.
3. `np.nan`을 사용하여 표준화된 데이터의 첫 번째 요소를 NaN으로 설정합니다. 이것이 우리가 대체할 누락된 값입니다.
4. `KNN` 함수를 사용하여 KNN을 이용하여 누락된 값을 대체합니다. 여기서는 5개의 최근접 이웃을 사용하며, `verbose=0`으로 설정하여 출력을 숨깁니다.
5. `true_value` 변수에는 원래 표준화된 데이터의 첫 번째 요소가 저장되어 있습니다.
6. `features_knn_imputed[0,0]`은 KNN을 사용하여 대체된 값이 저장된 위치입니다.

따라서 코드의 결과는 대체된 값과 실제 값이 출력됩니다. 대체된 값은 KNN을 사용하여 누락된 값의 근사치를 추정한 것입니다.

In [30]:
import numpy as np
from sklearn.impute import KNNImputer
from sklearn.neighbors import KNeighborsRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_blobs

# 가상의 데이터 생성
features, _ = make_blobs(n_samples=1000, n_features=2, random_state=1)

# 표준화
scaler = StandardScaler()
standardized_features = scaler.fit_transform(features)

# NaN으로 설정할 위치 지정
standardized_features[0, 0] = np.nan

# 대상 변수와 예측에 사용할 특성 분리
target = standardized_features[:, 0]
features_to_predict = standardized_features[:, 1:]

# NaN 값이 있는 행 제거
nan_indices = np.isnan(target)
target = target[~nan_indices]
features_to_predict = features_to_predict[~nan_indices]

# KNN 회귀 모델을 사용하여 누락된 값을 예측
knn_imputer = KNeighborsRegressor(n_neighbors=5)
knn_imputer.fit(features_to_predict, target)
imputed_value = knn_imputer.predict(features_to_predict[0].reshape(1, -1))

# 결과 출력
print('실제 값:', target[0])
print('대체된 값:', imputed_value[0])


실제 값: -0.6707317754080502
대체된 값: -1.0332985653470836


In [43]:
#from sklearn.preprocessing import Imputer  #개정되서 사라짐~~~

from sklearn.impute import SimpleImputer
simple_imputer = SimpleImputer() #SimpleImputer(missing_values=np.nan,strategy='mean')

features_simple_imputed = simple_imputer.fit_transform(features)

print('실체값:',true_value)
print('대체된값:',features_simple_imputed[0,0])

실체값: 0.8730186113995938
대체된값: -3.058372724614996
