<a href="https://colab.research.google.com/github/kimwonsoon/ai_moon/blob/main/%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%A0%84%EC%B2%98%EB%A6%AC%EA%B8%B0%EB%8A%A5_%EC%8B%A4%EC%8A%B5_ipynb.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

import pandas as pd
from io import StringIO
import sys

In [2]:
import pandas as pd
from io import StringIO
import sys

In [3]:
# csv 파일 형식의 데이터 생성
csv_data = \
'''A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
10.0,11.0,12.0,'''

# 판다스 데이터 프레임으로 변환
df = pd.read_csv(StringIO(csv_data))

# 2개의 결측값(NaN) 존재
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [4]:
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

In [5]:
df.dropna(axis=0)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [6]:
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [7]:
df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [8]:
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


In [9]:
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [10]:
# 누락된 데이터를 삭제하지 않고 보간/대체하여 사용하는 방법
# SimpleImputer를 이용하여 열의 평균으로 누락된 값을 대체하기
from sklearn.impute import SimpleImputer
import numpy as np

# strategy = 'mean' : 평균값, 'median' : 중간값, 'most_frequent' : 최빈값(범주형 변수의 대체에 유용)
imr = SimpleImputer(missing_values=np.nan, strategy='mean')
imr = imr.fit(df.values)
imputed_data = imr.transform(df.values)
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])

In [12]:
# KNNImputer 클래스는 K-최근접 이웃 방법을 사용해 누락된 값을 채웁니다.
# K-최근접 이웃 방법은 현재 레코드와 나머지 변수의 값이 가장 유사한 K개의 레코드들에 대한 변수값의 평균을 구하여 누락값을 대체
# 최근접 이웃의 개수는 n_neighbors 매개변수로 지정하며 기본값은 5입니다.
# 샘플 개수가 n_neighbors 보다 작으면 SimpleImputer(strategy='mean')과 결과가 같습니다
from sklearn.impute import KNNImputer

kimr = KNNImputer()
kimr.fit_transform(df.values)

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])

In [13]:
import pandas as pd
# 3개의 명목형 변수를 가지는 데이터 프레임 생성

df = pd.DataFrame([['green', 'M', 10.1, 'class2'],
                   ['red', 'L', 13.5, 'class1'],
                   ['blue', 'XL', 15.3, 'class2']])
# 변수 명 정의
df.columns = ['color', 'size', 'price', 'classlabel']
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class2
1,red,L,13.5,class1
2,blue,XL,15.3,class2


In [14]:
# 각 범주별로 라벨을 매칭
size_mapping = {'XL': 3,
                'L': 2,
                'M': 1}
# 원래의 범주값을 매칭 기준에 따라 라벨로 변환
df['size'] = df['size'].map(size_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class2
1,red,2,13.5,class1
2,blue,3,15.3,class2


In [15]:
import pandas as pd

# 6개의 범주를 가지는 item 이라는 이름의 변수를 데이터 프레임으로 생성
df= pd.DataFrame({'item':['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서'] })
df

Unnamed: 0,item
0,TV
1,냉장고
2,전자렌지
3,컴퓨터
4,선풍기
5,선풍기
6,믹서
7,믹서


In [16]:
# 사이킷런의 LabelEncoder(변환기 클래스)를 이용하여 라벨인코딩을 수행
from sklearn.preprocessing import LabelEncoder

# LabelEncoder를 객체로 생성한 후 , fit( ) 과 transform( ) 으로 label 인코딩 수행.
encoder = LabelEncoder()
encoder.fit(df['item'])
labels = encoder.transform(df['item'])
print('인코딩 변환값:',labels)

인코딩 변환값: [0 1 4 5 3 3 2 2]


In [17]:
print('인코딩 클래스:',encoder.classes_)

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']


In [18]:
print('디코딩 원본 값:',encoder.inverse_transform([4, 5, 2, 0, 1, 1, 3, 3]))

디코딩 원본 값: ['전자렌지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


In [19]:
# 사이킷런의 OneHotEncoder(변환기 클래스)를 이용하여 원핫 인코딩을 수행
from sklearn.preprocessing import OneHotEncoder

# 원-핫 인코딩을 적용합니다.
oh_encoder = OneHotEncoder()
oh_encoder.fit(df)
oh_labels = oh_encoder.transform(df)

print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


In [20]:
# 통계(회귀)에서 더미변수, 가변수는 범주의 갯수 - 1 개의 더미변수를 생성
# 더미변수간 높은 상관관계로 다중공선성 문제 발생, 변수간 상관관계를 감소하기 위해 특성 하나를 삭제 => drop_first=True
# 냉장고 = 모든 변수가 0일때
pd.get_dummies(df,drop_first=True)

Unnamed: 0,item_냉장고,item_믹서,item_선풍기,item_전자렌지,item_컴퓨터
0,0,0,0,0,0
1,1,0,0,0,0
2,0,0,0,1,0
3,0,0,0,0,1
4,0,0,1,0,0
5,0,0,1,0,0
6,0,1,0,0,0
7,0,1,0,0,0


In [21]:
from sklearn.datasets import load_iris
import pandas as pd
# 붓꽃 데이터 셋을 로딩하고 DataFrame으로 변환합니다.
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

# 4개 변수들의 값을 보고 평균과 분산을 확인
print('feature 들의 값')
print(iris_df)
print('feature 들의 평균 값')
print(iris_df.mean())
print('\nfeature 들의 분산 값')
print(iris_df.var())

feature 들의 값
     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                  5.1               3.5                1.4               0.2
1                  4.9               3.0                1.4               0.2
2                  4.7               3.2                1.3               0.2
3                  4.6               3.1                1.5               0.2
4                  5.0               3.6                1.4               0.2
..                 ...               ...                ...               ...
145                6.7               3.0                5.2               2.3
146                6.3               2.5                5.0               1.9
147                6.5               3.0                5.2               2.0
148                6.2               3.4                5.4               2.3
149                5.9               3.0                5.1               1.8

[150 rows x 4 columns]
feature 들의 평균 값
sepal lengt

In [22]:
from sklearn.preprocessing import StandardScaler

# StandardScaler객체 생성
scaler = StandardScaler()
# StandardScaler 로 데이터 셋 변환. fit( ) 과 transform( ) 호출.
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

#transform( )시 scale 변환된 데이터 셋이 numpy ndarry로 반환되어 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature 들의 표준화(standardization)된 값')
print(iris_df_scaled)
print('\n표준화 feature 들의 평균 값')
print(iris_df_scaled.mean())
print('\n원본 feature 들의 평균 값')
print(iris_df.mean())
print('\n표준화 feature 들의 분산 값')
print(iris_df_scaled.var())

feature 들의 표준화(standardization)된 값
     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0            -0.900681          1.019004          -1.340227         -1.315444
1            -1.143017         -0.131979          -1.340227         -1.315444
2            -1.385353          0.328414          -1.397064         -1.315444
3            -1.506521          0.098217          -1.283389         -1.315444
4            -1.021849          1.249201          -1.340227         -1.315444
..                 ...               ...                ...               ...
145           1.038005         -0.131979           0.819596          1.448832
146           0.553333         -1.282963           0.705921          0.922303
147           0.795669         -0.131979           0.819596          1.053935
148           0.432165          0.788808           0.933271          1.448832
149           0.068662         -0.131979           0.762758          0.790671

[150 rows x 4 columns]

표준화 

In [23]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler객체 생성
scaler = MinMaxScaler()
# MinMaxScaler 로 데이터 셋 변환. fit() 과 transform() 호출.
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform()시 scale 변환된 데이터 셋이 numpy ndarry로 반환되어 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature 들의 최소-최대 스케일링(min-max scaling)된 값')
print(iris_df_scaled)
print('\n표준화 feature들의 최소 값')
print(iris_df_scaled.min())
print('\n원본 feature들의 최소 값')
print(iris_df.min())
print('\n표준화 feature들의 최대 값')
print(iris_df_scaled.max())
print('\n원본 feature들의 최대 값')
print(iris_df.max())


feature 들의 최소-최대 스케일링(min-max scaling)된 값
     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0             0.222222          0.625000           0.067797          0.041667
1             0.166667          0.416667           0.067797          0.041667
2             0.111111          0.500000           0.050847          0.041667
3             0.083333          0.458333           0.084746          0.041667
4             0.194444          0.666667           0.067797          0.041667
..                 ...               ...                ...               ...
145           0.666667          0.416667           0.711864          0.916667
146           0.555556          0.208333           0.677966          0.750000
147           0.611111          0.416667           0.711864          0.791667
148           0.527778          0.583333           0.745763          0.916667
149           0.444444          0.416667           0.694915          0.708333

[150 rows x 4 columns

In [24]:
# 표준화와 정규화의 이해를 위한 예제
ex = np.array([0, 1, 2, 3, 4, 5])

print('표준화:', (ex - ex.mean()) / ex.std())


# 정규화합니다
print('정규화:', (ex - ex.min()) / (ex.max() - ex.min()))

표준화: [-1.46385011 -0.87831007 -0.29277002  0.29277002  0.87831007  1.46385011]
정규화: [0.  0.2 0.4 0.6 0.8 1. ]
