In [23]:
 # 머신러닝 도구 패키지 설치
!pip install scikit-learn

Defaulting to user installation because normal site-packages is not writeable
Collecting scikit-learn
  Downloading scikit_learn-1.6.1-cp311-cp311-win_amd64.whl.metadata (15 kB)
Collecting scipy>=1.6.0 (from scikit-learn)
  Downloading scipy-1.15.2-cp311-cp311-win_amd64.whl.metadata (60 kB)
Collecting joblib>=1.2.0 (from scikit-learn)
  Downloading joblib-1.4.2-py3-none-any.whl.metadata (5.4 kB)
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Downloading threadpoolctl-3.6.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.6.1-cp311-cp311-win_amd64.whl (11.1 MB)
   ---------------------------------------- 0.0/11.1 MB ? eta -:--:--
   -------- ------------------------------- 2.4/11.1 MB 12.3 MB/s eta 0:00:01
   ---------------- ----------------------- 4.7/11.1 MB 11.9 MB/s eta 0:00:01
   -------------------------- ------------- 7.3/11.1 MB 11.6 MB/s eta 0:00:01
   --------------------------------- ------ 9.4/11.1 MB 11.7 MB/s eta 0:00:01
   -----------------------------

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from io import StringIO # 문자열을 파일처럼 사용할 수 있도록 지원하는 모듈

In [None]:
# 데이터 준비 

csv_data = """A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
9.0,10.0,11.0,
"""

df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,9.0,10.0,11.0,


In [12]:
# 결측 여부 확인
# df.info()
# df.isna()
# df.isnull() # isna()와 동일한 기능
# df.notna() # isna()와 반대 기능
# df.notnull() # notna()와 동일한 기능
df.isna().sum(axis=0) # False : 0, True : 1로 처리하기 때문에 sum()으로 결측값의 갯수 계산 가능

A    0
B    0
C    1
D    1
dtype: int64

In [21]:
# 결측 데이터 처리 1 : 행 / 열 삭제

df.dropna() # axis=0 # NaN이 있는 행 제거
df.dropna(axis=1) # NaN이 있는 열 제거
df.dropna(how='all') # 행의 모든 값이 NaN일 때 제거
df.dropna(how='any') # 행의 값 중 NaN이 한 개라도 있다면 제거
df.dropna(thresh=3) # 지정된 갯수 이상의 값이 NaN이 아닐 때 행 보존 아니면 제거
df.dropna(subset=['C']) # C컬럼의 값이 NaN인 행 제거

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,9.0,10.0,11.0,


In [27]:
# 결측 데이터 처리 2 : 다른 값으로 대체
from sklearn.impute import SimpleImputer # 결측 값 대체 기능 모듈

# imputer = SimpleImputer(strategy="mean") # median, most_frequence, constant
imputer = SimpleImputer(strategy="constant", fill_value=100) # constant인 경우 채울 값 지정
imputed_df = imputer.fit_transform(df)
imputed_df

array([[  1.,   2.,   3.,   4.],
       [  5.,   6., 100.,   8.],
       [  9.,  10.,  11., 100.]])

In [28]:
# 데이터 준비
df2 = pd.DataFrame([
    ['green', 'M', 10.1, 'class1'],
    ['red', 'L', 13.5, 'class2'],
    ['blue', 'XL', 15.3, 'class1'],
])

df2.columns = ['color', 'size', 'price', 'classlabel']
df2

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


In [40]:
# 범주 문자열 -> 숫자로 변환

df2['classlabel'].unique() # 중복 제거하고 고유한 값만 반환
df2['classlabel'].value_counts() # 중복 제거하고 고유한 값만 갯수와 함께 반환
np.unique(df2['classlabel'], return_counts=True) # 중복 제거하고 고유한 값만 반환 ( 갯수도 반환 가능 )

# mapping = {'class1':1, 'class2':2} # 변환 규칙 dict로 정의
mapping = {
    v: idx for idx, v in enumerate( df2['classlabel'].unique() )
}

df2['classlabel'] = df2['classlabel'].map(mapping) # 변환 규칙을 처리해서 값 변환 처리
df2

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,0
1,red,L,13.5,1
2,blue,XL,15.3,0


In [None]:
# 수치화된 범주형 데이터를 원래 데이터로 복원
inverse_mapping = {
    v:k for k, v in mapping.items()
}
inverse_mapping


{0: 'class1', 1: 'class2'}