
scikit-learn (일반적으로 sklearn으로 불림)은 파이썬에서 가장 널리 사용되는 머신러닝 라이브러리 중 하나로, 다양한 머신러닝 알고리즘과 도구를 제공합니다. 



이 라이브러리를 사용하면 데이터 전처리, 모델 학습, 평가, 하이퍼파라미터 튜닝 등을 쉽게 수행할 수 있습니다. 



아래에 scikit-learn으로 할 수 있는 주요 기능들을 설명하겠습니다.



1. 데이터 전처리


scikit-learn은 데이터를 전처리하고 변환하는 다양한 도구를 제공합니다:



스케일링 및 정규화: StandardScaler, MinMaxScaler, Normalizer 등


결측값 처리: SimpleImputer를 사용하여 결측값을 대체


인코딩: LabelEncoder, OneHotEncoder를 사용하여 범주형 데이터를 숫자로 변환




2. 데이터셋 로드


scikit-learn은 여러 가지 예제 데이터셋을 내장하고 있어 학습 및 테스트에 사용할 수 있습니다:



데이터셋 로드 함수: load_iris(), load_digits(), load_wine() 등


외부 데이터셋 로드: fetch_20newsgroups(), fetch_olivetti_faces() 등




3. 모델 학습


scikit-learn은 다양한 머신러닝 알고리즘을 제공합니다:



회귀 분석: LinearRegression, Ridge, Lasso


분류: LogisticRegression, KNeighborsClassifier, DecisionTreeClassifier, RandomForestClassifier, SVM


군집화: KMeans, DBSCAN, AgglomerativeClustering


차원 축소: PCA, t-SNE


4. 모델 평가


모델의 성능을 평가하기 위한 다양한 메트릭을 제공합니다:

분류 평가: accuracy_score, precision_score, recall_score, f1_score, confusion_matrix


회귀 평가: mean_squared_error, mean_absolute_error, r2_score


교차 검증: cross_val_score, GridSearchCV, RandomizedSearchCV



5. 모델 저장 및 로드


학습된 모델을 저장하고 나중에 로드할 수 있습니다:



모델 저장: joblib 또는 pickle을 사용하여 모델 저장


모델 로드: 저장된 모델 파일을 로드하여 재사용




6. 파이프라인


복잡한 머신러닝 워크플로우를 단순화하기 위한 파이프라인을 제공합니다:



Pipeline: 여러 단계의 변환기와 추정기를 연결하여 하나의 객체로 관리


FeatureUnion: 여러 변환기를 병렬로 적용하여 피처를 결합




7. 하이퍼파라미터 튜닝


모델의 하이퍼파라미터를 자동으로 최적화할 수 있습니다:



GridSearchCV: 모든 조합의 하이퍼파라미터를 시도하여 최적의 파라미터를 찾음


RandomizedSearchCV: 랜덤하게 선택된 하이퍼파라미터 조합을 시도하여 최적의 파라미터를 찾음



In [9]:
# datasets 모듈: 사이킷런 예제 데이터가 들어있다.

from sklearn.datasets import load_iris

# 마우스 커서 if 위에 두고 shift + tap 같이 누르면 도움말 나옴


# 이 코드는 scikit-learn 라이브러리에서 제공하는 load_iris 함수를 사용하여 유명한 아이리스(iris) 데이터를 로드하는 역할을 합니다.

# 좀 더 구체적으로 설명드리자면:

# scikit-learn은 파이썬에서 가장 널리 사용되는 머신러닝 라이브러리 중 하나로, 다양한 머신러닝 알고리즘과 도구를 제공합니다.
# load_iris 함수는 아이리스 꽃 데이터셋을 불러오는 함수입니다. 이 데이터셋은 머신러닝 교육과 예제에서 자주 사용되는 데이터셋으로, 
# 총 150개의 데이터 포인트가 있으며, 각 포인트는 4개의 특징(꽃받침 길이, 꽃받침 너비, 꽃잎 길이, 꽃잎 너비)으로 구성되어 있습니다. 
# 또한 3개의 서로 다른 아이리스 꽃 종류(세토사, 버시컬러, 버지니카)가 포함되어 있습니다.




In [10]:
iris_data = load_iris()
type(iris_data)



# 이 코드는 load_iris() 함수를 호출하여 아이리스 데이터를 iris_data 변수에 저장하고, iris_data의 데이터 타입을 확인하는 코드입니다.

# 좀 더 구체적으로 설명드리자면:

# iris_data = load_iris(): load_iris 함수를 호출하여 아이리스 데이터를 불러오고, 그 결과를 iris_data 변수에 저장합니다.
# type(iris_data): iris_data 변수의 데이터 타입을 확인하여 반환합니다.
# iris_data의 타입은 sklearn.utils.Bunch 객체입니다. Bunch는 딕셔너리와 비슷한 자료구조로, 키-값 쌍으로 데이터를 저장합니다. 

# Bunch 객체는 다음과 같은 속성을 가집니다:

# data: 특징 데이터를 담고 있는 배열 (shape: [150, 4])
# target: 타겟 레이블을 담고 있는 배열 (shape: [150])
# feature_names: 특징의 이름을 담고 있는 리스트
# target_names: 타겟 레이블의 이름을 담고 있는 리스트
# DESCR: 데이터셋에 대한 설명을 담고 있는 문자열

# 따라서, iris_data의 타입은 sklearn.utils.Bunch 객체입니다.

sklearn.utils._bunch.Bunch

In [None]:
# feature 이름 확인

iris_data.feature_names

# 이 코드는 iris_data 객체에서 특징(feature) 이름을 확인하는 코드입니다.

# iris_data.feature_names는 아이리스 데이터셋의 각 특징의 이름을 담고 있는 리스트입니다.

# 좀 더 구체적으로 설명드리자면:

# iris_data.feature_names는 아이리스 데이터셋의 각 특징(속성)의 이름을 문자열 형태로 담고 있는 리스트입니다.
# 이 리스트는 데이터셋의 각 열이 무엇을 나타내는지를 설명합니다.

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [11]:
iris_data.data[:3]

# 이 코드는 iris_data 객체에서 첫 세 개의 데이터 포인트를 확인하는 코드입니다. 
# iris_data.data는 아이리스 데이터셋의 특징(feature) 데이터를 담고 있는 배열입니다.

# 좀 더 구체적으로 설명드리자면:

# iris_data.data는 아이리스 데이터셋의 특징 데이터를 포함하는 2차원 배열입니다. 
# 이 배열은 각 행이 하나의 데이터 포인트를 나타내며, 각 열은 특정 특징(꽃받침 길이, 꽃받침 너비, 꽃잎 길이, 꽃잎 너비)을 나타냅니다.
# [:3]은 배열의 슬라이싱(slicing) 문법으로, 처음 세 개의 행을 선택합니다.
# 즉, iris_data.data[:3]는 아이리스 데이터셋에서 처음 세 개의 데이터 포인트를 반환합니다.

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2]])

In [12]:
iris_data.data.shape

# 이 코드는 iris_data.data 배열의 형태(shape)를 확인하는 코드입니다.

# 좀 더 구체적으로 설명드리자면:

# iris_data.data는 아이리스 데이터셋의 특징(feature) 데이터를 포함하는 2차원 배열입니다.
# .shape 속성은 배열의 형태를 나타내는 튜플을 반환합니다. 이 튜플은 배열의 각 차원의 크기를 나타냅니다.
# 아이리스 데이터셋의 경우, iris_data.data.shape는 (150, 4)가 됩니다. 이는 다음을 의미합니다:

# 첫 번째 차원(행)의 크기는 150으로, 총 150개의 데이터 포인트가 있음을 나타냅니다.
# 두 번째 차원(열)의 크기는 4로, 각 데이터 포인트는 4개의 특징(꽃받침 길이, 꽃받침 너비, 꽃잎 길이, 꽃잎 너비)을 가지고 있음을 나타냅니다.

(150, 4)

In [14]:
# class 이름 확인
iris_data.target_names

# 인덱스의 위치가 클래스다
# 0번 인덱스에 있는 setosa라는 클래스를 의미함
# 위 iris_data.target에서 0은 setosa 클래스



# 이 코드는 iris_data 객체에서 타겟 레이블의 이름을 확인하는 코드입니다.

# iris_data.target_names는 아이리스 데이터셋에 포함된 클래스(타겟 레이블)의 이름을 담고 있는 배열입니다.

# 좀 더 구체적으로 설명드리자면:

# iris_data.target_names는 아이리스 꽃의 세 가지 종류의 이름을 담고 있습니다.
# 이는 배열 형태로 제공되며, 각 클래스(종류)의 이름이 문자열로 저장되어 있습니다.


array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [15]:
iris_data.target

# 이 코드는 iris_data 객체에서 타겟 데이터를 확인하는 코드입니다.

# iris_data.target은 아이리스 데이터셋의 타겟 레이블(클래스)을 담고 있는 배열입니다.

# 좀 더 구체적으로 설명드리자면:

# iris_data.target은 1차원 배열로, 각 요소는 해당 데이터 포인트의 클래스(종류)를 나타내는 정수입니다.
# 이 배열은 데이터셋의 각 데이터 포인트에 대한 타겟 레이블을 포함하고 있으며, 레이블은 0, 1, 2로 표현됩니다.
# 0은 setosa
# 1은 versicolor
# 2는 virginica를 나타냅니다.

# 위 배열은 총 150개의 요소를 가지고 있으며, 각 요소는 해당 데이터 포인트의 클래스(종류)를 나타냅니다.



array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

# 데이터 프레임으로 정리하기

In [18]:
import pandas as pd

iris_df = pd.DataFrame(data=iris_data.data, columns=iris_data.feature_names)
iris_df.head()


# data=iris_data.data: 데이터프레임의 데이터를 설정합니다. 이는 아이리스 데이터셋의 특징 데이터를 포함합니다.
# columns=iris_data.feature_names: 데이터프레임의 열 이름을 설정합니다. 이는 아이리스 데이터셋의 각 특징(속성)의 이름을 포함합니다.

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [17]:
iris_df['target'] = iris_data.target
iris_df.head()

# iris_df['target'] = iris_data.target
# : iris_data.target 배열을 iris_df 데이터프레임에 새로운 열로 추가합니다. 이 열의 이름은 'target'입니다.
# iris_data.target 배열은 각 데이터 포인트의 타겟 레이블을 포함하며, 이 배열의 각 값은 해당 데이터 포인트의 클래스(종류)를 나타냅니다.
# 타겟 레이블은 0, 1, 2로 표현되며, 이는 각각 setosa, versicolor, virginica를 나타냅니다.

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
