In [1]:
from sklearn.datasets import load_iris
# sklearn.datasets는 사이킷런에 내장된 예제 데이터셋이다. load_iris는 그 중 iris에 관련된 데이터셋을 로드한다.

iris_data = load_iris()
print(type(iris_data))


<class 'sklearn.utils._bunch.Bunch'>


# 사이킷런 주요 모듈 (sklearn.은 생략)

### 예제 데이터
- datasets(내장된 예제데이터셋)

### Feature 처리
- preprocessing: 데이터 전처리에 필요한 다양한 가공 기능 제공(인코딩, 정규화, 스케일링 등)
- feature_selection: 알고리즘에 큰 영향을 미치는 feature를 우선순위대로 셀렉션 작업을 수행하는 다양한 기능 제공
- feature_extraction: 텍스트 데이터나 이미지 데이터의 벡터화된 feature을 추출하는데 사용됨

### Feature 처리 & 차원 축소
- decomposition: 차원 축소와 관련된 알고리즘을 지원. PCA, NMF, Truncated SVD 등을 수행 가능

### 데이터 분리, 검증 & 파라미터 튜닝
- model_selection: 교차 검증을 위한 학습용/테스트용 분리, GridSearch로 최적 파라미터 추출 등의 API 제공

### 평가
- metrics: 분류, 회귀, 클러스터링, 페어와이즈에 대한 다양한 성능 측정 방법 제공. Accuracy, Precision, Recall, ROC-AUC, RMSE 제공

### 머신러닝 알고리즘
- ensemble: 앙상블 알고리즘 제공. RandomForest, 에이다 부스트, Gradient Boosting 제공
- linear_model: 선형 회귀, 릿지, 라쏘 및 로지스틱 회귀 등 회귀 관련 알고리즘을 지원. 또한 SGD 관련 알고리즘 지원.
- naive_bayes: 나이브 베이즈 알고리즘 제공. 가우시안 NB, 다항 분포 NB 등
- neighbors: 최근접 이웃 알고리즘 제공. K-NN 등
- svm: 서포트 벡터 머신 알고리즘 제공
- tree: 의사결정 트리 알고리즘 제공
- cluster: 비지도 클러스터링 알고리즘 제공

### 유틸리티
- pipeline: feature 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 함께 묶어서 실행할 수 있는 유틸리티 제공

In [2]:
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들:', keys)
# key는 일반적으로 data(feature), target(label), target_name, feature_name, DESCR 등으로 이루어져 있다.
# DESCR은 데이터셋에 대한 설명과 각 feature에 대한 설명을 나타냄

붓꽃 데이터 세트의 키들: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [4]:
print('\n feature_names 의 type:',type(iris_data.feature_names))
print(' feature_names 의 shape:',len(iris_data.feature_names)) # 일반적으로 ndarray, list 타입
print(iris_data.feature_names)

print('\n target_names 의 type:',type(iris_data.target_names))
print(' feature_names 의 shape:',len(iris_data.target_names)) # 일반적으로 ndarray, list 타입
print(iris_data.target_names)

print('\n data 의 type:',type(iris_data.data)) # 일반적으로 ndarray 타입
print(' data 의 shape:',iris_data.data.shape)
print(iris_data['data'])

print('\n target 의 type:',type(iris_data.target)) # 일반적으로 ndarray 타입
print(' target 의 shape:',iris_data.target.shape)
print(iris_data.target)



 feature_names 의 type: <class 'list'>
 feature_names 의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 target_names 의 type: <class 'numpy.ndarray'>
 feature_names 의 shape: 3
['setosa' 'versicolor' 'virginica']

 data 의 type: <class 'numpy.ndarray'>
 data 의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0