## 사이킷런으로 시작하는 머신러닝


### 1. 사이킷런의 주요 모델 설명
#### 예제 데이터 
 * `sklearn.datasets` : 사이킷런에 내장되어 예제로 제공하는 데이터 세트
#### 피처처리 
* `sklearn.preprocessing` : 데이터 전처리에 필요한 기능 제공(문자열을 숫자형 코드값으로 인코딩, 정규화, 스케일링등)
* `sklearn.feature_selection` : 알로리즘에 큰 영향을 미치는 피처를 우선순위대로 선택작업을 수행하는 다양한 기능 제공
* `selearn.feature_extraction` : 텍스트 데이터나 이미지 데이터의 벡터화된 피처를 추출
  * `sklearn.feature_extraction.text` : 텍스트 데이터의 feature 추출
  * `sklearn.feature_extraction.image` : 이미지 데이터의 feature추출
#### 피처처리 및 차원축소
* `sklearn.decomposition` : 차원 축소와 관련된 알고리즘 제공(PCA, NMF, Truncated SVD)

#### 데이터분리 및 검증 , 파라미터 튜닝
* `sklearn.model_selection` : 교차 검증을 위한 학습용/테스트용 분리, 그리드 서치로 최적 파라미터 추출등의 API제공
#### 평가
* `sklearn.metrics ` : 분류, 회귀,클러스터링, 페어와이즈에 대한 다양한 성능 측정 방법 제공(Accuracy, Precision, Recall, ROC-AUC, RMSE)
#### ML알고리즘
* `sklearn.ensemble` : 앙상블 알고리즘, 렌덤포레스트 에이다 부스트, 그레디언트 부스틍 제공 
* `sklearn.linear_model` : 선형회귀, 릿지(Ridge), 라쏘(Lasso) 및 로지스틱 회귀 ,SDG(Stochastic Gradient Descent)알고리즘)
* `sklearn.naive_bayes` : 나이브 베이즈 ㅇ라고리즘, 가우시안 NB,다항분포 NB
* `sklearn.neighbors` : 최근접 이웃 알고리즘 제공 , K-NN
* `sklearn.svm` : 서포트 벡터 머신 알고리즘
* `sklearn.tree` : 의사 결정 트리 알고리즘
* `sklearn.cluster` : 비기도 클러스터링 알고리즘 제공(k-평균, 계층형, DBSCAN)
#### 유틸리티
* `sklearn.pipeline` : 피처처리등의 변환과 알고리즘 학습 , 예측등을 함께 묶어서 실행 할 수 있는 유틸리티 제공

### 1.1 `Estimator` 이해 및 `fit()`, `predict()`메소드 
* 모델학습 - `fit()`
* 학습모델의 예측 - `predict()`
* 사이킷런에서는 분류알고리즘을 구현한 클래스로 Classifier, 회귀알고리즘은 Regressor가 있고 이 둘을 합쳐서 `Estimator()`라고 한다.
`Estimator`클래스또한 내부에서 `fit()`과 `predict()`에서 구현하고 있음.

### 2.머신러닝 구축 프로세스
* 피처 처리 (피처의 가공, 변경 ,추출) -> ML알고리즘 학습/예측/수행 --> 모델평가의 과정으로 이루어지며 이 세가지 과정을 반복함.

### 3. 내장된 예제 데이터 세트
* datasets.load_boston() : 보스톤의 집 피처들과 가격에 대한 데이터세트(회귀용도)
* datasets.load_breast_cancer() : 위스콘신 주 유방암 피처들과 악성/ 음성 레이블 데이터 세트(분류용도)
* datasets.load_diabets : 피마 인디언들의 당뇨데이터 세트
* datasets.load_digits : 분류용도임 , 0에서 9까지 숫자의 이미지 픽셀 데이터 세트
* dataset.load_iris()  : 분류용도,붓꽃에 대한 피처를 가진 데이터 세트

이 밖에도 회귀분석용 토지 조사, 뉴스그룹 텍스트 자료, 얼굴이미지 자료등이 있으니 이런 데이터는 덩치가 커서 인터넷에 접속해서 다운로드 가능(fetch계열의 명령어)

### 4. 분류와 클러스터링을 위한 표본 데이터 생성기
* `datasets.make_classifications()` : 분류를 위한 데이터세트 생성
* `datasets.make_blobs()` : 클러스터링을 위한 데이터셋트 무작위 생성

In [1]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))   # Dict객체를 상속한 것을 모든 메소드를 지원함.

<class 'sklearn.utils.Bunch'>


### 4.1 load_iris()가 반환하는 객체의 키 출력

In [5]:
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들 : ', keys)

붓꽃 데이터 세트의 키들 :  dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [22]:
print("\n feature_names의 type : ", type(iris_data.feature_names), iris_data.feature_names)
print("\n feature_names의 shape : ", len(iris_data.feature_names))

print("\n target_names의 type : ", type(iris_data.target_names))
print("\n target_names의 shape : ", len(iris_data.target_names))
print(iris_data.target_names)

print("\n data의 type : ", type(iris_data.data))
print("\n data의 shape : ", iris_data.data.shape) # 150개의 데이터와 4개의 컬럼(변수)
print(iris_data['data'])

print("\n taget의 type: ", type(iris_data.target))
print("\n target의 shape : ", iris_data.target.shape)
print(iris_data.target)


 feature_names의 type :  <class 'list'> ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 feature_names의 shape :  4

 target_names의 type :  <class 'numpy.ndarray'>

 target_names의 shape :  3
['setosa' 'versicolor' 'virginica']

 data의 type :  <class 'numpy.ndarray'>

 data의 shape :  (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3

## 데이터 분석 대상 주제 선정
* 인디아 피마 당뇨병
* 보스톤 집 피터 데이터 셋