# 事始め  
**機械学習**を、私達は、単にデータからアルゴリズミックに知識を引き出すことだと呼べる。  
基本的な統計学のツールを使いながら、複雑なデータ解析を完遂することができることは、この20年間で洗練され、発展を遂げてきた。それとともに、**Python**は、データサイエンスにとって最重要な言語として成長してきた。時を同じくして、**scikit-learn**は、機械学習の一般的な用途での主な道具箱として成長してきた。  

基本概念と技術に的を絞り、機械学習を通して、**scikit-learn**を具象化されたライブラリとして、また、図示化されたアプリケーションをプログラミングするインターフェイスとして使いながら慣れ親しむ。  

教師学習に重点を置くことに焦点を絞り、教師なし学習の理解に必要な概念もまた理解を深めて行くこととする。  

**scikit-learn**の公式サイトの

## **Scikit-learn**
---
多様なツールで、model fitting、data preprocessing、model selection、そして、evaluationに使われている。

## Fitting and predicting: estimator basics
**scikit-learn**は、[**estimators**](https://scikit-learn.org/stable/glossary.html#term-estimators)と呼ばれる機械学習アルゴリズムとモデルがビルトインされているフリーのツールである。それぞれのestimatorsは[**fit**](https://scikit-learn.org/stable/glossary.html#term-fit)メソッドを使ってあるデータに適合させることができる。  

まず最初に、[**RndomForestClassifier**](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier)使ってみる。

In [2]:
from sklearn.ensemble import RandomForestClassifier

In [3]:
clf = RandomForestClassifier(random_state=0)

In [4]:
# 2 samples, 3 features
X = [[1, 2, 3],
     [11, 12, 13]]

In [6]:
# classes of each sample
y = [0, 1]

In [7]:
clf.fit(X, y)

RandomForestClassifier(random_state=0)

### ここで、**fit**メソッドは２つの入力値を受けている。
- サンプルマトリックス**X**について。**X**の形状は**(x_samples, n_features)となる。これは、サンプルは**行**に、特徴は**列**に形作られたマトリックスをあらわす。  
- ターゲット値**y**は、教師あり学習の場合は定量的な値を持つ。しかし教師なし学習の場合には存在しない。

### **estimator**に**fit**メソッドが適用されると、新しい値の予測値を求めるために使われる。

In [8]:
clf.predict(X)

array([0, 1])

In [9]:
clf.predict([[4, 5, 6],[14, 15, 16]])

array([0, 1])

---

# Transformers and pre-processors

機械学習のワークフローは、しばしば異なったパーツで構成されることがある。その最もなパイプラインは、前処理段階で、データの変換や代入によるもので成り立ち、最終的な予測子は、対象の値を予測する。

In [11]:
from sklearn.preprocessing import StandardScaler

In [12]:
X = [[0, 15],
     [1, 10]]

In [15]:
# scale data according to computed scaling value
StandardScaler().fit(X).transform(X)

array([[-1.,  1.],
       [ 1., -1.]])

これとは違った特徴に対する異なった変換を適用したいと、しばしば出くわすことがある。[**ColumnTransformer**](https://scikit-learn.org/stable/modules/compose.html#column-transformer)は、これらのユースケースに対応してデザインされているものである。

---

## Pipelines: chaining pre-processors and estimators