<a href="https://colab.research.google.com/github/kyata/introduction_to_ml_with_python/blob/master/intro_to_ml_chapter1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Pythonではじめる機械学習
===

# 1. はじめに

---
## 1.1.1. 機械学習で解決可能な問題

### 教師あり学習

  - 既知の例を一般化することで意思決定過程を自動化する 

  - ユーザが入力データと望ましい出力のペア群をアルゴリズムに与える

  - アルゴリズムは入力から望ましい出力を生成する方法を発見する。

  -  入力と出力のペア群から学習
  
  - 適用例

    - 手書き文字識別

    - 医用画像からの腫瘍の判定

    - クレジットカードの不正トランザクション検出
    
---
### 教師なし学習

  - 適用例
    - 多数のブログエントリからのトピック特定

    - 顧客を嗜好でグループに分類

    - Webサイトへの異常アクセスパターンの検出

---

- **入力データを計算機が理解できる形にすることが重要**

- 個々のエンティティ/行を**サンプル**と呼ぶ

- エンティティの持つ特性を表現する列を**特徴量**と呼ぶ.

- どんな機械学習アルゴリズムでもデータに情報がなければ予測することはできない.

- モデルを構築する前にデータセットがどうなっているかを理解する必要がある.

- アルゴリズムにはそれぞれ得意とするデータの種類や問題の設定がある.

- 機会学習システムを構築する際には以下のような質問に答えられるようにするべき.


  1. 答えようとしている問はなにか?
  1. 集めたデータでその問いに答えられるか?

  1. 問を機械学習問題に置き換える最も良い方法はなにか?
  
  1. 解こうとしている問題を表現するのに十分なデータは集めたか?

  1. どのような特徴量を抽出したか。その特徴量で正しい予測が可能か?
  
  1. アプリケーションがうまく行ったかどうかをどう判断すべきか?
  
  1. 製品の他の部分と機械学習はどのように関係するか?
  

## 1.4 必要なライブラリとツール

- Jupyter Notbook
  - ブラウザ上でコードを実行するための環境
  - コードやテキストや画像を取り込むことが簡単にできる
  - コードは[Github](https://github.com/amueller/introduction_to_ml_with_python)からDL可能
  
- NumPy
  - Puthonで科学技術計算をする際のライブラリ
  - 多次元配列や線形代数、フーリエ変換、擬似乱数生成などの高レベル数学関数が用意されている.
  - scikit-learnではNumPyの配列(ndarray)が基本的なデータ構造となる
  - 配列のすべての型の要素は同じ型でなければならない
 

In [0]:
#@title NumPy配列の使い方

import numpy as np

x = np.array([[1, 2, 3], [4, 5, 6]])
print("x:\n{}".format(x))

## 1.4.3. SciPy

- SciPyはPythonで科学技術計算を行うための関数を集めたもの

- 以下のような機能を持つ
  - 高度な線形代数ルーチン
  - 数学関数の最適化
  - 信号処理
  - 特殊な数学関数
  - 統計分布
  
- scikit-learnはアルゴリズム実装時にSciPy関数群を利用している

- もっとも重要なSciPyの要素は**scipy.sparse**

- **scipy.sparse**は疎行列を表現するデータ構造

- scikit-learnで用いいるもう一つのデータ表現()

In [0]:
#@title SciPyサンプル
from scipy import sparse

# 対角成分が1でそれ以外が0のに2次元配列を作る
eye = np.eye(4)

print("Numpy array:\n{}".format(eye))