# 1.データエンジニアの役割(5/100)

## 1-1.データ分析の世界

### 1.データ分析を取り巻く状況

家庭用PCの性能アップ、インターネットの発達からの通信コスト低下等で大量データの取り扱いが家庭用PCレベルでも処理できる時代になった。
機械学習にはデータが必須。データをもとに予測や分類してるからね。
だから「データ分析」の技術が重要。

* データ分析から導き出されるもの

工場の異常検知、広告出稿の価値評価、天気予報、データ分析は色んな所で使われてるよ。
まだまだ可能性は多いよ。

### 2.データ分析とPython
* データ分析におけるPythonの役割

    Pythonがデファクトスタンダード。
    数値、文章、画像、音声etcを分析可能な形式に加工したり、統計処理や機械学習を用いた予測をするためにPythonでプログラミングする。

* Pythonの特徴
    * 汎用言語
    * コンパイル不要、動的スクリプト言語
    * 標準ライブラリや外部パッケージが豊富
    * データ分析以外にも色々できる
    * オープンソース
* Pythonが得意とする分野
    * データ分析
    * Webシステムの構築
    * IoTデバイスの操作
    * 3Dグラフィックス
* Pythonが苦手とする分野

    * Webアプリなどのフロントエンド
    * デスクトップGUI
    * 速度向上等のための低レイヤー処理
    * 超大規模かつミッションクリティカルな処理

    プログラミング言語には向き不向きがあるからね、仕方ないね。

* Pythonでデータ分析に使われるツール
    * Jupyter Notebook
    * NumPy
    * pandas
    * Matplotlib
    * SciPy
    * scikit-learn

* Python以外の選択肢
    * R言語
    * Excel(VBA)
    * Java

    それぞれ、Webへの応用が効かないとか、ライブラリが充実してないとか、もちろん向き不向きがあるよ

### 3.データサイエンティストとは
    
数学、情報工学、ドメイン知識を総合的に持ち、データ分析orデータ解析の、一連の処理、理解、評価を行える立場の職種

* データサイエンティストの役割

    * モデルやアルゴリズム構築
    * 新解放、新技術への取り組み
    * 課題に向き合う実務
    * データとの向き合い方の提示
    * 分析結果の評価

* 研究分野と実務の違い

研究分野だと新解法、新技術への取り組みが重視されるよ。
実務分野だと課題に向き合う部分が重視されるよ。
        


### 4.データ分析エンジニアとは

情報工学を基盤にデータと向き合う「データ工学」を実践する1つの職種

* データ分析エンジニアが持つべき技術や知識

    * ↓↓↓最低限↓↓↓
    * データハンドリング（入手、加工)
    * データの可視化
    * プログラミング
    * インフラレイヤー

    * ↓↓↓付加的に持つべき技術↓↓↓
    * 機械学習
    * 数学
    * ドメイン知識
    
    
### 5.データハンドリング（前処理）の重要性

機械学習において、データハンドリングが業務の8~9割。
超絶大事。繰り返し行う。

## 1-2.機械学習の位置づけと流れ

### 1.機械学習とは
機械学習＝モデルを作って、データ分類や数値予測を行う。

モデル＝機械学習アルゴリズムによって、大量のデータから特性を見つけて、予測を行う計算式の塊。

### 2.機械学習以外の選択肢

* ルールベース

条件分岐の容量で、if文の条件を書いていくアプローチ。パラメータの数が増えるとルールでの記述が難しくなる。

* 統計的手法

データから統計的な数値を求め、それらの数値に沿うように予測するアプローチ。機械学習と親和性が高い方法。

### 3.機械学習のタスク
* 教師あり学習

    正解ラベル（タスクとなる課題に対して目的となる値）が存在する場合に用いられる手法。

    正解ラベルである目的変数と、それ以外のデータである説明変数から成る。

    説明変数と目的変数の組み合わせが多い程、正解に近づくモデル。

    目的変数の種類により、「回帰」と「分類」に分けられる。


    1. 回帰
    
    正解ラベルが連続値。
    
    例）売上金額、気温等
    
    2. 分類
    
    目的変数がカテゴライズされているデータ。
    
    例）病気に罹っている/否（2値）、動物の種類（多値）

* 教師なし学習

    正解ラベルを用いない学習方法。

    データ管のそれぞれの特徴をもとに学習する。

    1. クラスタリング

    与えられたデータの中からグルーピングを行う。
    
    データの種類を増やしたり、数を変えたりして結果を見ることになる。
    
    2. 次元削減

    大量なデータの種類（説明変数の次元数）を、より少ないデータの種類（次元数）で言い表す手法。
    
    主成分分析とか。

* 強化学習

    最近研究が進んでる手法。
    
    ブラックボックス的な環境の中で行動するエージェントが、報酬を最大化するような行動を学習していく。
    
    将棋とか以後とか。

### 4.機械学習の処理の手順
* データ入手

機械学習に利用できるデータを探し出し、手に入れるところから。
Numpy,pandas等のライブラリを使ってデータの概要を捉え、見やすい形にする。


* データ加工

初期加工。
データ型を整えたり、複数のデータを結合したり、欠損値への対応とか。
Numpy,pandas等を使用。

* データ可視化

表やグラフでデータの中身を確認。
Matplotlibで図示。統計値などはpandasで確認。

* アルゴリズム選択

機械学習で最も難しい作業。
目的及びデータに沿ったアルゴリズムを選択する。
scikit-learnとか活用される。

* 学習プロセス

モデルを学習していく。
ハイパーパラメータの設定が必要。
scikit-learnが活用される。

* 精度評価

予測結果を評価する。正解率だけではなくて、適合率や再現率等も確認する。
scikit-learnの各種機能が活用される。

* 試験運用

実際に結果のわからない未知のデータで実行、評価をする。
評価の結果によって、再度各プロセスを見直し、再実行。繰り返す。

* 結果利用

実務に利用可能な精度が確認できたら、モデルを保存して、実業務にモデルの予測結果を取り入れる。
Webシステムやデイリー業務を行うシステムの構築とか。応用範囲が広がる。

## 1-3.データ分析に使う主なパッケージ



### 1.パッケージとは

Pythonに機能を追加したり支援するためのもの。

外部パッケージ、サードパーティ製パッケージとか呼ぶ。

### 2.サードパーティ製パッケージの紹介
* Jupyter Notebook

Webブラウザ上でコードを実行できる環境。
コードを書くと実行結果が表示される。
グラフも保養時される。
再実行も容易。
つまりこれ。

* Numpy

数値計算を扱う。配列とか行列とか。

* pandas

データフレーム構造を提供する。
R言語のデータフレームからインスパイアされたもの。
表計算の二次元データを柔軟に扱う。

* Matplotlib

折れ線グラフ表示したり。ヒストグラム表示したり。可視化ツール。

* scikit-learn

機械学習アルゴリズムとか、評価用のツールが集まったもの。
テストツールとかもあるから、アルゴリズムを自分で実装したときもツールだけ使える。

* SciPy

科学技術計算が得意。
高度な統計処理とか、線形代数とか、フーリエ変換とか。
