00 はじめに
=========

* 例として、1994年の一斉調査で得られたデータベースから作った、アメリカ合衆国成人の収入データセットを見てみる

    * この`adult`データセットのタスクは、ある労働者の収入が50,000ドルを超えるかどうかを予測するもの
    
    * このデータセットの特徴量としては、労働者の年齢、雇用形態(自営、民間企業従業員、公務員など)、教育、性別、週あたりの労働時間、職業など
    
    * 以下の表に、このデータセットの最初の数エントリを示す

In [4]:
import os
import mglearn
import pandas as pd
# The file has no headers naming the columns, so we pass header=None
# and provide the column names explicitly in "names"
adult_path = os.path.join(mglearn.datasets.DATA_PATH, "adult.data")
data = pd.read_csv(
    adult_path, header=None, index_col=False,
    names=['age', 'workclass', 'fnlwgt', 'education',  'education-num',
           'marital-status', 'occupation', 'relationship', 'race', 'gender',
           'capital-gain', 'capital-loss', 'hours-per-week', 'native-country',
           'income'])
# For illustration purposes, we only select some of the columns
data = data[['age', 'workclass', 'education', 'gender', 'hours-per-week',
             'occupation', 'income']]
# IPython.display allows nice output formatting within the Jupyter notebook
display(data.head())

Unnamed: 0,age,workclass,education,gender,hours-per-week,occupation,income
0,39,State-gov,Bachelors,Male,40,Adm-clerical,<=50K
1,50,Self-emp-not-inc,Bachelors,Male,13,Exec-managerial,<=50K
2,38,Private,HS-grad,Male,40,Handlers-cleaners,<=50K
3,53,Private,11th,Male,40,Handlers-cleaners,<=50K
4,28,Private,Bachelors,Female,40,Prof-specialty,<=50K


* `age`：年齢

* `workclass`：雇用形態

* `education`：教育

* `gender`：性別

* `hours-per-week`：週当たりの労働時間

* `occupation`：職業

* `income`：収入

* `State-gov`：公務員

* `Self-emp-not-inc`：自営

* `Private`：民間

* `Bachelor`：大学卒

* `HS-grad`：高卒

* `11th`：高2卒

* `Masters`：修士卒

* `Some-college`：大学中退

* `Male`：男性

* `Female`：女性

* `Adm-clerical`：事務

* `Exec-manegerial`：管理職

* `Hnlers-cleaners`：清掃

* `Prof-specialty`：専門職

* このタスクは、収入が5万ドルを超えるか5万ドル以下かの2クラス分類タスクとなっている

   * 正確な収入を予測する回帰タスクとすることもできる
   
   * しかし、この問題が非常に難しくなってしまうので、クラス分類タスクとする

* このデータセットでは、`age`(年齢)と`hours-per-week`(週当たりの労働時間)は扱い方がわかっている連続値となっている

* `workclass`(雇用形態)、`education`(教育)、`sex`(性別)、`occupation`(職業)はカテゴリ特徴量である
    
    * これらはある範囲の値から選ばれたのではなく、限定されたリストの中から選ばれた値で、定量的ではなく、定性的な特性を示している

* まず、このデータでロジスティック回帰クラス分類器を学習させてみる

    * ロジスティック回帰は、次の式を用いて$\hat{y}$を予測する
    
    * $w[i]$と$b$は、訓練セットから学習した係数
    
    * $x[i]$は入力特徴量

\begin{align}
\hat{y} = w[0] \times x[0] + w[1] \times x[1] + \cdots + w[p] \times x[p] + b > 0
\end{align}

* この式は、$x[i]$が数値である場合には意味を持つが、$x[2]$が`Masters`や`Bachelors`だった場合には、意味がない

* ロジスティック回帰を適用するには、データを別の方法で表現しなければならない

| 版   | 年/月/日   |
| ---- | ---------- |
| 初版 | 2019/03/18 |