<a href="https://colab.research.google.com/github/shimooo3/sentann/blob/main/minelab_2024_summer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## SIGNATE Tutorial Notebook for Colaboratory

Google Colaboratoryを利用してSIGNATE ○○コンペティションに参加する際のチュートリアルノートブックです。


# 事前準備： SIGNATE CLI

[SIGNATE CLIとは](https://pypi.org/project/signate/)

## Installation

SIGNATEコンペティションのデータセットのダウンロードやサブミットする際に便利なCLIツールをインストールします。

In [None]:
! pip install signate

Collecting signate
  Downloading signate-0.9.10-py3-none-any.whl.metadata (8.1 kB)
Collecting wget (from signate)
  Downloading wget-3.2.zip (10 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Downloading signate-0.9.10-py3-none-any.whl (37 kB)
Building wheels for collected packages: wget
  Building wheel for wget (setup.py) ... [?25l[?25hdone
  Created wheel for wget: filename=wget-3.2-py3-none-any.whl size=9656 sha256=cb46dbaf1d22ae429e72381e069c701f108daef0bc30bf0c2ff5d7945bb68b0c
  Stored in directory: /root/.cache/pip/wheels/8b/f1/7f/5c94f0a7a505ca1c81cd1d9208ae2064675d97582078e6c769
Successfully built wget
Installing collected packages: wget, signate
Successfully installed signate-0.9.10 wget-3.2


## Configuration

SIGNATE CLIを使うためには、最初にTokenファイルが必要です。

[SIGNATEアカウント設定ページ](https://signate.jp/account_settings) のおAPI Tokenファイル（signate.json）を発行し、ローカルPCにダウンロードします。

### Upload token file

ローカルPCにダウンロードしたTokenファイルをGoogle Colaboratoryにアップロードします。

In [None]:
from google.colab import files

uploaded = files.upload()

for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

Saving signate.json to signate.json
User uploaded file "signate.json" with length 1012 bytes


### Move token file

TokenファイルをSIGNATE CLIが認識できるように `$HOME/.signate/signate.json` に移動します。

In [None]:
! mkdir -p /root/.signate && mv signate.json /root/.signate/

## Check command

ヘルプコマンド実行

In [None]:
! signate --help

Usage: signate [OPTIONS] COMMAND [ARGS]...

Options:
  --version  Show the version and exit.
  --help     Show this message and exit.

Commands:
  download  Download the file of competition
  files     List file of competition
  list      List competition
  submit    Submit a result file to the competition
  token     Download the API Token


# コンペ参加

## 開催中のコンペ一覧

In [None]:
! signate list

  competitionId  title                                                                                             closing     prize        submitters
---------------  ------------------------------------------------------------------------------------------------  ----------  ---------  ------------
              1  【練習問題】銀行の顧客ターゲティング                                                              -                              7124
             24  【練習問題】お弁当の需要予測                                                                      -                              8723
             27  【練習問題】Jリーグの観客動員数予測                                                               -                              2152
            100  【練習問題】手書き文字認識                                                                        -           Knowledge           351
            102  【練習問題】タイタニックの生存予測                                                                -           Knowledge          2956
            103  【練習問題

## データセットダウンロード

### ファイル一覧取得  
数字を対応しているコンペリストのものに合わせてください  
毒キノコ：105


In [None]:
! signate files -c 105

  fileId  name               title                     size  updated_at
--------  -----------------  ----------------------  ------  -------------------
     294  train.tsv          学習用データ            210957  2018-06-19 02:28:37
     295  test.tsv           評価用データ            202855  2018-06-19 02:28:53
     296  sample_submit.csv  応募用サンプルファイル   31953  2018-06-19 02:29:09


### 一括ファイルダウンロード

`competitonId: 105` の一括ダウンロード

In [None]:
! signate download -c 105

sample_submit.csv

test.tsv

train.tsv

[32m
Download completed.[0m


In [None]:
! ls -al

total 460
drwxr-xr-x 1 root root   4096 Jul 27 06:35 .
drwxr-xr-x 1 root root   4096 Jul 27 06:04 ..
drwxr-xr-x 4 root root   4096 Jul 25 13:20 .config
drwx------ 5 root root   4096 Jul 27 06:13 drive
drwxr-xr-x 1 root root   4096 Jul 25 13:21 sample_data
-rw-r--r-- 1 root root  31953 Jul 27 06:35 sample_submit.csv
-rw-r--r-- 1 root root 202855 Jul 27 06:35 test.tsv
-rw-r--r-- 1 root root 210957 Jul 27 06:35 train.tsv


### 個別ファイルダウンロード

`competitionId: 102, fileId: 272` train.tsv ダウンロードする場合

In [None]:
#! signate download -c 10 -f 272

## データ分析

In [None]:
# python バージョン確認
! python -V

In [None]:
# インストール済みライブラリー確認
! pip freeze

データの確認

In [None]:
import pandas as pd
import numpy as np

# データの読み込み
train = pd.read_csv('train.tsv', delimiter='\t')
test = pd.read_csv('test.tsv', delimiter='\t')

In [None]:
# trainデータの先頭確認
train.head()

Unnamed: 0,id,Y,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,...,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,0,p,f,y,n,f,f,f,c,n,...,k,w,w,p,w,o,e,w,v,d
1,2,p,f,y,y,f,f,f,c,b,...,k,b,p,p,w,o,l,h,y,g
2,3,e,b,y,w,t,l,f,c,b,...,s,w,w,p,w,o,p,k,n,m
3,5,p,x,s,b,t,f,f,c,b,...,s,w,w,p,w,o,p,h,v,u
4,7,p,x,s,w,t,f,f,c,b,...,f,w,w,p,w,o,p,h,v,g


In [None]:
# testデータの先頭確認
test.head()

Unnamed: 0,id,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,...,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,1,x,s,w,t,f,f,c,b,p,...,f,w,w,p,w,o,p,h,v,g
1,4,f,y,g,t,n,f,c,b,n,...,s,p,g,p,w,o,p,n,y,d
2,6,x,y,e,t,n,f,c,b,w,...,s,w,p,p,w,o,p,n,y,d
3,8,f,s,g,t,f,f,c,b,p,...,s,w,w,p,w,o,p,h,v,g
4,9,x,s,e,f,y,f,c,n,b,...,s,w,w,p,w,o,e,w,v,l


trainとtestのカラムを見比べるとtestにはYがないのが確認できます．つまりYが目的変数で他が説明変数です．  
目的変数：予測したいもの  
説明変数：目的変数を予測するためのもの

In [None]:
# データの確認
train.info()
# test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4062 entries, 0 to 4061
Data columns (total 24 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   id                        4062 non-null   int64 
 1   Y                         4062 non-null   object
 2   cap-shape                 4062 non-null   object
 3   cap-surface               4062 non-null   object
 4   cap-color                 4062 non-null   object
 5   bruises                   4062 non-null   object
 6   odor                      4062 non-null   object
 7   gill-attachment           4062 non-null   object
 8   gill-spacing              4062 non-null   object
 9   gill-size                 4062 non-null   object
 10  gill-color                4062 non-null   object
 11  stalk-shape               4062 non-null   object
 12  stalk-root                4062 non-null   object
 13  stalk-surface-above-ring  4062 non-null   object
 14  stalk-surface-below-ring

今回はnon-nullで欠損値のないデータですね．  
実際は計測機器の不具合でデータの欠損はありふれた話です．欠損した値はその列の平均値で埋めたり，0で埋めたり，その行ごと削除したりします.  
また，全てがobject型です．


ここで一つデータ分析をつまみましょう．  
今回は毒キノコかどうかを予測するタスクです.毒キノコと聞いてどのようなイメージがあるでしょうか．  
- 毒々しい色：cap-color
- 斑点　　　：bruises
- 刺激臭　　：odor

これらが私の考える毒キノコの特徴です．今回はこれらが毒キノコであるかどうか予測するのに使えそうですね．

## 説明変数の整形

In [None]:
# 使うデータだけ用意
# 訓練データの説明変数
x_train = train[['cap-color', 'bruises', 'odor']]
# 訓練データの目的変数
y_train = train[['Y']]

# カテゴリカルデータを数字データに置換
x_train.replace({'cap-color': {'n': 0, 'b': 1, 'c': 2, 'g': 3, 'r': 4, 'p': 5, 'u': 6, 'e': 7, 'w': 8, 'y': 9}}, inplace=True)
x_train.replace({'bruises': {'f': 0, 't': 1, 'habitat': {'g': 0, 'm': 2, 'p': 3, 'u': 4, 'w': 5, 'd': 6}}}, inplace=True)
x_train.replace({'odor': {'a': 0, 'l': 1, 'c': 2, 'y': 3, 'f': 4, 'm': 5, 'n': 6, 'p': 7, 's': 8}}, inplace=True)

# 目的変数の置換
y_train.replace({'Y': {'p': 0, 'e': 1}}, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  x_train.replace({'cap-color': {'n': 0, 'b': 1, 'c': 2, 'g': 3, 'r': 4, 'p': 5, 'u': 6, 'e': 7, 'w': 8, 'y': 9}}, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  x_train.replace({'bruises': {'f': 0, 't': 1, 'habitat': {'g': 0, 'm': 2, 'p': 3, 'u': 4, 'w': 5, 'd': 6}}}, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/ind

In [None]:
# x_train確認
x_train

Unnamed: 0,cap-color,bruises,odor
0,0,0,4
1,9,0,4
2,8,1,1
3,1,1,4
4,8,1,4
...,...,...,...
4057,0,0,8
4058,9,0,4
4059,0,0,3
4060,0,1,7


In [None]:
# testに対しても同様の置換を行う
x_test = test[['cap-color', 'bruises', 'odor']]
x_test.replace({'cap-color': {'n': 0, 'b': 1, 'c': 2, 'g': 3, 'r': 4, 'p': 5, 'u': 6, 'e': 7, 'w': 8, 'y': 9}}, inplace=True)
x_test.replace({'bruises': {'f': 0, 't': 1, 'habitat': {'g': 0, 'm': 2, 'p': 3, 'u': 4, 'w': 5, 'd': 6}}}, inplace=True)
x_test.replace({'odor': {'a': 0, 'l': 1, 'c': 2, 'y': 3, 'f': 4, 'm': 5, 'n': 6, 'p': 7, 's': 8}}, inplace=True)

x_test

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  x_test.replace({'cap-color': {'n': 0, 'b': 1, 'c': 2, 'g': 3, 'r': 4, 'p': 5, 'u': 6, 'e': 7, 'w': 8, 'y': 9}}, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  x_test.replace({'bruises': {'f': 0, 't': 1, 'habitat': {'g': 0, 'm': 2, 'p': 3, 'u': 4, 'w': 5, 'd': 6}}}, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/index

Unnamed: 0,cap-color,bruises,odor
0,8,1,4
1,3,1,6
2,7,1,6
3,3,1,4
4,7,0,3
...,...,...,...
4057,0,0,6
4058,3,0,6
4059,3,1,6
4060,3,1,4


変数  
x_train：訓練データの説明変数  
y_test：訓練データの目的変数  
x_test：評価データの説明変数  
これからやること  
訓練データを使って説明変数から目的変数を予測するモデルを作成  
作成したモデルで評価データから目的変数（=提出物）を予測

## 決定木による予測

In [None]:
from sklearn import tree
x_train = x_train[['cap-color', 'bruises', 'odor']]
x_test = x_test[['cap-color', 'bruises', 'odor']]
decision_tree = tree.DecisionTreeClassifier(random_state=42)
decision_tree.fit(x_train, y_train)

y_pred = decision_tree.predict(x_test)


In [None]:
# 予測結果の確認（行数）
y_pred.shape

(4062,)

In [None]:
# 予測結果の再置換 0,1->p,e
y_pred_str = np.where(y_pred == 0, 'p', 'e')

In [None]:
# 提出用データの作成
submit = pd.DataFrame({'id': test['id'], 'Y': y_pred_str})
submit.to_csv('submission.csv', index=False, header=False)

## 分析結果サブミット

- サブミットの結果は評価が終わるとメールにて通知される
- `competitionId: 102` にメモを添えてサブミットする場合

In [None]:
! signate submit -c 105 -n "submit from Google Colaboratory" submission.csv

[32mYou have successfully submitted your predictions.We will send you the submission result to your email address.[0m


# その他のリソース

- [SIGNATE コンペ一覧](https://signate.jp/competitions)
- [SIGNATE CLIの概要](https://pypi.org/project/signate)
- [SIGNATEアカウント設定ページ](https://signate.jp/account_settings)
- [Colaboratory の概要](/notebooks/basic_features_overview.ipynb)
- [markdown のガイド](/notebooks/markdown_guide.ipynb)
- [ライブラリのインポートと依存関係のインストール](/notebooks/snippets/importing_libraries.ipynb)
 [Colab の TensorFlow 2](/notebooks/tensorflow_version.ipynb)