# Day 1: BadData, not BigData
データサイエンスという言葉が世を賑わせており，統計処理や機械学習に関する書籍や講義にもアクセスしやすくなってきた．それらを分析手法を十分に学習した学生は，就職後，データサイエンティストとして大活躍だろう，か？

残念ながらそう甘くはない．統計処理や機械学習の講義や書籍で扱われている手法はたいていの場合はキレイなサンプルデータである．一方で，企業や一般社会の中で料理（分析）されるのを待っている大量のデータは分析に適した形になっていない．ビッグデータ（BigData）ではなくバッドデータ（BadData）であることが大半である．データサイエンスの概念が導入されていない現場であればあるほど，バッドデータに遭遇する可能性は高い．分析手法しか習っていない新米データサイエンティストは，バッドデータに対峙して困ることになる．

Day 1では，（仮想的な）ある小売店（仮称：杏森堂）の売上データを取り上げ，バッドデータの分析（の大変さ）を体験する．この体験を通じて，
* データサイエンス活動における前処理プロセスの必要性
* データのデザインの重要性

について感じてもらいたい．

## 演習環境
Day 1 の演習では，Excelファイルのデータ分析を行う．基本的には _Excel_ を用いた演習を行うが，Excelデータを[Python](https://www.python.jp)や[R](https://www.r-project.org/)などを用いてデータ処理したい（できる）学生はそれらを用いても構わない．

---

## 課題0

杏森堂では，顧客台帳をExcelフォーマットを使って管理している．売上は順調であり，Excelのデータがかなりのボリュームになっているため，データ分析を行うことで色々な知見が期待できる．

杏森堂からデータ分析の依頼を受けたとしよう．[このZipファイル](https://shoji-lab.jp/day1-dataset.zip)には，杏森堂の売上に関する以下の4つのファイルが格納されている：
* 購買記録に関するデータ（2019年1月〜2019年7月の売上履歴）
    * uriage_1.csv
    * uriage_2.csv
* 顧客台帳データ（手入力で店舗が管理している顧客台帳）
    * kokyaku_daicho_1.csv
    * kokyaku_daicho_2.csv

2つのファイルを用いて，以下に関する表を作成せよ：
1. 縦方向にある年のある月，横方向に商品を並べた，商品ごとの年月別売上情報
2. 縦方向にある年のある月，横方向に地域（市）を並べた，各市ごとの年月別売上情報
3. 集計期間中（2019年1月〜2019年7月）に杏森堂で購買行動をしていない顧客のリスト


※ なお，上記データは[Python実践データ分析100本ノック](https://www.amazon.co.jp/dp/4798058750/ref=cm_sw_r_tw_dp_QDCE479VPFEJZZTA4GQ5)のサンプルファイルの一部を加工したものである．

---
## ノック
以下は上記課題を解くための要素を学ぶことができるクイズである．課題を解くためのスキルを着実に習得したい人は，以下のノックを順次解いてみよう．ノックの解説は授業中に行う．

### Knock 1: データの意味の確認
購買記録に関するデータ（`uriage_1.csv`および`uriage_2.csv`）と顧客台帳データ（`kokyaku_daicho_1.csv`および`kokyaku_daicho_2.csv`）を開き，データの意味を確認せよ．

### Knock 2: データの揺れ，欠損値の確認
購買記録に関するデータ（`uriage_1.csv`および`uriage_2.csv`）と顧客台帳データ（`kokyaku_daicho_1.csv`および`kokyaku_daicho_2.csv`）に含まれるデータの揺れや欠損値の有無を確認せよ．

### Knock 3: カラムの作成
`uriage_1.csv`および`uriage_2.csv`のA列`purchase_date`の隣に`purchase_month`という列を作成し，A列のデータを`年/月`の形式に変換したデータを作成せよ．例えば，「2019/07/13 13:05:29」というデータであれば，「2019/07」というデータに変換したデータをB列に作成せよ．


### Knock 4: ピボットテーブル1 - 商品ごとの年月別売上データの個数の集計
`uriage_1.csv`および`uriage_2.csv`を対象に，データの揺れや欠損値は補正せずに，
* 縦軸に購入年月
* 横軸に商品

に並べた表を作成し，ある購入年月における各商品の売上データの個数を集計せよ．

### Knock 5: ピボットテーブル2 - 商品ごとの年月別売上金額の合計の集計
`uriage_1.csv`および`uriage_2.csv`を対象にデータの揺れや欠損値は補正せずに，
* 縦軸に購入年月
* 横軸に商品

に並べた表を作成し，ある購入年月における各商品の売上金額の合計値を集計せよ．

### Knock 6: データの揺れの補正
`uriage_1.csv`および`uriage_2.csv`における商品名（`item_name`）の揺れを補正せよ．同様に，`kokyaku_daicho_1.csv`および`kokyaku_daicho_2.csv`における顧客名の揺れも補正せよ．補正対象は
* スペースの有無
* 半角・全角
* アルファベットの大文字・小文字

とする．

### Knock 7: フィルタ操作 - 欠損値データの絞り込み
`uriage_1.csv`および`uriage_2.csv`上のデータについて，商品価格（`item_price`）が欠損しているデータをリストアップせよ．

### Knock 8: 欠損値の補完
`uriage_1.csv`および`uriage_2.csv`において，商品価格（`item_price`）の欠損値を同名の商品の商品価格で補完せよ．なお，商品名はKnock 6で揺れ補正をしたものを用いること．

### Knock 9: 結合
`uriage_1.csv`および`uriage_2.csv`，と`kokyaku_daicho_1.csv`および`kokyaku_daicho_2.csv`を顧客名をキーにして結合し，1つの表を作成せよ．

※ ヒント：Excel上で2つの表を結合するのは`VLOOKUP`関数を用いる．

### Knock 10: データ保存
Knock 9で作成した表データを`dump.xlsx`というファイル名で保存せよ．