[矢吹太朗『Webのしくみ』（サイエンス社, 2020）](https://github.com/taroyabuki/webbook)

下のアイコンをクリックすれば，この文書に掲載されているコードを，Google Colab上で実行できます．（Googleのアカウントが必要です．）

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/taroyabuki/webbook/blob/master/chapters/10.4/zip.ipynb)

# 郵便番号データベースによる体験SQL

郵便番号データを使って，SQLでの検索を体験します．

まずは準備です．
作成済みのデータベースを読み込んで，操作できるようにします．
この部分は，理解せずに実行するだけでかまいません．
（もちろん，理解しようとしてもかまいません．理解してもかまいません．）

コードにカーソルを置いて，左側の▶ボタンをクリックするかShift+Enterで実行してください．

In [None]:
# このセルは準備のためのものなので，理解できなくてかまいません．
!wget --quiet https://github.com/taroyabuki/webbook/raw/master/chapters/10.4/zip.sqlite3
import pandas as pd
import sqlite3
con = sqlite3.connect('zip.sqlite3')
def 実行(sql): return pd.read_sql_query(sql, con)

## 例1：全データ取得

まずは，

```
zipという表から，
すべての列を取り出す．
```

という操作をしてみます．
次のように翻訳します．

```
zipという表から， → from zip
すべての列を取り出す． → select *
```

並び替えてSQL文とします．

```
select *
from zip
```

実行します．

```
実行('''
SQL文
''')
```

↑のように書くと，SQL文が実行されるようにしてあります．
ですから，ここで作ったSQL文は，次のように実行します．

In [None]:
実行('''
select *
from zip
''')

## 例2：件数

`select count(*)`として，件数を得ます．補足：例1の結果にも表示されていますが，それはSQLではなくPythonによるものです．

In [None]:
実行('''
select count(*)
from zip
''')

## 例3：条件

`where 条件`として，条件を設定します．
「where」は「場所」というよりは「場合」のことだと考えましょう．

### 例3.1：完全一致

等号は`=`，等号否定は`!=`や`<>`です．

In [None]:
実行('''
select *
from zip
where code = '2758588'
''')

### 例3.2 部分一致

任意の文字列を「`%`」で表し，「`%`」を含む文字列との比較を`like`や`not like`で行います．

27から始まる郵便番号を検索します．

In [None]:
実行('''
select *
from zip
where code like '27%'
''')

In [None]:
実行('''
select count(*)
from zip
where code like '27%'
''')

### 例3.3 条件の組合せ

条件を組み合わせるときは，`and`や`or`を使います．

In [None]:
実行('''
select *
from zip
where address1 = '北海道' and address2 like '%中央区%'
''')

### 練習

officeに「千葉工」を含むデータの件数を求めてみましょう．

In [None]:
# ここにコードを書いて，実行して試してみてください．（いろいろ試したい場合は，左上の「＋ コード」をクリックして，セルを追加するといいでしょう．）
実行('''

''')

# 補足：Pythonだけで完結させる（やらなくていいです）

Pythonは基本的には手続き型のプログラミング言語ですが，表形式のデータを宣言的に扱うしくみが用意されています．

In [None]:
# 準備
import pandas as pd
data = pd.read_csv('https://github.com/taroyabuki/webbook/raw/master/chapters/10.4/zip.csv',
                   converters={0:str},    # 0列目は文字列
                   keep_default_na=False) # 空白をNaNにしない

In [None]:
# 全データ
data

In [None]:
# 完全一致
data.query("code == '2758588'")

In [None]:
# 部分一致（27で始まる郵便番号）
# startswithをcontainsにすると「・・・を含む」になる．
# startswithをendswithにすると「・・・で終わる」になる．
data.query("code.str.startswith('27')", engine='python')

In [None]:
# 条件の組合せ
data.query("address1 == '北海道' and address2.str.contains('中央区')", engine='python')

### 練習

officeに「千葉工」を含むデータの件数を求めてみましょう．

In [None]:
# ここにコードを書いて，実行して試してみてください．（いろいろ試したい場合は，左上の「＋ コード」をクリックして，セルを追加するといいでしょう．）

# 補足：シェルだけで完結させる（やらなくていいです）

ここでやっている程度の話は，Pythonのような汎用プログラミング言語を持ち出すまでもなく，シェルスクリプトという簡易的なプログラムでも解決できます．

参考書

- [カーニハン，パイク『UNIXプログラミング環境』](https://calil.jp/search?q=UNIX%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9F%E3%83%B3%E3%82%B0%E7%92%B0%E5%A2%83)（1985年版と2017年版のどちらを参照してもかまいません．）
- [エイホほか『プログラミング言語AWK』](https://calil.jp/search?q=%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9F%E3%83%B3%E3%82%B0%E8%A8%80%E8%AA%9EAWK)（第1版と第2版のどちらを参照してもかまいません．）

以下，「`-F,`」は「コンマで分割する」という意味です．

In [None]:
# ツールのインストール（管理者権限が必要）
!apt-get install gawk | tail -n 1

In [None]:
# 準備
!wget --quiet https://github.com/taroyabuki/webbook/raw/master/chapters/10.4/zip.csv

In [None]:
# データの形式
!head zip.csv

In [None]:
# 件数（この結果から見出しの分つまり1を引く）
!wc -l zip.csv

In [None]:
# 完全一致
!awk -F, '$1=="\"2758588\""' zip.csv

In [None]:
# 部分一致（27で始まる郵便番号．headを付けて最初の方を表示する．）
!awk -F, '$1~/"27/' zip.csv | head

In [None]:
# 部分一致（「 | wc -l」を付けて件数を数える．）
!awk -F, '$1~/"27/' zip.csv | wc -l

In [None]:
# 条件の組合せ
!awk -F, '$2=="\"北海道\"" && $3~/中央区/' zip.csv | head

In [None]:
!awk -F, '$2=="\"北海道\"" && $3~/中央区/' zip.csv | wc -l

### 練習

officeに「千葉工」を含むデータの件数を求めてみましょう．

In [None]:
# ここにコードを書いて，実行して試してみてください．（いろいろ試したい場合は，左上の「＋ コード」をクリックして，セルを追加するといいでしょう．）


# （気が強い人のための）補足：データベースの作り方

**最新版のデータを使うため，上に掲載したのとは，違う結果を得る可能性があります．**

日本の郵便番号のデータは，https://www.post.japanpost.jp/zipcode/download.html で，CSV形式で公開されています．
このデータをダウンロードして，データベースを作ります．

SQLite3というデータベース管理システムを使います．
SQLite3の操作はPythonで行います．

In [None]:
# ツールのインストール（管理者権限が必要）
!apt-get install nkf gawk -y | tail -n 1

In [None]:
# 準備
!rm -f *.zip *.csv *.CSV # 作業ファイルの削除

# ダウンロード
!wget --quiet https://www.post.japanpost.jp/zipcode/dl/kogaki/zip/ken_all.zip
!wget --quiet https://www.post.japanpost.jp/zipcode/dl/jigyosyo/zip/jigyosyo.zip

# 展開
!unzip -q ken_all.zip
!unzip -q jigyosyo.zip

# zip.csvの作成
!echo 'code,address1,address2,address3,address4,office' > zip.csv

# 文字コードの変換と必要なデータの抽出
!nkf -Lu -w KEN_ALL.CSV | gawk -F, -v OFS="," '{print $3,$7,$8,$9,"\"\"","\"\""}'  >> zip.csv
!nkf -Lu -w JIGYOSYO.CSV | gawk -F, -v OFS="," '{print $8,$4,$5,$6,$7,$3}' >> zip.csv

In [None]:
# 元のデータはこんな感じ（nkf -wでUTF-8に変換してから，headで先頭部分を表示）
!nkf -w KEN_ALL.CSV | head

In [None]:
# 抽出後のデータはこんな感じ
!head zip.csv

In [None]:
# データの件数
!wc -l zip.csv

一度Pythonで読み込んで，SQLiteのデータベースにデータを挿入する．（zip.sqlite3というファイルができる．これが，作りたかったものである．）

In [None]:
# Pythonで読み込む
import pandas as pd
data = pd.read_csv('zip.csv', converters={0:str}, keep_default_na=False)

import sqlite3
!rm -f zip.sqlite3                   # 既存のデータベースの削除
con = sqlite3.connect('zip.sqlite3') # データベースの作成
data.to_sql('zip', con, index=False) # データの挿入
cur = con.cursor()                   # インデックスの作成（番号での検索を高速化するため）
cur.execute('create index code_idx on zip (code)')

In [None]:
# 動作確認2
pd.read_sql_query('select * from zip limit 10', con)

In [None]:
# データベースを閉じて終了
con.close()