[矢吹太朗『Webのしくみ』（サイエンス社, 2020）](https://github.com/taroyabuki/webbook)

下のアイコンをクリックすれば，この文書に掲載されているコードを，Google Colab上で実行できます．（Googleのアカウントが必要です．）

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/taroyabuki/webbook/blob/master/chapters/10.4/zip.ipynb)

# 郵便番号データベースによる体験SQL

郵便番号データを使って，SQLでの検索を体験します．

まずは準備です．
ここはSQLではないので，理解せずに実行するだけでかまいません．

コードにカーソルを置いて，左側の▶ボタンをクリックするかShift+Enterで実行してください．

In [1]:
!wget --quiet https://github.com/taroyabuki/webbook/raw/master/chapters/10.4/zip.sqlite3
import pandas as pd
import sqlite3
con = sqlite3.connect('zip.sqlite3')
def 実行(sql): return pd.read_sql_query(sql, con)

ここからが本番です．

## 例1：全データ取得

まずは，

```
zipという表から，
すべての列を取り出す．
```

という操作をしてみます．
次のように翻訳します．

```
zipという表から， → from zip
すべての列を取り出す． → select *
```

並び替えてSQL文とします．

```
select *
from zip
```

実行します．

```
実行('''
SQL文
''')
```

↑のように書くと，SQL文が実行されるようにしてあります．
ですから，ここで作ったSQL文は，次のように実行します．

In [2]:
実行('''
select *
from zip
''')

Unnamed: 0,code,address1,address2,address3,address4,office
0,0600000,北海道,札幌市中央区,以下に掲載がない場合,,
1,0640941,北海道,札幌市中央区,旭ケ丘,,
2,0600041,北海道,札幌市中央区,大通東,,
3,0600042,北海道,札幌市中央区,大通西（１〜１９丁目）,,
4,0640820,北海道,札幌市中央区,大通西（２０〜２８丁目）,,
...,...,...,...,...,...,...
146868,9010496,沖縄県,島尻郡八重瀬町,字富盛,２６０８,陸上自衛隊　与座分屯地
146869,9010592,沖縄県,島尻郡八重瀬町,字具志頭,１番地,八重瀬町役場　具志頭出張所
146870,9060692,沖縄県,宮古郡多良間村,字仲筋,９９−２,多良間村役場
146871,9071292,沖縄県,八重山郡竹富町,字小浜,２９３０,株式会社　はいむるぶし


## 例2：件数

`select count(*)`として，件数を得ます．

In [3]:
実行('''
select count(*)
from zip
''')

Unnamed: 0,count(*)
0,146873


## 例3：条件

`where 条件`として，条件を設定します．
「where」は「場所」というよりは「場合」のことだと考えましょう．

### 例3.1：完全一致

等号は`=`，等号否定は`!=`や`<>`です．

In [4]:
実行('''
select *
from zip
where code = '2758588'
''')

Unnamed: 0,code,address1,address2,address3,address4,office
0,2758588,千葉県,習志野市,津田沼,２丁目１７−１,学校法人　千葉工業大学　津田沼校舎


### 例3.2 部分一致

任意の文字列を「`%`」で表し，「`%`」を含む文字列との比較を`like`や`not like`で行います．

27から始まる郵便番号を検索します．

In [5]:
実行('''
select *
from zip
where code like '27%'
''')

Unnamed: 0,code,address1,address2,address3,address4,office
0,2720000,千葉県,市川市,以下に掲載がない場合,,
1,2720143,千葉県,市川市,相之川,,
2,2720144,千葉県,市川市,新井,,
3,2720106,千葉県,市川市,伊勢宿,,
4,2720034,千葉県,市川市,市川,,
...,...,...,...,...,...,...
1168,2701493,千葉県,白井市,桜台,１丁目４,社会保険大学校
1169,2701492,千葉県,白井市,復,１１２３,白井市役所
1170,2701496,千葉県,白井市,桜台,１丁目２,信組情報サービス　（株）
1171,2701495,千葉県,白井市,中,３０５−１,フクダ電子　（株）


In [6]:
実行('''
select count(*)
from zip
where code like '27%'
''')

Unnamed: 0,count(*)
0,1173


### 例3.3 条件の組合せ

条件を組み合わせるときは，`and`や`or`を使います．

In [7]:
実行('''
select *
from zip
where address1 = '北海道' and address2 like '%中央区%'
''')

Unnamed: 0,code,address1,address2,address3,address4,office
0,0600000,北海道,札幌市中央区,以下に掲載がない場合,,
1,0640941,北海道,札幌市中央区,旭ケ丘,,
2,0600041,北海道,札幌市中央区,大通東,,
3,0600042,北海道,札幌市中央区,大通西（１〜１９丁目）,,
4,0640820,北海道,札幌市中央区,大通西（２０〜２８丁目）,,
...,...,...,...,...,...,...
298,0648512,北海道,札幌市中央区,南一条西,２５丁目１番１号,三井道路　（株）　北海道支社
299,0648543,北海道,札幌市中央区,南十条西,１丁目１番５０号,ヤマハ　（株）　北海道支店
300,0648522,北海道,札幌市中央区,南二十二条西,９丁目アートパレスビル３Ｆ,（有）　日本書道評論社　北海道書道協会
301,0648510,北海道,札幌市中央区,南二十六条西,１０丁目,陸上自衛隊　北部方面総監部


### 練習

officeに「千葉工」を含むデータの件数を求めてみましょう．

# 補足：Pythonだけで完結させる（やらなくていいです）

Pythonは基本的には手続き型のプログラミング言語ですが，表形式のデータを宣言的に扱うしくみが用意されています．

In [8]:
# 準備
import pandas as pd
data = pd.read_csv('https://github.com/taroyabuki/webbook/raw/master/chapters/10.4/zip.csv', converters={0:str}, keep_default_na=False)

In [9]:
# 全データ
data

Unnamed: 0,code,address1,address2,address3,address4,office
0,0600000,北海道,札幌市中央区,以下に掲載がない場合,,
1,0640941,北海道,札幌市中央区,旭ケ丘,,
2,0600041,北海道,札幌市中央区,大通東,,
3,0600042,北海道,札幌市中央区,大通西（１〜１９丁目）,,
4,0640820,北海道,札幌市中央区,大通西（２０〜２８丁目）,,
...,...,...,...,...,...,...
146868,9010496,沖縄県,島尻郡八重瀬町,字富盛,２６０８,陸上自衛隊　与座分屯地
146869,9010592,沖縄県,島尻郡八重瀬町,字具志頭,１番地,八重瀬町役場　具志頭出張所
146870,9060692,沖縄県,宮古郡多良間村,字仲筋,９９−２,多良間村役場
146871,9071292,沖縄県,八重山郡竹富町,字小浜,２９３０,株式会社　はいむるぶし


In [10]:
# 件数
len(data)

146873

In [11]:
# 完全一致
data.query("code == '2758588'")

Unnamed: 0,code,address1,address2,address3,address4,office
129061,2758588,千葉県,習志野市,津田沼,２丁目１７−１,学校法人　千葉工業大学　津田沼校舎


In [12]:
# 部分一致（27で始まる郵便番号）
# startswithをcontainsにすると「・・・を含む」になる．
# startswithをendswithにすると「・・・で終わる」になる．
data.query("code.str.startswith('27')", engine='python')

Unnamed: 0,code,address1,address2,address3,address4,office
33852,2720000,千葉県,市川市,以下に掲載がない場合,,
33853,2720143,千葉県,市川市,相之川,,
33854,2720144,千葉県,市川市,新井,,
33855,2720106,千葉県,市川市,伊勢宿,,
33856,2720034,千葉県,市川市,市川,,
...,...,...,...,...,...,...
129232,2701493,千葉県,白井市,桜台,１丁目４,社会保険大学校
129233,2701492,千葉県,白井市,復,１１２３,白井市役所
129234,2701496,千葉県,白井市,桜台,１丁目２,信組情報サービス　（株）
129235,2701495,千葉県,白井市,中,３０５−１,フクダ電子　（株）


In [13]:
len(data.query("code.str.startswith('27')", engine='python'))

1173

In [14]:
# 条件の組合せ
data.query("address1 == '北海道' and address2.str.contains('中央区')", engine='python')

Unnamed: 0,code,address1,address2,address3,address4,office
0,0600000,北海道,札幌市中央区,以下に掲載がない場合,,
1,0640941,北海道,札幌市中央区,旭ケ丘,,
2,0600041,北海道,札幌市中央区,大通東,,
3,0600042,北海道,札幌市中央区,大通西（１〜１９丁目）,,
4,0640820,北海道,札幌市中央区,大通西（２０〜２８丁目）,,
...,...,...,...,...,...,...
124717,0648512,北海道,札幌市中央区,南一条西,２５丁目１番１号,三井道路　（株）　北海道支社
124718,0648543,北海道,札幌市中央区,南十条西,１丁目１番５０号,ヤマハ　（株）　北海道支店
124719,0648522,北海道,札幌市中央区,南二十二条西,９丁目アートパレスビル３Ｆ,（有）　日本書道評論社　北海道書道協会
124720,0648510,北海道,札幌市中央区,南二十六条西,１０丁目,陸上自衛隊　北部方面総監部


### 練習

officeに「千葉工」を含むデータの件数を求めてみましょう．

# 補足：シェルだけで完結させる（やらなくていいです）

ここでやっている程度の話は，Pythonのような汎用プログラミング言語を持ち出すまでもなく，シェルスクリプトという簡易的なプログラムでも解決できます．

awkをいうコマンドを使いますが，これを大学の授業で学ぶことはおそらくないので，興味のある人は自分で勉強してください．
awkの簡単な使い方くらい，常識として知っておいてもいいですよ．

参考書

- [Dale Doughertyほか『sed & awkプログラミング』（オライリー・ジャパン, 改訂版, 1997）](https://calil.jp/book/4900900583)
- [エイホほか『プログラミング言語AWK』（USP研究所, 2010）](https://calil.jp/book/4904807006)

以下，「`-F,`」は「コンマで分割する」という意味です．

In [15]:
# 準備
!apt install gawk
!wget --quiet https://github.com/taroyabuki/webbook/raw/master/chapters/10.4/zip.csv

Reading package lists... Done
Building dependency tree       
Reading state information... Done
gawk is already the newest version (1:4.1.4+dfsg-1build1).
0 upgraded, 0 newly installed, 0 to remove and 14 not upgraded.


In [16]:
# データの形式
!head zip.csv

code,address1,address2,address3,address4,office
"0600000","北海道","札幌市中央区","以下に掲載がない場合","",""
"0640941","北海道","札幌市中央区","旭ケ丘","",""
"0600041","北海道","札幌市中央区","大通東","",""
"0600042","北海道","札幌市中央区","大通西（１〜１９丁目）","",""
"0640820","北海道","札幌市中央区","大通西（２０〜２８丁目）","",""
"0600031","北海道","札幌市中央区","北一条東","",""
"0600001","北海道","札幌市中央区","北一条西（１〜１９丁目）","",""
"0640821","北海道","札幌市中央区","北一条西（２０〜２８丁目）","",""
"0600032","北海道","札幌市中央区","北二条東","",""


In [17]:
# 件数
!wc -l zip.csv

146874 zip.csv


In [18]:
# 完全一致（$1は第1列，$0は行全体ということ）
!awk -F, '$1=="\"2758588\"" {print $0;}' zip.csv

"2758588","千葉県","習志野市","津田沼","２丁目１７−１","学校法人　千葉工業大学　津田沼校舎"


In [19]:
# 部分一致（27で始まる郵便番号）
!awk -F, '$1~/"27/ {print $0;}' zip.csv | head

"2720000","千葉県","市川市","以下に掲載がない場合","",""
"2720143","千葉県","市川市","相之川","",""
"2720144","千葉県","市川市","新井","",""
"2720106","千葉県","市川市","伊勢宿","",""
"2720034","千葉県","市川市","市川","",""
"2720033","千葉県","市川市","市川南","",""
"2720831","千葉県","市川市","稲越町","",""
"2720134","千葉県","市川市","入船","",""
"2720032","千葉県","市川市","大洲","",""
"2720805","千葉県","市川市","大野町","",""


In [20]:
!awk -F, '$1~/"27/ {print $0;}' zip.csv | wc -l

1173


In [21]:
# 条件の組合せ
!awk -F, '$2=="\"北海道\"" && $3~/中央区/ {print $0;}' zip.csv | head

"0600000","北海道","札幌市中央区","以下に掲載がない場合","",""
"0640941","北海道","札幌市中央区","旭ケ丘","",""
"0600041","北海道","札幌市中央区","大通東","",""
"0600042","北海道","札幌市中央区","大通西（１〜１９丁目）","",""
"0640820","北海道","札幌市中央区","大通西（２０〜２８丁目）","",""
"0600031","北海道","札幌市中央区","北一条東","",""
"0600001","北海道","札幌市中央区","北一条西（１〜１９丁目）","",""
"0640821","北海道","札幌市中央区","北一条西（２０〜２８丁目）","",""
"0600032","北海道","札幌市中央区","北二条東","",""
"0600002","北海道","札幌市中央区","北二条西（１〜１９丁目）","",""


In [22]:
!awk -F, '$2=="\"北海道\"" && $3~/中央区/ {print $0;}' zip.csv | wc -l

303


### 練習

officeに「千葉工」を含むデータの件数を求めてみましょう．

# （気が強い人のための）補足：データベースの作り方

**最新版のデータを使うため，上に掲載したのとは，違う結果を得る可能性があります．**

日本の郵便番号のデータは，https://www.post.japanpost.jp/zipcode/download.html で，CSV形式で公開されています．
このデータをダウンロードして，データベースを作ります．

SQLite3というデータベース管理システムを使います．
SQLite3の操作はPythonで行います．

In [23]:
# 準備
!rm -f *.zip *.csv *.CSV # 作業ファイルの削除
!apt install nkf gawk -y # ツールのインストール

# ダウンロード
!wget --quiet https://www.post.japanpost.jp/zipcode/dl/kogaki/zip/ken_all.zip
!wget --quiet https://www.post.japanpost.jp/zipcode/dl/jigyosyo/zip/jigyosyo.zip

# 展開
!unzip -q ken_all.zip
!unzip -q jigyosyo.zip

# zip.csvの作成
!echo 'code,address1,address2,address3,address4,office' > zip.csv

# 文字コードの変換と必要なデータの抽出
!nkf -Lu -w KEN_ALL.CSV | gawk -F, -v OFS="," '{print $3,$7,$8,$9,"\"\"","\"\""}'  >> zip.csv
!nkf -Lu -w JIGYOSYO.CSV | gawk -F, -v OFS="," '{print $8,$4,$5,$6,$7,$3}' >> zip.csv

Reading package lists... Done
Building dependency tree       
Reading state information... Done
gawk is already the newest version (1:4.1.4+dfsg-1build1).
The following NEW packages will be installed:
  nkf
0 upgraded, 1 newly installed, 0 to remove and 14 not upgraded.
Need to get 128 kB of archives.
After this operation, 309 kB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu bionic/universe amd64 nkf amd64 1:2.1.4-1ubuntu2 [128 kB]
Fetched 128 kB in 1s (173 kB/s)
Selecting previously unselected package nkf.
(Reading database ... 145019 files and directories currently installed.)
Preparing to unpack .../nkf_1%3a2.1.4-1ubuntu2_amd64.deb ...
Unpacking nkf (1:2.1.4-1ubuntu2) ...
Setting up nkf (1:2.1.4-1ubuntu2) ...
Processing triggers for man-db (2.8.3-2ubuntu0.1) ...


In [24]:
# 元のデータはこんな感じ（nkf -wでUTF-8に変換してから，headで先頭部分を表示）
!nkf -w KEN_ALL.CSV | head

01101,"060  ","0600000","ホッカイドウ","サッポロシチュウオウク","イカニケイサイガナイバアイ","北海道","札幌市中央区","以下に掲載がない場合",0,0,0,0,0,0
01101,"064  ","0640941","ホッカイドウ","サッポロシチュウオウク","アサヒガオカ","北海道","札幌市中央区","旭ケ丘",0,0,1,0,0,0
01101,"060  ","0600041","ホッカイドウ","サッポロシチュウオウク","オオドオリヒガシ","北海道","札幌市中央区","大通東",0,0,1,0,0,0
01101,"060  ","0600042","ホッカイドウ","サッポロシチュウオウク","オオドオリニシ(1-19チョウメ)","北海道","札幌市中央区","大通西（１〜１９丁目）",1,0,1,0,0,0
01101,"064  ","0640820","ホッカイドウ","サッポロシチュウオウク","オオドオリニシ(20-28チョウメ)","北海道","札幌市中央区","大通西（２０〜２８丁目）",1,0,1,0,0,0
01101,"060  ","0600031","ホッカイドウ","サッポロシチュウオウク","キタ1ジョウヒガシ","北海道","札幌市中央区","北一条東",0,0,1,0,0,0
01101,"060  ","0600001","ホッカイドウ","サッポロシチュウオウク","キタ1ジョウニシ(1-19チョウメ)","北海道","札幌市中央区","北一条西（１〜１９丁目）",1,0,1,0,0,0
01101,"064  ","0640821","ホッカイドウ","サッポロシチュウオウク","キタ1ジョウニシ(20-28チョウメ)","北海道","札幌市中央区","北一条西（２０〜２８丁目）",1,0,1,0,0,0
01101,"060  ","0600032","ホッカイドウ","サッポロシチュウオウク","キタ2ジョウヒガシ","北海道","札幌市中央区","北二条東",0,0,1,0,0,0
01101,"060  ","0600002","ホッカイドウ","サッポロシチュウオウク","キタ2ジョウニシ(1-19チョウメ)","北海道","札幌市中央区"

In [25]:
# 抽出後のデータはこんな感じ
!head zip.csv

code,address1,address2,address3,address4,office
"0600000","北海道","札幌市中央区","以下に掲載がない場合","",""
"0640941","北海道","札幌市中央区","旭ケ丘","",""
"0600041","北海道","札幌市中央区","大通東","",""
"0600042","北海道","札幌市中央区","大通西（１〜１９丁目）","",""
"0640820","北海道","札幌市中央区","大通西（２０〜２８丁目）","",""
"0600031","北海道","札幌市中央区","北一条東","",""
"0600001","北海道","札幌市中央区","北一条西（１〜１９丁目）","",""
"0640821","北海道","札幌市中央区","北一条西（２０〜２８丁目）","",""
"0600032","北海道","札幌市中央区","北二条東","",""


一度Pythonで読み込んで，SQLiteのデータベースにデータを挿入する．（zip.sqlite3というファイルができる．これが，作りたかったものである．）

In [26]:
# Pythonで読み込む
import pandas as pd
data = pd.read_csv('zip.csv', converters={0:str}, keep_default_na=False)

import sqlite3
!rm -f zip.sqlite3                   # 既存のデータベースの削除
con = sqlite3.connect('zip.sqlite3') # データベースの作成
data.to_sql('zip', con, index=False) # データの挿入
cur = con.cursor()                   # インデックスの作成（番号での検索を高速化するため）
cur.execute('create index code_idx on zip (code)')

<sqlite3.Cursor at 0x7fc251e7f650>

In [27]:
# 動作確認
pd.read_sql_query('select * from zip limit 10', con)

Unnamed: 0,code,address1,address2,address3,address4,office
0,600000,北海道,札幌市中央区,以下に掲載がない場合,,
1,640941,北海道,札幌市中央区,旭ケ丘,,
2,600041,北海道,札幌市中央区,大通東,,
3,600042,北海道,札幌市中央区,大通西（１〜１９丁目）,,
4,640820,北海道,札幌市中央区,大通西（２０〜２８丁目）,,
5,600031,北海道,札幌市中央区,北一条東,,
6,600001,北海道,札幌市中央区,北一条西（１〜１９丁目）,,
7,640821,北海道,札幌市中央区,北一条西（２０〜２８丁目）,,
8,600032,北海道,札幌市中央区,北二条東,,
9,600002,北海道,札幌市中央区,北二条西（１〜１９丁目）,,


In [28]:
# データベーを閉じて終了
con.close()