# 2-1-データの取得方法

データをPythonで扱う方法を紹介

- サンプルデータ
- CSVデータ
- Excelデータ
- Webサイト

# よく使われるツール

- scikit-learn
- CSVモジュール
- openpyxl
- pandas
- requests
- Beautiful Soup4
- Scrapy


# サンプルデータ

scikit-leanにはサンプルに利用できるデータが同梱

- ボストンの住居価格
- アヤメのデータ
- 糖尿病のデータ
- 手書き数字
- 運動能力
- ワインのデータ
- 乳がんのデータ

https://scikit-learn.org/stable/datasets/index.html

これらを使うことで、機械学習やデータ分析のデモや学習を行うことができる

In [1]:
from sklearn.datasets import load_iris
data = load_iris()

In [2]:
data.data[:3, :]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2]])

In [3]:
data.target[:3]

array([0, 0, 0])

In [4]:
import pandas as pd
df = pd.DataFrame(data.data, columns=data.feature_names)
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [5]:
df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


# CSVデータ

ここでは、気象庁のデータを使って説明する。
気象庁のサイトでは過去の気象データをCSV形式で取得できる。

https://www.data.jma.go.jp/obd/stats/etrn/index.php

今回は、「千葉県・千葉市」「2018年」の日ごとに
「平均気温、最高気温、最低気温、平均湿度、最小相対湿度、平均現地気圧、降水量の合計、日照時間、平均風速」を取得

dataフォルダに `data-chiba-2018.csv` ファイルとして置いてある。(ファイルエンコードはShift_JIS)

## 手法

- Pythonで処理する
- Python標準ライブラリを使う
- pandasを用いる



データのダウンロード

以下を一度だけ、実行する

```
%%bash

wget https://github.com/terapyon/intro-to-visualization-tutorial/archive/master.zip
unzip master.zip
mv intro-to-visualization-tutorial-master/data ../.
rm -rf master.zip intro-to-visualization-tutorial-master
```

### Pythonで処理

In [6]:
with open('../data/data-chiba-2018.csv', 'r', encoding='shift_jis') as f:
    for line in f.readlines()[:10]:
        for d in line.split(","):
            print(d)

ダウンロードした時刻：2019/04/18 15:54:04




千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉
千葉

年月日
平均気温(℃)
平均気温(℃)
平均気温(℃)
最高気温(℃)
最高気温(℃)
最高気温(℃)
最低気温(℃)
最低気温(℃)
最低気温(℃)
平均湿度(％)
平均湿度(％)
平均湿度(％)
最小相対湿度(％)
最小相対湿度(％)
最小相対湿度(％)
平均現地気圧(hPa)
平均現地気圧(hPa)
平均現地気圧(hPa)
降水量の合計(mm)
降水量の合計(mm)
降水量の合計(mm)
降水量の合計(mm)
日照時間(時間)
日照時間(時間)
日照時間(時間)
日照時間(時間)
平均風速(m/s)
平均風速(m/s)
平均風速(m/s)


































品質情報
均質番号

品質情報
均質番号

品質情報
均質番号

品質情報
均質番号

品質情報
均質番号

品質情報
均質番号

現象なし情報
品質情報
均質番号

現象なし情報
品質情報
均質番号

品質情報
均質番号

2018/1/1
6.8
8
1
13.3
8
1
1.6
8
1
51
8
1
20
8
1
1011.9
8
1
0
1
8
1
9.3
0
8
1
3.1
8
1

2018/1/2
7.3
8
1
11.4
8
1
4.8
8
1
34
8
1
21
8
1
1013.4
8
1
0
1
8
1
9.3
0
8
1
4.6
8
1

2018/1/3
5.2
8
1
8.8
8
1
1.4
8
1
37
8
1
16
8
1
1012.5
8
1
0
1
8
1
9.5
0
8
1
6.2
8
1

2018/1/4
4.8
8
1
10.0
8
1
0.2
8
1
37
8
1
19
8
1
1017.3
8
1
0
1
8
1
9.4
0
8
1
2.6
8
1



### CSVライブラリを使う

In [7]:
import csv
with open('../data/data-chiba-2018.csv', 'r', encoding='shift_jis') as f:
    data = csv.reader(f)
    for i, d in enumerate(data):
        if i > 10:
            break
        print(d)

['ダウンロードした時刻：2019/04/18 15:54:04']
[]
['', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉', '千葉']
['年月日', '平均気温(℃)', '平均気温(℃)', '平均気温(℃)', '最高気温(℃)', '最高気温(℃)', '最高気温(℃)', '最低気温(℃)', '最低気温(℃)', '最低気温(℃)', '平均湿度(％)', '平均湿度(％)', '平均湿度(％)', '最小相対湿度(％)', '最小相対湿度(％)', '最小相対湿度(％)', '平均現地気圧(hPa)', '平均現地気圧(hPa)', '平均現地気圧(hPa)', '降水量の合計(mm)', '降水量の合計(mm)', '降水量の合計(mm)', '降水量の合計(mm)', '日照時間(時間)', '日照時間(時間)', '日照時間(時間)', '日照時間(時間)', '平均風速(m/s)', '平均風速(m/s)', '平均風速(m/s)']
['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '']
['', '', '品質情報', '均質番号', '', '品質情報', '均質番号', '', '品質情報', '均質番号', '', '品質情報', '均質番号', '', '品質情報', '均質番号', '', '品質情報', '均質番号', '', '現象なし情報', '品質情報', '均質番号', '', '現象なし情報', '品質情報', '均質番号', '', '品質情報', '均質番号']
['2018/1/1', '6.8', '8', '1', '13.3', '8', '1', '1.6', '8', '1', '51', '8', '1', '20', '8'

### pandasを使う

In [8]:
import pandas as pd
df = pd.read_csv('../data/data-chiba-2018.csv', encoding='shift_jis')
df.head()

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15,Unnamed: 16,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25,Unnamed: 26,Unnamed: 27,Unnamed: 28,ダウンロードした時刻：2019/04/18 15:54:04
,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉,千葉
年月日,平均気温(℃),平均気温(℃),平均気温(℃),最高気温(℃),最高気温(℃),最高気温(℃),最低気温(℃),最低気温(℃),最低気温(℃),平均湿度(％),平均湿度(％),平均湿度(％),最小相対湿度(％),最小相対湿度(％),最小相対湿度(％),平均現地気圧(hPa),平均現地気圧(hPa),平均現地気圧(hPa),降水量の合計(mm),降水量の合計(mm),降水量の合計(mm),降水量の合計(mm),日照時間(時間),日照時間(時間),日照時間(時間),日照時間(時間),平均風速(m/s),平均風速(m/s),平均風速(m/s)
,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
,,品質情報,均質番号,,品質情報,均質番号,,品質情報,均質番号,,品質情報,均質番号,,品質情報,均質番号,,品質情報,均質番号,,現象なし情報,品質情報,均質番号,,現象なし情報,品質情報,均質番号,,品質情報,均質番号
2018/1/1,6.8,8,1,13.3,8,1,1.6,8,1,51,8,1,20,8,1,1011.9,8,1,0,1,8,1,9.3,0,8,1,3.1,8,1


In [9]:
df.shape

(369, 1)

In [10]:
import pandas as pd
df = pd.read_csv('../data/data-chiba-2018.csv', encoding='shift_jis', skiprows=3)
df.head()

Unnamed: 0,年月日,平均気温(℃),平均気温(℃).1,平均気温(℃).2,最高気温(℃),最高気温(℃).1,最高気温(℃).2,最低気温(℃),最低気温(℃).1,最低気温(℃).2,...,降水量の合計(mm).1,降水量の合計(mm).2,降水量の合計(mm).3,日照時間(時間),日照時間(時間).1,日照時間(時間).2,日照時間(時間).3,平均風速(m/s),平均風速(m/s).1,平均風速(m/s).2
0,,,,,,,,,,,...,,,,,,,,,,
1,,,品質情報,均質番号,,品質情報,均質番号,,品質情報,均質番号,...,現象なし情報,品質情報,均質番号,,現象なし情報,品質情報,均質番号,,品質情報,均質番号
2,2018/1/1,6.8,8,1,13.3,8,1,1.6,8,1,...,1,8,1,9.3,0,8,1,3.1,8,1
3,2018/1/2,7.3,8,1,11.4,8,1,4.8,8,1,...,1,8,1,9.3,0,8,1,4.6,8,1
4,2018/1/3,5.2,8,1,8.8,8,1,1.4,8,1,...,1,8,1,9.5,0,8,1,6.2,8,1


In [11]:
df.shape

(367, 30)

# Excelデータ

先ほどの千葉市の気象データを加工して `data-chiba-2018.xlsx` として同じ場所に置いた

- openpyxlを使う
- pandasを使う

### openpyxlを使う

In [12]:
from openpyxl import load_workbook
wb = load_workbook('../data/data-chiba-2018.xlsx')
ws = wb.active
for line in ws.values:
    for d in line:
        print(d)

年月日
平均気温(℃)
最高気温(℃)
最低気温(℃)
平均湿度(％)
最小相対湿度(％)
平均現地気圧(hPa)
降水量の合計(mm)
日照時間(時間)
平均風速(m/s)
2018-01-01 00:00:00
6.8
13.3
1.6
51
20
1011.9
0
9.3
3.1
2018-01-02 00:00:00
7.3
11.4
4.8
34
21
1013.4
0
9.3
4.6
2018-01-03 00:00:00
5.2
8.8
1.4
37
16
1012.5
0
9.5
6.2
2018-01-04 00:00:00
4.8
10
0.2
37
19
1017.3
0
9.4
2.6
2018-01-05 00:00:00
3.5
6.1
1.6
60
38
1014.6
0.5
0.1
1.7
2018-01-06 00:00:00
5.6
9.7
0.8
54
33
1010.6
0
9.3
2.9
2018-01-07 00:00:00
7.4
11.5
4.4
34
20
1019
0
9.2
4.3
2018-01-08 00:00:00
6.4
10
3.6
66
42
1013.9
15
0.4
1.9
2018-01-09 00:00:00
9.5
15.4
4.7
66
30
995.9
6
5.1
5.9
2018-01-10 00:00:00
9
10.6
6.7
41
23
1006.6
0
9.5
9.5
2018-01-11 00:00:00
6.4
9.6
2.8
32
14
1011.2
0
9.4
4.5
2018-01-12 00:00:00
3.7
7.2
0.2
29
15
1018.7
0
7.1
2.1
2018-01-13 00:00:00
3.5
8
-1.1
43
25
1021.4
0
9.1
2.6
2018-01-14 00:00:00
3.9
8.1
0.1
39
24
1027.6
0
9.6
2.7
2018-01-15 00:00:00
6.9
12.5
0.9
50
38
1022.7
0
6.9
4
2018-01-16 00:00:00
8.3
13.5
2.5
58
32
1018.7
0
9.3
1.6
2018-01-17 00:00:00
9.5
14.2
6.2

1.3
11.7
2018-07-06 00:00:00
22.6
27.2
19.1
94
82
1010.1
33.5
0
6.6
2018-07-07 00:00:00
26.4
31.7
19.9
78
54
1012.4
0
7.2
5
2018-07-08 00:00:00
27.4
30.2
24.7
80
62
1015.4
0
8.6
4.9
2018-07-09 00:00:00
27.7
31.3
24.2
81
65
1018.4
0.5
7.6
4
2018-07-10 00:00:00
28.3
32.4
25.6
77
58
1017.6
0
10.4
4.3
2018-07-11 00:00:00
28.6
32.5
26.3
77
59
1014
0
7.8
3.5
2018-07-12 00:00:00
27.3
30.5
24.3
78
63
1012.4
0.5
3.3
3.3
2018-07-13 00:00:00
28.8
32.3
26
77
55
1009.2
0
9.2
3.7
2018-07-14 00:00:00
30.2
35
27.2
72
46
1009.9
0
7.7
3.2
2018-07-15 00:00:00
29.5
33.2
26.4
78
61
1011.4
0
12.4
3.8
2018-07-16 00:00:00
29.8
33.2
27.7
77
63
1011.2
0
9.8
4.9
2018-07-17 00:00:00
29.9
33.1
27.9
78
66
1010.6
0
9.5
5.5
2018-07-18 00:00:00
29.7
33.3
27.8
79
68
1009.6
0
8.4
4.6
2018-07-19 00:00:00
29.7
32.6
27.4
76
64
1010.1
0
11.9
5.2
2018-07-20 00:00:00
30.1
34.2
27.3
74
53
1011
0
13.1
5.8
2018-07-21 00:00:00
30
33.2
27.9
75
63
1010.3
0
12.5
5.7
2018-07-22 00:00:00
30.2
34
27.8
77
62
1007.9
0
10.1
4.2
2018-07-23

2018-12-31 00:00:00
4.7
8.5
0.8
40
28
1027.5
0
5.8
2.2


### pandasを使う

In [13]:
import pandas as pd
df = pd.read_excel('../data/data-chiba-2018.xlsx')
df.head()

Unnamed: 0,年月日,平均気温(℃),最高気温(℃),最低気温(℃),平均湿度(％),最小相対湿度(％),平均現地気圧(hPa),降水量の合計(mm),日照時間(時間),平均風速(m/s)
0,2018-01-01,6.8,13.3,1.6,51,20,1011.9,0.0,9.3,3.1
1,2018-01-02,7.3,11.4,4.8,34,21,1013.4,0.0,9.3,4.6
2,2018-01-03,5.2,8.8,1.4,37,16,1012.5,0.0,9.5,6.2
3,2018-01-04,4.8,10.0,0.2,37,19,1017.3,0.0,9.4,2.6
4,2018-01-05,3.5,6.1,1.6,60,38,1014.6,0.5,0.1,1.7


# Webサイト

Wikipedia　国の人口順データを取得

https://ja.wikipedia.org/wiki/%E5%9B%BD%E3%81%AE%E4%BA%BA%E5%8F%A3%E9%A0%86%E3%83%AA%E3%82%B9%E3%83%88


- requests & Beautiful Soup4
- Scrapy (スクレイピングのフレームワーク) ・・複数のページを取得するなど高機能(今回は紹介しない)
- pandas

In [14]:
import requests
from bs4 import BeautifulSoup
url = "https://ja.wikipedia.org/wiki/%E5%9B%BD%E3%81%AE%E4%BA%BA%E5%8F%A3%E9%A0%86%E3%83%AA%E3%82%B9%E3%83%88"
res = requests.get(url)
content = res.content
soup = BeautifulSoup(content, 'html.parser')
tables = soup.find_all("table")
len(tables)

9

In [15]:
table = tables[1]
table

<table class="wikitable" style="text-align:right">
<tbody><tr>
<th>順位</th>
<th>国</th>
<th>2010年推計人口
</th></tr>
<tr>
<td>－</td>
<td align="left"><a class="image" href="/wiki/%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:Perlshaper_orthographic_example1.svg" title="世界の旗"><img alt="世界の旗" data-file-height="550" data-file-width="550" decoding="async" height="20" src="//upload.wikimedia.org/wikipedia/commons/thumb/6/6c/Perlshaper_orthographic_example1.svg/20px-Perlshaper_orthographic_example1.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/6/6c/Perlshaper_orthographic_example1.svg/30px-Perlshaper_orthographic_example1.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/6/6c/Perlshaper_orthographic_example1.svg/40px-Perlshaper_orthographic_example1.svg.png 2x" width="20"/></a> <a href="/wiki/%E4%B8%96%E7%95%8C" title="世界">世界</a> (<a href="/wiki/%E4%B8%96%E7%95%8C%E4%BA%BA%E5%8F%A3" title="世界人口">人口</a>)</td>
<td>6,945,566,097
</td></tr>
<tr>
<td rowspan="4" style="vertical-alig

In [16]:
for line in table.find_all('tr'):
    for i, data in enumerate(line.find_all('td')):
        if i != 0:
            print(data.text)

 世界 (人口)
6,945,566,097

 中華人民共和国
1,349,335,152

8,053,189

557,972

1,357,946,313

 インド
1,224,514,327

 アメリカ合衆国
310,383,948

3,749,009

179,896

109,056

68,420

60,917

314,551,246

 インドネシア
239,870,937

 ブラジル
194,946,470

 パキスタン
173,593,383

 ナイジェリア
158,423,182

 バングラデシュ
148,692,131

 ロシア
142,958,164

 日本
126,535,920

 メキシコ
113,423,047

 フィリピン
92,337,852

 ベトナム
87,848,445

 エチオピア
82,949,541

 ドイツ
82,302,465

 エジプト
82,121,077

 イラン
73,973,630

 トルコ
72,752,325

 タイ
69,122,234

 コンゴ民主共和国
65,965,795

 フランス
62,787,427

846,068

460,666

405,814

270,764

250,870

231,151

204,114

13,566

6,046

65,476,486

 イギリス
62,035,570

153,352

82,869

64,941

56,230

38,354

29,244

23,245

15,358

5,934

4,118

3,017

62,512,232

 イタリア
60,550,848

 南アフリカ共和国
50,132,817

 大韓民国
48,183,584

 ミャンマー
47,963,012

 コロンビア
46,294,841

 スペイン[4]
46,076,989

 ウクライナ
45,448,329

 タンザニア[5]
44,841,226

 スーダン[6]
43,551,941

 ケニア
40,512,682

 アルゼンチン
40,412,376

 ポーランド
38,276,660

 アルジェリア
35,468,208

 カナダ
34,016,593

 

In [17]:
import pandas as pd
url = "https://ja.wikipedia.org/wiki/%E5%9B%BD%E3%81%AE%E4%BA%BA%E5%8F%A3%E9%A0%86%E3%83%AA%E3%82%B9%E3%83%88"
tables = pd.read_html(url)
len(tables)

9

In [18]:
df = tables[1]
df.head()

Unnamed: 0,順位,国,2010年推計人口
0,－,世界 (人口),6945566097
1,1,中華人民共和国,1349335152
2,1,香港,8053189
3,1,マカオ,557972
4,1,合計,1357946313
