# タブ区切りデータ、コンマ区切りデータ等の読み込み

In [1]:
# URL によるリソースへのアクセスを提供するライブラリをインポートする。
# import urllib # Python 2 の場合
import urllib.request # Python 3 の場合

In [2]:
import pandas as pd

__「ニューヨークの大気状態観測値」__のデータを読み込んでみましょう。
（<a href="http://nbviewer.jupyter.org/github/maskot1977/ipython_notebook/blob/master/%E5%AE%9F%E7%BF%92%E7%94%A8%E3%83%86%E3%82%99%E3%83%BC%E3%82%BF2017.ipynb">詳細</a>）

In [3]:
# ウェブ上のリソースを指定する
url = 'https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/airquality.txt'
# 指定したURLからリソースをダウンロードし、名前をつける。
# urllib.urlretrieve(url, 'airquality.txt') # Python 2 の場合
urllib.request.urlretrieve(url, 'airquality.txt') # Python 3 の場合

('airquality.txt', <http.client.HTTPMessage at 0x10662fcf8>)

In [4]:
# データの読み込み
df1 = pd.read_csv('airquality.txt', sep='\t', index_col=0) 

In [5]:
# 読み込んだデータの確認
df1

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
1,41,190,7.4,67,5,1
2,36,118,8.0,72,5,2
3,12,149,12.6,74,5,3
4,18,313,11.5,62,5,4
5,,,14.3,56,5,5
6,28,,14.9,66,5,6
7,23,299,8.6,65,5,7
8,19,99,13.8,59,5,8
9,8,19,20.1,61,5,9
10,,194,8.6,69,5,10


うまく読み込めました。

次に、__「好きなアイスクリームアンケート」__のデータを読み込んでみましょう。
（<a href="http://nbviewer.jupyter.org/github/maskot1977/ipython_notebook/blob/master/%E5%AE%9F%E7%BF%92%E7%94%A8%E3%83%86%E3%82%99%E3%83%BC%E3%82%BF2017.ipynb">詳細</a>）

In [6]:
# ウェブ上のリソースを指定する
url = 'https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/icecream_chosa.txt'
# 指定したURLからリソースをダウンロードし、名前をつける。
# urllib.urlretrieve(url, 'icecream_chosa.txt') # Python 2 の場合
urllib.request.urlretrieve(url, 'icecream_chosa.txt') # Python 3 の場合

('icecream_chosa.txt', <http.client.HTTPMessage at 0x1066b9668>)

In [7]:
# データの読み込み
df2 = pd.read_csv('icecream_chosa.txt', sep='\t', index_col=0) 

In [8]:
df2

1 2 20 2 5 7 7 8 3 9 9 6 8 3 2 1 7 9 3 3 9 7 8 8 1 7
2 2 21 2 1 7 8 9 9 9 9 2 7 7 9 5 4 7 8 9 9 4 7 7 8 9
3 2 21 3 2 7 4 3 3 6 4 7 7 6 3 3 4 6 3 3 6 7 3 7 3 3
4 2 21 4 3 9 6 6 5 8 6 8 9 6 5 4 4 9 5 4 8 9 1 2 1 3
5 2 21 4 2 9 5 7 5 6 8 4 4 4 6 9 6 6 6 5 9 6 6 6 9 1
6 2 21 2 5 5 7 5 5 5 7 5 8 5 8 9 5 9 5 8 8 9 9 5 9 1
7 2 21 2 2 9 7 6 3 7 9 4 6 5 2 2 6 7 5 5 9 9 3 5 2 3
8 2 20 2 4 7 7 6 8 7 6 5 8 7 5 6 5 6 7 9 5 6 8 5 6 8
9 2 21 2 4 7 7 4 8 7 7 4 7 6 3 5 5 7 7 6 8 6 3 3 7 3
10 2 22 4 4 5 5 9 5 8 8 5 6 3 3 3 8 7 2 8 8 6 6 2 1 1
11 2 22 2 3 8 1 8 9 7 9 3 9 4 7 4 4 9 7 6 6 7 8 6 4 5


上の方法では、「好きなアイスクリームアンケート」のデータがうまく読み込めていません。原因は、実際のデータ区切り文字が「 」（空白）なのに、データの読み込み時に「sep='\t'」（データ区切り文字はタブ）と指定したからです。では改めて、データ区切り文字に空白を指定して読み込んでみましょう。

In [9]:
# データの読み込み
df2 = pd.read_csv('icecream_chosa.txt', sep=' ', index_col=0) 

In [10]:
df2

Unnamed: 0_level_0,gender,age,birth_order,frequency,vanilla,strawberry,milk_tea,macadamia_nuts,cookie,chocolate,...,caramel,walnut,cassis,chocolate_chips,orange,green_tea,marron,chocolate_mint,adzuki-bean,Unnamed: 26
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,2,20,2,5,7,7,8,3,9,9,...,9,3,3,9,7,8,8,1,7,
2,2,21,2,1,7,8,9,9,9,9,...,7,8,9,9,4,7,7,8,9,
3,2,21,3,2,7,4,3,3,6,4,...,6,3,3,6,7,3,7,3,3,
4,2,21,4,3,9,6,6,5,8,6,...,9,5,4,8,9,1,2,1,3,
5,2,21,4,2,9,5,7,5,6,8,...,6,6,5,9,6,6,6,9,1,
6,2,21,2,5,5,7,5,5,5,7,...,9,5,8,8,9,9,5,9,1,
7,2,21,2,2,9,7,6,3,7,9,...,7,5,5,9,9,3,5,2,3,
8,2,20,2,4,7,7,6,8,7,6,...,6,7,9,5,6,8,5,6,8,
9,2,21,2,4,7,7,4,8,7,7,...,7,7,6,8,6,3,3,7,3,
10,2,22,4,4,5,5,9,5,8,8,...,7,2,8,8,6,6,2,1,1,


うまく読み込めました。

次に、__「ワインの品質」__のデータを読み込んでみましょう。
（<a href="http://nbviewer.jupyter.org/github/maskot1977/ipython_notebook/blob/master/%E5%AE%9F%E7%BF%92%E7%94%A8%E3%83%86%E3%82%99%E3%83%BC%E3%82%BF2017.ipynb">詳細</a>）

In [11]:
# ウェブ上のリソースを指定する
url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv'
# 指定したURLからリソースをダウンロードし、名前をつける。
# urllib.urlretrieve(url, 'winequality-red.csv') # Python 2 の場合
urllib.request.urlretrieve(url, 'winequality-red.csv') # Python 3 の場合

('winequality-red.csv', <http.client.HTTPMessage at 0x10665ab38>)

In [12]:
# データの読み込み
df3 = pd.read_csv('winequality-red.csv', sep='\t', index_col=0) 

In [13]:
df3

7.4;0.7;0;1.9;0.076;11;34;0.9978;3.51;0.56;9.4;5
7.8;0.88;0;2.6;0.098;25;67;0.9968;3.2;0.68;9.8;5
7.8;0.76;0.04;2.3;0.092;15;54;0.997;3.26;0.65;9.8;5
11.2;0.28;0.56;1.9;0.075;17;60;0.998;3.16;0.58;9.8;6
7.4;0.7;0;1.9;0.076;11;34;0.9978;3.51;0.56;9.4;5
7.4;0.66;0;1.8;0.075;13;40;0.9978;3.51;0.56;9.4;5
7.9;0.6;0.06;1.6;0.069;15;59;0.9964;3.3;0.46;9.4;5
7.3;0.65;0;1.2;0.065;15;21;0.9946;3.39;0.47;10;7
7.8;0.58;0.02;2;0.073;9;18;0.9968;3.36;0.57;9.5;7
7.5;0.5;0.36;6.1;0.071;17;102;0.9978;3.35;0.8;10.5;5
6.7;0.58;0.08;1.8;0.097;15;65;0.9959;3.28;0.54;9.2;5


上の方法では、「ワインの品質」のデータがうまく読み込めていません。原因は、実際のデータ区切り文字が「;」（セミコロン）なのに、データの読み込み時に「sep='\t'」（データ区切り文字はタブ）と指定したからです。では改めて、データ区切り文字にセミコロンを指定して読み込んでみましょう。

In [14]:
# データの読み込み
df3 = pd.read_csv('winequality-red.csv', sep=';', index_col=0) 

In [15]:
df3

Unnamed: 0_level_0,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
fixed acidity,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
7.4,0.700,0.00,1.9,0.076,11,34,0.99780,3.51,0.56,9.4,5
7.8,0.880,0.00,2.6,0.098,25,67,0.99680,3.20,0.68,9.8,5
7.8,0.760,0.04,2.3,0.092,15,54,0.99700,3.26,0.65,9.8,5
11.2,0.280,0.56,1.9,0.075,17,60,0.99800,3.16,0.58,9.8,6
7.4,0.700,0.00,1.9,0.076,11,34,0.99780,3.51,0.56,9.4,5
7.4,0.660,0.00,1.8,0.075,13,40,0.99780,3.51,0.56,9.4,5
7.9,0.600,0.06,1.6,0.069,15,59,0.99640,3.30,0.46,9.4,5
7.3,0.650,0.00,1.2,0.065,15,21,0.99460,3.39,0.47,10.0,7
7.8,0.580,0.02,2.0,0.073,9,18,0.99680,3.36,0.57,9.5,7
7.5,0.500,0.36,6.1,0.071,17,102,0.99780,3.35,0.80,10.5,5


うまく読み込めたように見えるかもしれませんが、不十分です。第１列目（いちばん左）のデータが、インデックス番号として取り扱われています。このデータにはインデックス番号が指定されていませんので、次のようにして読み込みましょう。

In [16]:
# データの読み込み
df3 = pd.read_csv('winequality-red.csv', sep=';') 

In [17]:
df3

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.700,0.00,1.9,0.076,11,34,0.99780,3.51,0.56,9.4,5
1,7.8,0.880,0.00,2.6,0.098,25,67,0.99680,3.20,0.68,9.8,5
2,7.8,0.760,0.04,2.3,0.092,15,54,0.99700,3.26,0.65,9.8,5
3,11.2,0.280,0.56,1.9,0.075,17,60,0.99800,3.16,0.58,9.8,6
4,7.4,0.700,0.00,1.9,0.076,11,34,0.99780,3.51,0.56,9.4,5
5,7.4,0.660,0.00,1.8,0.075,13,40,0.99780,3.51,0.56,9.4,5
6,7.9,0.600,0.06,1.6,0.069,15,59,0.99640,3.30,0.46,9.4,5
7,7.3,0.650,0.00,1.2,0.065,15,21,0.99460,3.39,0.47,10.0,7
8,7.8,0.580,0.02,2.0,0.073,9,18,0.99680,3.36,0.57,9.5,7
9,7.5,0.500,0.36,6.1,0.071,17,102,0.99780,3.35,0.80,10.5,5


うまく読み込めました。

次は、__「あわびのデータ」__のデータを読み込んでみましょう。
（<a href="http://nbviewer.jupyter.org/github/maskot1977/ipython_notebook/blob/master/%E5%AE%9F%E7%BF%92%E7%94%A8%E3%83%86%E3%82%99%E3%83%BC%E3%82%BF2017.ipynb">詳細</a>）

In [18]:
# ウェブ上のリソースを指定する
url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data'
# 指定したURLからリソースをダウンロードし、名前をつける。
# urllib.urlretrieve(url, 'abalone.data') # Python 2 の場合
urllib.request.urlretrieve(url, 'abalone.data') # Python 3 の場合

('abalone.data', <http.client.HTTPMessage at 0x106659710>)

In [19]:
# データの読み込み
df4 = pd.read_csv('abalone.data', sep='\t', index_col=0) 

In [20]:
df4

"M,0.35,0.265,0.09,0.2255,0.0995,0.0485,0.07,7"
"F,0.53,0.42,0.135,0.677,0.2565,0.1415,0.21,9"
"M,0.44,0.365,0.125,0.516,0.2155,0.114,0.155,10"
"I,0.33,0.255,0.08,0.205,0.0895,0.0395,0.055,7"
"I,0.425,0.3,0.095,0.3515,0.141,0.0775,0.12,8"
"F,0.53,0.415,0.15,0.7775,0.237,0.1415,0.33,20"
"F,0.545,0.425,0.125,0.768,0.294,0.1495,0.26,16"
"M,0.475,0.37,0.125,0.5095,0.2165,0.1125,0.165,9"
"F,0.55,0.44,0.15,0.8945,0.3145,0.151,0.32,19"
"F,0.525,0.38,0.14,0.6065,0.194,0.1475,0.21,14"
"M,0.43,0.35,0.11,0.406,0.1675,0.081,0.135,10"


上の方法では、「あわびのデータ」がうまく読み込めていません。原因は、実際のデータ区切り文字が「,」（コンマ）なのに、データの読み込み時に「sep='\t'」（データ区切り文字はタブ）と指定したからです。では改めて、データ区切り文字にコンマを指定して読み込んでみましょう。

In [21]:
# データの読み込み
df4 = pd.read_csv('abalone.data', sep=',', index_col=0) 

In [22]:
df4

Unnamed: 0_level_0,0.455,0.365,0.095,0.514,0.2245,0.101,0.15,15
M,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
M,0.350,0.265,0.090,0.2255,0.0995,0.0485,0.0700,7
F,0.530,0.420,0.135,0.6770,0.2565,0.1415,0.2100,9
M,0.440,0.365,0.125,0.5160,0.2155,0.1140,0.1550,10
I,0.330,0.255,0.080,0.2050,0.0895,0.0395,0.0550,7
I,0.425,0.300,0.095,0.3515,0.1410,0.0775,0.1200,8
F,0.530,0.415,0.150,0.7775,0.2370,0.1415,0.3300,20
F,0.545,0.425,0.125,0.7680,0.2940,0.1495,0.2600,16
M,0.475,0.370,0.125,0.5095,0.2165,0.1125,0.1650,9
F,0.550,0.440,0.150,0.8945,0.3145,0.1510,0.3200,19
F,0.525,0.380,0.140,0.6065,0.1940,0.1475,0.2100,14


うまく読み込めたように見えるかもしれませんが、不十分です。第１列目（いちばん左）のデータが、インデックス番号として取り扱われています。このデータにはインデックス番号が指定されていませんので、次のようにして読み込みましょう。

In [23]:
# データの読み込み
df4 = pd.read_csv('abalone.data', sep=',') 

In [24]:
df4

Unnamed: 0,M,0.455,0.365,0.095,0.514,0.2245,0.101,0.15,15
0,M,0.350,0.265,0.090,0.2255,0.0995,0.0485,0.0700,7
1,F,0.530,0.420,0.135,0.6770,0.2565,0.1415,0.2100,9
2,M,0.440,0.365,0.125,0.5160,0.2155,0.1140,0.1550,10
3,I,0.330,0.255,0.080,0.2050,0.0895,0.0395,0.0550,7
4,I,0.425,0.300,0.095,0.3515,0.1410,0.0775,0.1200,8
5,F,0.530,0.415,0.150,0.7775,0.2370,0.1415,0.3300,20
6,F,0.545,0.425,0.125,0.7680,0.2940,0.1495,0.2600,16
7,M,0.475,0.370,0.125,0.5095,0.2165,0.1125,0.1650,9
8,F,0.550,0.440,0.150,0.8945,0.3145,0.1510,0.3200,19
9,F,0.525,0.380,0.140,0.6065,0.1940,0.1475,0.2100,14


うまく読み込めたように見えるかもしれませんが、不十分です。第１行目（いちばん上）のデータが、ヘッダ行として取り扱われています。このデータにはヘッダ行が指定されていませんので、次のようにして読み込みましょう。

In [25]:
# データの読み込み
df4 = pd.read_csv('abalone.data', sep=',', header=None) 

In [26]:
df4

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,M,0.455,0.365,0.095,0.5140,0.2245,0.1010,0.1500,15
1,M,0.350,0.265,0.090,0.2255,0.0995,0.0485,0.0700,7
2,F,0.530,0.420,0.135,0.6770,0.2565,0.1415,0.2100,9
3,M,0.440,0.365,0.125,0.5160,0.2155,0.1140,0.1550,10
4,I,0.330,0.255,0.080,0.2050,0.0895,0.0395,0.0550,7
5,I,0.425,0.300,0.095,0.3515,0.1410,0.0775,0.1200,8
6,F,0.530,0.415,0.150,0.7775,0.2370,0.1415,0.3300,20
7,F,0.545,0.425,0.125,0.7680,0.2940,0.1495,0.2600,16
8,M,0.475,0.370,0.125,0.5095,0.2165,0.1125,0.1650,9
9,F,0.550,0.440,0.150,0.8945,0.3145,0.1510,0.3200,19


これで、うまくデータを読み込めました。