In [1]:
import pandas as pd

In [2]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 5)

In [3]:
df = pd.read_csv('resources/data.csv', encoding='shift-jis')
df

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,注,人口（総数）,人口（男）,人口（女）
0,0,全国,大正,9,1920,,55963053,28044185,27918868
1,1,北海道,大正,9,1920,,2359183,1244322,1114861
...,...,...,...,...,...,...,...,...,...
977,46,鹿児島県,平成,27,2015,,1648177,773061,875116
978,47,沖縄県,平成,27,2015,,1433566,704619,728947


In [4]:
df.index = df.index + 1
df

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,注,人口（総数）,人口（男）,人口（女）
1,0,全国,大正,9,1920,,55963053,28044185,27918868
2,1,北海道,大正,9,1920,,2359183,1244322,1114861
...,...,...,...,...,...,...,...,...,...
978,46,鹿児島県,平成,27,2015,,1648177,773061,875116
979,47,沖縄県,平成,27,2015,,1433566,704619,728947


In [5]:
df[0:3]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,注,人口（総数）,人口（男）,人口（女）
1,0,全国,大正,9,1920,,55963053,28044185,27918868
2,1,北海道,大正,9,1920,,2359183,1244322,1114861
3,2,青森県,大正,9,1920,,756454,381293,375161


In [6]:
df[:3] #最初のindexが0の場合は省略できる （つまり、df[0:3]とdf[:3]は同じ結果を返す

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,注,人口（総数）,人口（男）,人口（女）
1,0,全国,大正,9,1920,,55963053,28044185,27918868
2,1,北海道,大正,9,1920,,2359183,1244322,1114861
3,2,青森県,大正,9,1920,,756454,381293,375161


In [7]:
df['人口（総数）'][:5] #DataFrameから特定の列を指定して5行目までを表示する（特定の列を取り出すとデータ型をSeriesとして取り出すことになる）

1    55963053
2     2359183
3      756454
4      845540
5      961768
Name: 人口（総数）, dtype: int64

In [8]:
# 特定の列を取り出す（SeriesではなくDataFrameとして取り出す）
df[['人口（総数）']][:5]

Unnamed: 0,人口（総数）
1,55963053
2,2359183
3,756454
4,845540
5,961768


In [9]:
# 複数の列をDataFrameとして取り出す
df[['都道府県名', '人口（総数）']][:5]

Unnamed: 0,都道府県名,人口（総数）
1,全国,55963053
2,北海道,2359183
3,青森県,756454
4,岩手県,845540
5,宮城県,961768


In [10]:
# 真偽値を使ってデータを取り出す
df['西暦（年）'] == 2015

1      False
2      False
       ...  
978     True
979     True
Name: 西暦（年）, Length: 979, dtype: bool

In [11]:
df[df['西暦（年）'] == 2015][:5]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,注,人口（総数）,人口（男）,人口（女）
930,0,全国,平成,27,2015,,127094745,61841738,65253007
931,0A,人口集中地区,平成,27,2015,,86868176,42363423,44504753
932,0B,人口集中地区以外の地区,平成,27,2015,,40226569,19478315,20748254
933,1,北海道,平成,27,2015,,5381733,2537089,2844644
934,2,青森県,平成,27,2015,,1308265,614694,693571


In [12]:
df[df['都道府県名'] == '東京都'][:5]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,注,人口（総数）,人口（男）,人口（女）
14,13,東京都,大正,9,1920,,3699428,1952989,1746439
62,13,東京都,大正,14,1925,,4485144,2387609,2097535
110,13,東京都,昭和,5,1930,,5408678,2855323,2553355
158,13,東京都,昭和,10,1935,,6369919,3325696,3044223
206,13,東京都,昭和,15,1940,,7354971,3795875,3559096


In [13]:
df['西暦（年）']  % 10 == 0

1       True
2       True
       ...  
978    False
979    False
Name: 西暦（年）, Length: 979, dtype: bool

In [14]:
# 西暦が10の倍数である年のデータを表示する
df[df['西暦（年）'] % 10 == 0]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,注,人口（総数）,人口（男）,人口（女）
1,0,全国,大正,9,1920,,55963053,28044185,27918868
2,1,北海道,大正,9,1920,,2359183,1244322,1114861
...,...,...,...,...,...,...,...,...,...
928,46,鹿児島県,平成,22,2010,,1706242,796896,909346
929,47,沖縄県,平成,22,2010,,1392818,683328,709490


In [15]:
# 西暦が10の倍数「ではない」年のデータを表示する（NOT演算子である〜を使う('=='を'!='に置き換えることでもO.K)）
df[~(df['西暦（年）'] % 10 == 0)]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,注,人口（総数）,人口（男）,人口（女）
49,0,全国,大正,14,1925,,59736822,30013109,29723713
50,1,北海道,大正,14,1925,,2498679,1305473,1193206
...,...,...,...,...,...,...,...,...,...
978,46,鹿児島県,平成,27,2015,,1648177,773061,875116
979,47,沖縄県,平成,27,2015,,1433566,704619,728947


In [16]:
df[(df['西暦（年）'] == 2015) & (df['都道府県名'] == '東京都')]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,注,人口（総数）,人口（男）,人口（女）
945,13,東京都,平成,27,2015,,13515271,6666690,6848581


In [17]:
df[(df['西暦（年）'] == 2010) | (df['西暦（年）'] == 2015)]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,注,人口（総数）,人口（男）,人口（女）
880,0,全国,平成,22,2010,,128057352,62327737,65729615
881,0A,人口集中地区,平成,22,2010,,86121462,42051390,44070072
...,...,...,...,...,...,...,...,...,...
978,46,鹿児島県,平成,27,2015,,1648177,773061,875116
979,47,沖縄県,平成,27,2015,,1433566,704619,728947


In [18]:
df = df.rename(columns={'西暦（年）': 'year'})
df

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,year,注,人口（総数）,人口（男）,人口（女）
1,0,全国,大正,9,1920,,55963053,28044185,27918868
2,1,北海道,大正,9,1920,,2359183,1244322,1114861
...,...,...,...,...,...,...,...,...,...
978,46,鹿児島県,平成,27,2015,,1648177,773061,875116
979,47,沖縄県,平成,27,2015,,1433566,704619,728947


### DataFrameのqueryメソッドを使ってデータを取り出す。　queryメソッドはsqlのwhere句と同等の機能を果たす。

In [19]:
df.query('year == 2010')

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,year,注,人口（総数）,人口（男）,人口（女）
880,0,全国,平成,22,2010,,128057352,62327737,65729615
881,0A,人口集中地区,平成,22,2010,,86121462,42051390,44070072
...,...,...,...,...,...,...,...,...,...
928,46,鹿児島県,平成,22,2010,,1706242,796896,909346
929,47,沖縄県,平成,22,2010,,1392818,683328,709490


In [20]:
df.query('year > 2010')

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,year,注,人口（総数）,人口（男）,人口（女）
930,0,全国,平成,27,2015,,127094745,61841738,65253007
931,0A,人口集中地区,平成,27,2015,,86868176,42363423,44504753
...,...,...,...,...,...,...,...,...,...
978,46,鹿児島県,平成,27,2015,,1648177,773061,875116
979,47,沖縄県,平成,27,2015,,1433566,704619,728947


In [21]:
df.query('都道府県名 == "東京都"')

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,year,注,人口（総数）,人口（男）,人口（女）
14,13,東京都,大正,9,1920,,3699428,1952989,1746439
62,13,東京都,大正,14,1925,,4485144,2387609,2097535
...,...,...,...,...,...,...,...,...,...
895,13,東京都,平成,22,2010,,13159388,6512110,6647278
945,13,東京都,平成,27,2015,,13515271,6666690,6848581


In [22]:
df.query('year == 2010 or year == 2015')

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,year,注,人口（総数）,人口（男）,人口（女）
880,0,全国,平成,22,2010,,128057352,62327737,65729615
881,0A,人口集中地区,平成,22,2010,,86121462,42051390,44070072
...,...,...,...,...,...,...,...,...,...
978,46,鹿児島県,平成,27,2015,,1648177,773061,875116
979,47,沖縄県,平成,27,2015,,1433566,704619,728947


In [23]:
df.query('都道府県名 == "東京都" and year == 2015')

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,year,注,人口（総数）,人口（男）,人口（女）
945,13,東京都,平成,27,2015,,13515271,6666690,6848581


### 等価演算子の代わりに、isinメソッドを使ってデータを取り出す。

In [24]:
df['year'].isin([2010])

1      False
2      False
       ...  
978    False
979    False
Name: year, Length: 979, dtype: bool

In [25]:
df[df['year'].isin([2010])]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,year,注,人口（総数）,人口（男）,人口（女）
880,0,全国,平成,22,2010,,128057352,62327737,65729615
881,0A,人口集中地区,平成,22,2010,,86121462,42051390,44070072
...,...,...,...,...,...,...,...,...,...
928,46,鹿児島県,平成,22,2010,,1706242,796896,909346
929,47,沖縄県,平成,22,2010,,1392818,683328,709490


In [26]:
df[df['year'].isin([2010,2015])]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,year,注,人口（総数）,人口（男）,人口（女）
880,0,全国,平成,22,2010,,128057352,62327737,65729615
881,0A,人口集中地区,平成,22,2010,,86121462,42051390,44070072
...,...,...,...,...,...,...,...,...,...
978,46,鹿児島県,平成,27,2015,,1648177,773061,875116
979,47,沖縄県,平成,27,2015,,1433566,704619,728947


In [27]:
df['都道府県名'].str.contains('山')

1      False
2      False
       ...  
978    False
979    False
Name: 都道府県名, Length: 979, dtype: bool

In [28]:
df[df['都道府県名'].str.contains('山')]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,year,注,人口（総数）,人口（男）,人口（女）
7,6,山形県,大正,9,1920,,968925,478328,490597
17,16,富山県,大正,9,1920,,724276,354775,369501
...,...,...,...,...,...,...,...,...,...
965,33,岡山県,平成,27,2015,,1921525,922226,999299
967,35,山口県,平成,27,2015,,1404729,665008,739721


In [29]:
df[df['都道府県名'].str.startswith('大')]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,year,注,人口（総数）,人口（男）,人口（女）
28,27,大阪府,大正,9,1920,,2587847,1344846,1243001
45,44,大分県,大正,9,1920,,860282,422708,437574
...,...,...,...,...,...,...,...,...,...
959,27,大阪府,平成,27,2015,,8839469,4256049,4583420
976,44,大分県,平成,27,2015,,1166338,551932,614406


In [30]:
df[df['都道府県名'].str.endswith('道')]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,year,注,人口（総数）,人口（男）,人口（女）
2,1,北海道,大正,9,1920,,2359183,1244322,1114861
50,1,北海道,大正,14,1925,,2498679,1305473,1193206
...,...,...,...,...,...,...,...,...,...
883,1,北海道,平成,22,2010,,5506419,2603345,2903074
933,1,北海道,平成,27,2015,,5381733,2537089,2844644


In [31]:
df[df['year'] == df['year'].max()]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,year,注,人口（総数）,人口（男）,人口（女）
930,0,全国,平成,27,2015,,127094745,61841738,65253007
931,0A,人口集中地区,平成,27,2015,,86868176,42363423,44504753
...,...,...,...,...,...,...,...,...,...
978,46,鹿児島県,平成,27,2015,,1648177,773061,875116
979,47,沖縄県,平成,27,2015,,1433566,704619,728947


In [32]:
# locメソッドを使って、895行目の'人口（男)'と'人口(女)'を取り出す
df.loc[895, ['人口（男）', '人口（女）']]

人口（男）    6512110
人口（女）    6647278
Name: 895, dtype: object