# データ抽出の方法
PandasのDataFrameやSeriesからデータを抽出する方法について学びます。特定の列や行を指定したり、演算子を使用して条件を指定したりして、データの抽出を行います

### 下記のデータフレームは、1920年から2015年までの各都道府県の人口推移データが含まれるcsvファイルを読み込んだものです。<br>
完成イメージの通りに、データフレームの最初の3行をスライスで抽出してみましょう。

![image.png](attachment:2c4010be-e02f-4775-a93b-f225e861d68c.png)

In [3]:
import pandas as pd

df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv[0:3]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
0,1,北海道,大正,9.0,1920.0,2359183,1244322,1114861
1,2,青森県,大正,9.0,1920.0,756454,381293,375161
2,3,岩手県,大正,9.0,1920.0,845540,421069,424471


### 下記のデータフレームは、1920年から2015年までの各都道府県の人口推移データが含まれるCSVファイルを読み込んだものです。<br>
完成イメージの通りに、データフレームから10行目から14行目までをスライスで抽出してみましょう。
![image.png](attachment:51ee703a-8e38-4375-9d2b-949c62848634.png)

In [7]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv[9:14]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
9,10,群馬県,大正,9.0,1920.0,1052610,514106,538504
10,11,埼玉県,大正,9.0,1920.0,1319533,641161,678372
11,12,千葉県,大正,9.0,1920.0,1336155,656968,679187
12,13,東京都,大正,9.0,1920.0,3699428,1952989,1746439
13,14,神奈川県,大正,9.0,1920.0,1323390,689751,633639


### 下記のデータフレームは、1920年から2015年までの各都道府県の人口推移データが含まれるCSVファイルを読み込んだものです。<br>完成イメージの通りに、データフレームの'人口（総数）'列をシリーズとして抽出し、最初の5行を表示させてみましょう。
![image.png](attachment:60f1476b-1fd4-49c1-94a8-ef328c03f3d2.png)

In [10]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv['人口（総数）'][:5]

0    2359183
1     756454
2     845540
3     961768
4     898537
Name: 人口（総数）, dtype: int64

### 1920年から2015年までの各都道府県の人口推移データが含まれるCSVファイルの'西暦（年）'列の値が2015に一致する行を抽出し、最初の10行を表示

In [14]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv[df_csv['西暦（年）'] == 2015].head(10)

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
892,1,北海道,平成,27.0,2015.0,5381733,2537089,2844644
893,2,青森県,平成,27.0,2015.0,1308265,614694,693571
894,3,岩手県,平成,27.0,2015.0,1279594,615584,664010
895,4,宮城県,平成,27.0,2015.0,2333899,1140167,1193732
896,5,秋田県,平成,27.0,2015.0,1023119,480336,542783
897,6,山形県,平成,27.0,2015.0,1123891,540226,583665
898,7,福島県,平成,27.0,2015.0,1914039,945660,968379
899,8,茨城県,平成,27.0,2015.0,2916976,1453594,1463382
900,9,栃木県,平成,27.0,2015.0,1974255,981626,992629
901,10,群馬県,平成,27.0,2015.0,1973115,973283,999832


### '都道府県名'列の値が'東京都'と一致する行を抽出し、最初の10行を表示

In [18]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv[df_csv['都道府県名'] == '東京都'].head(10)

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
12,13,東京都,大正,9.0,1920.0,3699428,1952989,1746439
59,13,東京都,大正,14.0,1925.0,4485144,2387609,2097535
106,13,東京都,昭和,5.0,1930.0,5408678,2855323,2553355
153,13,東京都,昭和,10.0,1935.0,6369919,3325696,3044223
200,13,東京都,昭和,15.0,1940.0,7354971,3795875,3559096
247,13,東京都,昭和,20.0,1945.0,3488284,1788145,1700139
293,13,東京都,昭和,25.0,1950.0,6277500,3169389,3108111
340,13,東京都,昭和,30.0,1955.0,8037084,4115823,3921261
387,13,東京都,昭和,35.0,1960.0,9683802,4997023,4686779
434,13,東京都,昭和,40.0,1965.0,10869244,5564583,5304661


### '西暦（年）'列の値が10の倍数である行を抽出し、最初の10行を表示

In [20]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv[df_csv['西暦（年）'] % 10 == 0].head(10)

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
0,1,北海道,大正,9.0,1920.0,2359183,1244322,1114861
1,2,青森県,大正,9.0,1920.0,756454,381293,375161
2,3,岩手県,大正,9.0,1920.0,845540,421069,424471
3,4,宮城県,大正,9.0,1920.0,961768,485309,476459
4,5,秋田県,大正,9.0,1920.0,898537,453682,444855
5,6,山形県,大正,9.0,1920.0,968925,478328,490597
6,7,福島県,大正,9.0,1920.0,1362750,673525,689225
7,8,茨城県,大正,9.0,1920.0,1350400,662128,688272
8,9,栃木県,大正,9.0,1920.0,1046479,514255,532224
9,10,群馬県,大正,9.0,1920.0,1052610,514106,538504


## '西暦（年）'列の値が10の倍数ではない行を抽出
うビット演算子で否定の記号の「〜」（チルダ）を使う

In [29]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
# df_csv[df_csv['西暦（年）'] % 10 != 0]
df_csv[~(df_csv['西暦（年）'] % 10 == 0)]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
47,1,北海道,大正,14.0,1925.0,2498679,1305473,1193206
48,2,青森県,大正,14.0,1925.0,812977,408770,404207
49,3,岩手県,大正,14.0,1925.0,900984,448637,452347
50,4,宮城県,大正,14.0,1925.0,1044036,525191,518845
51,5,秋田県,大正,14.0,1925.0,936408,470737,465671
...,...,...,...,...,...,...,...,...
934,43,熊本県,平成,27.0,2015.0,1786170,841046,945124
935,44,大分県,平成,27.0,2015.0,1166338,551932,614406
936,45,宮崎県,平成,27.0,2015.0,1104069,519242,584827
937,46,鹿児島県,平成,27.0,2015.0,1648177,773061,875116


### データフレームの'西暦（年）'列の値が10の倍数ではない行を抽出
係演算子で不等価を表す「!=」を使用

In [31]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv[df_csv['西暦（年）'] % 10 != 0]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
47,1,北海道,大正,14.0,1925.0,2498679,1305473,1193206
48,2,青森県,大正,14.0,1925.0,812977,408770,404207
49,3,岩手県,大正,14.0,1925.0,900984,448637,452347
50,4,宮城県,大正,14.0,1925.0,1044036,525191,518845
51,5,秋田県,大正,14.0,1925.0,936408,470737,465671
...,...,...,...,...,...,...,...,...
934,43,熊本県,平成,27.0,2015.0,1786170,841046,945124
935,44,大分県,平成,27.0,2015.0,1166338,551932,614406
936,45,宮崎県,平成,27.0,2015.0,1104069,519242,584827
937,46,鹿児島県,平成,27.0,2015.0,1648177,773061,875116


### データフレームの'西暦（年）'列の値が2015年、かつ'都道府県名'列の値が'東京都'の行を抽出

In [43]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv[(df_csv['西暦（年）'] == 2015) & (df_csv['都道府県名'] == '東京都')]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
904,13,東京都,平成,27.0,2015.0,13515271,6666690,6848581


## データフレームの'西暦（年）'列が2015年、または2010年の行のデータを抽出

In [45]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv[(df_csv['西暦（年）'] == 2015) | (df_csv['西暦（年）'] == 2010)]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
845,1,北海道,平成,22.0,2010.0,5506419,2603345,2903074
846,2,青森県,平成,22.0,2010.0,1373339,646141,727198
847,3,岩手県,平成,22.0,2010.0,1330147,634971,695176
848,4,宮城県,平成,22.0,2010.0,2348165,1139566,1208599
849,5,秋田県,平成,22.0,2010.0,1085997,509926,576071
...,...,...,...,...,...,...,...,...
934,43,熊本県,平成,27.0,2015.0,1786170,841046,945124
935,44,大分県,平成,27.0,2015.0,1166338,551932,614406
936,45,宮崎県,平成,27.0,2015.0,1104069,519242,584827
937,46,鹿児島県,平成,27.0,2015.0,1648177,773061,875116


## 西暦（年）'のカラム名を'year'に変更

In [47]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv.rename(columns={'西暦（年）':'year'})

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,year,人口（総数）,人口（男）,人口（女）
0,1,北海道,大正,9.0,1920.0,2359183,1244322,1114861
1,2,青森県,大正,9.0,1920.0,756454,381293,375161
2,3,岩手県,大正,9.0,1920.0,845540,421069,424471
3,4,宮城県,大正,9.0,1920.0,961768,485309,476459
4,5,秋田県,大正,9.0,1920.0,898537,453682,444855
...,...,...,...,...,...,...,...,...
934,43,熊本県,平成,27.0,2015.0,1786170,841046,945124
935,44,大分県,平成,27.0,2015.0,1166338,551932,614406
936,45,宮崎県,平成,27.0,2015.0,1104069,519242,584827
937,46,鹿児島県,平成,27.0,2015.0,1648177,773061,875116


## まず、'西暦（年）'のカラム名を'year'に変更します。<br>そして、queryメソッドを使用して、'year'の値が2010のデータのみ抽出

In [54]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv = df_csv.rename(columns={'西暦（年）':'year'})
df_csv.query('year == 2010')

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,year,人口（総数）,人口（男）,人口（女）
845,1,北海道,平成,22.0,2010.0,5506419,2603345,2903074
846,2,青森県,平成,22.0,2010.0,1373339,646141,727198
847,3,岩手県,平成,22.0,2010.0,1330147,634971,695176
848,4,宮城県,平成,22.0,2010.0,2348165,1139566,1208599
849,5,秋田県,平成,22.0,2010.0,1085997,509926,576071
850,6,山形県,平成,22.0,2010.0,1168924,560643,608281
851,7,福島県,平成,22.0,2010.0,2029064,984682,1044382
852,8,茨城県,平成,22.0,2010.0,2969770,1479779,1489991
853,9,栃木県,平成,22.0,2010.0,2007683,996855,1010828
854,10,群馬県,平成,22.0,2010.0,2008068,988019,1020049


## '西暦（年）'のカラム名を'year'に変更<br>そして、queryメソッドを使用して、完成イメージの通りに、’year'の値が2010より大きいデータのみ抽出

In [56]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv = df_csv.rename(columns={'西暦（年）':'year'})
df_csv.query('year > 2010')

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,year,人口（総数）,人口（男）,人口（女）
892,1,北海道,平成,27.0,2015.0,5381733,2537089,2844644
893,2,青森県,平成,27.0,2015.0,1308265,614694,693571
894,3,岩手県,平成,27.0,2015.0,1279594,615584,664010
895,4,宮城県,平成,27.0,2015.0,2333899,1140167,1193732
896,5,秋田県,平成,27.0,2015.0,1023119,480336,542783
897,6,山形県,平成,27.0,2015.0,1123891,540226,583665
898,7,福島県,平成,27.0,2015.0,1914039,945660,968379
899,8,茨城県,平成,27.0,2015.0,2916976,1453594,1463382
900,9,栃木県,平成,27.0,2015.0,1974255,981626,992629
901,10,群馬県,平成,27.0,2015.0,1973115,973283,999832


## '西暦（年）'のカラム名を'year'に変更<br>queryメソッドを使用して、’都道府県名'の値が'東京都'であるデータのみ抽出し、最初の10行を表示

In [62]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv = df_csv.rename(columns={'西暦（年）':'year'})
df_csv = df_csv.query('都道府県名 == "東京都"')
df_csv.head(10)

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,year,人口（総数）,人口（男）,人口（女）
12,13,東京都,大正,9.0,1920.0,3699428,1952989,1746439
59,13,東京都,大正,14.0,1925.0,4485144,2387609,2097535
106,13,東京都,昭和,5.0,1930.0,5408678,2855323,2553355
153,13,東京都,昭和,10.0,1935.0,6369919,3325696,3044223
200,13,東京都,昭和,15.0,1940.0,7354971,3795875,3559096
247,13,東京都,昭和,20.0,1945.0,3488284,1788145,1700139
293,13,東京都,昭和,25.0,1950.0,6277500,3169389,3108111
340,13,東京都,昭和,30.0,1955.0,8037084,4115823,3921261
387,13,東京都,昭和,35.0,1960.0,9683802,4997023,4686779
434,13,東京都,昭和,40.0,1965.0,10869244,5564583,5304661


## '西暦（年）'のカラム名を'year'に変更します。<br>そして、queryメソッドを使用して、’year'の値が2010、または2015のデータを抽出し、最初の10行を表示

In [8]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv = df_csv.rename(columns={'西暦（年）':'year'})
df_csv.query('year == 2010 or year == 2015').head(10)

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,year,人口（総数）,人口（男）,人口（女）
845,1,北海道,平成,22.0,2010.0,5506419,2603345,2903074
846,2,青森県,平成,22.0,2010.0,1373339,646141,727198
847,3,岩手県,平成,22.0,2010.0,1330147,634971,695176
848,4,宮城県,平成,22.0,2010.0,2348165,1139566,1208599
849,5,秋田県,平成,22.0,2010.0,1085997,509926,576071
850,6,山形県,平成,22.0,2010.0,1168924,560643,608281
851,7,福島県,平成,22.0,2010.0,2029064,984682,1044382
852,8,茨城県,平成,22.0,2010.0,2969770,1479779,1489991
853,9,栃木県,平成,22.0,2010.0,2007683,996855,1010828
854,10,群馬県,平成,22.0,2010.0,2008068,988019,1020049


## '西暦（年）'のカラム名を'year'に変更します。<br>そして、queryメソッドを使用して、完成イメージの通りに、'東京都'の2015年のデータを抽出

In [10]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv = df_csv.rename(columns={'西暦（年）':'year'})
df_csv.query('都道府県名 == "東京都" and year == 2015').head(10)

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,year,人口（総数）,人口（男）,人口（女）
904,13,東京都,平成,27.0,2015.0,13515271,6666690,6848581


## isinメソッドを使用して、完成イメージの通りに、'西暦（年）'の値が2010のデータを抽出し、最初の10行を表示

In [15]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv[df_csv['西暦（年）'].isin([2010])].head(10)

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
845,1,北海道,平成,22.0,2010.0,5506419,2603345,2903074
846,2,青森県,平成,22.0,2010.0,1373339,646141,727198
847,3,岩手県,平成,22.0,2010.0,1330147,634971,695176
848,4,宮城県,平成,22.0,2010.0,2348165,1139566,1208599
849,5,秋田県,平成,22.0,2010.0,1085997,509926,576071
850,6,山形県,平成,22.0,2010.0,1168924,560643,608281
851,7,福島県,平成,22.0,2010.0,2029064,984682,1044382
852,8,茨城県,平成,22.0,2010.0,2969770,1479779,1489991
853,9,栃木県,平成,22.0,2010.0,2007683,996855,1010828
854,10,群馬県,平成,22.0,2010.0,2008068,988019,1020049


## isinメソッドを使用して、完成イメージの通りに、'西暦（年）'の値が2010、または2015のデータを抽出

In [20]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv[df_csv['西暦（年）'].isin([2010, 2015])]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
845,1,北海道,平成,22.0,2010.0,5506419,2603345,2903074
846,2,青森県,平成,22.0,2010.0,1373339,646141,727198
847,3,岩手県,平成,22.0,2010.0,1330147,634971,695176
848,4,宮城県,平成,22.0,2010.0,2348165,1139566,1208599
849,5,秋田県,平成,22.0,2010.0,1085997,509926,576071
...,...,...,...,...,...,...,...,...
934,43,熊本県,平成,27.0,2015.0,1786170,841046,945124
935,44,大分県,平成,27.0,2015.0,1166338,551932,614406
936,45,宮崎県,平成,27.0,2015.0,1104069,519242,584827
937,46,鹿児島県,平成,27.0,2015.0,1648177,773061,875116


## '都道府県名'の値に'山'という文字が含まれるデータを抽出

In [23]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv[df_csv['都道府県名'].str.contains('山')]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
5,6,山形県,大正,9.0,1920.0,968925,478328,490597
15,16,富山県,大正,9.0,1920.0,724276,354775,369501
18,19,山梨県,大正,9.0,1920.0,583453,290817,292636
29,30,和歌山県,大正,9.0,1920.0,750411,372058,378353
32,33,岡山県,大正,9.0,1920.0,1217698,605316,612382
...,...,...,...,...,...,...,...,...
907,16,富山県,平成,27.0,2015.0,1066328,515147,551181
910,19,山梨県,平成,27.0,2015.0,834930,408327,426603
921,30,和歌山県,平成,27.0,2015.0,963579,453216,510363
924,33,岡山県,平成,27.0,2015.0,1921525,922226,999299


## '都道府県名'の値が'大'という文字から始まるデータを抽出

In [28]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv[df_csv['都道府県名'].str.startswith('大')]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
26,27,大阪府,大正,9.0,1920.0,2587847,1344846,1243001
43,44,大分県,大正,9.0,1920.0,860282,422708,437574
73,27,大阪府,大正,14.0,1925.0,3059502,1594227,1465275
90,44,大分県,大正,14.0,1925.0,915136,451298,463838
120,27,大阪府,昭和,5.0,1930.0,3540017,1845786,1694231
137,44,大分県,昭和,5.0,1930.0,945771,465994,479777
167,27,大阪府,昭和,10.0,1935.0,4297174,2241666,2055508
184,44,大分県,昭和,10.0,1935.0,980458,481549,498909
214,27,大阪府,昭和,15.0,1940.0,4792966,2460574,2332392
231,44,大分県,昭和,15.0,1940.0,972975,473521,499454


## '都道府県名'の値が'道'という文字で終わるデータを抽出

In [30]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv[df_csv['都道府県名'].str.endswith('道')]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
0,1,北海道,大正,9.0,1920.0,2359183,1244322,1114861
47,1,北海道,大正,14.0,1925.0,2498679,1305473,1193206
94,1,北海道,昭和,5.0,1930.0,2812335,1468540,1343795
141,1,北海道,昭和,10.0,1935.0,3068282,1593845,1474437
188,1,北海道,昭和,15.0,1940.0,3272718,1695600,1577118
235,1,北海道,昭和,20.0,1945.0,3518389,1738623,1779766
281,1,北海道,昭和,25.0,1950.0,4295567,2169393,2126174
328,1,北海道,昭和,30.0,1955.0,4773087,2428833,2344254
375,1,北海道,昭和,35.0,1960.0,5039206,2544753,2494453
422,1,北海道,昭和,40.0,1965.0,5171800,2583159,2588641


## '西暦（年）'列の最大値に一致するデータを抽出

In [32]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv[df_csv['西暦（年）'] == df_csv['西暦（年）'].max()]

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
892,1,北海道,平成,27.0,2015.0,5381733,2537089,2844644
893,2,青森県,平成,27.0,2015.0,1308265,614694,693571
894,3,岩手県,平成,27.0,2015.0,1279594,615584,664010
895,4,宮城県,平成,27.0,2015.0,2333899,1140167,1193732
896,5,秋田県,平成,27.0,2015.0,1023119,480336,542783
897,6,山形県,平成,27.0,2015.0,1123891,540226,583665
898,7,福島県,平成,27.0,2015.0,1914039,945660,968379
899,8,茨城県,平成,27.0,2015.0,2916976,1453594,1463382
900,9,栃木県,平成,27.0,2015.0,1974255,981626,992629
901,10,群馬県,平成,27.0,2015.0,1973115,973283,999832


## locプロパティを使用して、895行目の'人口（男）'と'人口（女）'のデータを抽出

In [36]:
df_csv = pd.read_csv('csv_files/data.csv', encoding = 'shift-jis')
df_csv.loc[895, ['人口（男）', '人口（女）']]

人口（男）    1140167
人口（女）    1193732
Name: 895, dtype: object