# pandas

In [1]:
import numpy as np
import pandas as pd

## Series
- シリーズ
    - pandas で扱う1次元配列

In [2]:
# Series
ser = pd.Series([1, 2, 3, 4, 5])
ser

0    1
1    2
2    3
3    4
4    5
dtype: int64

### DataFrame
- データフレーム
    - pandas で扱う2次元配列
    - 行・列に自動的に番号が割り振られる

In [3]:
# DataFrame
df = pd.DataFrame([[1, 'A', True],
                  [2, 'B', False],
                  [3, 'C', True],
                  [4, 'D', True],
                  [5, 'E', False]])
df

Unnamed: 0,0,1,2
0,1,A,True
1,2,B,False
2,3,C,True
3,4,D,True
4,5,E,False


- np.arange　で自動的に DataFrame を作成

In [4]:
df = pd.DataFrame(np.arange(60).reshape((15, 4)))
df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19
5,20,21,22,23
6,24,25,26,27
7,28,29,30,31
8,32,33,34,35
9,36,37,38,39


## dataの生成と切り取り

In [5]:
df.head()

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19


In [7]:
df.head(1)

Unnamed: 0,0,1,2,3
0,0,1,2,3


In [9]:
df[10:15]

Unnamed: 0,0,1,2,3
10,40,41,42,43
11,44,45,46,47
12,48,49,50,51
13,52,53,54,55
14,56,57,58,59


In [15]:
df[0:3]

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [16]:
df.tail(3)

Unnamed: 0,0,1,2,3
12,48,49,50,51
13,52,53,54,55
14,56,57,58,59


In [17]:
df.tail()

Unnamed: 0,0,1,2,3
10,40,41,42,43
11,44,45,46,47
12,48,49,50,51
13,52,53,54,55
14,56,57,58,59


In [18]:
df.shape

(15, 4)

In [20]:
df = pd.DataFrame(np.arange(12).reshape((4, 3)))
df

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [29]:
df.index = ['1行目', '2行目', '3行目', '4行目']
df.columns = ['A列', 'B列', 'C列']
df

Unnamed: 0,A列,B列,C列
1行目,0,1,2
2行目,3,4,5
3行目,6,7,8
4行目,9,10,11


In [30]:
df = pd.DataFrame(np.arange(12).reshape((4, 3)),
                  columns=['A列', 'B列', 'C列'],
                  index=['1行目', '2行目', '3行目', '4行目'])
df

Unnamed: 0,A列,B列,C列
1行目,0,1,2
2行目,3,4,5
3行目,6,7,8
4行目,9,10,11


## data 取得

In [51]:
df['A列']

1行目    0
2行目    3
3行目    6
4行目    9
Name: A列, dtype: int64

In [52]:
df[['A列']]

Unnamed: 0,A列
1行目,0
2行目,3
3行目,6
4行目,9


In [53]:
df[['A列', 'C列']]

Unnamed: 0,A列,C列
1行目,0,2
2行目,3,5
3行目,6,8
4行目,9,11


In [54]:
df[:2]

Unnamed: 0,A列,B列,C列
1行目,0,1,2
2行目,3,4,5


In [55]:
df[2:4]

Unnamed: 0,A列,B列,C列
3行目,6,7,8
4行目,9,10,11


### loc
- 特定の列や行を取得
    - loc[ 行, 列 ]　指定した行・列のデータの指定
    - slice や list を利用できる
    - [ :,: ]　全ての行, 全ての列を取得

In [56]:
df

Unnamed: 0,A列,B列,C列
1行目,0,1,2
2行目,3,4,5
3行目,6,7,8
4行目,9,10,11


In [58]:
df.loc[:,:]

Unnamed: 0,A列,B列,C列
1行目,0,1,2
2行目,3,4,5
3行目,6,7,8
4行目,9,10,11


In [63]:
df.loc[:, 'B列']

1行目     1
2行目     4
3行目     7
4行目    10
Name: B列, dtype: int64

In [68]:
df.loc[:, ['B列']]

Unnamed: 0,B列
1行目,1
2行目,4
3行目,7
4行目,10


In [74]:
df.loc['2行目', :]

A列    3
B列    4
C列    5
Name: 2行目, dtype: int64

In [75]:
df.loc[['2行目'], :]

Unnamed: 0,A列,B列,C列
2行目,3,4,5


In [76]:
df.loc[['2行目'], ['B列', 'C列']]

Unnamed: 0,B列,C列
2行目,4,5


### iloc
- iloc は数値で位置を設定
- 基本的な考え方は loc と同じ
- iloc[ m, n ]　m行,　n列の値を取得

In [77]:
df

Unnamed: 0,A列,B列,C列
1行目,0,1,2
2行目,3,4,5
3行目,6,7,8
4行目,9,10,11


In [78]:
df.iloc[:, [2]]

Unnamed: 0,C列
1行目,2
2行目,5
3行目,8
4行目,11


In [79]:
df.iloc[1, 1]

4

In [80]:
df.iloc[[1], [1]]

Unnamed: 0,B列
2行目,4


In [81]:
df.iloc[1:, 1]

2行目     4
3行目     7
4行目    10
Name: B列, dtype: int64

In [88]:
df.iloc[1:, :2]

Unnamed: 0,A列,B列
2行目,3,4
3行目,6,7
4行目,9,10


In [91]:
df.iloc[[1, 3], :2]

Unnamed: 0,A列,B列
2行目,3,4
4行目,9,10


In [101]:
df

Unnamed: 0,A列,B列,C列
1行目,0,1,2
2行目,3,4,5
3行目,6,7,8
4行目,9,10,11


In [102]:
df['D列'] = [100, 200, 300, 400]
df

Unnamed: 0,A列,B列,C列,D列
1行目,0,1,2,100
2行目,3,4,5,200
3行目,6,7,8,300
4行目,9,10,11,400


In [103]:
df['E列'] = 0
df

Unnamed: 0,A列,B列,C列,D列,E列
1行目,0,1,2,100,0
2行目,3,4,5,200,0
3行目,6,7,8,300,0
4行目,9,10,11,400,0


- drop
    - データの削除
- axis
    - 削除の指定　( 0 : 行, 1 : 列 )
- inplace
    - 元のデータへの変更を反映 ( True : 反映させる / False : させない )

In [104]:
df.drop(['D列', 'E列'], axis=1, inplace=True)
df

Unnamed: 0,A列,B列,C列
1行目,0,1,2
2行目,3,4,5
3行目,6,7,8
4行目,9,10,11


- axis=0 : 行の削除は省略可能

In [105]:
df.drop(['1行目', '2行目'], inplace=True)
df

Unnamed: 0,A列,B列,C列
3行目,6,7,8
4行目,9,10,11


## データの分析

- read_csv
    - csv file を読み込む
- encoding
    - csv file の en code ( utf-8 が通常 )


※ 以下の data は統計データコンペティションのSSDSE ( 教育用標準データセット ) より取得したものを加工


> https://www.nstac.go.jp/SSDSE/

In [109]:
df = pd.read_csv('../Resources/data.csv', encoding='utf-8')
df.head()

Unnamed: 0,年度,都道府県,総人口,男性総人口,女性総人口,日本人人口,日本人男性人口,日本人女性人口
0,2017,北海道,5320000,2506000,2814000,5292000,2494000,2797000
1,2016,北海道,5352000,2521000,2830000,5327000,2511000,2816000
2,2015,北海道,5381733,2537089,2844644,5348768,2522980,2825788
3,2014,北海道,5410000,2551000,2859000,5390000,2543000,2847000
4,2013,北海道,5438000,2565000,2873000,5419000,2558000,2861000


In [110]:
# data type
df.dtypes

年度          int64
都道府県       object
総人口         int64
男性総人口       int64
女性総人口       int64
日本人人口       int64
日本人男性人口     int64
日本人女性人口     int64
dtype: object

In [111]:
# 総人口が５００万人以上なら True or False
df['総人口'] >= 5000000

0       True
1       True
2       True
3       True
4       True
       ...  
559    False
560    False
561    False
562    False
563    False
Name: 総人口, Length: 564, dtype: bool

In [116]:
df_selected = df[df['総人口'] >= 5000000]
df_selected

Unnamed: 0,年度,都道府県,総人口,男性総人口,女性総人口,日本人人口,日本人男性人口,日本人女性人口
0,2017,北海道,5320000,2506000,2814000,5292000,2494000,2797000
1,2016,北海道,5352000,2521000,2830000,5327000,2511000,2816000
2,2015,北海道,5381733,2537089,2844644,5348768,2522980,2825788
3,2014,北海道,5410000,2551000,2859000,5390000,2543000,2847000
4,2013,北海道,5438000,2565000,2873000,5419000,2558000,2861000
...,...,...,...,...,...,...,...,...
475,2010,福岡県,5071968,2393965,2678003,4986581,2350461,2636120
476,2009,福岡県,5064000,2391000,2672000,5024000,2373000,2652000
477,2008,福岡県,5062000,2393000,2670000,5021000,2372000,2648000
478,2007,福岡県,5061000,2395000,2666000,5021000,2375000,2646000


In [117]:
df_selected[['総人口']]

Unnamed: 0,総人口
0,5320000
1,5352000
2,5381733
3,5410000
4,5438000
...,...
475,5071968
476,5064000
477,5062000
478,5061000


In [118]:
df_selected.shape

(108, 8)

### 複数条件の場合
- query( )

In [122]:
df_selected2 = df.query('総人口 >= 5000000 and 年度 == 2017')
df_selected2

Unnamed: 0,年度,都道府県,総人口,男性総人口,女性総人口,日本人人口,日本人男性人口,日本人女性人口
0,2017,北海道,5320000,2506000,2814000,5292000,2494000,2797000
120,2017,埼玉県,7310000,3648000,3662000,7174000,3582000,3592000
132,2017,千葉県,6246000,3103000,3143000,6141000,3056000,3084000
144,2017,東京都,13724000,6760000,6964000,13273000,6538000,6735000
156,2017,神奈川県,9159000,4569000,4590000,8989000,4486000,4502000
264,2017,愛知県,7525000,3764000,3761000,7328000,3668000,3659000
312,2017,大阪府,8823000,4241000,4583000,8657000,4162000,4495000
324,2017,兵庫県,5503000,2624000,2879000,5417000,2583000,2834000
468,2017,福岡県,5107000,2415000,2692000,5051000,2386000,2665000


- sort_values
    - 並べ替え
- by
    - 並べ替えの基準となる列名
- ascending
    - 昇順・降順 ( True : 昇順 / False : 降順 )

In [123]:
# 並べ替え（降順）
df_selected2.sort_values(by='総人口', ascending=False)

Unnamed: 0,年度,都道府県,総人口,男性総人口,女性総人口,日本人人口,日本人男性人口,日本人女性人口
144,2017,東京都,13724000,6760000,6964000,13273000,6538000,6735000
156,2017,神奈川県,9159000,4569000,4590000,8989000,4486000,4502000
312,2017,大阪府,8823000,4241000,4583000,8657000,4162000,4495000
264,2017,愛知県,7525000,3764000,3761000,7328000,3668000,3659000
120,2017,埼玉県,7310000,3648000,3662000,7174000,3582000,3592000
132,2017,千葉県,6246000,3103000,3143000,6141000,3056000,3084000
324,2017,兵庫県,5503000,2624000,2879000,5417000,2583000,2834000
0,2017,北海道,5320000,2506000,2814000,5292000,2494000,2797000
468,2017,福岡県,5107000,2415000,2692000,5051000,2386000,2665000


In [124]:
# 昇順
df_selected2.sort_values(by='総人口', ascending=True)

Unnamed: 0,年度,都道府県,総人口,男性総人口,女性総人口,日本人人口,日本人男性人口,日本人女性人口
468,2017,福岡県,5107000,2415000,2692000,5051000,2386000,2665000
0,2017,北海道,5320000,2506000,2814000,5292000,2494000,2797000
324,2017,兵庫県,5503000,2624000,2879000,5417000,2583000,2834000
132,2017,千葉県,6246000,3103000,3143000,6141000,3056000,3084000
120,2017,埼玉県,7310000,3648000,3662000,7174000,3582000,3592000
264,2017,愛知県,7525000,3764000,3761000,7328000,3668000,3659000
312,2017,大阪府,8823000,4241000,4583000,8657000,4162000,4495000
156,2017,神奈川県,9159000,4569000,4590000,8989000,4486000,4502000
144,2017,東京都,13724000,6760000,6964000,13273000,6538000,6735000


### DataFrame 同士の演算
- 基本的な考え方は　numpy の broadcastiong と同じ

In [126]:
df.loc[:, '男性の割合'] = df.loc[:, '男性総人口'] / df.loc[:, '総人口']
df.head()

Unnamed: 0,年度,都道府県,総人口,男性総人口,女性総人口,日本人人口,日本人男性人口,日本人女性人口,男性の割合
0,2017,北海道,5320000,2506000,2814000,5292000,2494000,2797000,0.471053
1,2016,北海道,5352000,2521000,2830000,5327000,2511000,2816000,0.471039
2,2015,北海道,5381733,2537089,2844644,5348768,2522980,2825788,0.471426
3,2014,北海道,5410000,2551000,2859000,5390000,2543000,2847000,0.471534
4,2013,北海道,5438000,2565000,2873000,5419000,2558000,2861000,0.471681


## 問題

In [127]:
se = pd.Series(np.array(['a', 'b', 'c', 'd']))
se

0    a
1    b
2    c
3    d
dtype: object

In [129]:
df = pd.DataFrame(np.array(['a', 'b', 'c', 'd']))
df

Unnamed: 0,0
0,a
1,b
2,c
3,d


In [130]:
df = pd.DataFrame(np.arange(100).reshape((20, 5)))
df

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19
4,20,21,22,23,24
5,25,26,27,28,29
6,30,31,32,33,34
7,35,36,37,38,39
8,40,41,42,43,44
9,45,46,47,48,49


In [131]:
df.head()

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19
4,20,21,22,23,24


In [132]:
df.tail()

Unnamed: 0,0,1,2,3,4
15,75,76,77,78,79
16,80,81,82,83,84
17,85,86,87,88,89
18,90,91,92,93,94
19,95,96,97,98,99


In [135]:
df[7:12]

Unnamed: 0,0,1,2,3,4
7,35,36,37,38,39
8,40,41,42,43,44
9,45,46,47,48,49
10,50,51,52,53,54
11,55,56,57,58,59


In [136]:
df.shape

(20, 5)

In [142]:
df = pd.DataFrame({
    '名前': ['山田太郎', '佐藤花子', '鈴木一', '大木淳', '後藤奈緒'],
    '年齢': [19, 18, 20, 20, 24],
    '身長': [172, 150, 181, 163, 164],
    '性別': ['男性', '女性', '男性', '男性', '女性']
})
df

Unnamed: 0,名前,年齢,身長,性別
0,山田太郎,19,172,男性
1,佐藤花子,18,150,女性
2,鈴木一,20,181,男性
3,大木淳,20,163,男性
4,後藤奈緒,24,164,女性


In [144]:

df[['名前', '性別']]

Unnamed: 0,名前,性別
0,山田太郎,男性
1,佐藤花子,女性
2,鈴木一,男性
3,大木淳,男性
4,後藤奈緒,女性


In [165]:
df[df['身長'] >= 164]

Unnamed: 0,名前,年齢,身長,性別
0,山田太郎,19,172,男性
2,鈴木一,20,181,男性
4,後藤奈緒,24,164,女性


In [168]:
df[df['性別'] == '男性']

Unnamed: 0,名前,年齢,身長,性別
0,山田太郎,19,172,男性
2,鈴木一,20,181,男性
3,大木淳,20,163,男性


In [169]:
df['出身地'] = ['東京', '大阪', '神奈川', '東京', '愛知']
df

Unnamed: 0,名前,年齢,身長,性別,出身地
0,山田太郎,19,172,男性,東京
1,佐藤花子,18,150,女性,大阪
2,鈴木一,20,181,男性,神奈川
3,大木淳,20,163,男性,東京
4,後藤奈緒,24,164,女性,愛知


In [170]:
df.sort_values(by=['身長'], ascending=True)

Unnamed: 0,名前,年齢,身長,性別,出身地
1,佐藤花子,18,150,女性,大阪
3,大木淳,20,163,男性,東京
4,後藤奈緒,24,164,女性,愛知
0,山田太郎,19,172,男性,東京
2,鈴木一,20,181,男性,神奈川
