In [2]:
import pandas as pd 
import numpy as np

### 階層索引

- 行と列の各軸に対して多重段階(階層)を指定してデータに次元を設定
-インデックスに多次元リストを伝えれば階層索引を指定できる
- データ構造を再配置したり、pivotテーブルのようなグループベースの作業に有用である。
- 再配列関数
    - stack() : ColumnをRowでpivot
    - unstack() : RowをColumnでpivot

In [3]:
s1 = pd.Series(np.arange(10), index=[['a','a','a','b','b','c','c','c','c','d'], 
                                    [1,2,3,1,2,1,2,3,4,1]])
s1

a  1    0
   2    1
   3    2
b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [4]:
s1.index

MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3, 4]],
           codes=[[0, 0, 0, 1, 1, 2, 2, 2, 2, 3], [0, 1, 2, 0, 1, 0, 1, 2, 3, 0]])

In [5]:
s1

a  1    0
   2    1
   3    2
b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [6]:
# 上位階層に接近
# 階層索引が適用されたオブジェクトに上位インデックスにアクセス : 一般的なSeries Indexingで部分集合
s1['c']

1    5
2    6
3    7
4    8
dtype: int32

In [7]:
s1['b':'d']

b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [8]:
s1

a  1    0
   2    1
   3    2
b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [9]:
# 下位階層に接近
# a、b、c、dで下位階層のインデックスが2人、データー照会:2があるa、b、cの2に該当する値が出力される。
s1[:, 2]

a    1
b    4
c    6
dtype: int32

In [10]:
#下位階層にslicing:locメソッドを利用してslicing
#上位階層がcで下位階層を2~4までslicing(最後を含む)
s1['c'].loc[2:4]

2    6
3    7
4    8
dtype: int32

In [11]:
# unstack():最下位(基本動作)にあるRow階層をColumnに適用して上に上げる。
# SeriesオブジェクトをDataFrameオブジェクトに再配置することができる。
# NaN:従来なかったロウ階層に対する値。
s1.unstack() # a、b、c、d下位にいた1、2、3、4街Columnに適用されて出力される。

Unnamed: 0,1,2,3,4
a,0.0,1.0,2.0,
b,3.0,4.0,,
c,5.0,6.0,7.0,8.0
d,9.0,,,


In [12]:
# 再加熱を適用する場合、レベルを指定可能
# 上位階層をコラムに適用して上に上げる。
s1.unstack(0)

Unnamed: 0,a,b,c,d
1,0.0,3.0,5.0,9.0
2,1.0,4.0,6.0,
3,2.0,,7.0,
4,,,8.0,


In [13]:
# stack() : Columnにあった値をインデックスの下位に下げて再加熱
# DataFrameをSeriesにするとき使用
s1.unstack().stack()

a  1    0.0
   2    1.0
   3    2.0
b  1    3.0
   2    4.0
c  1    5.0
   2    6.0
   3    7.0
   4    8.0
d  1    9.0
dtype: float64

In [14]:
df = pd.DataFrame(np.arange(20).reshape(4, 5), 
                 index=[[2017, 2017, 2018, 2018],
                       ['a', 'b', 'a', 'b']],
                 columns = [['서울', '서울', '경기', '경기', '경기'],
                           ['강남' , '잠실', '분당', '수원', '판교']])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,Unnamed: 1_level_1,강남,잠실,분당,수원,판교
2017,a,0,1,2,3,4
2017,b,5,6,7,8,9
2018,a,10,11,12,13,14
2018,b,15,16,17,18,19


In [15]:
df['서울']

Unnamed: 0,Unnamed: 1,강남,잠실
2017,a,0,1
2017,b,5,6
2018,a,10,11
2018,b,15,16


In [16]:
df['서울']['강남']

2017  a     0
      b     5
2018  a    10
      b    15
Name: 강남, dtype: int32

In [17]:
df[('서울', '강남')]

2017  a     0
      b     5
2018  a    10
      b    15
Name: (서울, 강남), dtype: int32

In [18]:
df.loc[2017]

Unnamed: 0_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,강남,잠실,분당,수원,판교
a,0,1,2,3,4
b,5,6,7,8,9


In [19]:
df.loc[2017].loc['a']

서울  강남    0
    잠실    1
경기  분당    2
    수원    3
    판교    4
Name: a, dtype: int32

In [20]:
df.loc[(2017, 'a')]

서울  강남    0
    잠실    1
경기  분당    2
    수원    3
    판교    4
Name: (2017, a), dtype: int32

In [21]:
df['경기'].loc[:, '분당':'수원']

Unnamed: 0,Unnamed: 1,분당,수원
2017,a,2,3
2017,b,7,8
2018,a,12,13
2018,b,17,18


In [22]:
df.unstack()

Unnamed: 0_level_0,서울,서울,서울,서울,경기,경기,경기,경기,경기,경기
Unnamed: 0_level_1,강남,강남,잠실,잠실,분당,분당,수원,수원,판교,판교
Unnamed: 0_level_2,a,b,a,b,a,b,a,b,a,b
2017,0,5,1,6,2,7,3,8,4,9
2018,10,15,11,16,12,17,13,18,14,19


In [23]:
df.unstack().stack()

Unnamed: 0_level_0,Unnamed: 1_level_0,경기,경기,경기,서울,서울
Unnamed: 0_level_1,Unnamed: 1_level_1,분당,수원,판교,강남,잠실
2017,a,2,3,4,0,1
2017,b,7,8,9,5,6
2018,a,12,13,14,10,11
2018,b,17,18,19,15,16


In [24]:
df.stack()

Unnamed: 0,Unnamed: 1,Unnamed: 2,경기,서울
2017,a,강남,,0.0
2017,a,분당,2.0,
2017,a,수원,3.0,
2017,a,잠실,,1.0
2017,a,판교,4.0,
2017,b,강남,,5.0
2017,b,분당,7.0,
2017,b,수원,8.0,
2017,b,잠실,,6.0
2017,b,판교,9.0,


In [25]:
#階層のインデックス番号またはラベルを使用して上下位間の交換
#swaplevel(key1、key2、axis=0(基本))
#axisが0の場合はrowの間の上位と下位概念を変えてくれる。
df.swaplevel(1, 0)

Unnamed: 0_level_0,Unnamed: 1_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,Unnamed: 1_level_1,강남,잠실,분당,수원,판교
a,2017,0,1,2,3,4
b,2017,5,6,7,8,9
a,2018,10,11,12,13,14
b,2018,15,16,17,18,19


In [26]:
df.swaplevel(1, 0, axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,강남,잠실,분당,수원,판교
Unnamed: 0_level_1,Unnamed: 1_level_1,서울,서울,경기,경기,경기
2017,a,0,1,2,3,4
2017,b,5,6,7,8,9
2018,a,10,11,12,13,14
2018,b,15,16,17,18,19


### オブジェクトコピー

- 割り当て記号(=) / slicing : 原本と相互従属的な複写のオブジェクト生成(浅い複写)
- bj.copy() : 原本と独立した複写のオブジェクト生成(深い複写)

In [27]:
s1 = pd.Series(np.ones(5))
s1

0    1.0
1    1.0
2    1.0
3    1.0
4    1.0
dtype: float64

In [28]:
# = 記号でコピー : 浅いコピー
s2 = s1

In [29]:
s2[0] = 10
s2

0    10.0
1     1.0
2     1.0
3     1.0
4     1.0
dtype: float64

In [30]:
s1

0    10.0
1     1.0
2     1.0
3     1.0
4     1.0
dtype: float64

In [31]:
s1[1] = 3
s1

0    10.0
1     3.0
2     1.0
3     1.0
4     1.0
dtype: float64

In [32]:
#コピーされたs2も影響を受ける。
s2

0    10.0
1     3.0
2     1.0
3     1.0
4     1.0
dtype: float64

In [33]:
# slicingで複写(Python->深い複写,Pandas->浅い複写で扱う!!)
s3 = s1[:]
s3

0    10.0
1     3.0
2     1.0
3     1.0
4     1.0
dtype: float64

In [34]:
s3[2] = -9
s3

0    10.0
1     3.0
2    -9.0
3     1.0
4     1.0
dtype: float64

In [35]:
print(s1)
print(s2)

0    10.0
1     3.0
2    -9.0
3     1.0
4     1.0
dtype: float64
0    10.0
1     3.0
2    -9.0
3     1.0
4     1.0
dtype: float64


In [36]:
s1[3] = 33
s1

0    10.0
1     3.0
2    -9.0
3    33.0
4     1.0
dtype: float64

In [37]:
print(s2)
print(s3)

0    10.0
1     3.0
2    -9.0
3    33.0
4     1.0
dtype: float64
0    10.0
1     3.0
2    -9.0
3    33.0
4     1.0
dtype: float64


In [38]:
#copy()を利用したコピー(深いコピー)
s4 = s1.copy()

In [39]:
s4[4] = 44
s4

0    10.0
1     3.0
2    -9.0
3    33.0
4    44.0
dtype: float64

In [40]:
s1

0    10.0
1     3.0
2    -9.0
3    33.0
4     1.0
dtype: float64

In [41]:
s1[0] = 1
s1

0     1.0
1     3.0
2    -9.0
3    33.0
4     1.0
dtype: float64

In [42]:
s4

0    10.0
1     3.0
2    -9.0
3    33.0
4    44.0
dtype: float64

### 整列

- obj.sort_index() : インデックスを基準に並べ替え (基本はascending=True, 上り順並べ替え)
    - DataFrame
        - axis=0:デフォルト値、Rowインデックスを基準に整列
        - axis=1:Columnインデックスを基準に整列
- obj.sort_values() : 値を基準に並べ替え
    - DataFrame
        - by:並び替えの目安となるインデックス値伝達
        - axis=0:デフォルト値、Columnを基準にRowインデックスを配置し、基準値とbyにインデックスColumnレベルまたはColumn名配信
        - axis=1:Rowインデックスを基準にColumnラベルを配置し、基準値とbyにレベルまたはラベルミョン配信

In [43]:
s1 = pd.Series([2, 3, 1, 7, 0], index=list('gacfd'))
s1

g    2
a    3
c    1
f    7
d    0
dtype: int64

In [44]:
s1.sort_index()

a    3
c    1
d    0
f    7
g    2
dtype: int64

In [45]:
s1.sort_index(ascending=False)

g    2
f    7
d    0
c    1
a    3
dtype: int64

In [46]:
s1

g    2
a    3
c    1
f    7
d    0
dtype: int64

In [47]:
s1.sort_values()

d    0
c    1
g    2
a    3
f    7
dtype: int64

In [48]:
s1.sort_values(ascending=False)

f    7
a    3
g    2
c    1
d    0
dtype: int64

In [49]:
s1

g    2
a    3
c    1
f    7
d    0
dtype: int64

In [50]:
df1 = pd.DataFrame(np.random.randint(20, size=(4, 5)),
                  index=list('hcae'),
                  columns = list('EAFCD'))
df1

Unnamed: 0,E,A,F,C,D
h,2,18,16,11,2
c,18,1,16,12,12
a,16,14,2,3,6
e,16,11,7,18,5


In [51]:
#Rowインデックスを基準に昇順ソート(axis=0)
df1.sort_index()

Unnamed: 0,E,A,F,C,D
a,16,14,2,3,6
c,18,1,16,12,12
e,16,11,7,18,5
h,2,18,16,11,2


In [52]:
df1.sort_index(ascending=False)

Unnamed: 0,E,A,F,C,D
h,2,18,16,11,2
e,16,11,7,18,5
c,18,1,16,12,12
a,16,14,2,3,6


In [53]:
df1.sort_index(axis=1)

Unnamed: 0,A,C,D,E,F
h,18,11,2,2,16
c,1,12,12,18,16
a,14,3,6,16,2
e,11,18,5,16,7


In [54]:
df1.sort_index(axis=1, ascending=False)

Unnamed: 0,F,E,D,C,A
h,16,2,2,11,18
c,16,18,12,12,1
a,2,16,6,3,14
e,7,16,5,18,11


In [55]:
df1.sort_index(axis=1, ascending=False).sort_index()

Unnamed: 0,F,E,D,C,A
a,2,16,6,3,14
c,16,18,12,12,1
e,7,16,5,18,11
h,16,2,2,11,18


In [56]:
df1

Unnamed: 0,E,A,F,C,D
h,2,18,16,11,2
c,18,1,16,12,12
a,16,14,2,3,6
e,16,11,7,18,5


In [57]:
df1.sort_values(by='D')

Unnamed: 0,E,A,F,C,D
h,2,18,16,11,2
e,16,11,7,18,5
a,16,14,2,3,6
c,18,1,16,12,12


In [58]:
df1.sort_values(by='A', ascending=False)

Unnamed: 0,E,A,F,C,D
h,2,18,16,11,2
a,16,14,2,3,6
e,16,11,7,18,5
c,18,1,16,12,12


In [59]:
df1.sort_values(by='c', axis=1)

Unnamed: 0,A,C,D,F,E
h,18,11,2,16,2
c,1,12,12,16,18
a,14,3,6,2,16
e,11,18,5,7,16


In [60]:
df1.sort_values(by='e', axis=1, ascending=False)

Unnamed: 0,C,E,A,F,D
h,11,2,18,16,2
c,12,18,1,16,12
a,3,16,14,2,6
e,18,16,11,7,5


In [61]:
df1.sort_values(by=['E', 'A'])

Unnamed: 0,E,A,F,C,D
h,2,18,16,11,2
e,16,11,7,18,5
a,16,14,2,3,6
c,18,1,16,12,12


In [62]:
df1.sort_values(by=['e', 'a'], axis=1, ascending=[True, False])

Unnamed: 0,D,F,A,E,C
h,2,16,18,2,11
c,12,16,1,18,12
a,6,2,14,16,3
e,5,7,11,16,18


### 練習問題

#### 1.の下のDataFrameを生成する。

-学生たちの点数は50以上100未満の無作為の整数値を生成して使用する

<img src="img_4/df_sort_practice1.png" width=250 align='left'>

In [63]:
df = pd.DataFrame(np.random.randint(50, 100, (5,4)),
                 index = ['Kim', 'Park', 'Lee', 'Jung', 'Moon'],
                 columns = [[2016, 2016, 2017, 2017],
                            ['영어', '수학', '영어', '수학']])
df

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
Kim,56,98,65,66
Park,82,60,73,69
Lee,69,65,83,97
Jung,86,60,66,75
Moon,68,52,68,68


In [64]:
df.index.set_names('학생명', inplace=True)

In [65]:
df

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,56,98,65,66
Park,82,60,73,69
Lee,69,65,83,97
Jung,86,60,66,75
Moon,68,52,68,68


In [66]:
df.columns.set_names(['연도', '과목명'], inplace=True)

In [67]:
df

연도,2016,2016,2017,2017
과목명,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,56,98,65,66
Park,82,60,73,69
Lee,69,65,83,97
Jung,86,60,66,75
Moon,68,52,68,68


#### 2. 2016年のデータだけを別途のDataFrameに分離して保存してください。(深いコピー)

In [68]:
df2016 = df[2016].copy()
df2016

과목명,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,56,98
Park,82,60
Lee,69,65
Jung,86,60
Moon,68,52


#### 3. 2016年のデータについて生徒の名前を基準に昇順整列してください。

In [69]:
df.sort_index()

연도,2016,2016,2017,2017
과목명,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Jung,86,60,66,75
Kim,56,98,65,66
Lee,69,65,83,97
Moon,68,52,68,68
Park,82,60,73,69


#### 4. 2016年のデータの科目別点数について英語の点数が高い順に整列して、英語の点数の同点者の場合、数学の点数が低い順番に整列してください。

In [70]:
df2016

과목명,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,56,98
Park,82,60
Lee,69,65
Jung,86,60
Moon,68,52


In [71]:
df2016['영어']['Lee'] = 92
df2016

과목명,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,56,98
Park,82,60
Lee,92,65
Jung,86,60
Moon,68,52


In [72]:
df2016.sort_values(by = ['영어', '수학'], ascending = [False, True])

과목명,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Lee,92,65
Jung,86,60
Park,82,60
Moon,68,52
Kim,56,98


### データ Merge

- Merge
    - pandasオブジェクトの関数でpandas.merge(df1、df2...)に使用。
    - 二つのDataFrameに対して特定のColumnを基準に合わせる。
    - 主要パラメータ
        - how: 合わせる方式でinner(基本=交集合)、left、right、outer 方式存在する。
        - on: 合わせる基準で二つのDataFrameに共通に存在するColumn名を使用しなければならない。 (基本=None)

In [73]:
df1 = pd.DataFrame({'번호':[30, 31, 32, 33, 34],
                   '이름':['김파이썬', '이장고', '박팬더스', '강넘파이', '최주피터']})
df1

Unnamed: 0,번호,이름
0,30,김파이썬
1,31,이장고
2,32,박팬더스
3,33,강넘파이
4,34,최주피터


In [74]:
# 顧客番号と注文数量を保存しているDataFrameを生成
# 他の顧客番号(no)を一部指定する。
df2 = pd.DataFrame({'번호':[30, 33, 40, 41],
                   '주문수량':[100, 130, 40, 60]})
df2

Unnamed: 0,번호,주문수량
0,30,100
1,33,130
2,40,40
3,41,60


In [75]:
pd.merge(df1, df2)

Unnamed: 0,번호,이름,주문수량
0,30,김파이썬,100
1,33,강넘파이,130


In [76]:
# outer:結合基準で共通のColumnを使用する。
# しかし、交集合でない部分は漏れたデータが発生するが、全部NaNで処理する。
# 合集合の形にしてくれる
pd.merge(df1, df2, how='outer')

Unnamed: 0,번호,이름,주문수량
0,30,김파이썬,100.0
1,31,이장고,
2,32,박팬더스,
3,33,강넘파이,130.0
4,34,최주피터,
5,40,,40.0
6,41,,60.0


In [77]:
df1

Unnamed: 0,번호,이름
0,30,김파이썬
1,31,이장고
2,32,박팬더스
3,33,강넘파이
4,34,최주피터


In [78]:
# left Join:最初に渡したdf1万とも生かしてdf2ではdf1と共通した部分だけを残す
pd.merge(df1, df2, how='left')

Unnamed: 0,번호,이름,주문수량
0,30,김파이썬,100.0
1,31,이장고,
2,32,박팬더스,
3,33,강넘파이,130.0
4,34,최주피터,


In [79]:
df2

Unnamed: 0,번호,주문수량
0,30,100
1,33,130
2,40,40
3,41,60


In [80]:
# right Join:二番目のDataFrameのデータを保存する。
# df1ではdf2と重なるデータだけを持っている。
pd.merge(df1, df2, how='right')

Unnamed: 0,번호,이름,주문수량
0,30,김파이썬,100
1,33,강넘파이,130
2,40,,40
3,41,,60


In [81]:
df3 = pd.DataFrame({'고객명':['김파이썬', '이장고', '박팬더스'],
                   '날짜':['2019-10-09', '2019-10-09', '2019-10-13'],
                   '정보':['010', '011', '019']})
df3

Unnamed: 0,고객명,날짜,정보
0,김파이썬,2019-10-09,10
1,이장고,2019-10-09,11
2,박팬더스,2019-10-13,19


In [82]:
# 顧客名、情報を保存しているDataFrame生成
df4 = pd.DataFrame({'고객명':['김파이썬', '박팬더스', '최넘파이'],
                   '정보':['F', 'M', 'M']})
df4

Unnamed: 0,고객명,정보
0,김파이썬,F
1,박팬더스,M
2,최넘파이,M


In [83]:
#共通の名前を持つColumnが二つの場合、パラメータなしにmergeを実行する場合
pd.merge(df3, df4)

Unnamed: 0,고객명,날짜,정보


In [84]:
# onパラメータ:共通の名前を持つColumnが複数である場合、結合の基準を指定する。
# 合わせるときにキーとして使うColumn:「顧客名」
# 共通のColumnの結果 : 顧客名,情報 -> 情報のColumn結果を確認
# 基本動作でmerge : inner
pd.merge(df3, df4, on='고객명')

Unnamed: 0,고객명,날짜,정보_x,정보_y
0,김파이썬,2019-10-09,10,F
1,박팬더스,2019-10-13,19,M


In [85]:
df1 = pd.DataFrame({'고객이름':['김파이썬', '박팬더스', '강주피터'],
                   '날짜':['2019-10-09', '2019-10-12', '2019-10-13'],
                   '구매금액':[10000, 20000, 30000]})
df1

Unnamed: 0,고객이름,날짜,구매금액
0,김파이썬,2019-10-09,10000
1,박팬더스,2019-10-12,20000
2,강주피터,2019-10-13,30000


In [86]:
# 顧客名、性別を保存しているDataFrameを生成
df2 = pd.DataFrame({'고객명':['김파이썬', '박팬더스'],
                   '성별':['F', 'M']})
df2

Unnamed: 0,고객명,성별
0,김파이썬,F
1,박팬더스,M


In [87]:
tmp = pd.merge(df1, df2, left_on='고객이름', right_on='고객명')
tmp

Unnamed: 0,고객이름,날짜,구매금액,고객명,성별
0,김파이썬,2019-10-09,10000,김파이썬,F
1,박팬더스,2019-10-12,20000,박팬더스,M


In [88]:
tmp.drop('고객명', axis=1, inplace=True)
tmp

Unnamed: 0,고객이름,날짜,구매금액,성별
0,김파이썬,2019-10-09,10000,F
1,박팬더스,2019-10-12,20000,M


### concat

- 特定のキーを基準にデータを合わせるのではなく、行と列の基準でデータをつなぐ。
- 主要パラメータ
    - axis:0/行方向(デフォルト)であり、Columnをkeyに合わせて、1/列方向にRowをkeyにすること
    - join: DataFrame同士で接続する際に合わせる方法でouter(基本値), inner方式の存在
    - ignore_index:合わせて既存のインデックスを維持または新しいインデックスを指定

In [153]:
s1 = pd.Series([1, 2, 3], index=list('abc'))
s2 = pd.Series([5, 6, 7, 8], index=list('abfh'))
print(s1)
print(s2)

a    1
b    2
c    3
dtype: int64
a    5
b    6
f    7
h    8
dtype: int64


In [154]:
pd.concat([s1, s2])

a    1
b    2
c    3
a    5
b    6
f    7
h    8
dtype: int64

In [155]:
pd.concat([s1, s2], ignore_index=True)

0    1
1    2
2    3
3    5
4    6
5    7
6    8
dtype: int64

In [156]:
print(s1, s2)

a    1
b    2
c    3
dtype: int64 a    5
b    6
f    7
h    8
dtype: int64


In [160]:
# 列の方向に連結 -> 二つのSeriesを連結してDataFrameにする
# 長さが違う場合
pd.concat([s1, s2], axis=1)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,0,1
a,1.0,5.0
b,2.0,6.0
c,3.0,
f,,7.0
h,,8.0


In [161]:
# 列名を設定しながら貼り付ける: keysパラメータにColumn名をリストで配信
pd.concat([s1, s2], axis=1, keys=['c1', 'c2'], sort=False)

Unnamed: 0,c1,c2
a,1.0,5.0
b,2.0,6.0
c,3.0,
f,,7.0
h,,8.0


In [163]:
df1 = pd.DataFrame({'고객명':['김파이썬', '이장고', '박팬더스'],
                   '날짜':['2019-10-09', '2019-10-10', '2019-10-11'],
                   '구매금액':[1, 2, 3]})

df2 = pd.DataFrame({'고객명':['김파이썬', '최넘파이'],
                   '성별':['F', 'M']})

In [164]:
#行の方向にDataFrameを連結(縦の長さが増加)
pd.concat([df1, df2], sort=False)

Unnamed: 0,고객명,날짜,구매금액,성별
0,김파이썬,2019-10-09,1.0,
1,이장고,2019-10-10,2.0,
2,박팬더스,2019-10-11,3.0,
0,김파이썬,,,F
1,최넘파이,,,M


In [165]:
#列の方向へ(横の長さが増加)DataFrame連結
pd.concat([df1, df2], axis=1)

Unnamed: 0,고객명,날짜,구매금액,고객명.1,성별
0,김파이썬,2019-10-09,1,김파이썬,F
1,이장고,2019-10-10,2,최넘파이,M
2,박팬더스,2019-10-11,3,,


In [166]:
df3 = pd.DataFrame({'지역':['서울', '부산', '제주'],
                   '직업':['웹개발자', '회계사', '회사원']})
df3

Unnamed: 0,지역,직업
0,서울,웹개발자
1,부산,회계사
2,제주,회사원


In [167]:
pd.concat([df1, df3], axis=1)

Unnamed: 0,고객명,날짜,구매금액,지역,직업
0,김파이썬,2019-10-09,1,서울,웹개발자
1,이장고,2019-10-10,2,부산,회계사
2,박팬더스,2019-10-11,3,제주,회사원


### append
- 行の方向にデータをつなぐ。
- 主要パラメータ
    - ignore_index:合わせて既存のインデックスを維持または新しいインデックスを指定

In [100]:
s1 = pd.Series([1, 2, 3])
s2 = pd.Series([4, 5, 6, 7])

In [168]:
#行の方向にデータをつなぎ、既存のインデックスを維持する.
s1.append(s2)

a    1
b    2
c    3
a    5
b    6
f    7
h    8
dtype: int64

In [102]:
# 行の方向にデータをつなぎ、既存のインデックス落ちさせる。
s1.append(s2, ignore_index=True)

0    1
1    2
2    3
3    4
4    5
5    6
6    7
dtype: int64

In [169]:
df1 = pd.DataFrame([[1, 2], [3, 4]], columns=list('ab'))
df2 = pd.DataFrame([[5, 6], [7, 8], [9, 10]], columns=list('AB'))
print(df1)
print(df2)

   a  b
0  1  2
1  3  4
   A   B
0  5   6
1  7   8
2  9  10


In [170]:
df1.append(df2)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  sort=sort)


Unnamed: 0,A,B,a,b
0,,,1.0,2.0
1,,,3.0,4.0
0,5.0,6.0,,
1,7.0,8.0,,
2,9.0,10.0,,


In [171]:
df3 = pd.DataFrame([[10, 20], [30, 40], [50, 60]], columns=list('ab'))
df3

Unnamed: 0,a,b
0,10,20
1,30,40
2,50,60


In [172]:
df1

Unnamed: 0,a,b
0,1,2
1,3,4


In [173]:
# 同一のColumn名に対してappendをするとColumnの数は原本データの数字のまま、行だけを追加する。
# appendは普通このようなタイプに多く使う。
df1.append(df3)

Unnamed: 0,a,b
0,1,2
1,3,4
0,10,20
1,30,40
2,50,60


In [107]:
#ignore_indexはインデックス番号も0からまた初期化する。
df1.append(df3, ignore_index=True)

Unnamed: 0,a,b
0,1,2
1,3,4
2,10,20
3,30,40
4,50,60


In [174]:
s1 = pd.Series([10, 20, 30, 40], index=list('abcd'))
df1 = pd.DataFrame([[1,1,1,1], [2,2,2,2]], columns=list('abcd'))

In [175]:
s1

a    10
b    20
c    30
d    40
dtype: int64

In [176]:
df1

Unnamed: 0,a,b,c,d
0,1,1,1,1
1,2,2,2,2


In [111]:
df1.append(s1, ignore_index=True)

Unnamed: 0,a,b,c,d
0,1,1,1,1
1,2,2,2,2
2,10,20,30,40


### 集計

- groupby(Column名)
    - 特定の属性を基準にまとめて多様な集計関数適用
    - 代表的な集計関数
        - sum:総合
        - mean: 平均値
        - min : 最小値
        - max: 最大値
        - count: 個数
        - std:標準偏差
- pivot table
    - df.pivot(Rowで使われるColumn名、Columnで使われるColumn名、Tupleを構成する値で使われるColumn名、集計関数)
    - 一次元でColumnおよびRowが単に羅列された形式はデータを把握するのに適していないため、pivotを通じて階層索引と形態変更を行う。

In [177]:
data = pd.read_excel('data/인구수예제.xlsx')
data

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
0,서울,강남구,2013,73,92,165
1,서울,강남구,2014,139,55,194
2,서울,강남구,2015,123,83,206
3,서울,강남구,2016,147,150,297
4,서울,강남구,2017,57,133,190
5,서울,서대문구,2013,95,111,206
6,서울,서대문구,2014,149,150,299
7,서울,서대문구,2015,106,77,183
8,서울,서대문구,2016,56,109,165
9,서울,서대문구,2017,82,96,178


In [113]:
data.shape

(50, 6)

In [178]:
data.head()

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
0,서울,강남구,2013,73,92,165
1,서울,강남구,2014,139,55,194
2,서울,강남구,2015,123,83,206
3,서울,강남구,2016,147,150,297
4,서울,강남구,2017,57,133,190


In [179]:
data.tail()

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
45,부산,동래구,2013,83,65,148
46,부산,동래구,2014,139,87,226
47,부산,동래구,2015,147,115,262
48,부산,동래구,2016,61,102,163
49,부산,동래구,2017,132,105,237


In [180]:
data.head(10)

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
0,서울,강남구,2013,73,92,165
1,서울,강남구,2014,139,55,194
2,서울,강남구,2015,123,83,206
3,서울,강남구,2016,147,150,297
4,서울,강남구,2017,57,133,190
5,서울,서대문구,2013,95,111,206
6,서울,서대문구,2014,149,150,299
7,서울,서대문구,2015,106,77,183
8,서울,서대문구,2016,56,109,165
9,서울,서대문구,2017,82,96,178


In [182]:
data.groupby('자치구')[['남자인구', '여자인구']].sum()

Unnamed: 0_level_0,남자인구,여자인구
자치구,Unnamed: 1_level_1,Unnamed: 2_level_1
강남구,539,513
도봉구,485,550
동래구,562,474
동작구,454,582
서대문구,488,543
송파구,415,559
수영구,502,559
영등포구,629,562
종로구,483,373
해운대구,620,515


In [184]:
data.groupby('도시')[['남자인구', '여자인구']].sum()

Unnamed: 0_level_0,남자인구,여자인구
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,1684,1548
서울,3493,3682


In [185]:
data.groupby(['연도', '도시'])[['남자인구', '여자인구']].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,남자인구,여자인구
연도,도시,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,부산,341,262
2013,서울,758,769
2014,부산,314,369
2014,서울,882,691
2015,부산,331,266
2015,서울,541,710
2016,부산,276,376
2016,서울,671,722
2017,부산,422,275
2017,서울,641,790


In [187]:
data.groupby(['도시', '연도'])[['총인구']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구
도시,연도,Unnamed: 2_level_1
부산,2013,201.0
부산,2014,227.666667
부산,2015,199.0
부산,2016,217.333333
부산,2017,232.333333
서울,2013,218.142857
서울,2014,224.714286
서울,2015,178.714286
서울,2016,199.0
서울,2017,204.428571


In [189]:
data.groupby(['도시', '연도'])['총인구'].mean().unstack()

연도,2013,2014,2015,2016,2017
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
부산,201.0,227.666667,199.0,217.333333,232.333333
서울,218.142857,224.714286,178.714286,199.0,204.428571


In [190]:
data.groupby(['도시', '연도'])['총인구'].mean().unstack(0)

도시,부산,서울
연도,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,201.0,218.142857
2014,227.666667,224.714286
2015,199.0,178.714286
2016,217.333333,199.0
2017,232.333333,204.428571


#### groupby 결과를 pivot_table로 실행할 수 있다.

In [191]:
data.pivot_table(index=['연도', '도시'], values=['남자인구', '여자인구'],aggfunc='max')

Unnamed: 0_level_0,Unnamed: 1_level_0,남자인구,여자인구
연도,도시,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,부산,134,103
2013,서울,146,138
2014,부산,139,144
2014,서울,149,150
2015,부산,147,115
2015,서울,123,139
2016,부산,134,148
2016,서울,147,150
2017,부산,146,105
2017,서울,145,150


In [192]:
data.도시.unique()

array(['서울', '부산'], dtype=object)

In [194]:
data.pivot_table(index='연도', columns='도시', values='총인구', aggfunc='mean')

도시,부산,서울
연도,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,201.0,218.142857
2014,227.666667,224.714286
2015,199.0,178.714286
2016,217.333333,199.0
2017,232.333333,204.428571


In [196]:
tmp = data.pivot_table(index=['도시', '자치구'], values=['남자인구', '여자인구'], 
                aggfunc={'남자인구':'mean', '여자인구':'sum'})
tmp

Unnamed: 0_level_0,Unnamed: 1_level_0,남자인구,여자인구
도시,자치구,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,동래구,112.4,474
부산,수영구,100.4,559
부산,해운대구,124.0,515
서울,강남구,107.8,513
서울,도봉구,97.0,550
서울,동작구,90.8,582
서울,서대문구,97.6,543
서울,송파구,83.0,559
서울,영등포구,125.8,562
서울,종로구,96.6,373


In [197]:
tmp.columns = ['남자인구_평균', '여자인구_총합']

In [198]:
tmp

Unnamed: 0_level_0,Unnamed: 1_level_0,남자인구_평균,여자인구_총합
도시,자치구,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,동래구,112.4,474
부산,수영구,100.4,559
부산,해운대구,124.0,515
서울,강남구,107.8,513
서울,도봉구,97.0,550
서울,동작구,90.8,582
서울,서대문구,97.6,543
서울,송파구,83.0,559
서울,영등포구,125.8,562
서울,종로구,96.6,373


### pivot_table 실습

In [199]:
tmp = data.pivot_table(index=['도시', '자치구'], values='남자인구', aggfunc='mean')

In [200]:
tmp.columns = ['남자인구_평균']

In [201]:
tmp

Unnamed: 0_level_0,Unnamed: 1_level_0,남자인구_평균
도시,자치구,Unnamed: 2_level_1
부산,동래구,112.4
부산,수영구,100.4
부산,해운대구,124.0
서울,강남구,107.8
서울,도봉구,97.0
서울,동작구,90.8
서울,서대문구,97.6
서울,송파구,83.0
서울,영등포구,125.8
서울,종로구,96.6


In [202]:
tmp = data.pivot_table(index=['도시', '자치구'], values='남자인구', aggfunc='mean')

In [204]:
tmp.sort_values(by='남자인구', ascending=False).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,남자인구
도시,자치구,Unnamed: 2_level_1
서울,영등포구,125.8
부산,해운대구,124.0
부산,동래구,112.4
서울,강남구,107.8
부산,수영구,100.4


### 統計

- 主要統計関数
    - value_count() : 各固有値の重複個数
    - count: NaN値を除いた値の個数
    -describe:各Columnに対する要約統計計算(count、mean、std、min、1社分衛戍(25%)、中位値(50%)、3サ分衛戍(75%)、max)
    - min, max : 最小, 最大値
    - sum: 合計
    - cumsum: 累積合計
    - mean: 平均
    - median:中位値(全データを並べた時の中間に位置する値)
    - var: 分散(データが全体的にばらばらになった程度,偏差乗の平均)
    - std:標準偏差 = 分散の量の平方根
- 主要パラメータ
    - axis:演算の基準となる軸、axis=0(デフォルト)なら、行の方向(コラム)でaxis=1(ロウ)なら、熱意方向に適用
    - skipna: NaN値を除外するかどうかを設定する。基本 = True

In [206]:
df = pd.DataFrame(np.random.randint(50, 100, (5, 4)),
                 index=['Kim', 'Park', 'Lee', 'Jung', 'Moon'],
                 columns = [[2016, 2016, 2017, 2017],
                           ['영어', '수학', '영어', '수학']])
df.index.set_names('학생명', inplace=True)
df.columns.set_names(['연도', '과목'], inplace=True)

df

연도,2016,2016,2017,2017
과목,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,85,68,54,79
Park,64,54,50,66
Lee,86,83,76,63
Jung,52,65,82,58
Moon,91,98,84,93


In [207]:
# 記述統計、要約統計
df.describe()

연도,2016,2016,2017,2017
과목,영어,수학,영어,수학
count,5.0,5.0,5.0,5.0
mean,75.6,73.6,69.2,71.8
std,16.772,17.126004,16.037456,14.166863
min,52.0,54.0,50.0,58.0
25%,64.0,65.0,54.0,63.0
50%,85.0,68.0,76.0,66.0
75%,86.0,83.0,82.0,79.0
max,91.0,98.0,84.0,93.0


In [208]:
df2017 = df[2017].copy()
df2017

과목,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,54,79
Park,50,66
Lee,76,63
Jung,82,58
Moon,84,93


In [209]:
df2017.shape

(5, 2)

In [210]:
df2017.count()

과목
영어    5
수학    5
dtype: int64

In [211]:
df2017.count(axis=1)

학생명
Kim     2
Park    2
Lee     2
Jung    2
Moon    2
dtype: int64

In [212]:
data['도시'].value_counts()

서울    35
부산    15
Name: 도시, dtype: int64

In [213]:
df2017

과목,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,54,79
Park,50,66
Lee,76,63
Jung,82,58
Moon,84,93


In [214]:
df2017.sum()

과목
영어    346
수학    359
dtype: int64

In [215]:
df2017.sum(axis=1)

학생명
Kim     133
Park    116
Lee     139
Jung    140
Moon    177
dtype: int64

In [216]:
df2017.mean()

과목
영어    69.2
수학    71.8
dtype: float64

In [217]:
df2017.mean(axis=1) 

학생명
Kim     66.5
Park    58.0
Lee     69.5
Jung    70.0
Moon    88.5
dtype: float64

In [218]:
df

연도,2016,2016,2017,2017
과목,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,85,68,54,79
Park,64,54,50,66
Lee,86,83,76,63
Jung,52,65,82,58
Moon,91,98,84,93


In [147]:
# 問題 1 : dfの変数を利用して2016、2017年度別、科目別に平均成績を出力。

In [219]:
df.mean()

연도    과목
2016  영어    75.6
      수학    73.6
2017  영어    69.2
      수학    71.8
dtype: float64

In [220]:
# 上の年度別と科目別平均のRowが年度で、Columnが科目になるように修正.
df.mean().unstack()

과목,수학,영어
연도,Unnamed: 1_level_1,Unnamed: 2_level_1
2016,73.6,75.6
2017,71.8,69.2


In [150]:
# 問題2:dfの変数を利用して学生別に全体平均を出力

In [221]:
df.mean(axis=1)

학생명
Kim     71.50
Park    58.50
Lee     77.00
Jung    64.25
Moon    91.50
dtype: float64