# Pandas

- データの処理や分析のためのライブラリ-
- 大容量のデータを安定的に手軽に処理できる。
- 異なるデータのタイプで列を構成することができる。
- (参考)Numpy:全配列元素を同一のタイプに制限
- 主要機能
    - データの入出力 : csv, excel, RDB, JSONなど多様なフォーマットのデータを効率的に処理できる形式を使用
    - データの加工 : 分離、結合、階層など
    - 統計分析処理

### 資料型
- Series

    - 1次元配列と類似した型
    - 索引(index) : 行番号
    - それぞれのデータに付与するプロパティとしてデフォルト値は0から1ずつ増加する数字指定
    - indexパラメータを通じて新しい値に変更可能
    - リスト、チュープルタイプで新しい値を伝えなければならず、多次元資料型は使えない。
    - 伝達する索引の本数とデータの本数が一致しなければならない。
    - それぞれの索引とデータがMappingされているのでdictionary資料型と類似
    - 様々なデータタイプを使用可能

<img src="img_3/series_example.png" width="250" align="center">

In [280]:
import pandas as pd

In [281]:
# Series 生成
pd.Series()

Series([], dtype: float64)

In [282]:
import pandas as pd
from pandas import Series

In [283]:
# Series 生成
Series()

Series([], dtype: float64)

### Series生成

- 一つの値(数字,文字)または資料型(リスト,tuple,numpy配列)でデータの伝達

### Series属性

- 속属性は()をつけない.
- index : seriesオブジェクトのindex配列を返却
- values : seriesオブジェクトのデータ(値)配列を返却
- name: seriesオブジェクトの名前を返却
- dtype: seriesオブジェクトのデータタイプを返却
- size: seriesオブジェクトのデータ個数(長さ)を返却
- shape: seriesオブジェクトの構造(行、列、次元)を返却

In [284]:
# 数字10をデータで持っているSeries
# 結果の解釈
# 左0=自動的に生成される基本インデックス番号(0から開始)
# 右10=入力したデータ値
s1 = pd.Series(10)
s1

0    10
dtype: int64

In [285]:
# データ確認
s1.values

array([10], dtype=int64)

In [286]:
# index番号
# angeIndex:基本的に生成されるindex番号を指す.
s1.index

RangeIndex(start=0, stop=1, step=1)

In [287]:
# 文字
s2 = pd.Series('abc')
s2

0    abc
dtype: object

In [288]:
# データチェック
s2.values

array(['abc'], dtype=object)

In [289]:
# index 確認
s2.index

RangeIndex(start=0, stop=1, step=1)

In [290]:
# リスト資料型
s3 = pd.Series([10, 20, 30])
s3

0    10
1    20
2    30
dtype: int64

In [291]:
# データ確認
s3.values

array([10, 20, 30], dtype=int64)

In [292]:
# indexの確認
# 0以上3未満のRangeIndex:0、1、2
s3.index

RangeIndex(start=0, stop=3, step=1)

In [293]:
#データタイプが異なるリスト資料型
s4 = pd.Series([10.3, 'test', 200, [1, 2, 3]])
s4

0         10.3
1         test
2          200
3    [1, 2, 3]
dtype: object

In [294]:
s4.values

array([10.3, 'test', 200, list([1, 2, 3])], dtype=object)

In [295]:
s4.index

RangeIndex(start=0, stop=4, step=1)

In [296]:
# tuple資料型
s5 = pd.Series((1, 2, 3, 4, 5.0))
s5

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64

In [297]:
s5.values

array([1., 2., 3., 4., 5.])

In [298]:
s5.index

RangeIndex(start=0, stop=5, step=1)

In [299]:
# Dictionary資料型(自動でラベルを付与してくれます!)
s6 = pd.Series({'a':10, 'b':20, 'c':30})
s6

a    10
b    20
c    30
dtype: int64

In [300]:
s6.values

array([10, 20, 30], dtype=int64)

In [301]:
s6.index

Index(['a', 'b', 'c'], dtype='object')

In [302]:
# indexを新しく指定すること
# index属性を参照してリスト、tupleタイプで配信
# ラベルindexがなかった場合 -> 新たに追加
# ラベルindexがあった場合 -> 上書き
s5.index

RangeIndex(start=0, stop=5, step=1)

In [303]:
# indexを新たに指定するときはRangeIndex範囲分の長さを持つリストを使用
# 行の個数(データ個数)と同一の長さを伝達しなければならない。
s5.index = [2010, 2011, 2012, 2013, 2014]

In [304]:
s5

2010    1.0
2011    2.0
2012    3.0
2013    4.0
2014    5.0
dtype: float64

In [305]:
# indexを指定してオブジェクト生成
# indexのオブジェクトに対してアイテム参照は可能である。
s5.index[3]

2013

In [306]:
# indexのオブジェクト内部の単一資料の変更は不可 : エラー発生
s5.index[-1] = 2015

TypeError: Index does not support mutable operations

In [307]:
# indexのラベリングを変えるときは、すべてのindexを変更しなければならない
s5.index = [2010, 2011, 2012, 2013, 2015]
s5

2010    1.0
2011    2.0
2012    3.0
2013    4.0
2015    5.0
dtype: float64

In [308]:
# Series関数のindexパラメータを通じて生成可能
# Series(data, index=[...])
s7 = pd.Series([10, 20, 30, 40], index=['mon', 'tue', 'wed', 'thur'])
s7

mon     10
tue     20
wed     30
thur    40
dtype: int64

In [309]:
s7.values

array([10, 20, 30, 40], dtype=int64)

In [310]:
s7.index

Index(['mon', 'tue', 'wed', 'thur'], dtype='object')

In [311]:
# 自動で付与されたインデックスも使用可能
s7[3]

40

## dictionary 資料型と類似した形態のSeries 資料型

In [312]:
data = {'서울':100, '경기':200, '강원':300, '부산':400}
sample = pd.Series(data)
print(data)
print(sample)

{'서울': 100, '경기': 200, '강원': 300, '부산': 400}
서울    100
경기    200
강원    300
부산    400
dtype: int64


In [313]:
# Seriesオブジェクトとin演算子
# dictionary に類似 : in 演算子を使って内部要素検査時
# key値に該当するラベルを用いて要素があるかどうかをTrue Falseで出力
print('서울' in data)
print('서울' in sample)

True
True


In [314]:
# for の繰り返しから in 演算子へアクセス : Series の value 値を参照
for key in data: ## dictionはkeyの値だけが出る。
    print(key)
print("-----")
for i in sample: # seriesは値が出る。
    print(i)

서울
경기
강원
부산
-----
100
200
300
400


In [315]:
index2 = ['서울', '경기', '강원', '제주']
sample2 = pd.Series(data, index=index2)
sample2

서울    100.0
경기    200.0
강원    300.0
제주      NaN
dtype: float64

### Indexing

- 一つの特定の値を選択したり変更したりすること。
- 参照するインデックス: 基本数字インデックス、ラベルインデックス
- 新しいインデックスを設定してもデフォルトの数字インデックスが使用可能

In [316]:
s6

a    10
b    20
c    30
dtype: int64

In [317]:
# Series 6の最初のデータ=>index 0で照会
# Seriesオブジェクト[index番号 or ラベリング]
print(s6.index[0]) # 인덱스 0번째는 'a'
print(s6[0]) # s6자체의 0번째 자료는 10

a
10


In [318]:
s6['a']

10

In [319]:
print(s7[0])
print(type(s7['mon']))

10
<class 'numpy.int64'>


In [320]:
# Series s7의 인덱스 tue 에 해당하는 데이터 값을 변경
# 인덱스(라벨링)은 개별적으로 하나하나 변경 불가능
# 매칭된 데이터는 개별데이터 하나만 변경 가능
s7['tue'] = 200
s7

mon      10
tue     200
wed      30
thur     40
dtype: int64

In [321]:
# 시리즈에서 원하는 로우(열)만 조회하기 : 조회할 로우명을 리스트로 묶어서 전달
# Series s7에서 mon, wed 라벨 조회
# 이중 리스트를 사용해야함 -> s7['mon', 'wed'] # 에러 발생
s7[['wed', 'mon']]

wed    30
mon    10
dtype: int64

In [322]:
# 여러개의 인덱스를 조회할 때는 리스트만 사용 가능하다. 튜플을 넣으면 에러 발생.
s7[('mon', 'wed')]

KeyError: ('mon', 'wed')

### 슬라이싱(Slicing) 

- Series객체[시작인덱스 : 끝인덱스 : 간격]
- 특정 범위의 값을 선택하거나 변경
- 기본 숫자 인덱스 또는 새로운 인덱스 모두 사용 가능
- 기본 숫자 인덱스를 사용해서 슬라이싱 할 때는 끝 인덱스 미포함
- 라벨 인덱스를 사용해서 슬라이싱 할 때 끝 인덱스까지 모두 포함

In [323]:
# 인덱스 0에서 인덱스2(포함)까지 조회
s1 = pd.Series([10, 20, 30, 40, 50], index=list('abcde'))
s1

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [324]:
# RangeIndex : 0, 1
s1[0:2]

a    10
b    20
dtype: int64

In [325]:
# 라벨 'a' 에서 라벨 'c' 조회(포함)
s1['a':'c']

a    10
b    20
c    30
dtype: int64

In [326]:
# 0 ~ 3번째까지 2개 간격으로 인덱싱
s1[0:4:2]

a    10
c    30
dtype: int64

In [327]:
# 인덱스 'a'에서 인덱스 'c'(포함)까지 2개간격으로 조회
s1['a':'c':2]

a    10
c    30
dtype: int64

## 条件索引(Boolean Indexing)

- オブジェクトにVectorとスカラ演算を適用してTrueのデータだけを返却

<img src="img_3/conditional_index.png" width="700" align="center">

In [328]:
s2 = pd.Series([10, -3, 14, 70, -44, -18, -5, 1, -2, 12, 5])
s2

0     10
1     -3
2     14
3     70
4    -44
5    -18
6     -5
7      1
8     -2
9     12
10     5
dtype: int64

In [329]:
# Vectorとスカラ演算
# 陰水なデータはTrueで、陽水なデータはFalseで作る。
s2 < 0

0     False
1      True
2     False
3     False
4      True
5      True
6      True
7     False
8      True
9     False
10    False
dtype: bool

In [330]:
s2[s2<0]

1    -3
4   -44
5   -18
6    -5
8    -2
dtype: int64

In [331]:
s2[(s2 > 0) & (s2 < 10)]

7     1
10    5
dtype: int64

### 算術演算

- seriesオブジェクトとスカラ値の算術演算 => BroadCasting
- seriesオブジェクト間の算術演算
- indexのラベルが同一のもの同士が演算遂行、共通して存在しない場合NaN返却
- ラベルがない場合、順番に演算遂行、個数が同一でない場合NaN返却
- fill_value印字を通じてNaNではなく特定の値に代替可能
    
    <img src="img_3/series_math.png" width="500" align="center">
    
    
    
    
- 演算の種類
    - *, add()
    - -, sub()
    - *, mul()
    - %
    - //

In [332]:
s1 = pd.Series([1, 2, 3, 4], index=list('abcd'))
s2 = pd.Series([10, 20, 30, 40, 50, 60], index=list('acdefg'))

In [333]:
s1

a    1
b    2
c    3
d    4
dtype: int64

In [334]:
s2

a    10
c    20
d    30
e    40
f    50
g    60
dtype: int64

In [335]:
s1 * 3

a     3
b     6
c     9
d    12
dtype: int64

In [336]:
s1 + s2

a    11.0
b     NaN
c    23.0
d    34.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [337]:
s1.add(s2)

a    11.0
b     NaN
c    23.0
d    34.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [338]:
s1.add(s2, fill_value=0)

a    11.0
b     2.0
c    23.0
d    34.0
e    40.0
f    50.0
g    60.0
dtype: float64

In [339]:
s1 - s2

a    -9.0
b     NaN
c   -17.0
d   -26.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [340]:
s1.sub(s2, fill_value=100) # fill_valueが100なら100でNaNを引いた値で出力する。

a    -9.0
b   -98.0
c   -17.0
d   -26.0
e    60.0
f    50.0
g    40.0
dtype: float64

In [341]:
s1 * s2

a     10.0
b      NaN
c     60.0
d    120.0
e      NaN
f      NaN
g      NaN
dtype: float64

In [342]:
s1.mul(s2, fill_value=1)

a     10.0
b      2.0
c     60.0
d    120.0
e     40.0
f     50.0
g     60.0
dtype: float64

In [343]:
s1 / s2

a    0.100000
b         NaN
c    0.150000
d    0.133333
e         NaN
f         NaN
g         NaN
dtype: float64

In [344]:
s1.divide(s2, fill_value=1)

a    0.100000
b    2.000000
c    0.150000
d    0.133333
e    0.025000
f    0.020000
g    0.016667
dtype: float64

In [345]:
s1 % s2

a    1.0
b    NaN
c    3.0
d    4.0
e    NaN
f    NaN
g    NaN
dtype: float64

In [346]:
s1 // s2

a    0.0
b    NaN
c    0.0
d    0.0
e    NaN
f    NaN
g    NaN
dtype: float64

### 練習問題

#### 1.実習のためのデータ生成:1~100(未満)の間のrandomの定数の値を26件を保存したSeriesを生成してAからZまでのアルファベットでラベリング設定

In [347]:
import numpy as np

In [348]:
data = np.random.randint(1, 100, 26)
len(data)
data.size

26

In [349]:
data

array([49, 48, 47, 56, 13, 69, 55, 29, 99, 56, 47, 97, 90, 23, 45, 62, 35,
       36, 43, 64,  5, 61, 37, 11, 13, 25])

In [350]:
s1 = pd.Series(data, index=list('ABCDEFGHIJKLMNOPQRSTUVWXYZ'))
s1

A    49
B    48
C    47
D    56
E    13
F    69
G    55
H    29
I    99
J    56
K    47
L    97
M    90
N    23
O    45
P    62
Q    35
R    36
S    43
T    64
U     5
V    61
W    37
X    11
Y    13
Z    25
dtype: int32

#### 2.indexのラベルがKの項目の値を出力

In [351]:
s1['K']

47

#### 3.indexのラベルが'A'、'F'、'C'の項目の値を出力

In [352]:
s1[['A', 'F', 'C']]

A    49
F    69
C    47
dtype: int32

#### 4.index 5で15までの項目を出力

In [353]:
s1[5:16]
s1['F': 'P']

F    69
G    55
H    29
I    99
J    56
K    47
L    97
M    90
N    23
O    45
P    62
dtype: int32

#### 5.後で5つの項目を出力

In [354]:
s1[-5:]

V    61
W    37
X    11
Y    13
Z    25
dtype: int32

#### 6.dataの項目の本数を出力

In [355]:
len(s1)

26

In [356]:
s1.size

26

#### 7.data項目の値の平均より大きな項目だけが出力

In [357]:
s1.values

array([49, 48, 47, 56, 13, 69, 55, 29, 99, 56, 47, 97, 90, 23, 45, 62, 35,
       36, 43, 64,  5, 61, 37, 11, 13, 25])

In [358]:
avg = s1.mean()
avg

46.73076923076923

In [359]:
(s1 > avg).sum()

14

In [360]:
s1[s1 > avg]

A    49
B    48
C    47
D    56
F    69
G    55
I    99
J    56
K    47
L    97
M    90
P    62
T    64
V    61
dtype: int32

#### 8.dataの項目値のうちに50がいないかを確認して、あればTrue、なければFalseを出力

In [361]:
50 in s1

False

In [362]:
48 in s1.values

True

### DataFrame生成

- 2次元配列と類似した型
- 多次元リスト、dictionary資料型でデータ構成が可能
- 関係型データベースのテーブル構造、excel/csv データ構造と類似
- 一つのコラムは一つのSeriesとして一つのDataframeは複数のSeries束で構成される
- indexの特徴
    - row index : 基本数字型 index ではなく新しく指定したロウ名(ラベル) index を使用しても基本数字型 index を一緒に使用できる。
    - column index : 新しくコラム名(ラベル) index を使用すると基本数字型 index は使用できない
    
<img src="img_3/df_example.png" width="500" align="center">

In [363]:
import pandas as pd

In [364]:
# from pandas import DataFrame

In [365]:
# 多次元資料型、dictionary資料型を使用
# 注意点:資料型によってアイテムの長さが問題発生
# 多次元リスト : アイテム長が同一 / 異なるタイプ
# ディクショナリー:アイテム長が同一 / 異なるタイプ

In [366]:
# DataFrameのtupleには、すべてのデータタイプ及び様々なタイプの混合が可能である。
data1 = [[1, 2, 3, 4],
        ['a', 'b', 'c', 'd'],
        [0.1, 0.2, 0.5, 0.8]
        ]

In [367]:
df1 = pd.DataFrame(data1)
df1

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,a,b,c,d
2,0.1,0.2,0.5,0.8


In [368]:
#アイテム長さが違う多次元リスト
# 最大長の行を基準にdf構造が生成される
# 長さが足りないtuple(セル) : NaN値で埋ま
data2 = [[1, 2, 3, 4, 5],
        ['a', 'b'],
        [0.1, 0.2, 0.5]]

In [369]:
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,0,1,2,3,4
0,1,2,3.0,4.0,5.0
1,a,b,,,
2,0.1,0.2,0.5,,


In [370]:
data3 = {'a':[10, 20, 30, 40],
        'b':[1, 2, 3, 4],
        'c':[5, 6, 7, 8]}

In [371]:
df3 = pd.DataFrame(data3)
df3

Unnamed: 0,a,b,c
0,10,1,5
1,20,2,6
2,30,3,7
3,40,4,8


In [372]:
# Dictionary資料型をDataFrameのデータとして使用
# アイテムの個数3個、valueの長さは、異なる
# 数が足りないtuple(セル) : ValueError -> keyに該当するvalueの長さがすべて同一とする。 それともエラー発生!
data4 = {'a':[10],
        'b':[1, 2, 3, 4],
        'c':[5, 6, 7]}

In [373]:
df4 = pd.DataFrame(data4)
df4 

ValueError: arrays must all be same length

In [374]:
# indexを指定してオブジェクト生成 : DataFrame関数でパラメータに指定
# columns パラメータ:コラム名(列の数と同一の長さを持つリスト配信)
# indexパラメータ:ロウ名(行の数と同一の長さを持つリスト配信)
df5 = pd.DataFrame(data1, index=['r1', 'r2', 'r3'], columns=['c1', 'c2', 'c3', 'c4'])
df5

Unnamed: 0,c1,c2,c3,c4
r1,1,2,3,4
r2,a,b,c,d
r3,0.1,0.2,0.5,0.8


In [375]:
data3

{'a': [10, 20, 30, 40], 'b': [1, 2, 3, 4], 'c': [5, 6, 7, 8]}

In [376]:
df6 = pd.DataFrame(data3, index=list('wxyz'), columns=list('cab'))
df6

Unnamed: 0,c,a,b
w,5,10,1
x,6,20,2
y,7,30,3
z,8,40,4


In [377]:
df7 = pd.DataFrame(data3, columns=list('abd'))
df7

Unnamed: 0,a,b,d
0,10,1,
1,20,2,
2,30,3,
3,40,4,


In [378]:
# dataと一致しないindex数を配信する場合: Error発生
df8 = pd.DataFrame(data3, index=[10, 20, 30, 40, 50])
df8

ValueError: Shape of passed values is (4, 3), indices imply (5, 3)

DataFrame属性

- 属性は()をつけない。
- index : dfオブジェクトの行のindex配列を返却
- columns : dfオブジェクトの列のindex配列を返却
- axes:dfオブジェクトの行,列のindexをアイテムに持つ配列を返却
- values:dfオブジェクトのデータ(値)をアイテムには2次元配列を返還
- dtypes : dfオブジェクトのデータタイプを列の基準として返却
- size: df オブジェクトのデータ個数(長さ)を返却
- shape : dfオブジェクトの構造(行、列、次元)を返却
- T:行と列を転換させる

In [379]:
data = {'서울':[150, 180, 300],
       '경기':[200, 240, 450],
       '충청':[-10, 3, -13],
       '경상':[10, 20, 30],
       '전라':[5, 6, 7]}

In [380]:
sample = pd.DataFrame(data)
sample

Unnamed: 0,서울,경기,충청,경상,전라
0,150,200,-10,10,5
1,180,240,3,20,6
2,300,450,-13,30,7


In [381]:
sample.index = [2016, 2017, 2018]
sample

Unnamed: 0,서울,경기,충청,경상,전라
2016,150,200,-10,10,5
2017,180,240,3,20,6
2018,300,450,-13,30,7


In [382]:
sample.index.name = '연도'
sample

Unnamed: 0_level_0,서울,경기,충청,경상,전라
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,150,200,-10,10,5
2017,180,240,3,20,6
2018,300,450,-13,30,7


In [383]:
sample.columns

Index(['서울', '경기', '충청', '경상', '전라'], dtype='object')

In [384]:
sample.columns.name = '지역'
sample

지역,서울,경기,충청,경상,전라
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,150,200,-10,10,5
2017,180,240,3,20,6
2018,300,450,-13,30,7


In [385]:
# 行のindex(row)修正
# 属性値
# 1.行きの数と同一のリストを配信
# 2.プロパティ値に使用するindexのオブジェクトはアイテムの修正が不可(一つのインデックスだけを修正不可)
sample.index = [1991, 1992, 1993]
sample

지역,서울,경기,충청,경상,전라
1991,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [386]:
# index修正
# df : df変数.rename(data, axis)
# axisの既定値=0(row==index')
# 列のindex(column)に対する修正:axis=1あるいはaxis='columns'
# data : dictionary タイプ、{'以前の index 名前' : 'バミツ index 名'}
# inplace=False(基本):1回変更
# inplace = True : 永久的変更
sample.rename({1991:1990}, inplace=True)

In [387]:
sample

지역,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [388]:
sample.rename({'전라':'제주'}, axis='columns')

지역,서울,경기,충청,경상,제주
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [389]:
sample.axes

[Int64Index([1990, 1992, 1993], dtype='int64'),
 Index(['서울', '경기', '충청', '경상', '전라'], dtype='object', name='지역')]

In [390]:
sample.reset_index(drop=True)

지역,서울,경기,충청,경상,전라
0,150,200,-10,10,5
1,180,240,3,20,6
2,300,450,-13,30,7


In [391]:
sample.values

array([[150, 200, -10,  10,   5],
       [180, 240,   3,  20,   6],
       [300, 450, -13,  30,   7]], dtype=int64)

In [392]:
sample.dtypes

지역
서울    int64
경기    int64
충청    int64
경상    int64
전라    int64
dtype: object

In [393]:
sample.size

15

In [394]:
len(sample)

3

In [395]:
sample.shape

(3, 5)

In [396]:
sample_t = sample.T

In [397]:
sample_t.index

Index(['서울', '경기', '충청', '경상', '전라'], dtype='object', name='지역')

In [398]:
sample_t.columns

Int64Index([1990, 1992, 1993], dtype='int64')

In [399]:
sample_t.shape

(5, 3)

In [400]:
sample

지역,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


### Indexing

- Columnの照会: Columnがkeyである。
- df[col]
- df.col
- df.get(col)
- iloc,locでrowを照会する。
- df.iloc[idx] : 基本数字型インデックス
- df.loc[label] : 新たに指定したインデックス(数字型でも基本インデックスでなければすべてlocで照会)


In [401]:
sample

지역,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [402]:
sample['서울']

1990    150
1992    180
1993    300
Name: 서울, dtype: int64

In [403]:
#'ソウル'columnの照会の3つの方法
# 1.基本的なindexing記号:df[column名]
# 2.column名をdotを利用して照会、無条件に名前が文字でなければ使用可能:df.column名
# 3.dfで照会:df.get(colname)

# sample['서울']
# sample.서울
sample.get('서울')

1990    150
1992    180
1993    300
Name: 서울, dtype: int64

In [404]:
sample

지역,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [405]:
sample.iloc[0] 

지역
서울    150
경기    200
충청    -10
경상     10
전라      5
Name: 1990, dtype: int64

In [406]:
sample.loc[1992]

지역
서울    180
경기    240
충청      3
경상     20
전라      6
Name: 1992, dtype: int64

In [407]:
sample[['서울', '경기']]

지역,서울,경기
1990,150,200
1992,180,240
1993,300,450


In [408]:
sample[['서울','경기']].loc[1992]

지역
서울    180
경기    240
Name: 1992, dtype: int64

In [409]:
sample.loc[[1990, 1993]]

지역,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1993,300,450,-13,30,7


In [410]:
sample.loc[[1990, 1993]].get('충청')

1990   -10
1993   -13
Name: 충청, dtype: int64

### Slicing

- Row(幸) Slicing
    - 手順があり、ロウが単独でスライシング可能
    - 基本スライシング文法は基本数字型indexを基準に適用
    - デフォルトの数字型indexでSlicingする時は最後のindexは含まずラベルindexでSlicingする時は最後のindexを含め
- Column(熱) Slicing
    - 手順がないため、コラム単独でSlicingができない。
    - ラベル基準でロウ基準Slicing結果に対してコラムSlicing可能(基本数字型indexは適用不可)
    - 最後のindexを含め

In [411]:
sample

지역,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [412]:
sample[0:2]

지역,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6


In [413]:
sample[0:3:2]

지역,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1993,300,450,-13,30,7


In [414]:
sample[::-1]

지역,서울,경기,충청,경상,전라
1993,300,450,-13,30,7
1992,180,240,3,20,6
1990,150,200,-10,10,5


In [415]:
sample.loc[:, :'경상']

지역,서울,경기,충청,경상
1990,150,200,-10,10
1992,180,240,3,20
1993,300,450,-13,30


In [416]:
data = np.zeros((4, 4))
data

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [417]:
df = pd.DataFrame(data)
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0


In [418]:
df[:3][:2]

Unnamed: 0,0,1,2,3
0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0


In [419]:
# Error
df[:3, :2]

TypeError: '(slice(None, 3, None), slice(None, 2, None))' is an invalid key

In [420]:
df.iloc[:3, :2]

Unnamed: 0,0,1
0,0.0,0.0
1,0.0,0.0
2,0.0,0.0


### 練習問題

### 以下のようなDataFrameを生成し、出力画面と同一の結果を生成してください。

<img src="img_3/df_practice1.png" width="250" align="left">

In [421]:
data = {'Col1':[0,3,'ks01',2,5],
        'Col2':['big', 'data', 'is', 'very', 'good'],
        'Col3':[2.7, -5.0, 2.12, 8.31, -1.34],
        'Col4':[True, True, False, False, True]}

In [422]:
df = pd.DataFrame(data, index=list('ABCDE'))
df

Unnamed: 0,Col1,Col2,Col3,Col4
A,0,big,2.7,True
B,3,data,-5.0,True
C,ks01,is,2.12,False
D,2,very,8.31,False
E,5,good,-1.34,True


In [423]:
df[['Col1', 'Col3']]

Unnamed: 0,Col1,Col3
A,0,2.7
B,3,-5.0
C,ks01,2.12
D,2,8.31
E,5,-1.34


In [424]:
 df.loc[['A', 'C', 'D']]

Unnamed: 0,Col1,Col2,Col3,Col4
A,0,big,2.7,True
C,ks01,is,2.12,False
D,2,very,8.31,False


In [425]:
df.loc['B':'D':2, 'Col1':'Col2']

Unnamed: 0,Col1,Col2
B,3,data
D,2,very


### Column, Rowの追加

- Columnの追加/変更
    - Column indexing = スカラー値
    - Column indexing = 配列,リスト(Rowの本数とアイテムの本数一致)
    - Column indexing = Column間の演算
    - Column indexing = series
- Rowの追加
    - Row indexing = スカラー値
    - Row indexing = Row間の演算
- データ分析におけるColumnとRowの意味
    - Column:変数(特性)
    - Row : 個別データ(レコード)
    - 全体データを構成する変数を追加/削除することは頻繁に発生するが、特定インデックスを基準に全体Rowデータを追加/削除することはしばし       ば発生せず、データ処理を行う過程で推奨しない作業

In [426]:
sample

지역,서울,경기,충청,경상,전라
1990,150,200,-10,10,5
1992,180,240,3,20,6
1993,300,450,-13,30,7


In [427]:
sample['제주'] = 1
sample

지역,서울,경기,충청,경상,전라,제주
1990,150,200,-10,10,5,1
1992,180,240,3,20,6,1
1993,300,450,-13,30,7,1


In [428]:
sample['부산'] = np.arange(5, 8) #[5, 6, 7]
sample

지역,서울,경기,충청,경상,전라,제주,부산
1990,150,200,-10,10,5,1,5
1992,180,240,3,20,6,1,6
1993,300,450,-13,30,7,1,7


In [429]:
sample['수도권'] = sample['서울'] + sample['경기']
sample

지역,서울,경기,충청,경상,전라,제주,부산,수도권
1990,150,200,-10,10,5,1,5,350
1992,180,240,3,20,6,1,6,420
1993,300,450,-13,30,7,1,7,750


In [430]:
s1 = pd.Series([9, -99], index=[1990, 1992])
s1
sample['강원']=s1
sample

지역,서울,경기,충청,경상,전라,제주,부산,수도권,강원
1990,150,200,-10,10,5,1,5,350,9.0
1992,180,240,3,20,6,1,6,420,-99.0
1993,300,450,-13,30,7,1,7,750,


In [431]:
s2 = pd.Series([100, 100, 100])
s2

0    100
1    100
2    100
dtype: int64

In [432]:
sample['test'] = s2
sample

지역,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1990,150,200,-10,10,5,1,5,350,9.0,
1992,180,240,3,20,6,1,6,420,-99.0,
1993,300,450,-13,30,7,1,7,750,,


- Rowの追加
    - Row indexing = スカラー値
    - Row indexing = Row間の演算
    - Row indexing = 資料型(配列,リスト / Column の個数とアイテムの個数が一致)

In [433]:
sample.loc[1994] = 0
sample

지역,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1990,150,200,-10,10,5,1,5,350,9.0,
1992,180,240,3,20,6,1,6,420,-99.0,
1993,300,450,-13,30,7,1,7,750,,
1994,0,0,0,0,0,0,0,0,0.0,0.0


In [434]:
sample.shape

(4, 10)

In [435]:
sample.loc[1995] = np.arange(10)
sample

지역,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1990,150,200,-10,10,5,1,5,350,9.0,
1992,180,240,3,20,6,1,6,420,-99.0,
1993,300,450,-13,30,7,1,7,750,,
1994,0,0,0,0,0,0,0,0,0.0,0.0
1995,0,1,2,3,4,5,6,7,8.0,9.0


In [436]:
sample.index = [1991, 1992, 1993, 1994, 1995]
sample

지역,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1991,150,200,-10,10,5,1,5,350,9.0,
1992,180,240,3,20,6,1,6,420,-99.0,
1993,300,450,-13,30,7,1,7,750,,
1994,0,0,0,0,0,0,0,0,0.0,0.0
1995,0,1,2,3,4,5,6,7,8.0,9.0


In [437]:
sample.loc[1996] = {'서울':10,'경기':20,'충청':40,'경상':21,'전라':37,
                    '제주':103,'부산':28,'수도권':30,'강원':15,'test':0}
sample

지역,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1991,150,200,-10,10,5,1,5,350,9.0,
1992,180,240,3,20,6,1,6,420,-99.0,
1993,300,450,-13,30,7,1,7,750,,
1994,0,0,0,0,0,0,0,0,0.0,0.0
1995,0,1,2,3,4,5,6,7,8.0,9.0
1996,10,20,40,21,37,103,28,30,15.0,0.0


In [438]:
sample.loc[1997] = sample.loc[1995] + sample.loc[1996]
sample

지역,서울,경기,충청,경상,전라,제주,부산,수도권,강원,test
1991,150.0,200.0,-10.0,10.0,5.0,1.0,5.0,350.0,9.0,
1992,180.0,240.0,3.0,20.0,6.0,1.0,6.0,420.0,-99.0,
1993,300.0,450.0,-13.0,30.0,7.0,1.0,7.0,750.0,,
1994,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1995,0.0,1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,9.0
1996,10.0,20.0,40.0,21.0,37.0,103.0,28.0,30.0,15.0,0.0
1997,10.0,21.0,42.0,24.0,41.0,108.0,34.0,37.0,23.0,9.0


### Row, Columnを削除

- Columnを削除
    - del キーワード + Column Indexing
    - df.drop(col、axis=1)
    - df.drop(columns=col)
- Row削除
    - df.drop(idx):axis=0(基本)

In [439]:
del sample['test']
sample

지역,서울,경기,충청,경상,전라,제주,부산,수도권,강원
1991,150.0,200.0,-10.0,10.0,5.0,1.0,5.0,350.0,9.0
1992,180.0,240.0,3.0,20.0,6.0,1.0,6.0,420.0,-99.0
1993,300.0,450.0,-13.0,30.0,7.0,1.0,7.0,750.0,
1994,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1995,0.0,1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0
1996,10.0,20.0,40.0,21.0,37.0,103.0,28.0,30.0,15.0
1997,10.0,21.0,42.0,24.0,41.0,108.0,34.0,37.0,23.0


In [440]:
sample.drop(columns='경상', inplace=True)

In [441]:
sample

지역,서울,경기,충청,전라,제주,부산,수도권,강원
1991,150.0,200.0,-10.0,5.0,1.0,5.0,350.0,9.0
1992,180.0,240.0,3.0,6.0,1.0,6.0,420.0,-99.0
1993,300.0,450.0,-13.0,7.0,1.0,7.0,750.0,
1994,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1995,0.0,1.0,2.0,4.0,5.0,6.0,7.0,8.0
1996,10.0,20.0,40.0,37.0,103.0,28.0,30.0,15.0
1997,10.0,21.0,42.0,41.0,108.0,34.0,37.0,23.0


In [444]:
sample.drop('수도권', axis=1, inplace=True)

In [446]:
sample

지역,서울,경기,전라,제주,부산,강원
1991,150.0,200.0,5.0,1.0,5.0,9.0
1992,180.0,240.0,6.0,1.0,6.0,-99.0
1993,300.0,450.0,7.0,1.0,7.0,
1994,0.0,0.0,0.0,0.0,0.0,0.0
1996,10.0,20.0,37.0,103.0,28.0,15.0
1997,10.0,21.0,41.0,108.0,34.0,23.0


In [445]:
sample.drop(1995, inplace=True)

In [447]:
sample

지역,서울,경기,전라,제주,부산,강원
1991,150.0,200.0,5.0,1.0,5.0,9.0
1992,180.0,240.0,6.0,1.0,6.0,-99.0
1993,300.0,450.0,7.0,1.0,7.0,
1994,0.0,0.0,0.0,0.0,0.0,0.0
1996,10.0,20.0,37.0,103.0,28.0,15.0
1997,10.0,21.0,41.0,108.0,34.0,23.0


In [448]:
sample.drop(columns=['제주', '강원'], inplace=True)

In [449]:
sample

지역,서울,경기,전라,부산
1991,150.0,200.0,5.0,5.0
1992,180.0,240.0,6.0,6.0
1993,300.0,450.0,7.0,7.0
1994,0.0,0.0,0.0,0.0
1996,10.0,20.0,37.0,28.0
1997,10.0,21.0,41.0,34.0


In [450]:
sample.drop([1994, 1997])

지역,서울,경기,전라,부산
1991,150.0,200.0,5.0,5.0
1992,180.0,240.0,6.0,6.0
1993,300.0,450.0,7.0,7.0
1996,10.0,20.0,37.0,28.0
