Pandas 

판다스는 오픈 소스 파이선 데이터 매니징 패키지이다. 

In [6]:
import pandas as pd
import numpy as np

pandas의 series 클래스는 numpy의 1차원 배열과 모양이 비슷하지만 각 데이터의 의미를 표시하는 index를 붙일 수 있다. 데이터 자체는 value라고 한다.

In [2]:
# Series 객체를 생성할 때 pd.Series()로 호출한다.
ser = pd.Series(['하나', '둘', '셋'], index=range(1,4))
ser

1    하나
2     둘
3     셋
dtype: object

data 값으로는 iterable, 배열, scalar value, dict를 사용할 수 있다. index는 label이라고도 하며, data와 length가 동일해야 한다. label은 꼭 unique해야 할 필요는 없지만 반드시 hashable type만 사용 가능하다. 만약 index를 생략할 경우 RangeIndex(0, 1, ... , n)를 제공한다.

In [27]:
s = pd.Series([9_904_302, 3_448_737, 2_890_451, 2_466_052], index = ['서울', '부산', '인천', '대구', ])
s

서울    9904302
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [4]:
s = pd.Series(list(range(10, 100, 10)))
s

0    10
1    20
2    30
3    40
4    50
5    60
6    70
7    80
8    90
dtype: int64

series의 index는 index 속성으로 접근 가능하며 value는 values로 접근 가능하다.

연습문제 - 앞선 문제에서 만든 series 객체의 값 중 50보다 큰 값의 개수를 구해보세요.

In [26]:
sum(s.values>50)

4

name 속성을 이용하여 series 데이터에 이름을 붙일 수 있다. index.name 속성으로 series의 index에도 이름을 붙일 수 있다.

In [28]:
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904302
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

data에 dict를 사용할 수도 있다. 인덱스 순서를 바꾸면 키-값 페어가 순서가 같이 바뀌는 것을 볼 수 있다.

In [31]:
d = {'a' : 1, 'b' : 2, 'c' : 3}
pd.Series(data=d, index = ['c', 'a', 'b'])

c    3
a    1
b    2
dtype: int64

연습문제

In [32]:
d = pd.Series({'철수':88, '영희':95, '길동': 100, '몽룡': 67})
d

철수     88
영희     95
길동    100
몽룡     67
dtype: int64

만약 label 값이 공백 없는 문자열이라면 속성처럼 접근할 수도 있다. series 객체는 index label을 key로 사용하기에 딕셔너리 자료형과 비슷한 특징을 갖는다. 그래서 series를 딕셔너리와 같은 방식으로 사용할 수 있게 구현해 놓았다. 예를 들어 in 연산도 가능하고, items() 메서드로 for 반복문을을 통해 각 key와 value에 접근할 수도 있다. 

연습문제 - 도시의 인구가 300만이 넘는 곳을 찾아 다음과 같이 출력해보시오.

In [34]:
s = pd.Series([9_904_302, 3_448_737, 2_890_451, 2_466_052], index = ['서울', '부산', '인천', '대구', ])

for k, v in s.items():
    if v>3*10**6: print(f'{k}의 인구는 300만이 넘습니다.')

서울의 인구는 300만이 넘습니다.
부산의 인구는 300만이 넘습니다.


ndarray처럼 series도 벡터화 연산을 할 수 있다. 다만 value에만 적용되며 index값은 변하지 않는다. index label을 이용한 인덱싱도 할 수 있으며 슬라이싱도 가능하다. 단 하나의 값을 시리즈 형태로 가져오고 싶다면 다음과 같이 값이 하나인 리스트로 인덱싱하면 된다.

In [35]:
s[[0]]

서울    9904302
dtype: int64

연습문제 - 인천의 인덱스와 값을 시리즈로 조회해보시오.

In [36]:
s[['인천']]

인천    2890451
dtype: int64

문자열 슬라이싱의 경우 콜론 뒤에 오는 값도 결과에 포함되므로 주의해야 한다. 두 series에 대해 연산을 하는 경우 index가 같은 데이터에 대해서만 차이를 구한다. 

In [37]:
s2 = pd.Series({'서울': 9631492, '부산': 3393191, '인천':2632035, '대전':1490158})
s2

서울    9631492
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [38]:
s-s2

대구         NaN
대전         NaN
부산     55546.0
서울    272810.0
인천    258416.0
dtype: float64

값이 NaN인지 확인하려면 isnull()을, nan이 아니라면 notnull()을 사용하면 된다.

In [39]:
(s-s2)[(s-s2).notnull()]

부산     55546.0
서울    272810.0
인천    258416.0
dtype: float64

NaN 값을 배제하고 2010년 대비 2015년 인구 증가율은 다음과 같이 구할 수 있다.

In [40]:
rs = (s-s2)/s2*100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832479
인천    9.818107
dtype: float64

In [44]:
rs[[rs.argmax()]]

인천    9.818107
dtype: float64

연습문제 - 앞의 series 값을 수정하라.

In [46]:
rs['서울':'인천'] = (2.83, 9.82)
rs

부산    1.636984
서울    2.830000
인천    9.820000
dtype: float64

없는 index에 값을 추가하면 데이터가 추가된다.

In [47]:
rs['대구'] = 1.41
rs

부산    1.636984
서울    2.830000
인천    9.820000
대구    1.410000
dtype: float64

데이터를 삭제할 때도 딕셔너리처럼 del 명령어를 사용한다.

연습문제

In [52]:
fin1 = {'카카오':60010, '삼성전자':61000, 'LG전자':90000}
fin2_value = [60200, 61200, 200100]
fin2_index = ['카카오', '삼성전자', '네이버']

ser_finance1 = pd.Series(fin1)
ser_finance2 = pd.Series(data=fin2_value, index=fin2_index)
print(ser_finance1,'\n',ser_finance2)

카카오     60010
삼성전자    61000
LG전자    90000
dtype: int64 
 카카오      60200
삼성전자     61200
네이버     200100
dtype: int64


In [53]:
ser_finance1 - ser_finance2

LG전자      NaN
네이버       NaN
삼성전자   -200.0
카카오    -190.0
dtype: float64

In [54]:
ser_finance1 + ser_finance2

LG전자         NaN
네이버          NaN
삼성전자    122200.0
카카오     120210.0
dtype: float64

In [55]:
ser_finance1 * ser_finance2

LG전자             NaN
네이버              NaN
삼성전자    3.733200e+09
카카오     3.612602e+09
dtype: float64

In [59]:
ser_finance1/ser_finance2

LG전자         NaN
네이버          NaN
삼성전자    0.996732
카카오     0.996844
dtype: float64

In [61]:
result = ser_finance1-ser_finance2
result[result.notnull()]

삼성전자   -200.0
카카오    -190.0
dtype: float64

DataFrame class

DataFrame은 pandas의 주요 데이터 구조이다. label된 row와 column, 두 개의 축을 갖는다. 산술 연산은 row와 column 모두 적용되며, series 객체를 갖는 dictionary라고 생각하면 된다. 첫 인자로 data, 두 번째 인자로 index를 전달한다. Series가 1차원 벡터 데이터에 행방향 index를 붙인 것이라면 DataFrame은 2차원 행렬 데이터에 index를 붙인 것이다. row와 column을 갖는 2차원이므로 각각의 행 데이터의 이름이 되는 행 index(row index) 뿐만 아니라 각각의 열 데이터의 이름이 되는 열 index(column index)도 붙일 수 있다. 데이터프레임을 만드는 방법은 다음과 같다.

1. 우선 하나의 열이 되는 데이터를 리스트나 배열로 준비한다.
2. 각각의 열에 대한 이름(label)을 키로 가지는 딕셔너리를 만든다.
3. 이 데이터를 DataFrame 클래스 생성자에 넣는다. 동시에 열방향 index는 columns인수로, 행방향 index는 index 인수로 저장한다.

In [62]:
d = {'col1': [1, 2], 'col2': [3, 4]}
df = pd.DataFrame(d)
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [63]:
data = {
    "2015" : [9904312, 3448737, 2890451, 2466052],
    "2010" : [9631482, 3393191, 2632035, 2431774],
    "2005" : [9762546, 3512547, 2517680, 2456016],
    "2000" : [9853972, 3655437, 2466338, 2473990],
    "지역" : ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율" :[0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index = index, columns = columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


series와 마찬가지로 데이터만 접근하려면 values 속성을 사용한다. 열방향 index와 행방향 index는 각각 columns, index로 접근한다.

In [64]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [65]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [66]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

연습문제

In [86]:
t5etfs = pd.read_csv(r'./datas/top5etfs.csv')
t5etfs = t5etfs.dropna(axis=1) #Nan column을 삭제한다.
t5etfs

Unnamed: 0,RANK,SYMBOL,FUND NAME,FUND VALUE
0,1,SPY,SPDR S&P 500 ETF Trust,404.73
1,2,IVV,iShares Core S&P 500 ETF,407.77
2,3,VTI,Vanguard Total Stock Market ETF,203.6
3,4,VOO,Vanguard S&P 500 ETF,371.8
4,5,QQQ,Invesco QQQ Trust Series I,300.3


column 단위로 데이터를 갱신하거나 추가, 삭제할 수 있다. 

In [87]:
df['2010-2015 증가율'] = df['2010-2015 증가율']*100

In [88]:
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


기존에 없는 column을 추가할 수도 있다.

In [89]:
df['2005-2010 증가율'] = ((df['2010']-df['2005'])/df['2005']*100).round(2)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


del 명령을 통해 해당 column을 삭제한다.

In [90]:
del df['2010-2015 증가율']
df

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


index로 label 값을 하나의 column만 넣으면 Series가 반환된다.

In [92]:
df['2010']

서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

label의 배열 또는 리스트로 인덱싱하면 DataFrame이 반환된다.

In [94]:
df[['2010', '2015']]

Unnamed: 0,2010,2015
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


DataFrame의 column index가 문자열 label일 경우에는 순서를 나타내는 정수 index를 column 인덱싱에 사용할 수 없다. 만약 row 단위로 인덱싱을 하고자 하면 항상 슬라이싱을 해야 한다.

In [98]:
df[:1]

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,-1.34


row가 부산인 결과만 보고 싶을 경우에는 아래 처럼 작성해야 한다.

In [101]:
df['부산':'부산']

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
부산,경상권,3448737,3393191,3512547,3655437,-3.4


개별 데이터는 다음과 같이 접근한다.

In [103]:
df['2010']['부산']

3393191

연습문제

In [106]:
data = {
    '국어':[80, 90, 70, 30],
    '영어':[90, 70, 60, 40],
    '수학':[90, 60, 80, 70]
}

columns = ['국어', '영어', '수학']
index = ['춘향', '몽룡', '향단', '방자']
df = pd.DataFrame(data, index = index, columns = columns)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [107]:
#(1) 모든 학생의 수학 점수를 series로
df['수학']

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [108]:
#(2) 모든 학생의 국어와 영어 점수를 데이터프레임으로
df[['국어', '영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [113]:
#(3)모든 학생의 과목 평균 점수를 새로운 열로
df['평균 점수']=df.mean(axis=1).round(2)
df

Unnamed: 0,국어,영어,수학,평균 점수
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


In [117]:
#(4)춘향의 점수를 dataframe으로
df['춘향':'춘향']

Unnamed: 0,국어,영어,수학,평균 점수
춘향,80,90,90,86.67


In [125]:
#(5)향단의 점수를 series로
df.T['향단']

국어       70.0
영어       60.0
수학       80.0
평균 점수    70.0
Name: 향단, dtype: float64

연습문제

In [126]:
import random

In [130]:
n = 6
np.random.seed(0)
columns = ['A', 'B', 'C', 'D']
index = pd.date_range('20130226', periods = n)

df = pd.DataFrame(np.random.randn(6,4), columns=columns, index = index)
df

Unnamed: 0,A,B,C,D
2013-02-26,1.764052,0.400157,0.978738,2.240893
2013-02-27,1.867558,-0.977278,0.950088,-0.151357
2013-02-28,-0.103219,0.410599,0.144044,1.454274
2013-03-01,0.761038,0.121675,0.443863,0.333674
2013-03-02,1.494079,-0.205158,0.313068,-0.854096
2013-03-03,-2.55299,0.653619,0.864436,-0.742165
