# pandas-03 DataFrame

<img src="http://goo.gl/ht49rJ" >

#### 2017 FinanceData http://fb.com/financedata


# DataFrame
* 다양한 데이터를 포함할 수 있는 2차원 자료구조
* 간단한게 말하면 시리즈(Series) 객체들의 딕셔너리
* 스프레드시트와 시트와 유사

# DataFrame 구성
DataFrame 은 columns 기반
* df.columns
* df.index
* df.values

(참고: Series는 index, values로 구성)

In [0]:
# 간단한 예
import pandas as pd

values = [[10, 20, 30], [40, 50, 60], [70, 80, 90]]
index = [1,2,3]
columns = ['A', 'B', 'C']

df = pd.DataFrame(values, index=index, columns=columns)
df

Unnamed: 0,A,B,C
1,10,20,30
2,40,50,60
3,70,80,90


# 예제 데이터

삼성전자, LG전자 2017년 1월~4월 광고비 지출 (단위, 천원)


|  날짜   | 삼성전자 | LG전자 |
| ----- | ----- | --- |
| 2016년 10월   | 23353920 |  13611721 |
| 2016년 11월   | 21405206 |  14520911 |
| 2016년 12월   | 15932536 |  20073843 |
| 2017년 1월   | 11286761 |  5911641 |
| 2017년 2월   | 12195995 |  4220130 |
| 2017년 3월   | 12922589 |  14147994 |

https://www.adic.or.kr (광고정보센터)

# DataFame 생성
배열, 리스트, 튜플, ndarray 등으로 부터 생성할 수 있다

In [0]:
# 리스트로 부터 생성하기

values = [
    ['2016-10', 23353920, 13611721], 
    ['2016-11', 21405206, 14520911], 
    ['2016-12', 15932536, 20073843], 
    ['2017-01', 11286761, 5911641], 
    ['2017-02', 12195995, 4220130],
    ['2017-03', 12922589, 14147994],
]

df = pd.DataFrame(values)
df

Unnamed: 0,0,1,2
0,2016-10,23353920,13611721
1,2016-11,21405206,14520911
2,2016-12,15932536,20073843
3,2017-01,11286761,5911641
4,2017-02,12195995,4220130
5,2017-03,12922589,14147994


In [0]:
# 컬럼 지정하기

df = pd.DataFrame(values, columns=['날짜', '삼성전자', 'LG전자'])
df

Unnamed: 0,날짜,삼성전자,LG전자
0,2016-10,23353920,13611721
1,2016-11,21405206,14520911
2,2016-12,15932536,20073843
3,2017-01,11286761,5911641
4,2017-02,12195995,4220130
5,2017-03,12922589,14147994


# 딕셔너리로 부터 생성

In [0]:
# 딕셔너리로 부터 생성

values = {
    '날짜': ['2016-10', '2016-11', '2016-12', '2017-01', '2017-02', '2017-03'],
    '삼성전자': [23353920, 21405206, 15932536, 11286761, 12195995, 12922589], 
    'LG전자': [13611721, 14520911, 20073843, 5911641, 4220130, 14147994]
}

df = pd.DataFrame(values)
df

Unnamed: 0,LG전자,날짜,삼성전자
0,13611721,2016-10,23353920
1,14520911,2016-11,21405206
2,20073843,2016-12,15932536
3,5911641,2017-01,11286761
4,4220130,2017-02,12195995
5,14147994,2017-03,12922589


# 컬럼 순서 지정하기
파이썬의 딕셔너리는 순서가 보장되지 않는다. 순서를 명시하려면 columns를 지정한다.

In [0]:
values = { 
    '날짜': ['2016-10', '2016-11', '2016-12', '2017-01', '2017-02', '2017-03'],
    '삼성전자': [23353920, 21405206, 15932536, 11286761, 12195995, 12922589], 
    'LG전자': [13611721, 14520911, 20073843, 5911641, 4220130, 14147994]
}

df = pd.DataFrame(values, columns=['날짜', '삼성전자', 'LG전자'])
df

Unnamed: 0,날짜,삼성전자,LG전자
0,2016-10,23353920,13611721
1,2016-11,21405206,14520911
2,2016-12,15932536,20073843
3,2017-01,11286761,5911641
4,2017-02,12195995,4220130
5,2017-03,12922589,14147994


# DataFrame 살펴 보기 - index, columns, values 
df.index, df.columns, df.values

In [0]:
# 인덱스(index)
df.index

RangeIndex(start=0, stop=6, step=1)

In [0]:
# 열(column)
df.columns

Index(['날짜', '삼성전자', 'LG전자'], dtype='object')

In [0]:
# 값 (2차원 배열)
df.values

array([['2016-10', 23353920, 13611721],
       ['2016-11', 21405206, 14520911],
       ['2016-12', 15932536, 20073843],
       ['2017-01', 11286761, 5911641],
       ['2017-02', 12195995, 4220130],
       ['2017-03', 12922589, 14147994]], dtype=object)

# DataFrame 살펴 보기 - df.dtypes
df.dtypes - 각 컬럼의 데이터 타입을 확인

In [0]:
# 열(column)과 타입
df.dtypes

날짜      object
삼성전자     int64
LG전자     int64
dtype: object

# DataFrame 살펴 보기
* df.head() - 앞 부분 보기
* df.tail() - 뒷 부분 보기
* len(df) - 행(row)의 수

In [0]:
# 앞 부분 보기 (기본 5행)
df.head(2)

Unnamed: 0,날짜,삼성전자,LG전자
0,2016-10,23353920,13611721
1,2016-11,21405206,14520911


In [0]:
# 뒷 부분 보기 (기본 5행)
df.tail(2)

Unnamed: 0,날짜,삼성전자,LG전자
4,2017-02,12195995,4220130
5,2017-03,12922589,14147994


In [0]:
# 행(row) 수 (df.shape[0] 와 동일하다)
len(df)

6

# 요약 통계량
* df.describe() - 모든 컬럼의 기술통계(descriptive stats) 값

In [0]:
# 모든 컬럼의 기술통계(descriptive stats) 값
df.describe()

Unnamed: 0,삼성전자,LG전자
count,6.0,6.0
mean,16182830.0,12081040.0
std,5084406.0,5938157.0
min,11286760.0,4220130.0
25%,12377640.0,7836661.0
50%,14427560.0,13879860.0
75%,20037040.0,14427680.0
max,23353920.0,20073840.0


# index
* 인덱스는 로우, 컬럼의 이름과 정보를 저장하는 객체
* 색인은 변경할 수 없다(immutable) 
* Index, Int64Index, MultiIndex 등 다양
* 시계열: 인덱스가 DatetimeIndex, PeriodIndex

In [0]:
df.index

RangeIndex(start=0, stop=6, step=1)

# 조회

In [0]:
df

Unnamed: 0,날짜,삼성전자,LG전자
0,2016-10,23353920,13611721
1,2016-11,21405206,14520911
2,2016-12,15932536,20073843
3,2017-01,11286761,5911641
4,2017-02,12195995,4220130
5,2017-03,12922589,14147994


In [0]:
df.날짜

0    2016-10
1    2016-11
2    2016-12
3    2017-01
4    2017-02
5    2017-03
Name: 날짜, dtype: object

In [0]:
df['날짜']

0    2016-10
1    2016-11
2    2016-12
3    2017-01
4    2017-02
5    2017-03
Name: 날짜, dtype: object

# 컬럼 지정

In [0]:
# 컬럼 지정
df[['날짜', '삼성전자']]

Unnamed: 0,날짜,삼성전자
0,2016-10,23353920
1,2016-11,21405206
2,2016-12,15932536
3,2017-01,11286761
4,2017-02,12195995
5,2017-03,12922589


# 위치 기반 조회 - df.iloc()

In [0]:
# 1 행(두번째 행)
df.iloc[1]

날짜       2016-11
삼성전자    21405206
LG전자    14520911
Name: 1, dtype: object

In [0]:
# 1~2행
df.iloc[1:3]

Unnamed: 0,날짜,삼성전자,LG전자
1,2016-11,21405206,14520911
2,2016-12,15932536,20073843


In [0]:
#첫번째 행(row), 첫번째 열(column)
df.iloc[0,0]

'2016-10'

In [0]:
# 처음 4개 행(row), 처음 3개 열(column)
df.iloc[0:4, 0:2]

Unnamed: 0,날짜,삼성전자
0,2016-10,23353920
1,2016-11,21405206
2,2016-12,15932536
3,2017-01,11286761


# 컬럼 추가

In [0]:
df['차이'] = 0
df

Unnamed: 0,날짜,삼성전자,LG전자,차이
0,2016-10,23353920,13611721,0
1,2016-11,21405206,14520911,0
2,2016-12,15932536,20073843,0
3,2017-01,11286761,5911641,0
4,2017-02,12195995,4220130,0
5,2017-03,12922589,14147994,0


# 컬럼간 연산

In [0]:
df['차이'] = df['삼성전자'] - df['LG전자']
df

Unnamed: 0,날짜,삼성전자,LG전자,차이
0,2016-10,23353920,13611721,9742199
1,2016-11,21405206,14520911,6884295
2,2016-12,15932536,20073843,-4141307
3,2017-01,11286761,5911641,5375120
4,2017-02,12195995,4220130,7975865
5,2017-03,12922589,14147994,-1225405


# 컬럼 단위 데이터 변경
단위 '천원', 100000로 나누어 억원'으로 단위 변경

In [0]:
df['삼성전자'] =  df['삼성전자'] / 100000.
df['LG전자'] =  df['LG전자'] / 100000.
df['차이'] =  df['차이'] / 100000.
df

Unnamed: 0,날짜,삼성전자,LG전자,차이
0,2016-10,233.5392,136.11721,97.42199
1,2016-11,214.05206,145.20911,68.84295
2,2016-12,159.32536,200.73843,-41.41307
3,2017-01,112.86761,59.11641,53.7512
4,2017-02,121.95995,42.2013,79.75865
5,2017-03,129.22589,141.47994,-12.25405


# 컬럼간 연산

In [0]:
import numpy as np

df['합계'] = np.round(df['삼성전자'] + df['LG전자'], 1)
df

Unnamed: 0,날짜,삼성전자,LG전자,차이,합계
0,2016-10,233.5392,136.11721,97.42199,369.7
1,2016-11,214.05206,145.20911,68.84295,359.3
2,2016-12,159.32536,200.73843,-41.41307,360.1
3,2017-01,112.86761,59.11641,53.7512,172.0
4,2017-02,121.95995,42.2013,79.75865,164.2
5,2017-03,129.22589,141.47994,-12.25405,270.7


# 로우(row) 삭제
로우(row) 삭제 DataFrame.drop() 을 사용

In [0]:
r_df = df.drop([4,5]) # axis=0 가 생략되어 있다.
r_df

Unnamed: 0,날짜,삼성전자,LG전자,차이,합계
0,2016-10,233.5392,136.11721,97.42199,369.7
1,2016-11,214.05206,145.20911,68.84295,359.3
2,2016-12,159.32536,200.73843,-41.41307,360.1
3,2017-01,112.86761,59.11641,53.7512,172.0


# 컬럼 삭제
drop 사용하면서 축(axis)를 지정한다.

In [0]:
r_df = df.drop(['차이'], axis=1)
r_df

Unnamed: 0,날짜,삼성전자,LG전자,합계
0,2016-10,233.5392,136.11721,369.7
1,2016-11,214.05206,145.20911,359.3
2,2016-12,159.32536,200.73843,360.1
3,2017-01,112.86761,59.11641,172.0
4,2017-02,121.95995,42.2013,164.2
5,2017-03,129.22589,141.47994,270.7


In [0]:
del df['차이']
df

Unnamed: 0,날짜,삼성전자,LG전자,합계
0,2016-10,233.5392,136.11721,369.7
1,2016-11,214.05206,145.20911,359.3
2,2016-12,159.32536,200.73843,360.1
3,2017-01,112.86761,59.11641,172.0
4,2017-02,121.95995,42.2013,164.2
5,2017-03,129.22589,141.47994,270.7


## DataFame 사본 만들기
DataFrame.copy() 로 복사본을 생성할 수 있다. 

In [0]:
df2 = df.copy()
df2

Unnamed: 0,날짜,삼성전자,LG전자,합계
0,2016-10,233.5392,136.11721,369.7
1,2016-11,214.05206,145.20911,359.3
2,2016-12,159.32536,200.73843,360.1
3,2017-01,112.86761,59.11641,172.0
4,2017-02,121.95995,42.2013,164.2
5,2017-03,129.22589,141.47994,270.7


# 인덱싱에 사용하는 메소드

loc는 라벨로 인덱싱할 때, iloc는 정수(integer)로 인덱싱할 때 사용 한다.

In [0]:
df

Unnamed: 0,날짜,삼성전자,LG전자,합계
0,2016-10,233.5392,136.11721,369.7
1,2016-11,214.05206,145.20911,359.3
2,2016-12,159.32536,200.73843,360.1
3,2017-01,112.86761,59.11641,172.0
4,2017-02,121.95995,42.2013,164.2
5,2017-03,129.22589,141.47994,270.7


In [0]:
df.loc[2] # 2번 로우

날짜      2016-12
삼성전자    159.325
LG전자    200.738
합계        360.1
Name: 2, dtype: object

In [0]:
df

Unnamed: 0,날짜,삼성전자,LG전자,합계
0,2016-10,233.5392,136.11721,369.7
1,2016-11,214.05206,145.20911,359.3
2,2016-12,159.32536,200.73843,360.1
3,2017-01,112.86761,59.11641,172.0
4,2017-02,121.95995,42.2013,164.2
5,2017-03,129.22589,141.47994,270.7


In [0]:
df[3:5] # row 3~4

Unnamed: 0,날짜,삼성전자,LG전자,합계
3,2017-01,112.86761,59.11641,172.0
4,2017-02,121.95995,42.2013,164.2


In [0]:
df.iloc[3:5] # row 3~4

Unnamed: 0,날짜,삼성전자,LG전자,합계
3,2017-01,112.86761,59.11641,172.0
4,2017-02,121.95995,42.2013,164.2


In [0]:
df.loc[3:5] # row 3~5

Unnamed: 0,날짜,삼성전자,LG전자,합계
3,2017-01,112.86761,59.11641,172.0
4,2017-02,121.95995,42.2013,164.2
5,2017-03,129.22589,141.47994,270.7


In [0]:
df

Unnamed: 0,날짜,삼성전자,LG전자,합계
0,2016-10,233.5392,136.11721,369.7
1,2016-11,214.05206,145.20911,359.3
2,2016-12,159.32536,200.73843,360.1
3,2017-01,112.86761,59.11641,172.0
4,2017-02,121.95995,42.2013,164.2
5,2017-03,129.22589,141.47994,270.7


In [0]:
df.loc[:, 'LG전자':'합계'] # 전체 row 컬럼 'skt'~'sum' 선택 

Unnamed: 0,LG전자,합계
0,136.11721,369.7
1,145.20911,359.3
2,200.73843,360.1
3,59.11641,172.0
4,42.2013,164.2
5,141.47994,270.7


In [0]:
df

Unnamed: 0,날짜,삼성전자,LG전자,합계
0,2016-10,233.5392,136.11721,369.7
1,2016-11,214.05206,145.20911,359.3
2,2016-12,159.32536,200.73843,360.1
3,2017-01,112.86761,59.11641,172.0
4,2017-02,121.95995,42.2013,164.2
5,2017-03,129.22589,141.47994,270.7


In [0]:
df.loc[:2, ['삼성전자','합계']] # 로우 처음부터~2까지, 컬럼  '삼성전자','합계'  선택

Unnamed: 0,삼성전자,합계
0,233.5392,369.7
1,214.05206,359.3
2,159.32536,360.1


# 불린 인덱스

In [0]:
df

df.삼성전자 > 90

df[df.삼성전자 > 90]

Unnamed: 0,날짜,삼성전자,LG전자,합계
0,2016-10,233.5392,136.11721,369.7
1,2016-11,214.05206,145.20911,359.3
2,2016-12,159.32536,200.73843,360.1
3,2017-01,112.86761,59.11641,172.0
4,2017-02,121.95995,42.2013,164.2
5,2017-03,129.22589,141.47994,270.7


# 다수의 불린 인덱스
* 두 개 이상의 컬럼, '&'(AND), '|'(OR), '^'(XOR)연산
* 괄호로 묶어주어야 한다.

In [0]:
df

Unnamed: 0,날짜,삼성전자,LG전자,합계
0,2016-10,233.5392,136.11721,369.7
1,2016-11,214.05206,145.20911,359.3
2,2016-12,159.32536,200.73843,360.1
3,2017-01,112.86761,59.11641,172.0
4,2017-02,121.95995,42.2013,164.2
5,2017-03,129.22589,141.47994,270.7


In [0]:
(150 < df.삼성전자 ) & (df.삼성전자 < 220)

0    False
1     True
2     True
3    False
4    False
5    False
Name: 삼성전자, dtype: bool

In [0]:
df[(150 < df.삼성전자 ) & (df.삼성전자 < 220)]

Unnamed: 0,날짜,삼성전자,LG전자,합계
1,2016-11,214.05206,145.20911,359.3
2,2016-12,159.32536,200.73843,360.1


In [0]:
df

Unnamed: 0,날짜,삼성전자,LG전자,합계
0,2016-10,233.5392,136.11721,369.7
1,2016-11,214.05206,145.20911,359.3
2,2016-12,159.32536,200.73843,360.1
3,2017-01,112.86761,59.11641,172.0
4,2017-02,121.95995,42.2013,164.2
5,2017-03,129.22589,141.47994,270.7


In [0]:
df[(df.삼성전자 < 150) | (220 < df.삼성전자)]

Unnamed: 0,날짜,삼성전자,LG전자,합계
0,2016-10,233.5392,136.11721,369.7
3,2017-01,112.86761,59.11641,172.0
4,2017-02,121.95995,42.2013,164.2
5,2017-03,129.22589,141.47994,270.7


# 소트

인덱스 혹은 특정 컬럼으로 소트

```python
# 인덱스로 소트 (내림차순) 
df.sort_index(ascending=False)
```

```python
# skt 컬럼으로 (내림차순)
df.sort_values(by='삼성전자', ascending=False)
```

## 인덱스로 소트
ascending=False (내림차순)

In [0]:
df.sort_index(ascending=False) 

Unnamed: 0,날짜,삼성전자,LG전자,합계
5,2017-03,129.22589,141.47994,270.7
4,2017-02,121.95995,42.2013,164.2
3,2017-01,112.86761,59.11641,172.0
2,2016-12,159.32536,200.73843,360.1
1,2016-11,214.05206,145.20911,359.3
0,2016-10,233.5392,136.11721,369.7


## 컬럼으로 소트

ascending=False (내림차순), 일반적으로 TOP-N을 구하는데 많이 사용한다. <br/>
(skt의 광고비 지출이 많은 순서는 5월, 2월, 6월 순)

In [0]:
df.sort_values(by='삼성전자', ascending=False) 

Unnamed: 0,날짜,삼성전자,LG전자,합계
0,2016-10,233.5392,136.11721,369.7
1,2016-11,214.05206,145.20911,359.3
2,2016-12,159.32536,200.73843,360.1
5,2017-03,129.22589,141.47994,270.7
4,2017-02,121.95995,42.2013,164.2
3,2017-01,112.86761,59.11641,172.0


# 축 변환
* 컬럼과 인덱스 축 바꾸기
* 엑셀 선택하여 붙여넣기, 행/열 바꿈
* 대칭 행렬(symmetric matrix)

In [0]:
df

Unnamed: 0,날짜,삼성전자,LG전자,합계
0,2016-10,233.5392,136.11721,369.7
1,2016-11,214.05206,145.20911,359.3
2,2016-12,159.32536,200.73843,360.1
3,2017-01,112.86761,59.11641,172.0
4,2017-02,121.95995,42.2013,164.2
5,2017-03,129.22589,141.47994,270.7


In [0]:
df.T

Unnamed: 0,0,1,2,3,4,5
날짜,2016-10,2016-11,2016-12,2017-01,2017-02,2017-03
삼성전자,233.539,214.052,159.325,112.868,121.96,129.226
LG전자,136.117,145.209,200.738,59.1164,42.2013,141.48
합계,369.7,359.3,360.1,172,164.2,270.7


# 리뷰
* DataFrame 구조  df.columns, df.index, df.values
* 필터링 df[df.skt > 90]
* df.sort_values(by='column', ascending=False) 
* 축 변환 df.T

----
#### 2017 FinanceData http://fb.com/financedata http://financedata.github.com