# 실습: pandas 02 DataFrame

# DataFrame
* 다양한 데이터를 포함할 수 있는 2차원 자료구조
* 간단한게 시리즈(Series) 객체를 딕셔너리
* 스프레드시트와 시트와 유사

# 예제 데이터
KT와 SKT의 2013년 상반기 광고비 지출 (단위, 천원)


|  월   | KT | SKT |
| ----- | ----- | --- |
| 1월   | 7039177|   5277359|
| 2월   | 6960795|   9523039|
| 3월   | 6438333|   8420870|
| 4월   | 5024973|   8114839|
| 5월   | 7327214|   10809910|
| 6월   | 5891620|   8650904|


In [2]:
import pandas as pd
import numpy as np
from pandas import DataFrame

# DataFame 생성
배열, 리스트, 튜플, ndarray 등으로 부터 생성

In [5]:
month = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun']
exp_kt = [7039177, 6960795, 6438333, 5024973, 7327214, 5891620]
exp_skt = [5277359, 9523039, 8420870, 8114839, 10809910, 8650904]

In [4]:
data = {'month': month, 'kt': exp_kt, 'skt': exp_skt}
df = DataFrame(data)
df

Unnamed: 0,kt,month,skt
0,7039177,Jan,5277359
1,6960795,Feb,9523039
2,6438333,Mar,8420870
3,5024973,Apr,8114839
4,7327214,May,10809910
5,5891620,Jun,8650904


# 컬럼 순서 바꾸기

In [4]:
data = {'month': month, 'kt': exp_kt, 'skt': exp_skt}
df = DataFrame(data, columns=['month', 'kt', 'skt'])
df

Unnamed: 0,month,kt,skt
0,Jan,7039177,5277359
1,Feb,6960795,9523039
2,Mar,6438333,8420870
3,Apr,5024973,8114839
4,May,7327214,10809910
5,Jun,5891620,8650904


In [5]:
df.index

Int64Index([0, 1, 2, 3, 4, 5], dtype='int64')

In [6]:
# 값
df.values

array([['Jan', 7039177, 5277359],
       ['Feb', 6960795, 9523039],
       ['Mar', 6438333, 8420870],
       ['Apr', 5024973, 8114839],
       ['May', 7327214, 10809910],
       ['Jun', 5891620, 8650904]], dtype=object)

In [7]:
# 컬럼
df.columns

Index(['month', 'kt', 'skt'], dtype='object')

# 컬럼 접근

In [6]:
df.month
df.kt # df['kt']

0    7039177
1    6960795
2    6438333
3    5024973
4    7327214
5    5891620
Name: kt, dtype: int64

# 컬럼 추가

In [7]:
df['etc'] = 100
df

Unnamed: 0,kt,month,skt,etc
0,7039177,Jan,5277359,100
1,6960795,Feb,9523039,100
2,6438333,Mar,8420870,100
3,5024973,Apr,8114839,100
4,7327214,May,10809910,100
5,5891620,Jun,8650904,100


# 컬럼간 연산

In [8]:
df['etc'] = df['etc'] + 10
df

Unnamed: 0,kt,month,skt,etc
0,7039177,Jan,5277359,110
1,6960795,Feb,9523039,110
2,6438333,Mar,8420870,110
3,5024973,Apr,8114839,110
4,7327214,May,10809910,110
5,5891620,Jun,8650904,110


# 컬럼 단위 데이터 변경
단위 '천원', 100000로 나누어 억원'으로 단위 변경

In [11]:
df['kt'] =  df['kt'] / 100000.
df['skt'] =  df['skt'] / 100000.
df

Unnamed: 0,month,kt,skt,etc
0,Jan,70.39177,52.77359,110
1,Feb,69.60795,95.23039,110
2,Mar,64.38333,84.2087,110
3,Apr,50.24973,81.14839,110
4,May,73.27214,108.0991,110
5,Jun,58.9162,86.50904,110


# 컬럼간 연산

In [11]:
df['sum'] = np.round(df['kt'] + df['skt'], 1)
df

Unnamed: 0,kt,month,skt,etc,sum
0,7039177,Jan,5277359,110,12316536
1,6960795,Feb,9523039,110,16483834
2,6438333,Mar,8420870,110,14859203
3,5024973,Apr,8114839,110,13139812
4,7327214,May,10809910,110,18137124
5,5891620,Jun,8650904,110,14542524


# 컬럼삭제

In [12]:
del df['etc']
df

Unnamed: 0,kt,month,skt,sum
0,7039177,Jan,5277359,12316536
1,6960795,Feb,9523039,16483834
2,6438333,Mar,8420870,14859203
3,5024973,Apr,8114839,13139812
4,7327214,May,10809910,18137124
5,5891620,Jun,8650904,14542524


# 로우 삭제는 drop을 사용

In [13]:
r_df = df.drop([4,5])
r_df

Unnamed: 0,kt,month,skt,sum
0,7039177,Jan,5277359,12316536
1,6960795,Feb,9523039,16483834
2,6438333,Mar,8420870,14859203
3,5024973,Apr,8114839,13139812


# 컬럼 삭제는 drop 사용, 축 지정

In [14]:
r_df = df.drop(['sum'], axis=1)
r_df

Unnamed: 0,kt,month,skt
0,7039177,Jan,5277359
1,6960795,Feb,9523039
2,6438333,Mar,8420870
3,5024973,Apr,8114839
4,7327214,May,10809910
5,5891620,Jun,8650904


## DataFame 복사

In [18]:
df2 = df.copy()

## ix
* data.ix[rows]  rows 부분의 로우 선택
* data.ix[:, cols]  cols 부분의 컬럼 선택
* data.ix[rows, cols]  rows와 cols에 대항하는 로우와 컬럼 선택


In [16]:
df

Unnamed: 0,kt,month,skt,sum
0,7039177,Jan,5277359,12316536
1,6960795,Feb,9523039,16483834
2,6438333,Mar,8420870,14859203
3,5024973,Apr,8114839,13139812
4,7327214,May,10809910,18137124
5,5891620,Jun,8650904,14542524


In [15]:
df.ix[2] # 인덱스 2 로우

kt        6438333
month         Mar
skt       8420870
sum      14859203
Name: 2, dtype: object

In [21]:
df[3:5] # row 3~4

Unnamed: 0,month,kt,skt,sum
3,Apr,50.24973,81.14839,131.4
4,May,73.27214,108.0991,181.4


In [22]:
df.ix[3:5] # row 3~5

Unnamed: 0,month,kt,skt,sum
3,Apr,50.24973,81.14839,131.4
4,May,73.27214,108.0991,181.4
5,Jun,58.9162,86.50904,145.4


In [23]:
df.ix[:, 'skt':'sum'] # 컬럼 'skt'~'sum' 선택 

Unnamed: 0,skt,sum
0,52.77359,123.2
1,95.23039,164.8
2,84.2087,148.6
3,81.14839,131.4
4,108.0991,181.4
5,86.50904,145.4


In [24]:
df.ix[:2, ['kt','sum']] # 로우 처음부터~2까지, 컬럼  'kt','sum'  선택

Unnamed: 0,kt,sum
0,70.39177,123.2
1,69.60795,164.8
2,64.38333,148.6


## 불린 인덱스

In [25]:
df[df.skt > 90]

Unnamed: 0,month,kt,skt,sum
1,Feb,69.60795,95.23039,164.8
4,May,73.27214,108.0991,181.4


## 다수의 불린 인덱스
* 두개 이상의 컬럼에 대한 조건으로 인덱싱을 할 때는 '&'(AND), '|'(OR), '^'(XOR)연산을 쓸 수 있다. 
* 괄호로 묶어주어야 한다.

In [19]:
df[(df.skt > 50) & (df.kt > 70)]

Unnamed: 0,kt,month,skt,sum
0,7039177,Jan,5277359,12316536
1,6960795,Feb,9523039,16483834
2,6438333,Mar,8420870,14859203
3,5024973,Apr,8114839,13139812
4,7327214,May,10809910,18137124
5,5891620,Jun,8650904,14542524


In [27]:
df[(df.skt > 90) | (df.kt > 70)]

Unnamed: 0,month,kt,skt,sum
0,Jan,70.39177,52.77359,123.2
1,Feb,69.60795,95.23039,164.8
4,May,73.27214,108.0991,181.4


## 인덱스
* 인덱스는 로우, 컬럼의 이름과 정보를 저장하는 객체
* 색인은 변경할 수 없다 (공유), immutable
* 종류: Index, Int64Index, MultiIndex (다중), DatetimeIndex (날짜시간), PeriodIndex (기간)



## 소트

In [28]:
# 인덱스로 소트 (내림차순)
df.sort_index(ascending=False) 

Unnamed: 0,month,kt,skt,sum
5,Jun,58.9162,86.50904,145.4
4,May,73.27214,108.0991,181.4
3,Apr,50.24973,81.14839,131.4
2,Mar,64.38333,84.2087,148.6
1,Feb,69.60795,95.23039,164.8
0,Jan,70.39177,52.77359,123.2


In [29]:
# 컬럼으로 소트 (오름차순)
df.sort_index(axis=1, ascending=True) 


Unnamed: 0,kt,month,skt,sum
0,70.39177,Jan,52.77359,123.2
1,69.60795,Feb,95.23039,164.8
2,64.38333,Mar,84.2087,148.6
3,50.24973,Apr,81.14839,131.4
4,73.27214,May,108.0991,181.4
5,58.9162,Jun,86.50904,145.4


In [30]:
# skt 컬럼으로 (내림차순), skt광고비 지출은 5월, 2월, 6월 순
df.sort_values(by='skt', ascending=False) 


Unnamed: 0,month,kt,skt,sum
4,May,73.27214,108.0991,181.4
1,Feb,69.60795,95.23039,164.8
5,Jun,58.9162,86.50904,145.4
2,Mar,64.38333,84.2087,148.6
3,Apr,50.24973,81.14839,131.4
0,Jan,70.39177,52.77359,123.2


# 재인덱스

In [20]:
dfm = df.reindex(df.index)
dfm

Unnamed: 0,kt,month,skt,sum
0,7039177,Jan,5277359,12316536
1,6960795,Feb,9523039,16483834
2,6438333,Mar,8420870,14859203
3,5024973,Apr,8114839,13139812
4,7327214,May,10809910,18137124
5,5891620,Jun,8650904,14542524


## 축 변환
* 컬럼과 인덱스 축 바꾸기
* 엑셀의 피벗(pivot)

In [21]:
df.T

Unnamed: 0,0,1,2,3,4,5
kt,7039177,6960795,6438333,5024973,7327214,5891620
month,Jan,Feb,Mar,Apr,May,Jun
skt,5277359,9523039,8420870,8114839,10809910,8650904
sum,12316536,16483834,14859203,13139812,18137124,14542524
