# Pandas 소개 

* 데이터 분석시 많이 사용되는 패키지 중의 하나
* 시리즈(series) 클래스와 데이터프레임(DataFrame) 클래스 제공
* 시리즈(series) 클래스는 numpy의 1차원 배열과 유사함. 시리즈는 인덱스(index)를 붙일 수 있음.

In [21]:
import pandas as pd

## 시리즈에 대해...

In [22]:
series_test_01 = pd.Series([1234,4323,2343,2343], index=["서울","부산","인천","대구"])
series_test_01

서울    1234
부산    4323
인천    2343
대구    2343
dtype: int64

In [23]:
type(series_test_01)

pandas.core.series.Series

In [24]:
#인덱스 미지정 시, 0부터 숫자가 지정이 됨
series_test_02 = pd.Series([21323,3434,3434,3434])
series_test_02

0    21323
1     3434
2     3434
3     3434
dtype: int64

In [25]:
series_test_01.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [26]:
series_test_01.values

array([1234, 4323, 2343, 2343], dtype=int64)

In [27]:
# name 속성을 이용해 value에 값을 넣을 수 있음 (index도 마찬가지임)
series_test_01.name = '인구'
series_test_01

서울    1234
부산    4323
인천    2343
대구    2343
Name: 인구, dtype: int64

In [28]:
series_test_01.index.name = '도시'
series_test_01

도시
서울    1234
부산    4323
인천    2343
대구    2343
Name: 인구, dtype: int64

## 시리즈 연산 * 인덱싱

* Numpy 배열과 동일하게 벡터화 연산이 가능

In [29]:
series_test_01 * 1000

도시
서울    1234000
부산    4323000
인천    2343000
대구    2343000
Name: 인구, dtype: int64

In [30]:
# 배열 인덱싱이나 인덱스 라벨을 이용한 인덱싱 및 슬라이싱이 가능
series_test_01[1], series_test_01['대구']

(4323, 2343)

In [31]:
series_test_01[[3,1,2]]

도시
대구    2343
부산    4323
인천    2343
Name: 인구, dtype: int64

In [32]:
series_test_01[['인천','서울','부산']]

도시
인천    2343
서울    1234
부산    4323
Name: 인구, dtype: int64

In [33]:
series_test_01

도시
서울    1234
부산    4323
인천    2343
대구    2343
Name: 인구, dtype: int64

In [34]:
series_test_01[0:3]

도시
서울    1234
부산    4323
인천    2343
Name: 인구, dtype: int64

In [35]:
series_test_01['부산':'대구']

도시
부산    4323
인천    2343
대구    2343
Name: 인구, dtype: int64

콜론(:)을 이용해 인덱싱을 할 경우, 숫자는 뒤의 값은 제외되지만, 문자의 경우 뒤의 값이 포함이 됨.

In [36]:
series_test_01.'부산'

SyntaxError: invalid syntax (<ipython-input-36-d2f4c1063bf4>, line 1)

In [37]:
series_test_03 = pd.Series(range(3), index=['a','b','c'])
series_test_03

a    0
b    1
c    2
dtype: int32

In [38]:
# 영어를 인덱스로 지정할 경우, 속성처럼 사용이 가능
series_test_03.b

1

## 시리즈와 사전(dict) 자료형

- 사전(dictionary) 자료형, 대응 관계를 나타낼 수 있는 자료형
- 딕셔너리는 리스트나 튜플처럼 순차적으로(sequential) 해당 요소값을 구하지 않고 Key를 통해 Value를 얻음

## series_dict = pd.Series([34234,76574,2182,9652], index=['가','나','다','라'])
series_dict

In [39]:
dict_series = {'가':34234, '나':76574, '다':2182,'라':9652}
dict_series

{'가': 34234, '나': 76574, '다': 2182, '라': 9652}

In [40]:
# 시리즈 안에 사전 자료형을 넣읈 수가 있음.
dict_series_test = pd.Series({'서울':34234, '대구':76574, '부산':2182,'울산':9652})
dict_series_test

대구    76574
부산     2182
서울    34234
울산     9652
dtype: int64

In [41]:
# 시리즈 안에 사전 자료형을 넣읈 경우, 인덱스 없이 순서를 보장할 수 없음
dict_series_test_sort = pd.Series({'서울':34234, '대구':76574, '부산':2182,'울산':9652}, index=['서울','대구','부산','울산'])
dict_series_test_sort

서울    34234
대구    76574
부산     2182
울산     9652
dtype: int64

In [42]:
for val1, val2 in dict_series_test_sort.iteritems():
    print('%s = %d' % (val1,val2))

서울 = 34234
대구 = 76574
부산 = 2182
울산 = 9652


## 데이터프레임에 대해...

- 시리즈가 1차원 벡터 데이터에 행방향 인덱스(row index)를 붙인 것
- 데이터프레임 클래스는 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷
- 2차원이므로 행방향 인덱스(row index) 뿐 아니라 열방향 인덱스(column index)도 붙일 수 있음

In [43]:
data_test_01 = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns_test = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
rows_test = ["서울", "부산", "인천", "대구"]
data_frame_test = pd.DataFrame(data_test_01, index=rows_test, columns=columns_test)
data_frame_test

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [44]:
data_frame_test.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [45]:
data_frame_test.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [46]:
data_frame_test.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [47]:
data_frame_test.rows

AttributeError: 'DataFrame' object has no attribute 'rows'

## 데이터프레임: 인덱싱

In [52]:
type(data_frame_test['지역'])

pandas.core.series.Series

In [53]:
data_frame_test['지역']

서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [49]:
data_frame_test[['2010','2015']]

Unnamed: 0,2010,2015
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [55]:
# 아래 예시를 위해 Numpy를 호출한다.
import numpy as np

In [56]:
data_frame_test_02 = pd.DataFrame(np.arange(12).reshape(3, 4))
data_frame_test_02

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [57]:
data_frame_test_02 * 100

Unnamed: 0,0,1,2,3
0,0,100,200,300
1,400,500,600,700
2,800,900,1000,1100


In [48]:
# 데이터프레임 연산하기
data_frame_test['2010-2015 증가율'] = data_frame_test['2010-2015 증가율'] * 100

In [42]:
data_frame_test

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [43]:
data_frame_test.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [58]:
# 데이터프레임에 새로운 컬럼 추가하기
data_frame_test['new 2010-2015 증가율'] = (data_frame_test['2015']-data_frame_test['2010'])/data_frame_test['2010']*100
data_frame_test


Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,new 2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283,2.83269
부산,경상권,3448737,3393191,3512547,3655437,0.0163,1.636984
인천,수도권,2890451,2632035,2517680,2466338,0.0982,9.818107
대구,경상권,2466052,2431774,2456016,2473990,0.0141,1.409588


In [49]:
# 데이터프레임을 행/열로 인덱싱 하기 (순서: 열 -> 행)
data_frame_test['2015']['서울']

9904312

In [53]:
# 데이터프레임에서 행 단위로만 인덱싱하려면 슬라이싱(slicing)만 가능
data_frame_test[:1]

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,new 2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,283.0,2.83269


In [52]:
data_frame_test[2:4]

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,new 2010-2015 증가율
인천,수도권,2890451,2632035,2517680,2466338,982.0,9.818107
대구,경상권,2466052,2431774,2456016,2473990,141.0,1.409588


In [54]:
data_frame_test['서울':'인천']

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,new 2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,283.0,2.83269
부산,경상권,3448737,3393191,3512547,3655437,163.0,1.636984
인천,수도권,2890451,2632035,2517680,2466338,982.0,9.818107
