Pandas 패키지는 데이터 분석에서 많이 쓰이는 패키지 중 하나로 CSV 파일 등의 데이터를 읽고 원하는 데이터 형식으로 변환한다. 데이터는 보통 Serise나 DataFrame 클래스 형태로 표현하고 속성이나 메소드를 이용해 데이터를 추출, 가공한다.

- Series : 1차원 배열과 비슷하지만 인덱스를 붙일 수 있다.
- DataFrame : 2차원 배열과 비슷하지만 Serise와 마찬가지로 인덱스를 붙일 수 있다. 인덱스는 행, 열 방향으로 붙일 수 있다.

## Pandas 패키지 임포트
관례적으로 'Pandas' 패키지는 'pd'라고 aliasing을 붙인다.

In [2]:
import pandas as pd
import numpy as np

## Series
Series의 생성은 아래와 같이 할 수 있다.

In [7]:
mySeries = pd.Series([10000, 20000, 30000, 40000], index=['1월', '2월', '3월', '4월'])
mySeries

1월    10000
2월    20000
3월    30000
4월    40000
dtype: int64

인덱스를 따로 지정하지 않으면 0부터 시작하는 정수로 이뤄진 값이 인덱스가 된다.

In [5]:
pd.Series(range(10, 50, 10))

0    10
1    20
2    30
3    40
dtype: int64

### Series 속성
- name
- index
- value

In [13]:
mySeries.name = '매출액'
mySeries.index.name = '월'
print(mySeries)

월
1월    10000
2월    20000
3월    30000
4월    40000
Name: 매출액, dtype: int64


In [14]:
print(mySeries.index)
print(mySeries.values)

Index(['1월', '2월', '3월', '4월'], dtype='object', name='월')
[10000 20000 30000 40000]


Series 객체는 NumPy의 배열처럼 Vectorized Opteration 기능을 제공한다.

In [16]:
mySeries / 10

월
1월    1000.0
2월    2000.0
3월    3000.0
4월    4000.0
Name: 매출액, dtype: float64

### 인덱싱 & 슬라이싱 & 인덱싱 기반 연산
Series 객체는 리스트나 배열과 동일한 인덱싱&슬라이싱을 사용할 수 있으며, 추가로 인덱스 label을 이용한 인덱싱&슬라이싱을 사용할 수 있다.
단, 문자열로 슬라이싱을 할 경우 정수 콜론 뒤에 오는 인덱스 값도 포함된다.

#### 인덱싱 & 슬라이싱

In [19]:
mySeries[0], mySeries['1월']

(10000, 10000)

In [20]:
mySeries[0:2], mySeries['1월':'3월']

(월
 1월    10000
 2월    20000
 Name: 매출액, dtype: int64, 월
 1월    10000
 2월    20000
 3월    30000
 Name: 매출액, dtype: int64)

In [22]:
# 아래와 같이 인덱싱을 통해 데이터의 숫자를 바꾸거나 원하는 데이터만 선택할 수 있다.

mySeries[[0, 3, 1]]

월
1월    10000
4월    40000
2월    20000
Name: 매출액, dtype: int64

In [24]:
# 또한, 질의를 사용한 인덱싱이 가능하다.

mySeries[10000 < mySeries]

월
2월    20000
3월    30000
4월    40000
Name: 매출액, dtype: int64

In [30]:
# 인덱스 label 값이 문자열이면 속성처럼 dot(.)를 이용해 접근할 수 있다.

mySeries2 = pd.Series(range(4), index=['a', 'b', 'c', 'd'])
print(mySeries2)
print(mySeries2.a)
print(mySeries2.c)

a    0
b    1
c    2
d    3
dtype: int64
0
2


#### 인덱스 연산

In [34]:
data2016 = pd.Series([50000, 40000, 70000, 20000, 10000], index=['1월', '2월', '3월', '4월', '5월'])
data2017 = pd.Series([30000, 60000, 100000, 80000], index=['1월', '2월', '3월', '4월'])

print(data2016)
print(data2017)

1월    50000
2월    40000
3월    70000
4월    20000
5월    10000
dtype: int64
1월     30000
2월     60000
3월    100000
4월     80000
dtype: int64


두 개의 Series에서 연산을 하는 경우 인덱스가 같은 데이터를 찾아 차이를 구할 수 있다. 만약 서로 인덱스가 일치하지 않는 데이터가 있다면 해당 데이터는 'NaN'으로 표시된다. 

In [35]:
diff = data2017 - data2016
diff

1월   -20000.0
2월    20000.0
3월    30000.0
4월    60000.0
5월        NaN
dtype: float64

In [37]:
print(diff.notnull())
print(diff[diff.notnull()])

1월     True
2월     True
3월     True
4월     True
5월    False
dtype: bool
1월   -20000.0
2월    20000.0
3월    30000.0
4월    60000.0
dtype: float64


#### Series & Dictionary
Series 객체는 인덱스 label <-> 값 관계로 이뤄져 있어 Dictionary 구조와 같다고 볼 수 있다.

또한, dictionary 객체를 사용하여 Series 객체를 만들수도 있다. 단, 데이터의 순서가 보장되지 않으므로 순서를 정하고 싶으면 인덱스를 따로 지정해야 한다.

In [41]:
'1월' in data2017

True

In [43]:
for k, v in data2017.iteritems():
    print("%s = %d" % (k, v))

1월 = 30000
2월 = 60000
3월 = 100000
4월 = 80000


In [48]:
myDict = {'1월':52000, '3월':78000, '4월': 40000, '2월': 68000}
data2018 = pd.Series(myDict)
data2018

1월    52000
2월    68000
3월    78000
4월    40000
dtype: int64

In [47]:
data2018 = pd.Series(myDict, index=['4월', '3월', '2월', '1월'])
data2018

4월    68000
3월    40000
2월    78000
1월    52000
dtype: int64

또한, Dictionary와 마찬가지로 데이터를 추가/삭제/갱신이 가능하다.

In [49]:
data2018['5월'] = 120000
data2018

1월     52000
2월     68000
3월     78000
4월     40000
5월    120000
dtype: int64

In [50]:
data2018['1월'] = 90000
data2018

1월     90000
2월     68000
3월     78000
4월     40000
5월    120000
dtype: int64

In [51]:
del data2018['3월']
data2018

1월     90000
2월     68000
4월     40000
5월    120000
dtype: int64