# Pandas를 이용한 데이터 분석 기초

# 1) Pandas Series

파이썬이 인기 있는 이유 중 하나는 파이썬의 기본 자료구조인 리스트, 튜플 딕셔너리가 사용하기 편리하고 데이터를 다루는데 효과적이기 떄문이다.
pandas 역시 효과적인 데이터 분석을 위한 고수준의 자료구조와 데이터 분석 도구를 제공한다.
pandas의 Series는 1차원 데이터를 다루는데 효과적인 자료구조이며, DataFrame 은 행고 열로 구성된 2차원 데이터를 다루는데 효과적인 자료 구조이다.

pandas를 이해하려면 가장 먼저 pandas 의 핵심 자료구조인 Series 와 DataFrame 을 알아야 한다.

## 튜플은 ()
## 리스트는 []

튜플은 리스와 달리 수정이 불강하다, 그 대신 리스트에 비해 속도가 빠르다는 장점이 있다. 그래서 원소를 한번 넣은 후에 수정할 필요가 없으며 속도가 중요한 상황에 리스트 대신 튜플을 사용한다.

## 딕셔터리는 (key-value)
이라는 쌍으로 데이터를 저장 했다. 따라서 키를 가지고 아주 빠르게 값을 찾을 수 있는 자료구조이다.

앞서 pandas 에는Series 와 DataFrame 이라는 두 종류의 자료구조가 있다고 했다. pandas의 Series는 1차원 배열과 같은 자료구조이다. 파이썬 리스트와 튜플도 1차원 배열과 같은 자료 구조인데 왜 pandas 에서는 Series 라는 자료구졸ㄹ 추가로 만들었는지 알아 보자

사실 pandas 의 Series 는 어떤 면에서는 파이썬의 리스트와 비슷하고 어떤면에서는 파이썬의 딕셔너리와 닮은 자료구조이다. 

먼저 Series를 사용하기 앞서 pandas 라는 모듈에서 직접 Series 와 DataFrame 을 로컬 네임스페이스로 임포트한다.

In [2]:
from pandas import Series, DataFrame

In [6]:
kakao = Series([92600, 92400, 92100, 94300, 92300])
print(kakao)

# Series 객체를 생성할 때 따로 인덱스를 지정하지 않았다면 
# 기본적으로 0부터 시작하는 정수 값으로 인덱싱된다.


0    92600
1    92400
2    92100
3    94300
4    92300
dtype: int64


In [7]:
kakao2 = Series([92600, 92400, 92100, 94300, 92300], index=['2016-02-19',
                                                            '2016-02-18',
                                                            '2016-02-17',
                                                            '2016-02-16',
                                                            '2016-02-15'])
print(kakao2)

2016-02-19    92600
2016-02-18    92400
2016-02-17    92100
2016-02-16    94300
2016-02-15    92300
dtype: int64


pandas 의 Series 객체에는 인덱스와 값이 저장되어 있는데 Series 객체의 index 와 value 라는 이름의 속성을 통해 접근할 수 있습니다. 예를 들어, kakao2 객체의 인덱스 값과 저장된 종가를 각각 출력하는 코드는 다음과 같이 작성 가능하다.

In [9]:
for date in kakao2.index :
    print(date)
    
for end_price in kakao2.values :
    print(end_price)

2016-02-19
2016-02-18
2016-02-17
2016-02-16
2016-02-15
92600
92400
92100
94300
92300


## Series 객체의 덧셈 연산

여러분이 네이버,SK,KT 에 대해 10,20,30 주의 주식을 보유하고 있다고 가정하고, 여러분의 친구는 KT,네이버,SK 에 대해 각각 10,30,20 주를 보유하고 있다고 하면, 여러분과 여러분의 친구가 보유하고 있는 네이버 SK,KT 의 주식은 몇주인가 알아보자.

In [10]:
from pandas import Series, DataFrame

mine   = Series([10, 20, 30], index=['naver', 'sk', 'kt'])
friend = Series([10, 30, 20], index=['kt', 'naver', 'sk'])

In [11]:
merge = mine + friend
print(merge)

kt       40
naver    40
sk       40
dtype: int64


위 코드의 출력값을 확인해보면 같은 인덱스를 갖는 값끼리 정상적으로 덧셈이 수행된것을 확인할 수 있다.

# 2) Pandas DataFrame

DataFrmae 이라는 pandas 의 자료구조를 살펴보자. pandas 의 Series 가 1차원 형태의 자료구조라면 DataFrame 은 여러 개의 칼럼(column) 으로 구성된 2차원 형태의 자료구조이다.

In [14]:
from pandas import Series as sr , DataFrame as df

In [15]:
from pandas import Series, DataFrame

raw_data = {'col0': [1, 2, 3, 4],
            'col1': [10, 20, 30, 40],
            'col2': [100, 200, 300, 400]}

data = df(raw_data)
print(data)

   col0  col1  col2
0     1    10   100
1     2    20   200
2     3    30   300
3     4    40   400


In [16]:
data['col0']

0    1
1    2
2    3
3    4
Name: col0, dtype: int64

type 함수를 통해 DataFrame 에 있는 각 칼럼의 타입을 확인해 보면 DataFrame에 있는 각 칼럼은 Series 객체임을 알 수 있다. 즉, DataFrame을 인덱스가 같은 여러개의 Series 객체로 구성된 자료구조로 생각해도 좋다

In [17]:
print(type(data))
print(type(data['col0']))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


In [18]:
daeshin = {'open':  [11650, 11100, 11200, 11100, 11000],
           'high':  [12100, 11800, 11200, 11100, 11150],
           'low' :  [11600, 11050, 10900, 10950, 10900],
           'close': [11900, 11600, 11000, 11100, 11050]}

daeshin_day = DataFrame(daeshin)
print(daeshin_day)

    open   high    low  close
0  11650  12100  11600  11900
1  11100  11800  11050  11600
2  11200  11200  10900  11000
3  11100  11100  10950  11100
4  11000  11150  10900  11050


In [19]:
#DataFrame 객체에서 칼럼의 순서는 DataFrame 객체를 생성할 때 columns라는 키워드를 지정할 수 있습니다.

In [21]:
daeshin_day = DataFrame(daeshin, columns=['open', 'high', 'low', 'close'])

In [22]:
date = ['16.02.29', '16.02.26', '16.02.25', '16.02.24', '16.02.23']
daeshin_day = DataFrame(daeshin, columns=['open', 'high', 'low', 'close'], index=date)

In [23]:
print(daeshin_day)

           open   high    low  close
16.02.29  11650  12100  11600  11900
16.02.26  11100  11800  11050  11600
16.02.25  11200  11200  10900  11000
16.02.24  11100  11100  10950  11100
16.02.23  11000  11150  10900  11050


In [24]:
# 종가에 대해서만 접근
close = daeshin_day['close']
print(close)

16.02.29    11900
16.02.26    11600
16.02.25    11000
16.02.24    11100
16.02.23    11050
Name: close, dtype: int64


In [25]:
# 16년 02월 24일 시가,고가,종가 데이터를 얻어오려면 어떻게 해야할까?
print(daeshin_day['16.02.24'])

KeyError: '16.02.24'

DataFrame 객체의 로우에 접근하려면 ix 메서드를 사용해 인덱스 값을 넘겨주면 된다. 예를들어 , 인덱스값 '16.02.24' 를 전달하면 해당갑슬 가진 로우 데이터를 얻을 수 있다.

In [26]:
day_data = daeshin_day.ix['16.02.24']
print(day_data)
print(type(day_data))

open     11100
high     11100
low      10950
close    11100
Name: 16.02.24, dtype: int64
<class 'pandas.core.series.Series'>


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


In [28]:
print(daeshin_day.columns)
print(daeshin_day.index)

Index(['open', 'high', 'low', 'close'], dtype='object')
Index(['16.02.29', '16.02.26', '16.02.25', '16.02.24', '16.02.23'], dtype='object')
