# 13. Pandas를 사용한 데이터 분석 기초
## 13.1 Pandas Series
- Why Python?
	- python의 기본 자료구조인 리스트, 튜플, 딕셔너리가 사용하기 편리하며, 데이터를 다루는 데 효과적이기 때문.
- Pandas의 Series는 1차원 데이터를 다루는데 효과적인 자료구조이며, DataFrame은 행과 열로 구성된 2차원 데이터를 다루는 데 효과적인 자료구조.

### 13.1.1 파이썬 리스트, 튜플, 딕셔너리

In [1]:
mystock = ['kakao', 'naver']
print(mystock[0])
print(mystock[1])

kakao
naver


In [2]:
for stock in mystock:
    print(stock)

kakao
naver


In [3]:
exam_dic = {'key1': 'room1', 'key2': 'room2'}
print(exam_dic['key1'])
print(exam_dic['key2'])

room1
room2


표13.1 카카오 5일간 종가 데이터

|날짜|종가|
|:----------:|:--------:|
|2016-02-19|92600|
|2016-02-18|92400|
|2016-02-17|92100|
|2016-02-16|94300|
|2016-02-15|92300|

In [4]:
kakao_daily_ending_prices = [92300, 94300, 92100, 92400, 92600]

for price in kakao_daily_ending_prices:
    print(price)

92300
94300
92100
92400
92600


In [5]:
kakao_daily_ending_prices = {'2016-02-19': 92600,
                             '2016-02-18': 92400,
                             '2016-02-17': 92100,
                             '2016-02-16': 94300,
                             '2016-02-15': 92300}
print(kakao_daily_ending_prices['2016-02-19'])

92600


### 13.1.2 Series 기초
- Pandas에는 Series와 DataFrame의 두 종류의 자료구조가 존재함.
- Series는 1차원 배열과 같은 자료구조
- Python의 List, tuple도 1차원 배열과 같은 자료구조인데 왜 Pandas에서는 Series라는 자료구조를 추가로 만든 것일까요?
- Series는 어떤 면에서는 python의 list와 비슷하고 어떤 면에서는 python의 dictionary와 닮은 알쏭달쏭한 자료구조임.

In [10]:
from pandas import Series, DataFrame

kakao = Series([92600, 92400, 92100, 94300, 92300])
print(kakao)

0    92600
1    92400
2    92100
3    94300
4    92300
dtype: int64


- 생성시, 따로 인덱스를 지정하지 않았다면, 기본적으로 0부터 시작함.
- 따라서, 다음과 같이 정수 인덱스 값을 통해 데이터에 접근할 수 있음.

In [11]:
print(kakao[0])
print(kakao[2])
print(kakao[4])

92600
92100
92300


In [13]:
kakao2 = Series([92600, 92400, 92100, 94300, 92300], index=['2016-02-19',
                                                            '2016-02-18',
                                                            '2016-02-17',
                                                            '2016-02-16',
                                                            '2016-02-15'])
print(kakao2)
print(kakao2['2016-02-19'])
print(kakao2['2016-02-18'])

2016-02-19    92600
2016-02-18    92400
2016-02-17    92100
2016-02-16    94300
2016-02-15    92300
dtype: int64
92600
92400


In [14]:
for date in kakao2.index:
    print(date)
    
for ending_price in kakao2.values:
    print(ending_price)

2016-02-19
2016-02-18
2016-02-17
2016-02-16
2016-02-15
92600
92400
92100
94300
92300


In [15]:
mine   = Series([10, 20, 30], index=['naver', 'sk', 'kt'])
friend = Series([10, 30, 20], index=['kt', 'naver', 'sk'])

In [16]:
merge = mine + friend
print(merge)

kt       40
naver    40
sk       40
dtype: int64


## 13.2 Pandas DataFrame
![2차원 형태의 데이터 (출처:다음 증권)](https://wikidocs.net/images/page/4366/r13.09.png)

In [17]:
raw_data = {'col0': [1, 2, 3, 4],
            'col1': [10, 20, 30, 40],
            'col2': [100, 200, 300, 400]}

data = DataFrame(raw_data)
print(data)

   col0  col1  col2
0     1    10   100
1     2    20   200
2     3    30   300
3     4    40   400


In [18]:
data['col0']

0    1
1    2
2    3
3    4
Name: col0, dtype: int64

In [19]:
data['col1']

0    10
1    20
2    30
3    40
Name: col1, dtype: int64

In [20]:
data['col2']

0    100
1    200
2    300
3    400
Name: col2, dtype: int64

In [21]:
type(data['col0'])

pandas.core.series.Series