## 2.4.2 판다스(Pandas)  

판다스에는 세 가지 데이터 타입이 존재한다.

* 시리즈(Series)
* 데이터프레임(DataFrame)
* 판넬(Panel)

In [None]:
import pandas as pd
import numpy as np

### 시리즈 생성

In [None]:
a = pd.Series([1, 3, 5, 7, 10]) # 리스트를 이용한 시리즈 데이터 생성 
print(a) # a를 확인해보면 index와 함께 값이 나온다.
# 0    1
# 1    3
# 2    5
# 3    7
# 4   10
# dtype: int64

data = np.array(['a', 'b', 'c', 'd']) # 넘파이 배열 생성
b = pd.Series(data) #넘파이 배열을 이용한 시리즈 데이터 생성
print(b)
# 0    a
# 1    b
# 2    c
# 3    d
#  dtype: object

c = pd.Series(np.arange(10,30,5)) # 넘파이 arange함수로 생성한 배열로 시리즈 생성
print(c)
# 0    10
# 1    15
# 2    20
# 3    25
# dtype: int32

In [None]:
a = pd.Series(['a', 'b', 'c'], index=[10, 20, 30]) # 인덱스를 직접 지정한다.
print(a)
# 10    a
# 20    b
# 30    c
# dtype: object

dict = {'a' : 10, 'b' : 20, 'c' : 30} # 파이썬 딕셔너리를 활용한 시리즈 생성
d = pd.Series(dict) # 인덱스가 a,b,c로 된 것을 확인 할 수 있다.
print(d)
# a    10
# b    20
# c    30

### 데이터 프레임 생성

In [None]:
a = pd.DataFrame([1,3,5,7,9]) # 리스트를 이용한 생성
print(a)
#      0
# 0    1
# 1    3
# 2    5
# 3    7
# 4    9

dict = { 'Name' : [ 'Cho', 'Kim', 'Lee' ], 'Age' : [ 28, 31, 38] }
b = pd.DataFrame(dict) # 딕셔너리를 이용한 생성
print(b)
#      Age    Name
# 0     28     Cho
# 1     31     Kim
# 2     38     Lee

c = pd.DataFrame([['apple', 7000], ['banana', 5000], ['orange', 4000]]) #리스트의 중첩에 의한 생성
print(c)
#          0      1
# 0    apple   7000
# 1   banana   5000
# 2   orange   4000

In [None]:
a = pd.DataFrame([['apple', 7000], ['banana', 5000], ['orange', 4000]], columns = ['name', 'price'])
print(a)
#       name  price
# 0    apple   7000
# 1   banana   5000
# 2   orange   4000

### 판다스 데이터 불러오기 및 쓰기

In [None]:
data_frame = pd.read_csv( './data_in/datafile.csv')

print(data_frame['A']) # A열의 데이터만 확인
# 2018-02-03    0.076547
# 2018-02-04    0.810574
#                 ...   
# 2018-11-28    0.072067
# 2018-11-29    0.705263
# Freq: D, Name: A, Length: 300, dtype: float64

print(data_frame['A'][:3]) # A열의 데이터 중 앞의 10개만 확인
# 2018-02-03    0.076547
# 2018-02-04    0.810574
# 2018-02-05    0.071555
# Freq: D, Name: A, dtype: float64

data_frame['D'] = data_frame['A'] + data_frame['B'] # A열과 B열을 더한 새로운 C열 생성
print(data_frame ['D'])
# 2018-02-03   -0.334412
# 2018-02-04    1.799571
# 2018-02-05    0.843764
# 2018-02-06    1.079784
# 2018-02-07    0.734765
# Freq: D, Name: D, dtype: float64

In [None]:
data_frame.describe()