## 2.4.2 판다스(Pandas)  

판다스에는 세 가지 데이터 타입이 존재한다.

* 시리즈(Series) : 1d
* 데이터프레임(DataFrame) :2d
* 판넬(Panel): 3d

In [1]:
import pandas as pd
import numpy as np

### 시리즈 생성

In [2]:
a = pd.Series([1, 3, 5, 7, 10]) # 리스트를 이용한 시리즈 데이터 생성 
print(a) # a를 확인해보면 index와 함께 값이 나온다.
# 0    1
# 1    3
# 2    5
# 3    7
# 4   10
# dtype: int64

data = np.array(['a', 'b', 'c', 'd']) # 넘파이 배열 생성
b = pd.Series(data) #넘파이 배열을 이용한 시리즈 데이터 생성
print(b)
# 0    a
# 1    b
# 2    c
# 3    d
#  dtype: object

c = pd.Series(np.arange(10,30,5)) # 넘파이 arange함수로 생성한 배열로 시리즈 생성
print(c)
# 0    10
# 1    15
# 2    20
# 3    25
# dtype: int32

0     1
1     3
2     5
3     7
4    10
dtype: int64
0    a
1    b
2    c
3    d
dtype: object
0    10
1    15
2    20
3    25
dtype: int32


In [3]:
a = pd.Series(['a', 'b', 'c'], index=[10, 20, 30]) # 인덱스를 직접 지정한다.
print(a)
# 10    a
# 20    b
# 30    c
# dtype: object

dict = {'a' : 10, 'b' : 20, 'c' : 30} # 파이썬 딕셔너리를 활용한 시리즈 생성
d = pd.Series(dict) # 인덱스가 a,b,c로 된 것을 확인 할 수 있다.
print(d)
# a    10
# b    20
# c    30

10    a
20    b
30    c
dtype: object
a    10
b    20
c    30
dtype: int64


### 데이터 프레임 생성

In [4]:
a = pd.DataFrame([1,3,5,7,9]) # 리스트를 이용한 생성
print(a)
#      0
# 0    1
# 1    3
# 2    5
# 3    7
# 4    9

dict = { 'Name' : [ 'Cho', 'Kim', 'Lee' ], 'Age' : [ 28, 31, 38] }
b = pd.DataFrame(dict) # 딕셔너리를 이용한 생성
print(b)
#      Age    Name
# 0     28     Cho
# 1     31     Kim
# 2     38     Lee

c = pd.DataFrame([['apple', 7000], ['banana', 5000], ['orange', 4000]]) #리스트의 중첩에 의한 생성
print(c)
#          0      1
# 0    apple   7000
# 1   banana   5000
# 2   orange   4000

   0
0  1
1  3
2  5
3  7
4  9
  Name  Age
0  Cho   28
1  Kim   31
2  Lee   38
        0     1
0   apple  7000
1  banana  5000
2  orange  4000


In [5]:
a = pd.DataFrame([['apple', 7000], ['banana', 5000], ['orange', 4000]], columns = ['name', 'price'])
print(a)
#       name  price
# 0    apple   7000
# 1   banana   5000
# 2   orange   4000

     name  price
0   apple   7000
1  banana   5000
2  orange   4000


### 판다스 데이터 불러오기 및 쓰기

In [6]:
data_frame = pd.read_csv( './data_in/datafile.csv')

print(data_frame['A']) # A열의 데이터만 확인
# 2018-02-03    0.076547
# 2018-02-04    0.810574
#                 ...   
# 2018-11-28    0.072067
# 2018-11-29    0.705263
# Freq: D, Name: A, Length: 300, dtype: float64

print(data_frame['A'][:3]) # A열의 데이터 중 앞의 10개만 확인
# 2018-02-03    0.076547
# 2018-02-04    0.810574
# 2018-02-05    0.071555
# Freq: D, Name: A, dtype: float64

data_frame['D'] = data_frame['A'] + data_frame['B'] # A열과 B열을 더한 새로운 C열 생성
print(data_frame ['D'])
# 2018-02-03   -0.334412
# 2018-02-04    1.799571
# 2018-02-05    0.843764
# 2018-02-06    1.079784
# 2018-02-07    0.734765
# Freq: D, Name: D, dtype: float64

0      0.076547
1      0.810574
2      0.071555
3      0.319684
4      0.571791
5      0.501618
6      0.740173
7      0.604684
8      0.112874
9      0.819399
10     0.751857
11     0.084326
12     0.661331
13     0.415605
14     0.592269
15     0.180067
16     0.570409
17     0.162130
18     0.551270
19     0.084859
20     0.793822
21     0.233211
22     0.179105
23     0.218833
24     0.153426
25     0.171619
26     0.810667
27     0.689757
28     0.672307
29     0.487305
         ...   
270    0.946328
271    0.835273
272    0.421884
273    0.810250
274    0.879474
275    0.793671
276    0.565632
277    0.532891
278    0.100557
279    0.714509
280    0.122843
281    0.092435
282    0.556857
283    0.623977
284    0.509852
285    0.626535
286    0.472073
287    0.503937
288    0.175387
289    0.039914
290    0.813115
291    0.557474
292    0.340992
293    0.627730
294    0.977899
295    0.961260
296    0.412032
297    0.934486
298    0.072067
299    0.705263
Name: A, Length: 300, dt

In [7]:
data_frame.describe()

Unnamed: 0,A,B,C,D
count,300.0,300.0,300.0,300.0
mean,0.504467,0.120235,517.743333,0.624702
std,0.283837,0.576256,283.18716,0.65632
min,0.00311,-0.981417,0.0,-0.890799
25%,0.241881,-0.336614,282.25,0.100411
50%,0.528009,0.224035,526.5,0.767702
75%,0.750084,0.59171,754.25,1.141083
max,0.994491,0.989536,996.0,1.857518
