## 2.4.2 판다스(Pandas)  

판다스에는 세 가지 데이터 타입이 존재한다.

* 시리즈(Series) : 1차원
* 데이터프레임(DataFrame) : 2차원
* 판넬(Panel) : 3차원

In [1]:
import pandas as pd
import numpy as np

### 시리즈 생성
- 1차원 데이터
- 시리즈는 데이터프레임의 열(column)이다!. 즉 데이터프레임의 각 열은 시리즈이다!
```
padnas.Series(data-필수, index, dtype, copy)
```
- data에 리스트를 집적 넣어서 또는 넘파이배열을 이용해 만들 수 있음

In [10]:
a = pd.Series([1, 3, 5, 7, 10]) # 리스트를 이용한 시리즈 데이터 생성 
print(a) # a를 확인해보면 index와 함께 값이 나온다.

0     1
1     3
2     5
3     7
4    10
dtype: int64


In [8]:
data = np.array(['a', 'b', 'c', 'd']) # 넘파이 배열 생성
b = pd.Series(data) # 넘파이 배열을 이용한 시리즈 데이터 생성
print(b)

0    1
1    b
2    c
3    d
dtype: object


In [4]:
c = pd.Series(np.arange(10,30,5))  # 넘파이 arange함수로 생성한 배열로 시리즈 생성
print(c)

0    10
1    15
2    20
3    25
dtype: int64


In [5]:
a = pd.Series(['a', 'b', 'c'], index=[10, 20, 30]) # 인덱스를 직접 지정한다.
print(a)

10    a
20    b
30    c
dtype: object


In [7]:
dict = {'a':10, 'b':'20', 'c':30} # 파이썬 딕셔너리를 활용한 시리즈 생성
d = pd.Series(dict) # 인덱스가 a,b,c로 된 것을 확인 할 수 있다.
print(d)

a    10
b     c
c    30
dtype: object


### 데이터 프레임 생성
- 2차원 데이터
```
pandas.DataFrame(data=필수, index, columns, dtype, copy)
```
- 시리즈엔 없던 columns가 생김 : 각 열의 라벨을 지정할 수 있음

In [11]:
a = pd.DataFrame([1, 3, 5, 7, 9])
print(a)

   0
0  1
1  3
2  5
3  7
4  9


In [14]:
dict = {'Name': ['Cho', 'Kim', 'Lee'], 'Age': [28, 10, 30]}
b = pd.DataFrame(dict)
print(b)

  Name  Age
0  Cho   28
1  Kim   10
2  Lee   30


In [15]:
c = pd.DataFrame([['apple', 7000], ['banana', 5000], ['orange', 4000]]) #리스트의 중첩에 의한 생성
print(c)

        0     1
0   apple  7000
1  banana  5000
2  orange  4000


In [13]:
# 보통 데이터셋 이렇게 생김
a = pd.DataFrame([['apple', 7000], ['banana', 5000], ['orange', 4000]], columns = ['name', 'price'])
print(a) 

     name  price
0   apple   7000
1  banana   5000
2  orange   4000


### 판다스 데이터 불러오기 및 쓰기

In [17]:
data_frame = pd.read_csv('../dataset/datafile.csv')
data_frame

Unnamed: 0.1,Unnamed: 0,A,B,C
0,2018-02-03,0.076547,-0.410959,824
1,2018-02-04,0.810574,0.988997,255
2,2018-02-05,0.071555,0.772209,859
3,2018-02-06,0.319684,0.760100,551
4,2018-02-07,0.571791,0.162974,159
...,...,...,...,...
295,2018-11-25,0.961260,-0.160928,772
296,2018-11-26,0.412032,0.739386,171
297,2018-11-27,0.934486,0.496985,925
298,2018-11-28,0.072067,0.697545,919


In [18]:
print(data_frame['A'])  # A열의 데이터만 확인

0      0.076547
1      0.810574
2      0.071555
3      0.319684
4      0.571791
         ...   
295    0.961260
296    0.412032
297    0.934486
298    0.072067
299    0.705263
Name: A, Length: 300, dtype: float64


In [19]:
print(data_frame['A'][:3]) # A열 중 앞에 3개만 반환

0    0.076547
1    0.810574
2    0.071555
Name: A, dtype: float64


In [21]:
data_frame['D'] = data_frame['A'] + data_frame['B'] # A열과 B열을 더한 새로운 D열 생성
print(data_frame ['D'])

0     -0.334412
1      1.799571
2      0.843764
3      1.079784
4      0.734765
         ...   
295    0.800332
296    1.151419
297    1.431471
298    0.769612
299   -0.161041
Name: D, Length: 300, dtype: float64


In [22]:
data_frame

Unnamed: 0.1,Unnamed: 0,A,B,C,D
0,2018-02-03,0.076547,-0.410959,824,-0.334412
1,2018-02-04,0.810574,0.988997,255,1.799571
2,2018-02-05,0.071555,0.772209,859,0.843764
3,2018-02-06,0.319684,0.760100,551,1.079784
4,2018-02-07,0.571791,0.162974,159,0.734765
...,...,...,...,...,...
295,2018-11-25,0.961260,-0.160928,772,0.800332
296,2018-11-26,0.412032,0.739386,171,1.151419
297,2018-11-27,0.934486,0.496985,925,1.431471
298,2018-11-28,0.072067,0.697545,919,0.769612


In [23]:
data_frame.describe()

Unnamed: 0,A,B,C,D
count,300.0,300.0,300.0,300.0
mean,0.504467,0.120235,517.743333,0.624702
std,0.283837,0.576256,283.18716,0.65632
min,0.00311,-0.981417,0.0,-0.890799
25%,0.241881,-0.336614,282.25,0.100411
50%,0.528009,0.224035,526.5,0.767702
75%,0.750084,0.59171,754.25,1.141083
max,0.994491,0.989536,996.0,1.857518
