# 파이썬 패키지 - NumPy, Pandas

## 1. NumPy

- Numerical Python의 약자로 배열 또는 다양한 자료구조를 다룰 수 있는 클래스를 포함하는 패키지

### 1) List를 사용한 배열  
#### 다수의 List를 이용해 다차원의 배열을 쉽게 생성

- List 자료형을 이용한 다차원 배열

In [3]:
np = [1.0, 10.4, 3.2, 5.1, 7.5, 2.7] # 변수 np에 실수 list 생성

flotY = [np, np, np] # 변수 flotY에 np list를 3개를 넣어 다차원 배열을 생성
flotY # 3 x 6 크기의 2차원 리스트

[[1.0, 10.4, 3.2, 5.1, 7.5, 2.7],
 [1.0, 10.4, 3.2, 5.1, 7.5, 2.7],
 [1.0, 10.4, 3.2, 5.1, 7.5, 2.7]]

- 1차원 배열 값 추출

In [9]:
# flotY는 다차원 배열
# flotY[n]을 이용해 n차원 배열 값 출력
print(flotY[0])
print(flotY[0][2])

[1.0, 10.4, 3.2, 5.1, 7.5, 2.7]
3.2


- 1차원 값을 변환해 다른 값을 대입했을 때의 다차원 배열

In [13]:
flotY[1] = 'Python'
flotY

[[1.0, 10.4, 3.2, 5.1, 7.5, 2.7], 'Python', [1.0, 10.4, 3.2, 5.1, 7.5, 2.7]]

### 2) NumPy 배열
#### Numpy.ndarray : 배열 타입 다루는 클래스, n차원 배열을 효율적으로 다루기 위한 목적

- Numpy.ndarray를 이용한 code

In [16]:
import numpy as np # import 라이브러리 ad 별명
a = np.array([1, 2.5, 4.0, 5.5, 7.0])
a[3 : ] # 인덱스 3부터 끝까지

array([5.5, 7. ])

array는 index 값을 통해 해당 주소로 접근  
리스트는 데이터까지의 연결 통로인 링크를 통해 접근

- 다양한 함수를 이용한 Numpy.ndarray 배열

In [18]:
a.sum() # 합

20.0

In [20]:
a.std() # 표준편차

2.1213203435596424

In [21]:
a.cumsum() # 누적합

array([ 1. ,  3.5,  7.5, 13. , 20. ])

- 다양한 수학 연산을 적용했을 때의 결과  
ndarray 객체는 벡터화 된 형식의 수학 연산이 가능

In [24]:
print(a)
print(a * 2)
print(a ** 2)     # a^2
print(np.sqrt(a)) # 루트 a

[1.  2.5 4.  5.5 7. ]
[ 2.  5.  8. 11. 14.]
[ 1.    6.25 16.   30.25 49.  ]
[1.         1.58113883 2.         2.34520788 2.64575131]


- axis 축을 기준으로 합계 표현

In [25]:
b = np.array([a, a **2])
b

array([[ 1.  ,  2.5 ,  4.  ,  5.5 ,  7.  ],
       [ 1.  ,  6.25, 16.  , 30.25, 49.  ]])

In [26]:
b.sum(axis = 0) # 축이 0 : 세로 축 합 출력

array([ 2.  ,  8.75, 20.  , 35.75, 56.  ])

In [27]:
b.sum(axis = 1) # 축이 1 : 가로 축 합 출력

array([ 20. , 102.5])

- Numpy.array를 사용해 나타낸 code

In [30]:
np.array([[0, 0, 0,], [0, 0, 0]])

array([[0, 0, 0],
       [0, 0, 0]])

- Numpy.zeros를 사용해 나타낸 code

In [32]:
values = np.zeros((2, 3), dtype = "I") # dtype=I : 정수형 dtype=f : 복소수형
values

array([[0, 0, 0],
       [0, 0, 0]], dtype=uint32)

Numpy.array 예시와 Numpy.zeros 예시는 동일한 결과를 가진다  
즉 라이브러리 사용 방법에 따라 코드를 다르게 표현 가능  

## 2. Pandas

### 1) Series
#### 컬럼이 1개, 1차원, value와 index형태를 갖는 pandas 내 자료구조

- series의 index와 value

In [3]:
import pandas as pd
import numpy as np

pandas_series = pd.Series([3000, 3200, 2700], 
                          index = ['2016-11-10', '2016-11-11', '2016-11-12'])
print(type(pandas_series))
pandas_series

<class 'pandas.core.series.Series'>


2016-11-10    3000
2016-11-11    3200
2016-11-12    2700
dtype: int64

- series를 통해 원하는 위치의 값 출력

In [4]:
pandas_series[1:]

2016-11-11    3200
2016-11-12    2700
dtype: int64

### 1) DataFrame
#### 컬럼이 다수인 데이터 저장, index(행)과 label(열, column)으로 구분

- DataFrame 예제

In [6]:
import numpy as np
import pandas as pd

df = pd.DataFrame([100, 150, 200, 250, 300], columns=['numbers'], 
                  index=['a', 'b', 'c', 'd', 'e'])
df

Unnamed: 0,numbers
a,100
b,150
c,200
d,250
e,300


- DataFrame 객체를 사용하는 예제

In [7]:
df.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [8]:
df.columns

Index(['numbers'], dtype='object')

In [11]:
df.ix['c']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


numbers    200
Name: c, dtype: int64

In [12]:
df.sum()

numbers    1000
dtype: int64

In [13]:
df.numbers**2

a    10000
b    22500
c    40000
d    62500
e    90000
Name: numbers, dtype: int64

- DataFrame의 Column을 추가하는 방법

In [14]:
df['values'] = (10, 50, 40, 30, 60)
df

Unnamed: 0,numbers,values
a,100,10
b,150,50
c,200,40
d,250,30
e,300,60


- DataFrame의 Column 삭제

In [15]:
del df['values']
df

Unnamed: 0,numbers
a,100
b,150
c,200
d,250
e,300


- DataFrame에서 데이터를 맞추지 않았을 경우 다음과 같은 에러를 발생

In [16]:
df['values'] = (10, 20, 30)
df

ValueError: Length of values does not match length of index

- DataFrame에서 Join 사용방법

In [19]:
df_1 = pd.DataFrame(['1', '2', '3'], columns=['A'])
df_2 = pd.DataFrame(['4', '5', '6','7'], columns=['B'])

df = df_1.join(df_2, how='outer')
df

Unnamed: 0,A,B
0,1.0,4
1,2.0,5
2,3.0,6
3,,7


- DataFrame에 난수를 이용한 임의의 값 생성

In [20]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.rand(5,5))
df.columns = ['A', 'B', 'C', 'D', 'E']

df

Unnamed: 0,A,B,C,D,E
0,0.812351,0.774686,0.122917,0.234557,0.536459
1,0.52739,0.453367,0.695798,0.294039,0.940742
2,0.022277,0.039465,0.750436,0.925938,0.963477
3,0.116241,0.573222,0.02415,0.748827,0.969071
4,0.191356,0.310565,0.30203,0.882333,0.146375


In [21]:
df.max() # column별 최대값

A    0.812351
B    0.774686
C    0.750436
D    0.925938
E    0.969071
dtype: float64

In [22]:
df.min()

A    0.022277
B    0.039465
C    0.024150
D    0.234557
E    0.146375
dtype: float64

In [24]:
df.mean() # colums별 평균값

A    0.333923
B    0.430261
C    0.379066
D    0.617139
E    0.711225
dtype: float64

In [25]:
df.std() # column별 표준편차값

A    0.328313
B    0.276880
C    0.330055
D    0.329313
E    0.364826
dtype: float64

In [26]:
df.cumsum() # column별 누적합값

Unnamed: 0,A,B,C,D,E
0,0.812351,0.774686,0.122917,0.234557,0.536459
1,1.339741,1.228053,0.818715,0.528596,1.477201
2,1.362018,1.267518,1.56915,1.454535,2.440678
3,1.478259,1.840739,1.593301,2.203362,3.409748
4,1.669615,2.151305,1.895331,3.085695,3.556123


In [27]:
df.describe() # DataFrame 데이터 통계 요약값

Unnamed: 0,A,B,C,D,E
count,5.0,5.0,5.0,5.0,5.0
mean,0.333923,0.430261,0.379066,0.617139,0.711225
std,0.328313,0.27688,0.330055,0.329313,0.364826
min,0.022277,0.039465,0.02415,0.234557,0.146375
25%,0.116241,0.310565,0.122917,0.294039,0.536459
50%,0.191356,0.453367,0.30203,0.748827,0.940742
75%,0.52739,0.573222,0.695798,0.882333,0.963477
max,0.812351,0.774686,0.750436,0.925938,0.969071


- group by를 이용해 DataFrame의 그룹화

In [28]:
df['division'] = ['X', 'Y', 'X', 'Y', 'Z']
df

Unnamed: 0,A,B,C,D,E,division
0,0.812351,0.774686,0.122917,0.234557,0.536459,X
1,0.52739,0.453367,0.695798,0.294039,0.940742,Y
2,0.022277,0.039465,0.750436,0.925938,0.963477,X
3,0.116241,0.573222,0.02415,0.748827,0.969071,Y
4,0.191356,0.310565,0.30203,0.882333,0.146375,Z


In [30]:
df.groupby(['division']).mean()

Unnamed: 0_level_0,A,B,C,D,E
division,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
X,0.417314,0.407075,0.436676,0.580248,0.749968
Y,0.321815,0.513294,0.359974,0.521433,0.954906
Z,0.191356,0.310565,0.30203,0.882333,0.146375
