## 학습목표
 1. 수치해석 라이브러리인 numpy의 이해 및 사용
 2. 데이터 분석 라이브러이인 pandas의 이해 및 사용

## numpy
 - 파이썬의 대표적인 수치해석 라이브러리
 - 벡터, 행렬등의 최적화된 data structure와 다양한 연산 제공
 - 다른 많은 machine learnig, 혹은 data analysis 패키지들에서 많이 사용 됨

* **numpy 모듈**
  - 모듈 설치 
    - pip install numpy
  - 모듈 임포트
    - import numpy as np (관례적으로 np 사용)

In [1]:
import numpy as np
print np.__version__

1.12.1


* **ndarray**
 - numpy의 기본 타입
 - n dimentional array를 의미
 - vector, matrix를 표현
 - numpy.array([])로 생성

In [2]:
arr1 = np.array([1, 3, 4, 6])
arr2 = np.array([[0, 1, 2], [2, 4, 6]])

print arr1, type(arr1)
print arr2, type(arr2)

[1 3 4 6] <type 'numpy.ndarray'>
[[0 1 2]
 [2 4 6]] <type 'numpy.ndarray'>


* **arange**
 - 내장 함수 range()와 동일한 기능을 수행함
 - ndarray 반환

In [3]:
arr3 = np.arange(1, 11)
print arr3, type(arr3)

[ 1  2  3  4  5  6  7  8  9 10] <type 'numpy.ndarray'>


* **linspace**
 - start, end를 n개의 균일한 간격으로 분할

In [4]:
# 0 - 2의 범위를 5-1 등분 한다는 이야기
arr4 = np.linspace(0, 2, 5)   # 0부터 2까지를 5개로 쪼개라! 등분은 n-1   /  그래프에서 축의 눈금을 표기할 때 많이 쓰임
print arr4

[ 0.   0.5  1.   1.5  2. ]


* **zeros**
 - 전달된 tuple 사이즈 행렬 반환
 - 0으로 채워짐

In [211]:
print np.zeros((2, 4))
print np.zeros(4)

print np.zeros((1,5))

[[ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]]
[ 0.  0.  0.  0.]
[[ 0.  0.  0.  0.  0.]]


* **ones**
 - 전달된 tuple 사이즈 행렬 반환
 - 1로 채워짐

In [212]:
print np.ones((3, 3))
#print np.ones(3)

[[ 1.  1.  1.]
 [ 1.  1.  1.]
 [ 1.  1.  1.]]


* **random sub package**
  - 다양한 확률 분포를 이용한 랜덤 숫자로 채워진 ndarray 혹은 단일 값을 생성할 때 주로 사용

In [213]:
print np.random.rand(3,3) # [0, 1) 사이 출력
print np.random.randn(3) # 정규분포 , normal의 약자

[[ 0.53006936  0.52577183  0.08255839]
 [ 0.62897307  0.56691797  0.33074864]
 [ 0.75626652  0.08117131  0.88216942]]
[ 0.82406109 -0.59774887  0.46740996]


In [216]:
a = np.random.rand()

In [217]:
print a

0.423459918769


* ** seed ** 
 - 실험, 분석 등을 할 때, 랜덤 값 생성 시, 해당 값을 추후에 또 사용해야 할 경우가 필요
 - 해당 경우에는 seed함수를 미리 호출하여 랜덤한 값을 동일 한 값으로 유지 할 수 있음
 - seed() 함수 호출 시, 정수를 전달

In [41]:
np.random.seed(15)
print np.random.rand(2,3)

[[ 0.8488177   0.17889592  0.05436321]
 [ 0.36153845  0.27540093  0.53000022]]


In [36]:
np.random.seed(0) # 랜덤한 값을 계속 유지하고 싶을 때 사용
print np.random.rand()

np.random.seed(2) # 랜덤한 값을 계속 유지하고 싶을 때 사용
print np.random.rand()

0.548813503927
0.435994902142


* **slicing**
 - 리스트, 문자열 slicing과 동일함
 - 단, ndarray의 차원이 높을 경우에는, 각 차원별로 slicing, indexing 가능

In [222]:
arr1 = np.array([1, 3, 4, 6])
arr9 = np.array([[0, 1, 3], [2, 4, 6]])


In [228]:
print arr1[0]
print arr1[1:-1] # 차원이 줄지 않는다. 차원의 개념은 처음 만나는 대가로의 갯수 
print arr9[1:, 0:]

1
[3 4]
[[2 4 6]]


In [2]:
print arr2[0]   # 차원이 준다. 왜냐면 여러 차원 중 하나를 택하기 때문에.
print arr2[0,1] # 조건이 추가 될 수록, 차원도 준다. 
print arr2[1:, 0:] # 슬라이싱은 차원을 유지한다. [ 행 : 열]
print arr2[1:, 0] # 인덱싱과 슬라이싱을 동시에 하면, 차원이 준다. 

NameError: name 'arr2' is not defined

In [231]:
print arr9[:,:1]  

[[0]
 [2]]


* **Boolean selection**
  - bool 리스트로 해당 값이 True인 조건만 필터링

In [58]:
arr = np.array([1,2,4,8,9,6,12,13])
lst = [1,2,4,8,9,6,12,13]

print arr % 2 == 0

[False  True  True  True False  True  True False]


In [61]:
#불린의 조건을 

even_mask = (arr % 2 == 0)
print even_mask

print arr[even_mask] #even_mask의 True인 값만 가져옴

print arr[arr % 2 == 0] 

print arr[[True, False, True, False, True, False]]

# 개수가 맞지 않아도 가능은 함 (warning)
print arr[[True, False]]

print arr[arr>=7] #중복 조건 가능함, but, 'AND', 'OR'문자로 쓸수 없음. 기호로 써야함 AND = &, OR = | , NOT = !

[False  True  True  True False  True  True False]
[ 2  4  8  6 12]
[ 2  4  8  6 12]
[1 4 9]
[1]
[ 8  9 12 13]


  # Remove the CWD from sys.path while we load stuff.
  del sys.path[0]


* **ndarray operations**
  - scala와의 연산은 전체 원소에 대해 적용
  - 다른 ndarray와의 연산은 element-wise로 적용

In [62]:
arr = np.arange(1, 7) * 5
print arr

[ 5 10 15 20 25 30]


In [63]:
arr2 = arr ** 4
print arr2
print arr2 ** 0.5

[   625  10000  50625 160000 390625 810000]
[  25.  100.  225.  400.  625.  900.]


In [235]:
arr1 = np.arange(0, 30, 3) + 3
arr2 = np.arange(1, 11)
print arr1, arr2

print arr1 - arr2 # 각 원소들의 뺄셈
print arr1 * arr2 # 각 원소들의 곱
print arr1 * arr1 # 각 원소들의 제곱
#print arr1 ^2 
print arr1 ** 2 

[ 3  6  9 12 15 18 21 24 27 30] [ 1  2  3  4  5  6  7  8  9 10]
[ 2  4  6  8 10 12 14 16 18 20]
[  3  12  27  48  75 108 147 192 243 300]
[  9  36  81 144 225 324 441 576 729 900]
[  9  36  81 144 225 324 441 576 729 900]


In [236]:
arr1 = np.array([[3, 1], [1, 1]]) # 행렬 2차원
arr2 = np.array([[2, 2], [2, 2]])

print arr1 * arr2  # 원소끼리의 곱
print arr1.dot(arr2) # 행렬 곱 

[[6 2]
 [2 2]]
[[8 8]
 [4 4]]


* **logical operator**
  - all()
    - 모든 원소가 조건을 만족 시키면 True, 아니면 False
  - any()
    - 어떤 원소라도 조건을 만족 시키면 True, 아니면 False

In [66]:
arr = np.random.randint(1, 10, size = (4,4)) # 1부터 10까지 수에서 4BY4 행렬을 달라.
print arr

[[2 8 1 5]
 [8 6 4 7]
 [9 3 2 2]
 [1 6 3 3]]


In [243]:
arr22 = np.random.randint(1,10,size=(4,4))
print arr22


[[1 3 7 5]
 [6 5 3 8]
 [7 4 8 8]
 [9 8 7 4]]


In [67]:
print np.all(arr < 7)

False


In [68]:
print np.any(arr % 7 == 0)

True


* **ravel**
  - 다차원배열을 1차원으로 늘이기

In [69]:
arr = np.array([np.arange(1, 6), np.arange(10, 15)])
print arr
print arr.ravel()

[[ 1  2  3  4  5]
 [10 11 12 13 14]]
[ 1  2  3  4  5 10 11 12 13 14]


* **reshaping**
 - array의 shape을 재정렬
 - 이때, 서로의 전체 원소 개수가 맞아야 가능

In [247]:
arr = np.arange(1, 16) # 벡터 값
print arr

arr2 = arr.reshape(3, 5) # 3 BY 5로 바꿔버림.
print arr2
print arr

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]]
[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]


* **자주 쓰는 numpy 함수**

In [71]:
print arr
print np.min(arr)
print np.mean(arr)
print np.median(arr)
print np.max(arr)
print np.std(arr) # 분산
print np.argmin(arr) # 제일 작은 값의 인덱스
print np.argmax(arr) # 제일 큰 값의 인덱스
print np.sum(arr) # 합
print np.sqrt(arr) # 루트 

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]
1
8.0
8.0
15
4.32049379894
0
14
120
[ 1.          1.41421356  1.73205081  2.          2.23606798  2.44948974
  2.64575131  2.82842712  3.          3.16227766  3.31662479  3.46410162
  3.60555128  3.74165739  3.87298335]


* **axis** 차원의 축!
 - 몇몇 함수에는 axis keyword 파라미터가 존재
 - axis값이 없는 경우에는 전체 데이터에 대해 적용
 - axis값이 있는 경우에는, 해당 axis를 **따라서** 연산 적용

In [75]:
arr2 = np.array([[1,2,3],[4,5,6]])
print np.sum(arr2)

21


In [76]:
# 1차원 적용
arr2 = np.array([1, 2, 3])
print np.sum(arr2, axis=0)

6


In [80]:
arr2 = np.array([[1, 2, 3], [4, 5, 6]])
print arr2

[[1 2 3]
 [4 5 6]]


In [77]:
# 2차원 적용
arr2 = np.array([[1, 2, 3], [4, 5, 6]])
print np.sum(arr2, axis=0) # 행 따라 간다
print np.sum(arr2, axis=1) # 열 따라 간다.

[5 7 9]
[ 6 15]


In [84]:
# 3차원 적용 - 앞 뒤 축이 하나 생김
arr2 = np.array([[[1, 2, 3], [4, 5, 6]], [[1, 1, 1], [2, 2, 2]]] )
#2 by 3 행렬 2개가 앞 뒤로 있는 3차원 행렬

#arr 좌표
#(0,0,0), (0,0,1) (0,0,2)
#(0,1,0), (0,1,1) (0,1,2)
#(0,2,0), (0,2,1) (0,2,2)


print np.sum(arr2, axis=0)
print np.sum(arr2, axis=1)
print np.sum(arr2, axis=2)

[[2 3 4]
 [6 7 8]]
[[5 7 9]
 [3 3 3]]
[[ 6 15]
 [ 3  6]]


* **pandas**
  - http://pandas.pydata.org/
  - Opensource python 고성능 데이터 분석 라이브러리
  - DataFrame, Series 객체가 가장 많이 사용
  - ML library인 scikit-learn과 함께 ML 분석에 많이 사용 됨
  - pip install pandas로 설치
  - 관례적으로 pd 로 임포트

In [87]:
import numpy as np   # 수치해석
import pandas as pd  # 파이썬의 엑셀

 * **Series**  #인데스와 값이 있는 것 = dict
  - pandas의 기본 객체 중 하나
  - numpy의 ndarray를 기반으로 인덱싱을 기능을 추가하여 1차원 배열을 나타냄
  - index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스 생성
  - 같은 타입의 0개 이상의 데이터를 가질 수 있음

In [89]:
s1 = pd.Series([1,2,20])
print s1

0     1
1     2
2    20
dtype: int64


In [90]:
print s1[0]

1


In [91]:
s2 = pd.Series(range(1, 6))
print s2

0    1
1    2
2    3
3    4
4    5
dtype: int64


 * **값 및 인덱스 접근**
  - 각가 values, index 속성

In [92]:
print s2.values

[1 2 3 4 5]


In [93]:
print s2.index

RangeIndex(start=0, stop=5, step=1)


* **index 지정하기**

In [94]:
s3 = pd.Series(range(1, 4), index = ['a', 'b', 'c']) # 인데스를 지정할 수 있다. range함수 이용하여 원하는 숫자로 인데스 설정을 할 수 있다. 
print s3
print
print s3.values
print
print s3.index

# 알파벳순으로 나오가 하기 _ chr(i) for in in range(97, 100)

a    1
b    2
c    3
dtype: int64

[1 2 3]

Index([u'a', u'b', u'c'], dtype='object')


In [95]:
print s3[1] # 기본 인덱스  #인덱스가 2개가 된다.
print s3['c'] 

2
3


* **index 재사용**

In [96]:
s4 = pd.Series(2, index = s3.index) 
print s4

a    2
b    2
c    2
dtype: int64


In [97]:
s5 = pd.Series(np.random.randn(5))
print s5

0    0.251747
1    1.121979
2   -0.845026
3   -1.354108
4   -1.140946
dtype: float64


In [260]:
s6 = pd.Series(np.arange(1, 9))
print s6

0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
dtype: int64


In [None]:
s7 = pd.Series({'a' : 100, 'b' : 1000, 'c' : 2, 'd' : 6})
print s7
print s7['b']

* **Series size, shape, unique, count, value_counts**
 - size : 개수 반환
 - shape : 튜플형태로 shape반환
 - unique: 유일한 값만 ndarray로 반환
 - count : NaN을 제외한 개수를 반환 / not a number 숫자가 아닌 것
 - value_counts: NaN을 제외하고 각 값들의 빈도를 반환 

In [98]:
s = pd.Series([0, 1, 1, 2, 3, 4, 5, 6, 7, np.nan])
print s

0    0.0
1    1.0
2    1.0
3    2.0
4    3.0
5    4.0
6    5.0
7    6.0
8    7.0
9    NaN
dtype: float64


In [99]:
print len(s)

10


In [100]:
print s.size

10


In [101]:
print s.shape

(10,)


In [102]:
print s.count() # NaN을 제외한 값을 카운팅

9


In [103]:
print s.unique()

[  0.   1.   2.   3.   4.   5.   6.   7.  nan]


In [104]:
print s.value_counts() # NaN 제외하고 값들의 빈도를 카운팅 함  #데이타 분석시 많이 사용함.

1.0    2
7.0    1
6.0    1
5.0    1
4.0    1
3.0    1
2.0    1
0.0    1
dtype: int64


* **head, tail, take**
 - head : 상위 n개 출력 기본 5개
 - tail : 하위 n개 출력 기본 5개
 - take : 주어진 인덱스 리스트와 매칭되는 원소만 추출

In [105]:
s.head() # 상위 5개 출력

0    0.0
1    1.0
2    1.0
3    2.0
4    3.0
dtype: float64

In [106]:
s.head(n = 3)

0    0.0
1    1.0
2    1.0
dtype: float64

In [107]:
s.tail()

5    4.0
6    5.0
7    6.0
8    7.0
9    NaN
dtype: float64

In [108]:
s.tail(n = 2)

8    7.0
9    NaN
dtype: float64

In [109]:
print s
print 
print s.take([0, 4, 3, 9])  #인데스 기준 값 호출

0    0.0
1    1.0
2    1.0
3    2.0
4    3.0
5    4.0
6    5.0
7    6.0
8    7.0
9    NaN
dtype: float64

0    0.0
4    3.0
3    2.0
9    NaN
dtype: float64


In [None]:
s = pd.Series(np.arange(1, 4), index = ['x', 'y', 'z'])
s.take([0, 2])
#s.take(['x', 'z']) #0 - based index만 가능

 * **single value accessing**
  - 인덱스를 이용하여 값 접근 가능
  - 문자열 인덱스가 주어진 경우, 0-based index도 사용 가능
  

In [None]:
print s['x'] # 인덱스로 가능

In [110]:
print s[1] # 숫자 인덱스도 가능

1.0


In [112]:
s = pd.Series(np.arange(1, 4), index = [100, 101, 102])
print s[100]
print s[101] # 에러

1
2


* **multiple values accessing**
 - 인덱스 리스트, ndarray로 여러 값에 접근 가능

In [114]:
print s
print s[[100, 102,103]]  # take 같은 기능.  #복수의 값을 호출하려면, 꼭 리스트로 만들어야 한다.

100    1
101    2
102    3
dtype: int64
100    1.0
102    3.0
103    NaN
dtype: float64


* **loc , iloc**
  - loc[] : index로 값 접근
  - iloc[] : 0 based index로 값 접근

In [115]:
print s

100    1
101    2
102    3
dtype: int64


In [119]:
print s.loc[100] #지정 index사용 / 슬라이싱도 가능


1


In [117]:
print s.iloc[0] #0 base index사용 / ㅅ슬라이싱도 가능

1


In [122]:
print s.loc[[100, 102]] # 100번째, 102번째

100    1
102    3
dtype: int64


In [121]:
print s.iloc[[0, 2]] #0번째, 2번째

100    1
102    3
dtype: int64


In [120]:
s.loc[[100, 102, 104, 105]]

100    1.0
102    3.0
104    NaN
105    NaN
dtype: float64

In [124]:
# 에러 발생
# 인덱스 4가 없기 때문
s.iloc[[0, 2, 1]] 

100    1
102    3
101    2
dtype: int64

* **index를 기준으로 더하기**

In [262]:
s1 = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print s1

a    1
b    2
c    3
d    4
dtype: int64


In [261]:
s2 = pd.Series([4, 3, 2, 1], index=['d', 'e', 'b', 'a'])
print s2

d    4
e    3
b    2
a    1
dtype: int64


In [263]:
print s1 + s2

a    2.0
b    4.0
c    NaN
d    8.0
e    NaN
dtype: float64


In [128]:
a1 = np.array([1, 2, 3, 4])
a2 = np.array([4, 3, 2, 1])
a1 + a2  #논파이는 차례대로 더하고 // 시리즈는 지정된 인덱스끼리 더한다. 

array([5, 5, 5, 5])

* **산술연산**
 - Series의 경우에도 스칼라와의 연산은 각 원소별로 스칼라와의 연산이 적용
 - Series와의 연산은 각 인덱스에 맞는 값끼리 연산이 적용
   - 이때, 인덱스의 pair가 맞지 않으면, 결과는 NaN 

In [130]:
print s1

a    1
b    2
c    3
d    4
dtype: int64


In [131]:
print s1 ** 2
print s1

a     1
b     4
c     9
d    16
dtype: int64
a    1
b    2
c    3
d    4
dtype: int64


In [129]:
exp = pd.Series(2, s1.index)
print s1 ** exp

a     1
b     4
c     9
d    16
dtype: int64


In [132]:
s1 = pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 5})
s2 = pd.Series({'b': 6, 'c': 7, 'd': 9, 'e': 10})

print s1 + s2

# 일치하는 인덱스가 없는 경우 NaN표시

a     NaN
b     8.0
c    10.0
d    14.0
e     NaN
dtype: float64


 * **NaN (Not a Number)**
  - numpy와 비교

In [134]:
nda = np.array([1, 2, 3, 4, 5])
nda.mean() 
np.mean(nda)

3.0

In [133]:
nda = np.array([1, 2, 3, 4, np.NaN])
nda.mean() #nan을 걸러내지 못함.

nan

In [135]:
s = pd.Series([1, 2, 3, 4, np.NaN])
print s.mean() #nan 빼고 계산한다. 
print s.mean(skipna=False)

2.5
nan


 * **Boolean selection**
  - boolean Series가 []와 함께 사용되면 True 값에 해당하는 값만 새로 반환되는 Series객체에 포함됨

In [136]:
s = pd.Series(np.arange(1, 10))
s > 5
print s[s > 5]

5    6
6    7
7    8
8    9
dtype: int64


In [None]:
my_logic = s > 5
print s[my_logic]

In [137]:
print s[s > 5]
# 대부분 간소화 하여 사용!

5    6
6    7
7    8
8    9
dtype: int64


In [141]:
#print s > 5 and s < 8
#print s[s > 5 and s < 8]
print s[(s > 5) & (s < 8)] # & and , | or  #문자가 아닌 기호로만 가능!!!

5    6
6    7
dtype: int64


In [138]:
print (s >= 0).all()
print (s >= 2).all()

True
False


In [139]:
print (s < 2).any()
print s[s < 2].any()

True
True


In [140]:
print s
print 
print s[s >= 7].sum() # 7보다 큰 수들의 합!
print (s >= 7).sum()

0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
8    9
dtype: int64

24
3


* **Series 값 변경**
  - 인덱스를 이용하여 변경  


In [142]:
s = pd.Series([1, 10, 100], index = ['a', 'b', 'c'])
s['d'] = 1000

print s

#키가 없는 경우 값 추가

s['d'] = 10000
print s

#키가 있는 경우 값 변경

a       1
b      10
c     100
d    1000
dtype: int64
a        1
b       10
c      100
d    10000
dtype: int64


In [143]:
del s['a']
print s

#del함수 사용하여 지움

b       10
c      100
d    10000
dtype: int64


* **Slicing**
 - 리스트, ndarray와 동일하게 적용

In [144]:
s.value_counts()

10000    1
10       1
100      1
dtype: int64

In [145]:
s = pd.Series(np.arange(100, 110), index=np.arange(10, 20))
print s
print s[0:5] #0번째 ~ 4번째
print s[:5] # 0번째 ~ 4번째
print s[5:] # 5번째 ~ 전체
print s[-3:]

10    100
11    101
12    102
13    103
14    104
15    105
16    106
17    107
18    108
19    109
dtype: int64
10    100
11    101
12    102
13    103
14    104
dtype: int64
10    100
11    101
12    102
13    103
14    104
dtype: int64
15    105
16    106
17    107
18    108
19    109
dtype: int64
17    107
18    108
19    109
dtype: int64


* **DataFrame**   진짜 짱 중요함!!!
  - Series가 1차원이라면 DataFrame은 2차원으로 확대된 버젼
  - Excel spreadsheet이라고 생각하면 이해하기 쉬움
  - 2차원이기 때문에 인덱스가 row, column로 구성됨 ,  3차원 없음
  - 엑셀처럼 행 렬이 구성된다. 
  - 가장 많이 쓴다

In [None]:
import numpy as np
import pandas as pd

In [146]:
df = pd.DataFrame(np.array([[10, 11], [20, 22]]))
print df

    0   1
0  10  11
1  20  22


In [148]:
df = pd.DataFrame(np.array([2, 1, 2, 3]))
print df, type(df)

#프레임에서 1차원은 큰 의미가 없다.

   0
0  2
1  1
2  2
3  3 <class 'pandas.core.frame.DataFrame'>


* **shape**
 - row, column에 대한 튜플 값으로 볼 수 있음
 - 차원이 아니라 모양

In [150]:
df1 = pd.DataFrame([pd.Series(np.arange(10, 15)) ,
            pd.Series(np.arange(20, 25))])
print df1
print df1.shape  # (2,5)를 출력 -> 2개의 행과, 5개의 열이 있다는 것을 의미함.
print 
print df1.info() # 
print 
print df1.describe()


#데이타 프레임을 생성하면, 가장먼저 shape 체크 -> info 체크 (타입확인) -> describe 체크 (기본적인 통계체크)

    0   1   2   3   4
0  10  11  12  13  14
1  20  21  22  23  24
(2, 5)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 5 columns):
0    2 non-null int64
1    2 non-null int64
2    2 non-null int64
3    2 non-null int64
4    2 non-null int64
dtypes: int64(5)
memory usage: 152.0 bytes
None

               0          1          2          3          4
count   2.000000   2.000000   2.000000   2.000000   2.000000
mean   15.000000  16.000000  17.000000  18.000000  19.000000
std     7.071068   7.071068   7.071068   7.071068   7.071068
min    10.000000  11.000000  12.000000  13.000000  14.000000
25%    12.500000  13.500000  14.500000  15.500000  16.500000
50%    15.000000  16.000000  17.000000  18.000000  19.000000
75%    17.500000  18.500000  19.500000  20.500000  21.500000
max    20.000000  21.000000  22.000000  23.000000  24.000000


In [151]:
df = pd.DataFrame(np.array([[10, 20], [20, 30]]), columns = ['a', 'b']) #컬럼을 바꿀 수 있다. 
print df
print df.columns
print df.columns[0], df.columns[1]

df.columns = ['t1', 't2']
print df

    a   b
0  10  20
1  20  30
Index([u'a', u'b'], dtype='object')
a b
   t1  t2
0  10  20
1  20  30


In [265]:
df = pd.DataFrame(np.array([[10, 20],[20,30]]), columns = ['a','b'])
print df

df.columns = ['t1','t2']
print df

    a   b
0  10  20
1  20  30
   t1  t2
0  10  20
1  20  30


In [152]:
df = pd.DataFrame(np.array([[10, 20], [20, 30]]), 
                  columns = ['a', 'b'], index = ['d1', 'd2'])
print df
print df.index

     a   b
d1  10  20
d2  20  30
Index([u'd1', u'd2'], dtype='object')


* **Series dictionary로 부터 생성**

In [None]:
s1 = pd.Series(np.arange(1, 6, 1))
s2 = pd.Series(np.arange(6, 11, 1))
df = pd.DataFrame({'c1': s1, 'c2': s2})

print df

* **csv 데이터로 부터 dataframe 생성**
  - dataframe을 생성하는 가장 보편적인 방법
  - 데이터 소스로부터 추출된 csv(comma separated values) 파일로 부터 df 생성

In [156]:
sample_df = pd.read_csv('sample.csv')
sample_df.head(n=10)

Unnamed: 0,Symbol,Name,Sector,Price,Dividend Yield,Price/Earnings,Earnings/Share,Book Value,52 week low,52 week high,Market Cap,EBITDA,Price/Sales,Price/Book,SEC Filings
0,MMM,3M Company,Industrials,177.12,2.53,22.77,7.78,19.34,134.0,177.79,107.43,8.57,3.52,9.04,http://www.sec.gov/cgi-bin/browse-edgar?action...
1,ABT,Abbott Laboratories,Health Care,41.89,2.55,25.79,1.62,14.1,36.0,51.74,61.54,4.4,2.98,2.93,http://www.sec.gov/cgi-bin/browse-edgar?action...
2,ABBV,AbbVie,Health Care,64.16,3.6,19.29,3.33,2.87,45.45,71.6,103.77,10.3,4.31,22.09,http://www.sec.gov/cgi-bin/browse-edgar?action...
3,ACN,Accenture plc,Information Technology,115.11,1.94,19.45,5.92,11.45,88.43,120.78,71.66,5.42,2.17,9.84,http://www.sec.gov/cgi-bin/browse-edgar?action...
4,ATVI,Activision Blizzard,Information Technology,41.29,0.64,37.06,1.11,11.31,24.04,41.32,30.48,1.59,6.16,3.57,http://www.sec.gov/cgi-bin/browse-edgar?action...
5,AYI,Acuity Brands Inc,Industrials,264.62,0.21,43.23,6.12,36.5,168.33,265.1,11.51,0.5365,3.53,6.95,http://www.sec.gov/cgi-bin/browse-edgar?action...
6,ADBE,Adobe Systems Inc,Information Technology,96.79,0.0,54.68,1.77,14.53,71.27,100.56,48.23,1.53,8.93,6.55,http://www.sec.gov/cgi-bin/browse-edgar?action...
7,AAP,Advance Auto Parts,Consumer Discretionary,164.85,0.15,25.2,6.4,35.82,131.59,201.24,12.1,1.24,1.22,4.5,http://www.sec.gov/cgi-bin/browse-edgar?action...
8,AES,AES Corp,Utilities,12.32,3.6,28.99,0.43,4.86,8.22,13.38,8.12,3.57,0.55,2.49,http://www.sec.gov/cgi-bin/browse-edgar?action...
9,AET,Aetna Inc,Health Care,117.0,0.87,17.62,6.64,47.96,92.42,125.47,41.02,5.4,0.67,2.41,http://www.sec.gov/cgi-bin/browse-edgar?action...


In [158]:
sample_df = pd.read_csv('sample.csv', usecols = [0, 1, 2, 3, 7]) #필요한 열만 가져옴
sample_df.head()

Unnamed: 0,Symbol,Name,Sector,Price,Book Value
0,MMM,3M Company,Industrials,177.12,19.34
1,ABT,Abbott Laboratories,Health Care,41.89,14.1
2,ABBV,AbbVie,Health Care,64.16,2.87
3,ACN,Accenture plc,Information Technology,115.11,11.45
4,ATVI,Activision Blizzard,Information Technology,41.29,11.31


In [160]:
sample_df = pd.read_csv('sample.csv', index_col = 'Symbol', usecols = [0, 1, 2, 3, 7]) #index_col = raw기준 설정
sample_df.head()

Unnamed: 0_level_0,Name,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
MMM,3M Company,Industrials,177.12,19.34
ABT,Abbott Laboratories,Health Care,41.89,14.1
ABBV,AbbVie,Health Care,64.16,2.87
ACN,Accenture plc,Information Technology,115.11,11.45
ATVI,Activision Blizzard,Information Technology,41.29,11.31


In [165]:
sample_df = pd.read_csv('sample.csv', index_col = 'Symbol', usecols=['Name', 'Symbol', 'Price'])
sample_df.head()

Unnamed: 0_level_0,Name,Price
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
MMM,3M Company,177.12
ABT,Abbott Laboratories,41.89
ABBV,AbbVie,64.16
ACN,Accenture plc,115.11
ATVI,Activision Blizzard,41.29


* **data 개수**

In [166]:
print len(sample_df)

504


In [167]:
print sample_df.index
print 
print sample_df.columns

Index([u'MMM', u'ABT', u'ABBV', u'ACN', u'ATVI', u'AYI', u'ADBE', u'AAP',
       u'AES', u'AET',
       ...
       u'XEL', u'XRX', u'XLNX', u'XL', u'XYL', u'YHOO', u'YUM', u'ZBH',
       u'ZION', u'ZTS'],
      dtype='object', name=u'Symbol', length=504)

Index([u'Name', u'Price'], dtype='object')


* **dataframe slicing**
  - dataframe의 경우 기본적으로 [] 연산자가 column 선택에 사용
  - 따라서 [0], ['some val'] 과 같이 하면 column 레벨의 데이터 추출
  - 하지만, 유일하게 slicing은 row 레벨로 지원

In [169]:
#apple_df = pd.read_csv('apple.csv', header = None)
apple_df = pd.read_csv('apple.csv')
apple_df[:10]

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,30-Sep-16,112.46,113.37,111.8,113.05,36379106
1,29-Sep-16,113.16,113.8,111.8,112.18,35886990
2,28-Sep-16,113.69,114.64,113.43,113.95,29641085
3,27-Sep-16,113.0,113.18,112.34,113.09,24607412
4,26-Sep-16,111.64,113.39,111.55,112.88,29869442
5,23-Sep-16,114.42,114.79,111.55,112.71,52481151
6,22-Sep-16,114.35,114.94,114.0,114.62,31073984
7,21-Sep-16,113.85,113.99,112.44,113.55,36003185
8,20-Sep-16,113.05,114.12,112.51,113.57,34514269
9,19-Sep-16,115.19,116.18,113.25,113.58,47023046


In [172]:
print apple_df[:10] #[10] 는 안되느지만 슬라이싱 된다.

        Date    Open    High     Low   Close    Volume
0  30-Sep-16  112.46  113.37  111.80  113.05  36379106
1  29-Sep-16  113.16  113.80  111.80  112.18  35886990
2  28-Sep-16  113.69  114.64  113.43  113.95  29641085
3  27-Sep-16  113.00  113.18  112.34  113.09  24607412
4  26-Sep-16  111.64  113.39  111.55  112.88  29869442
5  23-Sep-16  114.42  114.79  111.55  112.71  52481151
6  22-Sep-16  114.35  114.94  114.00  114.62  31073984
7  21-Sep-16  113.85  113.99  112.44  113.55  36003185
8  20-Sep-16  113.05  114.12  112.51  113.57  34514269
9  19-Sep-16  115.19  116.18  113.25  113.58  47023046


In [175]:
print apple_df['High', 'Low'] #컬럼명을 입력하면 가져온다.

KeyError: ('High', 'Low')

* **column 선택하기**
  - df에서 특정 컬럼의 데이터만 추출
  - 컬럼 이름일 경우 이름만 사용 가능
  - 컬럼 인덱스일 경우 인덱스의 리스트 사용 가능

In [185]:
apple_df[['Date', 'Close', 'Volume']] # 인덱스로도 가능



Unnamed: 0,Date,Close,Volume
0,30-Sep-16,113.05,36379106
1,29-Sep-16,112.18,35886990
2,28-Sep-16,113.95,29641085
3,27-Sep-16,113.09,24607412
4,26-Sep-16,112.88,29869442
5,23-Sep-16,112.71,52481151
6,22-Sep-16,114.62,31073984
7,21-Sep-16,113.55,36003185
8,20-Sep-16,113.57,34514269
9,19-Sep-16,113.58,47023046


In [187]:

print type(apple_df[['Date']])
print type(apple_df[['Date', 'Close']])
print type(apple_df['Date'])

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


In [188]:
print apple_df.Date
print apple_df.Close

0     30-Sep-16
1     29-Sep-16
2     28-Sep-16
3     27-Sep-16
4     26-Sep-16
5     23-Sep-16
6     22-Sep-16
7     21-Sep-16
8     20-Sep-16
9     19-Sep-16
10    16-Sep-16
11    15-Sep-16
12    14-Sep-16
13    13-Sep-16
14    12-Sep-16
15     9-Sep-16
16     8-Sep-16
17     7-Sep-16
18     6-Sep-16
19     2-Sep-16
20     1-Sep-16
Name: Date, dtype: object
0     113.05
1     112.18
2     113.95
3     113.09
4     112.88
5     112.71
6     114.62
7     113.55
8     113.57
9     113.58
10    114.92
11    115.57
12    111.77
13    107.95
14    105.44
15    103.13
16    105.52
17    108.36
18    107.70
19    107.73
20    106.73
Name: Close, dtype: float64


* **row 선택하기**
  - Seires의 경우 []로 row 선택이 가능하나, **DataFrame의 경우는 기본적으로 column을 선택하도록 설계**
  - [:10]과 같이 slicing의 경우에는 row 선택 가능
  - .loc, .iloc, .ix 의 함수로 row 선택 가능

In [191]:
print apple_df[0:10]
print
print apple_df.loc[0] #0번째 raw를 가져온다. 타입은 시리즈

        Date    Open    High     Low   Close    Volume
0  30-Sep-16  112.46  113.37  111.80  113.05  36379106
1  29-Sep-16  113.16  113.80  111.80  112.18  35886990
2  28-Sep-16  113.69  114.64  113.43  113.95  29641085
3  27-Sep-16  113.00  113.18  112.34  113.09  24607412
4  26-Sep-16  111.64  113.39  111.55  112.88  29869442
5  23-Sep-16  114.42  114.79  111.55  112.71  52481151
6  22-Sep-16  114.35  114.94  114.00  114.62  31073984
7  21-Sep-16  113.85  113.99  112.44  113.55  36003185
8  20-Sep-16  113.05  114.12  112.51  113.57  34514269
9  19-Sep-16  115.19  116.18  113.25  113.58  47023046

Date      30-Sep-16
Open         112.46
High         113.37
Low           111.8
Close        113.05
Volume     36379106
Name: 0, dtype: object


In [192]:
sample_df = pd.read_csv('sample.csv', index_col = 'Symbol', usecols = [0, 1, 2, 3, 7])
sample_df['MMM':'ABT'] # mmm부터 abt까지 #loc 숫자, 

Unnamed: 0_level_0,Name,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
MMM,3M Company,Industrials,177.12,19.34
ABT,Abbott Laboratories,Health Care,41.89,14.1


In [193]:
print sample_df.loc['MMM'] #인데스가 mmm인 것 출력

Name           3M Company
Sector        Industrials
Price              177.12
Book Value          19.34
Name: MMM, dtype: object


In [None]:
print sample_df.loc[['MMM', 'MSFT']] #복수의 인덱스 출력시, 꼭 리스트로 입력 / 인덱스가 mmm, msft출력

In [194]:
print sample_df.iloc[[0, 1, 2]]    #인데스 명을 모를 경우 , '0베이스 인데스' 이용
print type(sample_df.iloc[[0, 1, 2]])

print sample_df.iloc[0] 
print type(sample_df.iloc[0])

                       Name       Sector   Price  Book Value
Symbol                                                      
MMM              3M Company  Industrials  177.12       19.34
ABT     Abbott Laboratories  Health Care   41.89       14.10
ABBV                 AbbVie  Health Care   64.16        2.87
<class 'pandas.core.frame.DataFrame'>
Name           3M Company
Sector        Industrials
Price              177.12
Book Value          19.34
Name: MMM, dtype: object
<class 'pandas.core.series.Series'>


* **ix**
 - iloc, loc 구별없이 사용하고 싶을 때 사용
 - 짱 좋음!!! 구분없음

In [195]:
print sample_df.ix[['MSFT', 'ZTS']]

                   Name                  Sector  Price  Book Value
Symbol                                                            
MSFT    Microsoft Corp.  Information Technology   52.3        9.51
ZTS              Zoetis             Health Care   48.5        2.35


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  """Entry point for launching an IPython kernel.


In [196]:
print sample_df.ix[[10, 11, 12, 15]]

                                 Name       Sector   Price  Book Value
Symbol                                                                
AMG     Affiliated Managers Group Inc   Financials  138.85       53.30
AFL                         AFLAC Inc   Financials   72.49       48.22
A            Agilent Technologies Inc  Health Care   45.48       12.79
ALK              Alaska Air Group Inc  Industrials   59.86       19.81


* **boolean selection으로 row 선택하기**

In [197]:
print sample_df.Price > 100 #비교할 컬럼명 입력! 
#print sample_df['Price'] > 100 도 가능!!!!!!!!!!!!!!!

Symbol
MMM       True
ABT      False
ABBV     False
ACN       True
ATVI     False
AYI       True
ADBE     False
AAP       True
AES      False
AET       True
AMG       True
AFL      False
A        False
APD       True
AKAM     False
ALK      False
ALB      False
AA       False
ALXN      True
ALLE     False
AGN       True
ADS       True
LNT      False
ALL      False
GOOGL     True
GOOG      True
MO       False
AMZN      True
AEE      False
AAL      False
         ...  
V        False
VNO       True
VMC       True
WMT      False
WBA      False
WM       False
WAT       True
WFC      False
HCN      False
WDC      False
WU       False
WRK      False
WY       False
WHR       True
WFM      False
WMB      False
WLTW      True
WEC      False
WYN      False
WYNN     False
XEL      False
XRX      False
XLNX     False
XL       False
XYL      False
YHOO     False
YUM      False
ZBH       True
ZION     False
ZTS      False
Name: Price, Length: 504, dtype: bool


In [201]:
sample_df[sample_df.Price > 100] #price가 기준, 다른 열도 같이 옴

Unnamed: 0_level_0,Name,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
MMM,3M Company,Industrials,177.12,19.34
ACN,Accenture plc,Information Technology,115.11,11.45
AYI,Acuity Brands Inc,Industrials,264.62,36.50
AAP,Advance Auto Parts,Consumer Discretionary,164.85,35.82
AET,Aetna Inc,Health Care,117.00,47.96
AMG,Affiliated Managers Group Inc,Financials,138.85,53.30
APD,Air Products & Chemicals Inc,Materials,144.35,32.01
ALXN,Alexion Pharmaceuticals,Health Care,124.42,35.96
AGN,Allergan plc,Health Care,240.59,183.41
ADS,Alliance Data Systems,Information Technology,200.96,29.51


In [200]:
sample_df[sample_df.Price > 100][['Price']] # price만 나옴

Unnamed: 0_level_0,Price
Symbol,Unnamed: 1_level_1
MMM,177.12
ACN,115.11
AYI,264.62
AAP,164.85
AET,117.00
AMG,138.85
APD,144.35
ALXN,124.42
AGN,240.59
ADS,200.96


* **새 column 추가하기**

In [203]:
sample_df.head()

Unnamed: 0_level_0,Name,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
MMM,3M Company,Industrials,177.12,19.34
ABT,Abbott Laboratories,Health Care,41.89,14.1
ABBV,AbbVie,Health Care,64.16,2.87
ACN,Accenture plc,Information Technology,115.11,11.45
ATVI,Activision Blizzard,Information Technology,41.29,11.31


In [205]:
# 새로운 dataframe 생성
copy = sample_df.copy()

# 새로 생성된 프레임에 새로운 컬럼 추가 (기존 컬럼 이용)
copy['TwicePrice'] = sample_df.Price * 2
copy.head()

Unnamed: 0_level_0,Name,Sector,Price,Book Value,TwicePrice
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
MMM,3M Company,Industrials,177.12,19.34,354.24
ABT,Abbott Laboratories,Health Care,41.89,14.1,83.78
ABBV,AbbVie,Health Care,64.16,2.87,128.32
ACN,Accenture plc,Information Technology,115.11,11.45,230.22
ATVI,Activision Blizzard,Information Technology,41.29,11.31,82.58


In [206]:

# 새로 생성된 프레임에 새로운 컬럼 추가 (기존 컬럼 이용)
copy['ratio'] = copy['Price'] / copy['Book Value']
copy.head()

Unnamed: 0_level_0,Name,Sector,Price,Book Value,TwicePrice,ratio
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
MMM,3M Company,Industrials,177.12,19.34,354.24,9.158221
ABT,Abbott Laboratories,Health Care,41.89,14.1,83.78,2.970922
ABBV,AbbVie,Health Care,64.16,2.87,128.32,22.355401
ACN,Accenture plc,Information Technology,115.11,11.45,230.22,10.053275
ATVI,Activision Blizzard,Information Technology,41.29,11.31,82.58,3.650752


In [207]:
# 새로운 dataframe 생성
copy = sample_df.copy()

# 새로 생성된 프레임에 새로운 컬럼 추가 (기존 컬럼 이용)
copy['TwicePrice'] = sample_df.Price * 2




copy.head()# insert 함수를 이용하여 원하는 컬럼 위치에 삽입 가능
copy.insert(1, 'TriplePrice', sample_df.Price * 3) # 첫번째 열에 입력!!!! 순서 정할수 있다.
print copy[:2]

                       Name  TriplePrice       Sector   Price  Book Value  \
Symbol                                                                      
MMM              3M Company       531.36  Industrials  177.12       19.34   
ABT     Abbott Laboratories       125.67  Health Care   41.89       14.10   

        TwicePrice  
Symbol              
MMM         354.24  
ABT          83.78  


 * **column 삭제하기**

In [208]:
print copy[:2]

# del 키워드로 삭제
del copy['TriplePrice']
print copy[:2]

                       Name  TriplePrice       Sector   Price  Book Value  \
Symbol                                                                      
MMM              3M Company       531.36  Industrials  177.12       19.34   
ABT     Abbott Laboratories       125.67  Health Care   41.89       14.10   

        TwicePrice  
Symbol              
MMM         354.24  
ABT          83.78  
                       Name       Sector   Price  Book Value  TwicePrice
Symbol                                                                  
MMM              3M Company  Industrials  177.12       19.34      354.24
ABT     Abbott Laboratories  Health Care   41.89       14.10       83.78


 * **row 추가/삭제하기**

In [209]:
df1 = copy.iloc[0:3].copy()
print df1

# append 함수 사용
copy = copy.append(df1)
print copy.tail()

                       Name       Sector   Price  Book Value  TwicePrice
Symbol                                                                  
MMM              3M Company  Industrials  177.12       19.34      354.24
ABT     Abbott Laboratories  Health Care   41.89       14.10       83.78
ABBV                 AbbVie  Health Care   64.16        2.87      128.32
                       Name       Sector   Price  Book Value  TwicePrice
Symbol                                                                  
ZION          Zions Bancorp   Financials   24.74       33.23       49.48
ZTS                  Zoetis  Health Care   48.50        2.35       97.00
MMM              3M Company  Industrials  177.12       19.34      354.24
ABT     Abbott Laboratories  Health Care   41.89       14.10       83.78
ABBV                 AbbVie  Health Care   64.16        2.87      128.32


In [210]:
# drop 함수를 사용하여 해당 row 제거
copy = copy.drop(['ABBV'])
copy.tail()

Unnamed: 0_level_0,Name,Sector,Price,Book Value,TwicePrice
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
ZBH,Zimmer Biomet Holdings,Health Care,124.89,48.52,249.78
ZION,Zions Bancorp,Financials,24.74,33.23,49.48
ZTS,Zoetis,Health Care,48.5,2.35,97.0
MMM,3M Company,Industrials,177.12,19.34,354.24
ABT,Abbott Laboratories,Health Care,41.89,14.1,83.78
