<img src="https://images-na.ssl-images-amazon.com/images/I/51cUNf8zukL._SX379_BO1,204,203,200_.jpg" width="200" height="300">

- Appendix A: Advanced NumPy

###성능팁
Numpy를 활용하는 코드에서 좋은 성능을 이끌어내는 방법은 직관적
순수 파이썬 반복문은 상대적으로 느리므로 일반적으로 배열연산으로 대체
- 파이썬 반복문과 조건문을 배열연산과 불리언 배열연산으로 변환
- 가능한 Broadcasting 사용
- 배열의 뷰(슬라이스)를 사용해서 데이터 복사를 피함
- ufunc 메서드 활용

Numpy만으로 원하는 성능을 이끌어내지 못한다면 코드를 C나 포트란으로 작성하거나 아니면 Cython을 사용해서 성능을 높일 수 있다.

In [0]:
import numpy as np
import pandas as pd
np.random.seed(2019111030)
import matplotlib.pyplot as plt

#NumPy dtype Hierarchy

<img src="https://learning.oreilly.com/library/view/python-for-data/9781449323592/httpatomoreillycomsourceoreillyimages2172220.png">

In [3]:
ints = np.ones(10, dtype=np.uint16)
floats = np.ones(10, dtype=np.float32)
np.issubdtype(ints.dtype, np.integer)
np.issubdtype(floats.dtype, np.floating)

True

In [4]:
np.float64.mro()


[numpy.float64,
 numpy.floating,
 numpy.inexact,
 numpy.number,
 numpy.generic,
 float,
 object]

In [5]:
np.issubdtype(ints.dtype, np.number)


True

#Advanced Array Manipulation

##Reshaping Arrays

In [6]:
arr = np.arange(8)
arr
arr.reshape((4, 2))

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [7]:
arr.reshape((4, 2)).reshape((2, 4))

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [8]:
arr = np.arange(15)
arr.reshape((5, -1))

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [9]:
other_arr = np.ones((3, 5))
other_arr.shape
arr.reshape(other_arr.shape)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [10]:
arr = np.arange(15).reshape((5, 3))
arr
arr.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [11]:
arr.flatten()


array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

##C Versus Fortran Order

In [12]:
arr = np.arange(12).reshape((3, 4))
arr
arr.ravel()
arr.ravel('F')

array([ 0,  4,  8,  1,  5,  9,  2,  6, 10,  3,  7, 11])

##Concatenating and Splitting Arrays

In [13]:
arr1 = np.array([[1, 2, 3], [4, 5, 6]])
arr2 = np.array([[7, 8, 9], [10, 11, 12]])
np.concatenate([arr1, arr2], axis=0)
np.concatenate([arr1, arr2], axis=1)

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [14]:
np.vstack((arr1, arr2))
np.hstack((arr1, arr2))

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [15]:
arr = np.random.randn(5, 2)
arr
first, second, third = np.split(arr, [1, 3])
first
second
third

array([[-1.46004745, -2.48781637],
       [-0.39386275, -0.12151147]])

###Stacking helpers: r and c

In [16]:
arr = np.arange(6)
arr1 = arr.reshape((3, 2))
arr2 = np.random.randn(3, 2)
np.r_[arr1, arr2]
np.c_[np.r_[arr1, arr2], arr]

array([[ 0.00000000e+00,  1.00000000e+00,  0.00000000e+00],
       [ 2.00000000e+00,  3.00000000e+00,  1.00000000e+00],
       [ 4.00000000e+00,  5.00000000e+00,  2.00000000e+00],
       [ 1.32890065e+00,  9.90453162e-02,  3.00000000e+00],
       [ 7.37815015e-01, -1.15388097e+00,  4.00000000e+00],
       [-4.77404320e-03, -1.67277457e+00,  5.00000000e+00]])

In [17]:
np.c_[1:6, -10:-5]

array([[  1, -10],
       [  2,  -9],
       [  3,  -8],
       [  4,  -7],
       [  5,  -6]])

##Repeating Elements: tile and repeat

In [18]:
arr = np.arange(3)
arr
arr.repeat(3)

array([0, 0, 0, 1, 1, 1, 2, 2, 2])

In [19]:
arr.repeat([2, 3, 4])

array([0, 0, 1, 1, 1, 2, 2, 2, 2])

In [20]:
arr = np.random.randn(2, 2)
arr
arr.repeat(2, axis=0)

array([[-1.28057969, -1.2653703 ],
       [-1.28057969, -1.2653703 ],
       [-1.31508006, -0.80052604],
       [-1.31508006, -0.80052604]])

In [21]:
arr.repeat([2, 3], axis=0)
arr.repeat([2, 3], axis=1)

array([[-1.28057969, -1.28057969, -1.2653703 , -1.2653703 , -1.2653703 ],
       [-1.31508006, -1.31508006, -0.80052604, -0.80052604, -0.80052604]])

In [22]:
arr
np.tile(arr, 2)

array([[-1.28057969, -1.2653703 , -1.28057969, -1.2653703 ],
       [-1.31508006, -0.80052604, -1.31508006, -0.80052604]])

In [23]:
arr
np.tile(arr, (2, 1))
np.tile(arr, (3, 2))

array([[-1.28057969, -1.2653703 , -1.28057969, -1.2653703 ],
       [-1.31508006, -0.80052604, -1.31508006, -0.80052604],
       [-1.28057969, -1.2653703 , -1.28057969, -1.2653703 ],
       [-1.31508006, -0.80052604, -1.31508006, -0.80052604],
       [-1.28057969, -1.2653703 , -1.28057969, -1.2653703 ],
       [-1.31508006, -0.80052604, -1.31508006, -0.80052604]])

##Fancy Indexing Equivalents: take and put

In [24]:
arr = np.arange(10) * 100
inds = [7, 1, 2, 6]
arr[inds]

array([700, 100, 200, 600])

In [25]:
arr.take(inds)
arr.put(inds, 42)
arr
arr.put(inds, [40, 41, 42, 43])
arr

array([  0,  41,  42, 300, 400, 500,  43,  40, 800, 900])

In [26]:
inds = [2, 0, 2, 1]
arr = np.random.randn(2, 4)
arr
arr.take(inds, axis=1)

array([[-0.15018261,  0.27035163, -0.15018261, -0.13244357],
       [-0.38533908, -1.4717813 , -0.38533908, -0.92681993]])

#Broadcasting

브로드캐스팅 규칙 : 만일 이어지는 각 차원에 대해 축의 길이가 일치하거나 둘 중 하나의 길이가 1이라면 두 배열은 브로드 캐스팅 호환이다. 

In [27]:
arr = np.arange(5)
arr
arr * 4

array([ 0,  4,  8, 12, 16])

In [28]:
arr = np.random.randn(4, 3)
arr.mean(0)
demeaned = arr - arr.mean(0)
demeaned
demeaned.mean(0)

array([-1.38777878e-16,  0.00000000e+00,  3.46944695e-17])

In [81]:
d.mean(0)
arr
row_means = arr.mean(1)
row_means.shape
row_means.reshape((4, 1))
demeaned = arr - row_means.reshape((4, 1))
demeaned.mean(1)

NameError: ignored

##Broadcasting Over Other Axes

In [30]:
arr - arr.mean(1)

ValueError: ignored

In [31]:
arr - arr.mean(1).reshape((4, 1))

array([[-1.59558872,  0.69720229,  0.89838643],
       [-0.46187196,  0.52065792, -0.05878595],
       [-0.80080229,  0.55906404,  0.24173825],
       [ 0.10704458, -0.32698022,  0.21993564]])

In [32]:
arr = np.zeros((4, 4))
arr_3d = arr[:, np.newaxis, :]
arr_3d.shape
arr_1d = np.random.normal(size=3)
arr_1d[:, np.newaxis]
arr_1d[np.newaxis, :]

array([[ 0.97208736,  0.48432538, -0.20653465]])

In [33]:
arr = np.random.randn(3, 4, 5)
depth_means = arr.mean(2)
depth_means
depth_means.shape
demeaned = arr - depth_means[:, :, np.newaxis]
demeaned.mean(2)

array([[ 0.00000000e+00, -2.22044605e-17, -8.88178420e-17,
        -1.33226763e-16],
       [ 7.77156117e-17,  4.44089210e-17,  0.00000000e+00,
        -8.88178420e-17],
       [-2.22044605e-17, -4.44089210e-17,  2.22044605e-17,
         2.77555756e-18]])

##Setting Array Values by Broadcasting

In [34]:
arr = np.zeros((4, 3))
arr[:] = 5
arr

array([[5., 5., 5.],
       [5., 5., 5.],
       [5., 5., 5.],
       [5., 5., 5.]])

In [35]:
col = np.array([1.28, -0.42, 0.44, 1.6])
arr[:] = col[:, np.newaxis]
arr
arr[:2] = [[-1.37], [0.509]]
arr

array([[-1.37 , -1.37 , -1.37 ],
       [ 0.509,  0.509,  0.509],
       [ 0.44 ,  0.44 ,  0.44 ],
       [ 1.6  ,  1.6  ,  1.6  ]])

#Advanced ufunc Usage

- 많은 NumPy사용자는 유니버셜 함수로 제공되는 빠른 원소별 연산만을 주로 사용하는데, 반복문을 작성하지않고 좀더 간결한 코드를 작성할 수 있는 다양한 부가적 기능

##ufunc Instance Methods

| Method            | Description                                                                                   |
|-------------------|-----------------------------------------------------------------------------------------------|
| reduce(x)         | Aggregate values by successive applications of the operation                                  |
| accumulate(x)     | Aggregate values, preserving all partial aggregates                                           |
| reduceat(x, bins) | “Local” reduce or “group by”. Reduce contiguous slices of data to produce aggregated array.   |
| outer(x, y)       | Apply operation to all pairs of elements in x and y. Result array has shape x.shape + y.shape |

In [84]:
arr = np.arange(10)
np.add.reduce(arr)
arr.sum()

45

In [85]:
np.random.seed(20190622)  # for reproducibility
arr = np.random.randn(5, 5)
arr[::2].sort(1) # sort a few rows
arr[:, :-1] < arr[:, 1:]
np.logical_and.reduce(arr[:, :-1] < arr[:, 1:], axis=1)

array([ True, False,  True, False,  True])

In [38]:
arr = np.arange(15).reshape((3, 5))
np.add.accumulate(arr, axis=1)

array([[ 0,  1,  3,  6, 10],
       [ 5, 11, 18, 26, 35],
       [10, 21, 33, 46, 60]])

In [39]:
arr = np.arange(3).repeat([1, 2, 2])
arr
np.multiply.outer(arr, np.arange(5))

array([[0, 0, 0, 0, 0],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 2, 4, 6, 8],
       [0, 2, 4, 6, 8]])

In [40]:
x, y = np.random.randn(3, 4), np.random.randn(5)
result = np.subtract.outer(x, y)
result.shape

(3, 4, 5)

In [41]:
arr = np.arange(10)
np.add.reduceat(arr, [0, 5, 8])

array([10, 18, 17])

In [42]:
arr = np.multiply.outer(np.arange(4), np.arange(5))
arr
np.add.reduceat(arr, [0, 2, 4], axis=1)

array([[ 0,  0,  0],
       [ 1,  5,  4],
       [ 2, 10,  8],
       [ 3, 15, 12]])

##Writing New ufuncs in Python

In [43]:
def add_elements(x, y):
    return x + y
add_them = np.frompyfunc(add_elements, 2, 1)
add_them(np.arange(8), np.arange(8))

array([0, 2, 4, 6, 8, 10, 12, 14], dtype=object)

In [44]:
add_them = np.vectorize(add_elements, otypes=[np.float64])
add_them(np.arange(8), np.arange(8))

array([ 0.,  2.,  4.,  6.,  8., 10., 12., 14.])

In [45]:
arr = np.random.randn(10000)
%timeit add_them(arr, arr)
%timeit np.add(arr, arr)

100 loops, best of 3: 2.64 ms per loop
The slowest run took 13.20 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 3.86 µs per loop


#Structured and Record Arrays

In [46]:
dtype = [('x', np.float64), ('y', np.int32)]
sarr = np.array([(1.5, 6), (np.pi, -2)], dtype=dtype)
sarr

array([(1.5       ,  6), (3.14159265, -2)],
      dtype=[('x', '<f8'), ('y', '<i4')])

In [47]:
sarr[0]
sarr[0]['y']

6

In [48]:
sarr['x']

array([1.5       , 3.14159265])

##Nested dtypes and Multidimensional Fields

In [49]:
dtype = [('x', np.int64, 3), ('y', np.int32)]
arr = np.zeros(4, dtype=dtype)
arr

array([([0, 0, 0], 0), ([0, 0, 0], 0), ([0, 0, 0], 0), ([0, 0, 0], 0)],
      dtype=[('x', '<i8', (3,)), ('y', '<i4')])

In [50]:
arr[0]['x']

array([0, 0, 0])

In [51]:
arr['x']

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [52]:
dtype = [('x', [('a', 'f8'), ('b', 'f4')]), ('y', np.int32)]
data = np.array([((1, 2), 5), ((3, 4), 6)], dtype=dtype)
data['x']
data['y']
data['x']['a']

array([1., 3.])

#More About Sorting

In [53]:
arr = np.random.randn(6)
arr.sort()
arr

array([-1.08199644,  0.37588273,  0.80139193,  1.13969136,  1.28881614,
        1.84126094])

In [54]:
arr = np.random.randn(3, 5)
arr
arr[:, 0].sort()  # Sort first column values in-place
arr

array([[-1.01114869, -1.47108206,  0.87050269, -0.08468875, -1.13286962],
       [-0.33176812, -0.34357617,  2.17140268,  0.12337075, -0.01893118],
       [ 0.17731791,  0.7423957 ,  0.85475634,  1.03797268, -0.32899594]])

In [55]:
arr = np.random.randn(5)
arr
np.sort(arr)
arr

array([-1.11807759, -0.24152521, -2.0051193 ,  0.73788753, -1.06137462])

In [56]:
arr = np.random.randn(3, 5)
arr
arr.sort(axis=1)
arr

array([[-0.26822958, -0.18715572,  0.59545348,  0.91108374,  1.33885804],
       [-0.51683937, -0.32150045, -0.19893404,  1.00543901,  1.19251887],
       [-1.76381537, -0.22215536, -0.21707838,  0.39691349,  0.60709023]])

In [57]:
arr[:, ::-1]

array([[ 1.33885804,  0.91108374,  0.59545348, -0.18715572, -0.26822958],
       [ 1.19251887,  1.00543901, -0.19893404, -0.32150045, -0.51683937],
       [ 0.60709023,  0.39691349, -0.21707838, -0.22215536, -1.76381537]])

##Indirect Sorts: argsort and lexsort

In [58]:
values = np.array([5, 0, 1, 3, 2])
indexer = values.argsort()
indexer
values[indexer]

array([0, 1, 2, 3, 5])

In [59]:
arr = np.random.randn(3, 5)
arr[0] = values
arr
arr[:, arr[0].argsort()]

array([[ 0.        ,  1.        ,  2.        ,  3.        ,  5.        ],
       [-0.13775933,  2.17773731,  0.8356152 , -0.47280687, -0.36360302],
       [ 0.23159352,  0.72798172,  1.99558262, -1.3918432 , -0.20885016]])

In [60]:
first_name = np.array(['Bob', 'Jane', 'Steve', 'Bill', 'Barbara'])
last_name = np.array(['Jones', 'Arnold', 'Arnold', 'Jones', 'Walters'])
sorter = np.lexsort((first_name, last_name))
sorter
zip(last_name[sorter], first_name[sorter])


<zip at 0x7fb5518be308>

##Alternative Sort Algorithms

In [61]:
values = np.array(['2:first', '2:second', '1:first', '1:second',
                   '1:third'])
key = np.array([2, 2, 1, 1, 1])
indexer = key.argsort(kind='mergesort')
indexer
values.take(indexer)

array(['1:first', '1:second', '1:third', '2:first', '2:second'],
      dtype='<U8')

##Partially Sorting Arrays

In [62]:
np.random.seed(12345)
arr = np.random.randn(20)
arr
np.partition(arr, 3)

array([-2.00163731, -1.29622111, -0.5557303 , -0.51943872, -0.37184254,
       -0.43856974, -0.20470766,  0.28174615,  0.76902257,  0.47894334,
        1.00718936,  0.09290788,  0.27499163,  0.22891288,  1.35291684,
        0.88642934,  1.39340583,  1.96578057,  1.66902531,  1.24643474])

In [63]:
indices = np.argpartition(arr, 3)
indices
arr.take(indices)

array([-2.00163731, -1.29622111, -0.5557303 , -0.51943872, -0.37184254,
       -0.43856974, -0.20470766,  0.28174615,  0.76902257,  0.47894334,
        1.00718936,  0.09290788,  0.27499163,  0.22891288,  1.35291684,
        0.88642934,  1.39340583,  1.96578057,  1.66902531,  1.24643474])

##numpy.searchsorted: Finding Elements in a Sorted Array

In [64]:
arr = np.array([0, 1, 7, 12, 15])
arr.searchsorted(9)

3

In [65]:
arr = np.array([0, 1, 7, 12, 15])
arr.searchsorted(9)

3

In [66]:
arr = np.array([0, 0, 0, 1, 1, 1, 1])
arr.searchsorted([0, 1])
arr.searchsorted([0, 1], side='right')

array([3, 7])

In [67]:
data = np.floor(np.random.uniform(0, 10000, size=50))
bins = np.array([0, 100, 1000, 5000, 10000])
data

array([9940., 6768., 7908., 1709.,  268., 8003., 9037.,  246., 4917.,
       5262., 5963.,  519., 8950., 7282., 8183., 5002., 8101.,  959.,
       2189., 2587., 4681., 4593., 7095., 1780., 5314., 1677., 7688.,
       9281., 6094., 1501., 4896., 3773., 8486., 9110., 3838., 3154.,
       5683., 1878., 1258., 6875., 7996., 5735., 9732., 6340., 8884.,
       4954., 3516., 7142., 5039., 2256.])

In [68]:
labels = bins.searchsorted(data)
labels

array([4, 4, 4, 3, 2, 4, 4, 2, 3, 4, 4, 2, 4, 4, 4, 4, 4, 2, 3, 3, 3, 3,
       4, 3, 4, 3, 4, 4, 4, 3, 3, 3, 4, 4, 3, 3, 4, 3, 3, 4, 4, 4, 4, 4,
       4, 3, 3, 4, 4, 3])

In [69]:
pd.Series(data).groupby(labels).mean()

2     498.000000
3    3064.277778
4    7389.035714
dtype: float64

#Advanced Array Input and Output

* np.save와 np.load를 사용해서 배열을 이진형식으로 디스크에 저장
다른 저장
* 메모리맵은 RAM에 적재 할 수 없는 데이터를 다룰 때 추가적 이점

##Memory-Mapped Files

- 디스크에 저장된 아주 큰 binary data를 메모리에 적재된 배열처럼 취급가능
- 배열 전체를 메모리에 적재하지않고 큰파일의 작은 부분을 읽기/쓰기
- **memmap**객체는 메모리에 적재된 배열에서 제공하는것과 동일한 메서드 제공, **ndarray**사용해야하는 많은 알고리즘에서 **ndarray**의 대체재로 사용가능

In [70]:
mmap = np.memmap('mymmap', dtype='float64', mode='w+',
                 shape=(10000, 10000))
mmap

memmap([[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]])

In [0]:
section = mmap[:5]

In [0]:
section[:] = np.random.randn(5, 10000)
mmap.flush()
mmap
del mmap

In [73]:
mmap = np.memmap('mymmap', dtype='float64', shape=(10000, 10000))
mmap

memmap([[ 0.75836315, -0.66052433,  0.86258008, ...,  0.60456856,
         -0.621221  ,  2.05418088],
        [-1.21132774, -1.03752649,  0.70929665, ..., -1.41174168,
         -0.17192913, -0.89569768],
        [-0.14192223, -0.33745039,  0.43289058, ...,  1.29144677,
         -0.75202235, -0.4400455 ],
        ...,
        [ 0.        ,  0.        ,  0.        , ...,  0.        ,
          0.        ,  0.        ],
        [ 0.        ,  0.        ,  0.        , ...,  0.        ,
          0.        ,  0.        ],
        [ 0.        ,  0.        ,  0.        , ...,  0.        ,
          0.        ,  0.        ]])

In [0]:
%xdel mmap
!rm mymmap

#Performance Tips

##The Importance of Contiguous Memory

어떤 어플리케이션에서는 배열이 메모리상에 배치된 모양에 따라 연산속도에 많은 영향을 끼침, 
- 부분적으로 CPU의 캐시구조에 의한 성능차이에 기반하는데 연속된 메모리에 접근하는 연산(C순서로 저장된 배열에서 로우를 합산하는)의 경우 메모리 서브시스템이 적절한 메모리 블록을 매우빠른 CPU의 L1, L2에 저장하게 되므로 가장 빠름
- Numpy의 C코드 기반내부의 어떤 코드는 연속된 메모리일경우 최적화 되어 인접하지않은 메모리를 읽는 문제 회피

In [83]:
arr_c = np.ones((1000, 1000), order='C')
arr_f = np.ones((1000, 1000), order='F')
arr_c.flags
arr_f.flags
arr_f.flags.f_contiguous

True


- 배열이 메모리상에 연속적으로 존재한다는 의미는 배열의 원소가 실제 배열상에서 나타나는 모습대로(포트란의 칼람우선, C의 로우 우선) 메모리에 저장되었다는 의미
- 기본적으로 Numpy배열은 메모리에 C순서 혹은 단순 연속생성
- C순서로 저장된 배열의 전치배열 같은 컬럼 우선 순서 배열은 포트란 순서 배열
이 속성은 ndarray의 flags속성을 통해 명시적 확인

In [76]:
%timeit arr_c.sum(1)
%timeit arr_f.sum(1)

The slowest run took 8.96 times longer than the fastest. This could mean that an intermediate result is being cached.
1000 loops, best of 3: 402 µs per loop
1000 loops, best of 3: 503 µs per loop


- 배열의 로우의 합은 메모리에 로우가 연속적으로 존재하므로 이론적으로 arr_c가 arr_f보다 빠르게 계산
- %timeit를 사용하여 성능차 확인

In [77]:
arr_f.copy('C').flags

  C_CONTIGUOUS : True
  F_CONTIGUOUS : False
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False
  UPDATEIFCOPY : False

이는 NumPy에서 성능을 더 짜내야 할때 더 많은 노력을 기울이게 되는 부분,
원하는 메모리순서로 저장되지 않은 배열이 있다면 그 배열을 ‘C’,’F’ 순서로 복사해서 사용가능

In [78]:
arr_c[:50].flags.contiguous
arr_c[:, :50].flags

  C_CONTIGUOUS : False
  F_CONTIGUOUS : False
  OWNDATA : False
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False
  UPDATEIFCOPY : False

# Reference
[Materials and IPython notebooks for "Python for Data Analysis" by Wes McKinney, published by O'Reilly Media](https://www.cin.ufpe.br/~embat/Python%20for%20Data%20Analysis.pdf)

https://learning.oreilly.com/library/view/python-for-data/9781449323592/ch12.html

https://nbviewer.jupyter.org/github/pydata/pydata-book/tree/2nd-edition/

https://github.com/re4lfl0w/ipython/blob/master/books/python_data_analysis/ch04_Numpy.ipynb

https://notebooks.azure.com/wesm/projects/python-for-data-analysis

https://github.com/re4lfl0w/ipython/tree/master/books/python_data_analysis

