# 요약
- `np.arange(start, end, delta)` : start부터 end까지 delta만큼 더해가면서 나눔.
- `np.linspace(a, b, n)` : a부터 b까지를 균등하게 n개로 나눔. 
- `np.bincount(양의 정수로 이뤄진 container)` : 각 수가 몇개 있는지 해당하는 index에 그 갯수를 넣어서 반환 
- `np.digitize()` : 구간을 나눠서 mapping. 
- `np.histogram()` : 각 구간별로 몇개씩 있는지 알려준다

In [1]:
import numpy as np
import matplotlib.pyplot as plt

## np.arange(start, end, $\delta$)
---
- output : `[start, start + $\delta$, start + 2*$\delta$ ... ]` (절대 end를 넘지 않음)
- 끝값을 포함시키고 싶다면? end값을 end + $\delta$ - $\epsilon$로 두고 사용. 

In [16]:
np.arange(-1, 1, 0.1)

array([-1.00000000e+00, -9.00000000e-01, -8.00000000e-01, -7.00000000e-01,
       -6.00000000e-01, -5.00000000e-01, -4.00000000e-01, -3.00000000e-01,
       -2.00000000e-01, -1.00000000e-01, -2.22044605e-16,  1.00000000e-01,
        2.00000000e-01,  3.00000000e-01,  4.00000000e-01,  5.00000000e-01,
        6.00000000e-01,  7.00000000e-01,  8.00000000e-01,  9.00000000e-01])

In [17]:
start = 0
end = 10
delta = 1
epsilon = 1e-1
print(f"end = end : {np.arange(start, end, delta)}")
print(f"end = end + epsilon: {np.arange(start, end+delta-epsilon, delta)}")


end = end : [0 1 2 3 4 5 6 7 8 9]
end = end + epsilon: [ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]


## np.linspace(start, end, n)
---
- output : n개의 split point **(`start`, `end` 포함)**

In [20]:
start = 0
end = 10
n = 3
np.linspace(start, end, n)

array([ 0.,  5., 10.])

## np.bincount(inteagers)
---
- 정수가 나타난 횟수를 정수형 np.array의 각 인덱스에 집어넣고 반환


In [70]:
from random import shuffle
a = []
for i in range(1, 5 + 1) : 
    a += i*[i]
shuffle(a)
print(f"input : {a} , {type(a)}")
print(f"output : {np.bincount(a)}, {type(np.bincount(a))}")

input : [2, 4, 5, 3, 4, 3, 5, 4, 5, 2, 3, 5, 1, 5, 4] , <class 'list'>
output : [0 1 2 3 4 5], <class 'numpy.ndarray'>


## np.digitize(numbers, grid)
---
- grid에 맞게 numbers를 digitize해서 0, 1, 2, ... 이렇게 grid에 맟게 숫자를 다시 할당 
- n이 grid의 범위보다 작을경우 : 0
- 그 외의 경우(n이 grid의 범위 안에 있거나 더 큰 경우) : 왼쪽 수의 순서에 맞춤
- grid와 input의 차원을 맞춰줘야함(grid가 n개의 vector : input은 n개의 원소로 이뤄진 좌표)

In [48]:
grid = np.arange(0, 100 + epsilon, 10)
print(f"grid : {grid}")
numbers = grid+1
print(f"input : grid + 1 ({numbers})\noutput : {np.digitize(numbers, grid)}\n")
numbers = grid-1
print(f"input : grid - 1 ({numbers})\noutput : {np.digitize(numbers, grid)}\n")
n = -9999
print(f"input : -9999\noutput : {np.digitize(n, grid)}\n")
n = +9999
print(f"input : +9999\noutput : {np.digitize(n, grid)}\n")



grid : [  0.  10.  20.  30.  40.  50.  60.  70.  80.  90. 100.]
input : grid + 1 ([  1.  11.  21.  31.  41.  51.  61.  71.  81.  91. 101.])
output : [ 1  2  3  4  5  6  7  8  9 10 11]

input : grid - 1 ([-1.  9. 19. 29. 39. 49. 59. 69. 79. 89. 99.])
output : [ 0  1  2  3  4  5  6  7  8  9 10]

input : -9999
output : 0

input : +9999
output : 11



### input의 원소가 n차원 인 경우

- 각 값들을 모두 digitize한 뒤 반환

In [60]:
grid = np.arange(0, 100 + epsilon, 10)
print(grid)
numbers = np.array([(i,i) for i in range(0, 100+1, 10)])
print(numbers)
print(np.digitize(numbers, grid))

[  0.  10.  20.  30.  40.  50.  60.  70.  80.  90. 100.]
[[  0   0]
 [ 10  10]
 [ 20  20]
 [ 30  30]
 [ 40  40]
 [ 50  50]
 [ 60  60]
 [ 70  70]
 [ 80  80]
 [ 90  90]
 [100 100]]
[[ 1  1]
 [ 2  2]
 [ 3  3]
 [ 4  4]
 [ 5  5]
 [ 6  6]
 [ 7  7]
 [ 8  8]
 [ 9  9]
 [10 10]
 [11 11]]


### input의 원소가 n차원이고 각 차원에 해당하는 값을 다른 grid로 digitize하고 싶다면? 

In [69]:
sample = [1.1, 5, 9]
print(f"sample : {sample}")

a = np.linspace(1, 10, 10) 
print(f"a : {a}")
b = np.linspace(1, 8, 5)
print(f"b : {b}")
c = np.linspace(1, 6, 9)
print(f"c : {c}")

grid = [a, b, c]
tuple(int(np.digitize(s, g)) for s, g in zip(sample, grid))  # apply along each dimension

sample : [1.1, 5, 9]
a : [ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]
b : [1.   2.75 4.5  6.25 8.  ]
c : [1.    1.625 2.25  2.875 3.5   4.125 4.75  5.375 6.   ]


(1, 3, 9)

## np.histogram(x, bins=10)
- output : (a ,b)각 구간에 해당하는 원소가 x에 몇개 있는지 a에 넣어서 반환하고, a를 도출해 낸 구간을 반환함

- bins가 정수인 경우 : a의 max값과 min값을 보고 n개의 균등한 구간을 나눠서 histogram을 반환(default : 10)
- bins가 list, array 등등인 경우 : 거기에 맞게 histogram을 반환 

In [75]:
a, b = np.histogram([1,5,11])
print(a)
print(b)

[1 0 0 0 1 0 0 0 0 1]
[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11.]


In [78]:
bins = np.linspace(1, 10, 10)
x = [1, 2,2, 3,3,3, 4,4,4,4, 5,5,5,5,5]
a, b = np.histogram(x, bins = bins)
print(a)
print(b)

[1 2 3 4 5 0 0 0 0]
[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]
