# Numpy  

- 데이터 정리 및 정리, 하위 설정 및 필터링, 변환 및 기타 모든 종류의 계산을 위한 빠른 배열 기반 작업  


- 정렬, 고유 및 집합 연산과 같은 일반적인 배열 알고리즘  


- 효율적인 기술 통계 및 데이터 집계/요약  


- 이기종 데이터 세트를 병합하고 결합하기 위한 데이터 정렬 및 관계형 데이터 조작  


- if-elif-else분기가 있는 루프 대신 배열 표현식으로 조건 논리 표현  


- 그룹별 데이터 조작(집계, 변환 및 함수 적용)

### python 대용량 데이터 배율을 효율적으로 처리 가능  


- NumPy는 내부적으로 다른 Python 내장 객체와 독립적으로 연속된 메모리 블록에 데이터를 저장함.   
- C 언어로 작성된 NumPy의 알고리즘 라이브러리는 타입 검사나 기타 오버헤드 없이 존제하는 메모리에서 동작함.  
- 또한 NumPy 배열은 Python 내장 시퀀스보다 훨씬 적은 메모리를 사용함.  


- NumPy 연산은 전체에 대해 복잡한 계산을 수행함.  
- 이는 큰 시퀀스의 경우 속도가 느릴 수 있는 Python 루프 없이 배열을 처리할 수 있음.  
- NumPy는 C 기반 알고리즘을 사용하여 일반적인 인터프리트 Python 코드에서 발생하는 오버헤드를 피하기 때문에 일반 Python 코드보다 빠름.  


In [2]:
import numpy as np
np.random.seed(12345)

import matplotlib.pyplot as plt
plt.rc("figure", figsize=(10, 6))

np.set_printoptions(precision=4, suppress=True)

Matplotlib is building the font cache; this may take a moment.


In [6]:
# NumPy 기반 알고리즘은 일반적으로 Python 알고리즘보다 10~100배(혹은 그 이상) 더 빠르고 메모리 사용량도 훨씬 적음.

my_arr = np.arange(1_000_000)
my_list = list(range(1_000_000))

%timeit my_arr2 = my_arr * 2
%timeit my_list2 = [x * 2 for x in my_list]

544 μs ± 16.3 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
13.2 ms ± 223 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


## 1. NumPy ndarray: 다차원 배열 객체  

- ndarray : 대용량 데이터셋을 위한 컨테이너 (N차원 배열 객체)  
- 스칼라 간의 동등한 연산과 유사 구문을 사용하여전체 데이터 블록에 대한 수학 연산 수행 가능  
- 동일 자료형의 데이터를 위한 일반적인 컨테이너임.  


### 1.1. 배열 함수  

- ndarray.shape : 차원의 크기를 나타내는 튜플  
- ndarray.dtype : 배열의 데이터 유형을 나타내는 객체  
- ndarray.ndim : 차원을 나타내는 메소드  

- np.array(data, dtype=) : 배열 생성 > 동일 길이의 중첩 리스트는 다차원 배열로 변환됨  
- np.asarray : 입력을 ndarray로 변환. 입력이 이미 ndarray인 경우 복사하지 않음. 

- np.zeros(shape) : 0으로 구성된 배열을 주어진 길이나 모양으로 생성  
- np.zeros_like(ndarray) : 다른 배열과 동일한 shape의 0으로 구성된 배열을 생성.  

- np.ones(shape) : 1로 구성된 배열을 주어진 길이나 모양으로 생성  
- np.ones_like(ndarray) : 다른 배열과 동일한 shape의 1로 구성된 배열을 생성.  

- np.empty(shape) : 특정 값으로 초기화화지 않고 임의의 값으로 배열을 초기화  
- np.empty_like(ndarray) : 다른 배열과 동일한 shape의 임의의 값으로 구성된 배열을 생성.  

- np.full(shape, value) : 특정 값으로 구성된 배열을 주어진 길이나 모양으로 생성.  
- np.full_like(ndarray) : 다른 배열과 동일한 shape의 특정 값으로 구성된 배열을 생성.  

- np.eye(shape) : 대각선은 1이고 나머지는 0인 M * N 행렬 생성.  
- np.identity : 대각선은 1이고 나머지는 0인 정사각 행렬 생성.    

- np.arange() : ndarray 반환  

- ndarray.astype(np.dtype) : 배열의 자료형 변환 > astye 호출 시 항상 새로운 배열(복사본)이 생성됨.  


### 1.2. 배열을 사용한 산술  

- for 루프를 사용하지 않고 데이터를 변환 > 벡터화  
- 동일 크기 배열 간의 모든 산술 연산을 요소별로 다음 연산을 적용함.  
- 스칼라를 사용한 연산의 경우, 스칼라 인수를 배열의 각 요소에 적용함.  
- 동일 크키의 배열 비교 시 boolean 배열 생성됨.  

- 크키가 다른 배열 간의 연산 : broadcasting  


### 1.3. 배열 인덱싱 및 슬라이싱  

- 데이터의 하위 집합이나 개별 요소를 선택하고 싶은 경우 사용.  

- ndarray[scalar:scalar]
- 슬라이싱 객체에 값을 할당하는 경우 (arr[5:8] = 12) 원본 배열에 그대로 반영됨.  
- ⭐️ 또는, 슬라이싱 객체를 수정하는 경우에도 원본 배열에 그대로 반영됨.  
    - 반면 일반 python 객체의 경우 새로운 객체가 생성되기 때문에 원본에 그대로 반영되지 않음.  
- 인덱싱 요소를 비워두는 경우 모든 값을 가져오거나 반영함.  


- 🤔 왜 일반 python 객체와 다르게 작용하는 것인가? 
- NumPy는 매우 큰 배열을 처리할 수 있도록 설계되었음.  
- 즉, NumPy가 항상 데이터를 복사하도록 고집한다면 성능과 메모리 문제가 발생할 수 있음.  
- 따라서 원본 데이터를 유지한 상태로 다양한 뷰를 메모리에서 가져와 제공하는 것이 유용함.  
- 데이터 자체는 한번만 메모리에 할당하며, 메타데이터만 다르게 설정함. 실제 원본 데이터는 항상 떠있는 메모리의 데이터를 공유함.  
- 정리하자면,  
    - NumPy의 메모리 관리 방식:  
        - 데이터 저장: 실제 숫자들은 한 번만 메모리에 할당  
        - 뷰 생성: 메타데이터만 다르게 설정하여 다양한 접근 방식 제공  
        - 메모리 공유: 모든 뷰가 같은 데이터 블록을 참조  
        - 효율성: 데이터 복사 없이 다양한 연산 가능  
        - 비유하면:  
            - 데이터: 책의 내용 (한 번만 인쇄)  
            - 뷰: 책갈피, 목차, 색인 (같은 내용을 다르게 접근)  
            - 복사: 책을 다시 인쇄 (새로운 메모리 할당)  
    - 이렇게 NumPy는 "데이터는 한 번, 접근은 다양하게" 하는 효율적인 시스템을 제공.  

    - NumPy의 인덱싱:  
        - ✅ 뷰 생성: 메타데이터만 다르게 설정  
        - ✅ 메모리 공유: 같은 데이터 블록 참조  
        - ✅ 실시간 동기화: 수정 시 양방향 반영  
        - ✅ 메모리 효율적: 데이터 복사 없음    

    - 일반 Python의 인덱싱:  
        - ❌ 복사 생성: 새로운 객체 생성  
        - ❌ 메모리 분리: 각각 다른 메모리 영역  
        - ❌ 독립적 동작: 수정 시 서로 영향 없음  
        - ❌ 메모리 비효율적: 데이터 복사 발생
        
    - 핵심:  
        - NumPy: 인덱싱 = "같은 데이터를 다르게 보는 뷰"  
        - 일반 Python: 인덱싱 = "데이터를 복사해서 새로운 객체 생성"  
        
    - 이렇게 NumPy는 "인덱싱을 뷰 생성으로", 일반 Python은 "인덱싱을 복사 생성으로" 완전히 다르게 처리  



- 1차원 베열 인덱싱/슬라이싱 : python 리스트 객체에 대한 인덱싱과 동일하게 작용함.  
- 2차원 배열 인덱싱/슬라이싱 : ndarray[row_indexing, cloumn_indexing]  


### 1.4. 부울 인덱싱  

- 부울 인덱싱 : ndarray와 특정 스칼라 값의 비교를 통해 boolean 벡터를 받아오고, 이를 다른 ndarray의 동일 위치와 비교하여 인덱싱 연산을 수행함.  
    - 인덱싱하는 배열 축과 동일 길이의 배열이어야 함.  
    - 또는 비교 결과를 저장하는 boolean array를 만들어두고, 이를 바탕으로 인덱싱 연산을 하도록 하는 경우도 많음.  
        - 예제  
            - cond = names_array == 'Bob'  
            - numbers_array[~cond]  
    - and, or는 boolean array와 호환되지 않음. &, | 를 사용할 것.  


### 1.5. Fancy 인덱싱  

- ndarray[[row_indexing], [column_indexing]]  
- 예제  
    - arr[[1, 5, 7, 2], [0, 3, 1, 2]]  

- 일반 슬라이싱과의 차이점  
    - 일반 슬라이싱  
        - ✅ 뷰 생성: 원본과 메모리 공유  
        - ✅ 양방향 반영: 뷰 수정 → 원본 변경, 원본 수정 → 뷰 변경  
        - ✅ 메모리 효율적: 데이터 복사 없음  

    - Fancy Indexing:  
        - ❌ 복사 생성: 원본과 완전히 분리  
        - ❌ 단방향 독립: 복사된 배열 수정 → 원본 미반영  
        - ❌ 메모리 비효율적: 데이터 복사 발생  

    - 왜 이런 차이가 발생하는가?  
        - 기술적 이유  
            - 연속적 데이터: 슬라이싱은 메모리에서 연속된 부분을 선택할 수 있어 뷰 생성 가능  
            - 비연속적 데이터: Fancy indexing은 메모리에서 흩어진 위치를 선택하므로 뷰 생성 불가능  
        - 메모리 효율성  
            - 연속된 데이터는 stride(간격)만 조정하면 다양한 뷰 생성 가능  
            - 비연속된 데이터는 각각의 위치를 개별적으로 참조해야 하므로 복사가 필요    

    - 정리  
        - 일반 슬라이싱: "같은 데이터를 다르게 보는 뷰" → 메모리 공유 → 수정 시 양방향 반영  
        - Fancy Indexing: "데이터를 복사해서 새로운 객체 생성" → 메모리 분리 → 수정 시 단방향 독립    

    - 비유:  
        - 슬라이싱: 같은 사진을 다르게 자른 것 (원본 사진과 연결됨)  
        - Fancy Indexing: 사진의 일부를 복사해서 새로운 사진 만든 것 (원본과 완전히 분리됨)  


### 1.6. 배열 전치  
- ndarray.T  
- ndarray.swapaxes(0, 1)  
- 두 함수 모두 복사본을 만들지 않고 원본 데이터에 대한 뷰를 반환함.  


### 1.1. 배열 함수

In [7]:
data = np.array([[1.5, -0.1, 3], [0, -3, 6.5]])
data

array([[ 1.5, -0.1,  3. ],
       [ 0. , -3. ,  6.5]])

In [9]:
data * 10

array([[ 15.,  -1.,  30.],
       [  0., -30.,  65.]])

In [10]:
data + data

array([[ 3. , -0.2,  6. ],
       [ 0. , -6. , 13. ]])

In [12]:
data.shape

(2, 3)

In [13]:
data.dtype

dtype('float64')

In [14]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [15]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [16]:
arr2.ndim
arr2.shape

(2, 4)

In [17]:
arr1.dtype
arr2.dtype

dtype('int64')

In [19]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [20]:
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [21]:
np.empty((2, 3, 2))

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

In [22]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [23]:
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr1.dtype

dtype('float64')

In [24]:
arr2 = np.array([1, 2, 3], dtype=np.int32)
arr2.dtype

dtype('int32')

In [25]:
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

dtype('int64')

In [27]:
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

In [28]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

In [31]:
arr.astype(np.int32)
arr

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

In [33]:
# numeric_strings = np.array(["1.25", "-9.6", "42"], dtype=np.string_)
numeric_strings = np.array(["1.25", "-9.6", "42"], dtype=np.bytes_)
numeric_strings

array([b'1.25', b'-9.6', b'42'], dtype='|S4')

In [34]:
numeric_strings.astype(float)

array([ 1.25, -9.6 , 42.  ])

In [35]:
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [36]:
zeros_uint32 = np.zeros(8, dtype="u4")
zeros_uint32

array([0, 0, 0, 0, 0, 0, 0, 0], dtype=uint32)

In [37]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

### 1.2. 배열을 이용한 산술

In [38]:
print(arr * arr)
print(arr - arr)
print(1 / arr)
print(arr ** 2)

[[ 1.  4.  9.]
 [16. 25. 36.]]
[[0. 0. 0.]
 [0. 0. 0.]]
[[1.     0.5    0.3333]
 [0.25   0.2    0.1667]]
[[ 1.  4.  9.]
 [16. 25. 36.]]


In [39]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [40]:
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

### 1.3. 배열 인덱싱 및 슬라이싱

In [42]:
arr = np.arange(10)
print(arr)
print(arr[5])
print(arr[5:8])

arr[5:8] = 12
print(arr)

[0 1 2 3 4 5 6 7 8 9]
5
[5 6 7]
[ 0  1  2  3  4 12 12 12  8  9]


In [43]:
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [44]:
arr_slice[1] = 12345
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [45]:
arr_slice[:] = 64
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [46]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]

array([7, 8, 9])

In [48]:
print(arr2d[0][2])
print(arr2d[0, 2])

3
3


In [49]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [50]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [54]:
old_values = arr3d[0].copy() # 원본 값에 대한 복사본 생성

arr3d[0] = 42
print(arr3d, '\n\n')

arr3d[0] = old_values
print(arr3d)

[[[42 42 42]
  [42 42 42]]

 [[ 7  8  9]
  [10 11 12]]] 


[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


In [55]:
arr3d[1, 0]

array([7, 8, 9])

In [56]:
x = arr3d[1]
x[0]

array([7, 8, 9])

In [57]:
arr
arr[1:6]

array([ 1,  2,  3,  4, 64])

In [58]:
arr2d
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [59]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [62]:
lower_dim_slice = arr2d[1, :2]
lower_dim_slice.shape
lower_dim_slice

array([4, 5])

In [63]:
arr2d[:2, 2]

array([3, 6])

In [64]:
arr2d[:, :1]

array([[1],
       [4],
       [7]])

In [65]:
arr2d[:2, 1:] = 0
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

### 1.4. 부울 인덱싱

In [80]:
names = np.array(["Bob", "Joe", "Will", "Bob", "Will", "Joe", "Joe"])
data = np.array([[4, 7], [0, 2], [-5, 6], [0, 0], [1, 2],
                 [-12, -4], [3, 4]])
print(names, '\n\n')
print(data)

['Bob' 'Joe' 'Will' 'Bob' 'Will' 'Joe' 'Joe'] 


[[  4   7]
 [  0   2]
 [ -5   6]
 [  0   0]
 [  1   2]
 [-12  -4]
 [  3   4]]


In [81]:
names == "Bob"

array([ True, False, False,  True, False, False, False])

In [82]:
data[names == "Bob"]

array([[4, 7],
       [0, 0]])

In [83]:
print(data[names == "Bob", 1:], '\n\n') # 해당 차원의 모든 요소를 선택 -> 차원 유지, 2차원 배열 반환
print(data[names == "Bob", 1]) # 해당 차원의 특정 요소를 선택 -> 차원 유지, 1차원 배열 반환

[[7]
 [0]] 


[7 0]


In [84]:
names != "Bob"
~(names == "Bob")
data[~(names == "Bob")]

array([[  0,   2],
       [ -5,   6],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

In [85]:
cond = names == "Bob"
data[~cond]

array([[  0,   2],
       [ -5,   6],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

In [86]:
mask = (names == "Bob") | (names == "Will")
mask
data[mask]

array([[ 4,  7],
       [-5,  6],
       [ 0,  0],
       [ 1,  2]])

In [87]:
data

array([[  4,   7],
       [  0,   2],
       [ -5,   6],
       [  0,   0],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

In [88]:
data[data < 0] = 0
data

array([[4, 7],
       [0, 2],
       [0, 6],
       [0, 0],
       [1, 2],
       [0, 0],
       [3, 4]])

In [89]:
data[names != "Joe"] = 7
data

array([[7, 7],
       [0, 2],
       [7, 7],
       [7, 7],
       [7, 7],
       [0, 0],
       [3, 4]])

### 1.5. Fancy Indexing

In [90]:
arr = np.zeros((8, 4))
for i in range(8):
    arr[i] = i
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [91]:
arr[[4, 3, 0, 6]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

In [92]:
arr[[-3, -5, -7]]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [1., 1., 1., 1.]])

In [95]:
arr = np.arange(32).reshape((8, 4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [None]:
# 행 인덱스와 열 인덱스가 매칭되어 특정 위치의 요소를 선택
# 결과는 4개의 개별 요소들
# arr[1, 0], arr[5, 3], arr[7, 1], arr[2, 2]
# 이는 1차원 배열로 반환됨

arr[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

In [None]:
# 결과는 2차원 배열
# 4행 × 4열의 부분 배열
# 선택된 행들의 모든 열 중에서 지정된 열들만 선택

arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

In [97]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]]
arr[[1, 5, 7, 2], [0, 3, 1, 2]] = 0
arr

array([[ 0,  1,  2,  3],
       [ 0,  5,  6,  7],
       [ 8,  9,  0, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22,  0],
       [24, 25, 26, 27],
       [28,  0, 30, 31]])

### 1.6. 배열 전치 및 축 교체

In [98]:
arr = np.arange(15).reshape((3, 5))
arr
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [99]:
arr = np.array([[0, 1, 0], [1, 2, -2], [6, 3, 2], [-1, 0, -1], [1, 0, 1]])
arr
np.dot(arr.T, arr)

array([[39, 20, 12],
       [20, 14,  2],
       [12,  2, 10]])

In [100]:
arr.T @ arr

array([[39, 20, 12],
       [20, 14,  2],
       [12,  2, 10]])

In [101]:
arr
arr.swapaxes(0, 1)

array([[ 0,  1,  6, -1,  1],
       [ 1,  2,  3,  0,  0],
       [ 0, -2,  2, -1,  1]])

## 2. 의사난수 생성

In [60]:
samples = np.random.standard_normal(size=(4, 4))
samples

In [61]:
from random import normalvariate
N = 1_000_000
%timeit samples = [normalvariate(0, 1) for _ in range(N)]
%timeit np.random.standard_normal(N)

In [62]:
rng = np.random.default_rng(seed=12345)
data = rng.standard_normal((2, 3))

In [63]:
type(rng)

In [64]:
arr = np.arange(10)
arr
np.sqrt(arr)
np.exp(arr)

In [65]:
x = rng.standard_normal(8)
y = rng.standard_normal(8)
x
y
np.maximum(x, y)

In [66]:
arr = rng.standard_normal(7) * 5
arr
remainder, whole_part = np.modf(arr)
remainder
whole_part

In [67]:
arr
out = np.zeros_like(arr)
np.add(arr, 1)
np.add(arr, 1, out=out)
out

In [68]:
points = np.arange(-5, 5, 0.01) # 100 equally spaced points
xs, ys = np.meshgrid(points, points)
ys

In [69]:
z = np.sqrt(xs ** 2 + ys ** 2)
z

In [70]:
import matplotlib.pyplot as plt
plt.imshow(z, cmap=plt.cm.gray, extent=[-5, 5, -5, 5])
plt.colorbar()
plt.title("Image plot of $\sqrt{x^2 + y^2}$ for a grid of values")

In [71]:
plt.draw()

In [72]:
plt.close("all")

In [73]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])

In [74]:
result = [(x if c else y)
          for x, y, c in zip(xarr, yarr, cond)]
result

In [75]:
result = np.where(cond, xarr, yarr)
result

In [76]:
arr = rng.standard_normal((4, 4))
arr
arr > 0
np.where(arr > 0, 2, -2)

In [77]:
np.where(arr > 0, 2, arr) # set only positive values to 2

In [78]:
arr = rng.standard_normal((5, 4))
arr
arr.mean()
np.mean(arr)
arr.sum()

In [79]:
arr.mean(axis=1)
arr.sum(axis=0)

In [80]:
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7])
arr.cumsum()

In [81]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
arr

In [82]:
arr.cumsum(axis=0)
arr.cumsum(axis=1)

In [83]:
arr = rng.standard_normal(100)
(arr > 0).sum() # Number of positive values
(arr <= 0).sum() # Number of non-positive values

In [84]:
bools = np.array([False, False, True, False])
bools.any()
bools.all()

In [85]:
arr = rng.standard_normal(6)
arr
arr.sort()
arr

In [86]:
arr = rng.standard_normal((5, 3))
arr

In [87]:
arr.sort(axis=0)
arr
arr.sort(axis=1)
arr

In [88]:
arr2 = np.array([5, -10, 7, 1, 0, -3])
sorted_arr2 = np.sort(arr2)
sorted_arr2

In [89]:
names = np.array(["Bob", "Will", "Joe", "Bob", "Will", "Joe", "Joe"])
np.unique(names)
ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])
np.unique(ints)

In [90]:
sorted(set(names))

In [91]:
values = np.array([6, 0, 0, 3, 2, 5, 6])
np.in1d(values, [2, 3, 6])

In [92]:
arr = np.arange(10)
np.save("some_array", arr)

In [93]:
np.load("some_array.npy")

In [94]:
np.savez("array_archive.npz", a=arr, b=arr)

In [95]:
arch = np.load("array_archive.npz")
arch["b"]

In [96]:
np.savez_compressed("arrays_compressed.npz", a=arr, b=arr)

In [97]:
!rm some_array.npy
!rm array_archive.npz
!rm arrays_compressed.npz

In [98]:
x = np.array([[1., 2., 3.], [4., 5., 6.]])
y = np.array([[6., 23.], [-1, 7], [8, 9]])
x
y
x.dot(y)

In [99]:
np.dot(x, y)

In [100]:
x @ np.ones(3)

In [101]:
from numpy.linalg import inv, qr
X = rng.standard_normal((5, 5))
mat = X.T @ X
inv(mat)
mat @ inv(mat)

In [102]:
import random
position = 0
walk = [position]
nsteps = 1000
for _ in range(nsteps):
    step = 1 if random.randint(0, 1) else -1
    position += step
    walk.append(position)


In [103]:
plt.figure()

In [104]:
plt.plot(walk[:100])

In [105]:
nsteps = 1000
rng = np.random.default_rng(seed=12345)  # fresh random generator
draws = rng.integers(0, 2, size=nsteps)
steps = np.where(draws == 0, 1, -1)
walk = steps.cumsum()

In [106]:
walk.min()
walk.max()

In [107]:
(np.abs(walk) >= 10).argmax()

In [108]:
nwalks = 5000
nsteps = 1000
draws = rng.integers(0, 2, size=(nwalks, nsteps)) # 0 or 1
steps = np.where(draws > 0, 1, -1)
walks = steps.cumsum(axis=1)
walks

In [109]:
walks.max()
walks.min()

In [110]:
hits30 = (np.abs(walks) >= 30).any(axis=1)
hits30
hits30.sum() # Number that hit 30 or -30

In [111]:
crossing_times = (np.abs(walks[hits30]) >= 30).argmax(axis=1)
crossing_times

In [112]:
crossing_times.mean()

In [113]:
draws = 0.25 * rng.standard_normal((nwalks, nsteps))