In [1]:
import numpy as np

---

- ## numpy.linspace
    - #### (start, stop, num, endpoint)
        - #### endpoint = True(default)
            - #### num - 1 등분하고, stop포인트 포함
         
        - #### endpoint = False
            - #### num 등분하고, stop포인트 미포함

- #### endpoint = True이므로 9를 4등분하고 시작점, 마지막점 포함
    - #### 9 / 4 = 2.25

In [2]:
np.linspace(1, 10, 5)

array([ 1.  ,  3.25,  5.5 ,  7.75, 10.  ])

- #### endpoint = False 이므로 9를 5등분, 마지막점 미포함

In [3]:
np.linspace(1, 10, 5, endpoint=False)

array([1. , 2.8, 4.6, 6.4, 8.2])

---

## 난수기반 배열생성

- ### 표준 정규분포
    - #### 평균이 0, 표준편차가 1인 정규 분포
    - #### numpy.random.randn(n)
        - #### n개의 표준 정규분포 생성

<br>

- #### 평균 m, 표준편차 sigma인 12개의 난수


In [6]:
m = 175
sigma = 10

print(np.random.randn(12))

heights = m + sigma * np.random.randn(12)
heights

[ 0.10431022 -0.18619609 -0.28497543 -1.50588638 -0.43534638 -1.17087158
 -1.19307596  2.12776248 -1.18341467 -1.89219858  0.50327707  0.81918848]


array([188.01369631, 170.16207264, 172.24584071, 172.91741903,
       181.22867893, 177.44185599, 172.27503055, 169.54776559,
       183.66148076, 189.50358717, 166.0276891 , 189.23825034])

- ### 정규분포 함수
    - ### np.random.normal(loc, scale, size)
        - #### loc: 평균
        - #### scale: 표준 편차
        - #### size: 데이터 개수

In [8]:
np.random.normal(loc=175, scale=10, size=12)

array([183.43387609, 161.05663657, 167.61299284, 169.86657979,
       187.42082109, 164.88395787, 159.10616394, 166.88890886,
       182.05467293, 182.94432651, 178.50717934, 185.4426442 ])

---

- ### numpy.append(arr, values, axis=None)

<br>

> #### axis = None이면 펼쳐서 끝에 추가

In [17]:
arr = np.array([[1, 2, 3], [4, 5, 6]])

np.append(arr, [[7, 8, 9]])

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

> #### 축 지정할 시 지정한 축 끝에 추가

In [18]:
np.append(arr, [[7, 8, 9]], axis=0)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [14]:
np.append(arr, [[7], [8]], axis=1)

array([[1, 2, 3, 7],
       [4, 5, 6, 8]])

---

- ### numpy.delete(arr, index, axis=None)

In [25]:
arr = np.arange(1, 13).reshape(3, 4)
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

> 축을 지정하지 않으면 펼친 후 해당 인덱스 제거

In [26]:
np.delete(arr, 1)

array([ 1,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

> 축 지정할 시 지정한 축에서 해당 인덱스 제거

In [27]:
np.delete(arr, 1, axis=0)

array([[ 1,  2,  3,  4],
       [ 9, 10, 11, 12]])

In [28]:
np.delete(arr, 1, axis=1)

array([[ 1,  3,  4],
       [ 5,  7,  8],
       [ 9, 11, 12]])

---

- ### numpy.insert(arr, index, values, axis=None)
    - #### arr의 index에 values 삽입

> 축 지정하지 않으면 펼쳐서 삽입

In [61]:
arr = np.arange(1, 13).reshape(3, 4)
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [62]:
np.insert(arr, 1, -1)

array([ 1, -1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

> 축 지정하여 삽입

In [57]:
np.insert(arr, 1, -1, axis=0)

array([[ 1,  2,  3,  4],
       [-1, -1, -1, -1],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [58]:
np.insert(arr, 1, -1, axis=1)

array([[ 1, -1,  2,  3,  4],
       [ 5, -1,  6,  7,  8],
       [ 9, -1, 10, 11, 12]])

---

- ### numpy.sort(arr, axis, kind, order)
    - #### axis
        - #### 기본값: -1 제일 마지막 축
    - #### kind
        - #### quicksort, mergesort, heapsort, stable
    - #### order
        - #### 정렬 우선순위 지정, 리스트로 여러개 사용 가능

In [41]:
arr = np.array([[2, 1], [4, 3]])
np.sort(arr, axis=1)

array([[1, 2],
       [3, 4]])

In [46]:
dtype = [('name', 'S10'), ('height', float), ('age', int)]
arr = np.array([('Arthur', 1.8, 41), ('Lacelot', 1.9, 38), ('Galahad', 1.7, 38)], dtype=dtype)

print(np.sort(arr, order='height'))
print(np.sort(arr, order=('age', 'height')))

[(b'Galahad', 1.7, 38) (b'Arthur', 1.8, 41) (b'Lacelot', 1.9, 38)]
[(b'Galahad', 1.7, 38) (b'Lacelot', 1.9, 38) (b'Arthur', 1.8, 41)]


---

- ### numpy.concatenate((arrays), axis)
    - #### 배열요소 연결
 
<br>

> 축 미지정시 0번 축 기본으로 사용

In [54]:
arr1 = np.array([[1, 2, 3]])
arr2 = np.array([[4, 5, 6]])

np.concatenate((arr1, arr2))

array([[1, 2, 3],
       [4, 5, 6]])

> 축 None으로 지정 시 펼쳐서 합침

In [55]:
arr1 = np.array([[1, 2, 3]])
arr2 = np.array([[4, 5, 6]])

np.concatenate((arr1, arr2), axis=None)

array([1, 2, 3, 4, 5, 6])

> 축 지정

In [53]:
arr1 = np.array([[1, 2], [3, 4]])
arr2 = np.array([[5, 6]])

print(np.concatenate((arr1, arr2), axis=0))

print()

print(np.concatenate((arr1, np.transpose(arr2)), axis=1))

[[1 2]
 [3 4]
 [5 6]]

[[1 2 5]
 [3 4 6]]


---

- ### np.reshape(shape)

<br>

> #### shape로 -1 사용 시 펼침

In [63]:
arr = np.array([[1, 2], [3, 4], [5, 6]])
arr.reshape(-1)

array([1, 2, 3, 4, 5, 6])

> #### 지정하지 않을 항목에 -1 사용 가능

In [65]:
arr.reshape(-1, 2)

array([[1, 2],
       [3, 4],
       [5, 6]])

---

- ### array.flatten()
    - #### 배열 복사본의 펼쳐진 형태 리턴

In [71]:
arr = np.array([[1, 2], [3, 4], [5, 6]])

arr2 = arr.flatten()
arr2[1] = 1
print(arr2)

print(arr)

[1 1 3 4 5 6]
[[1 2]
 [3 4]
 [5 6]]


- ### array.ravel()
    - #### 원본 배열의 펼쳐진 형태 리턴

In [72]:
arr = np.array([[1, 2], [3, 4], [5, 6]])

arr2 = arr.ravel()
arr2[1] = 1
print(arr2)

print(arr)

[1 1 3 4 5 6]
[[1 1]
 [3 4]
 [5 6]]


---

- ### 배열 슬라이싱

- #### 슬라이싱 step값이 음수이고, 시작 인덱스가 지정되지 않으면 시작 인덱스는 제일 마지막 원소이다.

In [76]:
arr = np.arange(10)
print(arr)

print(arr[:-2:-1])

[0 1 2 3 4 5 6 7 8 9]
[9]


---

- ### 배열 인덱싱, 슬라이싱

In [80]:
arr = np.arange(1, 17).reshape(4, 4)
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

![image](https://github.com/kks00/data-science/assets/68108664/6f07a50e-f05b-46ed-80ed-eba1da8b23c7)

In [81]:
arr[1,:]

array([5, 6, 7, 8])

In [82]:
arr[2:,:]

array([[ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [83]:
arr[:,1]

array([ 2,  6, 10, 14])

In [84]:
arr[:,2:]

array([[ 3,  4],
       [ 7,  8],
       [11, 12],
       [15, 16]])

In [85]:
arr[1:3, 1:3]

array([[ 6,  7],
       [10, 11]])

In [86]:
arr[(1,3),:]

array([[ 5,  6,  7,  8],
       [13, 14, 15, 16]])

---

- ### 논리적 인덱싱

In [88]:
ages = np.array([18, 19, 25, 30, 28])
ages > 20

array([False, False,  True,  True,  True])

> #### True에 해당하는 데이터만 추출하기

In [90]:
ages[ages > 20]

array([25, 30, 28])

In [92]:
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr[np.array([False, True, True])]

array([[4, 5, 6],
       [7, 8, 9]])

> #### 특정 조건 만족하는 데이터 추출하기

In [98]:
players = np.array([[170, 76.4], [183, 86.2], [181, 78.5], [176, 80.1]])
players

array([[170. ,  76.4],
       [183. ,  86.2],
       [181. ,  78.5],
       [176. ,  80.1]])

- #### 몸무게가 80이상인 선수

In [100]:
players[:,1] >= 80

array([False,  True, False,  True])

In [101]:
players[players[:,1] >= 80]

array([[183. ,  86.2],
       [176. ,  80.1]])

- #### 키가 175 이상인 선수 정보

In [103]:
players[:,0] >= 175

array([False,  True,  True,  True])

In [104]:
players[players[:,0] >= 175]

array([[183. ,  86.2],
       [181. ,  78.5],
       [176. ,  80.1]])

---

- ### array.dot(array)
- ### array @ array
    - #### matrix product 연산

In [107]:
arr1 = np.arange(1, 5).reshape(2, 2)
arr2 = np.arange(5, 9).reshape(2, 2)

print(arr1.dot(arr2))
print()
print(arr1 @ arr2)

[[19 22]
 [43 50]]

[[19 22]
 [43 50]]


---

- ### np.median(array)
    - #### 배열의 중간값 반환

In [111]:
arr = np.array([3, 7, 1, 2, 21])
np.median(arr)

3.0

> #### 배열 원소 개수가 짝수인 경우 가운데 두 원소의 평균을 리턴함
>> 1, 2, 3, 6, 7, 21
>> 3, 6 평균 = 4.5

In [112]:
arr = np.array([3, 7, 6, 1, 2, 21])
np.median(arr)

4.5

---

- ### np.mean(arr)
    - #### 배열의 평균값 반환

In [114]:
arr = np.array([3, 7, 1, 2, 21])
np.mean(arr)

6.8

---

- ### np.argmin(arr), np.argmax(arr)
    - #### 최소값, 최대값을 가지는 요소의 인덱스 반환

In [116]:
arr = np.array([3, 7, 1, 2, 21])

np.argmin(arr), np.argmax(arr)

(2, 4)