In [2]:
import numpy as np
from tqdm import tqdm

## Numpy

행렬이나 다차원 배열을 쉽게 처리할 수 있도록 도와주는 python 라이브러리

<br>

- Numpy 특징 <br>
    - python list에 비해 빠르며 효율적인 메모리
    - 반복문 없이 배열에 대한 처리 
    - 다양한 기능 탑재
<br>
<br>

- Numpy 기능 <br>
1. shape: numpy dimension
2. ndim: shape에서 얼마나 나오는지
3. dtype: numpy 원소의 data type


#### median

축별 중앙값 산출

axis=0: 각 열(column)별로 중앙값 계산 <br>
axis=1: 각 행(row)별로 중앙값 계산

In [15]:
x = np.arange(12).reshape(4, 3)
print(x)

print('-' * 30)

print(np.median(x, axis=1))

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
------------------------------
[ 1.  4.  7. 10.]


In [16]:
x = np.random.randint(0, 10, (2, 5))
print(x)

print('-' * 30)

print(np.median(x, axis = 1))

[[6 0 0 8 2]
 [2 1 9 2 9]]
------------------------------
[2. 2.]


#### average

축별 가중합 산출

<br>
배열의 각 요소에 지정된 "가중치"를 곱한 후 그 합을 가중치의 합으로 나누어 가중 평균 산출

In [26]:
x = np.array([3, 4, 5])
np.average(x, weights=[0.5, 0.3, 0.2])

3.7

#### mean

축별 평균 산출


In [29]:
x = np.arange(12).reshape(4, 3)
x.mean(axis =1)

array([ 1.,  4.,  7., 10.])

In [30]:
x = np.arange(12).reshape(4, 3)
print(x)

print('-' * 30)

print(x.mean(axis = 0))

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
------------------------------
[4.5 5.5 6.5]


### 랜덤 배열 생성

- random: 균등분포에서 입력한 차원 만큼 데이터 생성 -> 실수

- randint: 지정한 범위 내에서 임의의 수 생성 -> 정수

In [4]:
np.random.random(size=(2, 3))

array([[0.87625725, 0.57557234, 0.16394683],
       [0.20972931, 0.25034458, 0.10182282]])

In [5]:
np.random.randint(0, 10, size=(5, 4))

array([[4, 2, 5, 0],
       [3, 7, 8, 0],
       [1, 2, 9, 4],
       [3, 4, 9, 7],
       [9, 6, 0, 9]])

- normal
    - 정규 분포에서 입력한 차원 만큼 데이터 생성
- randn
    - 표준정규분포에서 입력한 차원 만큼 데이터 생성
    - 표준정규분포: 평균 0, 표준편차 1

In [7]:
# loc: 평균, scale: 분산, size:dim
np.random.normal(loc = 10, scale = 5, size=(3, 2))

array([[ 6.61208877, 19.85208009],
       [15.04415091, 11.99831204],
       [ 2.57484956,  7.25714995]])

In [10]:
np.random.randn(2, 3)

array([[-1.96461188,  0.89401317, -1.463116  ],
       [-1.25413464, -0.14024344,  0.87375088]])

## 배열 조작

### 배열결합
- concatenate / reshape

### 배열 분할
- array_split

In [16]:
a = np.arange(12).reshape(2, 6)
b = np.arange(12).reshape(2, 6)

print(np.concatenate([a, b], axis =1))

--------------------------------------------------
[[ 0  1  2  3  4  5  0  1  2  3  4  5]
 [ 6  7  8  9 10 11  6  7  8  9 10 11]]


In [19]:
print(np.concatenate([a, b], axis =0))

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]


In [22]:
x = np.arange(12)
print(np.split(x, 3)) # 배열 x를 3개의 균등한 크기의 부분 배열로 나눔 -> 각 부분 배열은 4개의 원소 가짐

print('-' * 50)

y = np.arange(12)
print(np.split(y, [2, 5, 8, 11])) # 주어진 인덱스 위치에서 분할

[array([0, 1, 2, 3]), array([4, 5, 6, 7]), array([ 8,  9, 10, 11])]
--------------------------------------------------
[array([0, 1]), array([2, 3, 4]), array([5, 6, 7]), array([ 8,  9, 10]), array([11])]


### 차원 변경
- reshape
    - 배열의 모양을 원하는 형태로 바꿈
    - 바꾸는 배열의 차원 곱은 원 배열의 차원 곱과 일치해야 함
- flattten
    - 배열을 1차원 배열로 바꿈
- squeeze
    - 불필요 차원을 제거하는 것으로 길이가 0인 차원을 제거
- expand_dims
    - 차원 추가

In [25]:
print(np.arange(6).reshape(3, 2))

print('-' * 50)

print(np.arange(12).reshape(2, 3, 2))

[[0 1]
 [2 3]
 [4 5]]
--------------------------------------------------
[[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]]


In [27]:
x = np.arange(12).reshape(2, 3, 2)
print(x)
print('-'*50)
print(x.flatten())

[[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]]
--------------------------------------------------
[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [29]:
x = np.arange(6).reshape(1, 1, 1, 1, 1, 2, 3)
print(x)

x.squeeze()

[[[[[[[0 1 2]
      [3 4 5]]]]]]]


array([[0, 1, 2],
       [3, 4, 5]])

In [30]:
x = np.arange(10)
print(x.shape)

x1 = np.expand_dims(x, 0)
print(x1.shape)

(10,)
(1, 10)


### 모양 변경
- roll
    - 입력한 수 만큼 이동
- flip
    - 지정된 축 기준으로 배열을 뒤집음

In [31]:
x = np.arange(5)

print(x)
print(np.roll(x, shift=1))

[0 1 2 3 4]
[4 0 1 2 3]


In [32]:
a = ['2024-01-01', '2024-02-01', '2024-03-01', '2024-04-01', '2024-05-01']
b = np.roll(a, shift=-1)

print(a)
print(b)

list(zip(a, b))[:-1]

['2024-01-01', '2024-02-01', '2024-03-01', '2024-04-01', '2024-05-01']
['2024-02-01' '2024-03-01' '2024-04-01' '2024-05-01' '2024-01-01']


[('2024-01-01', '2024-02-01'),
 ('2024-02-01', '2024-03-01'),
 ('2024-03-01', '2024-04-01'),
 ('2024-04-01', '2024-05-01')]

In [38]:
x = np.arange(10).reshape(5, 2)
print(x)
print('-'*50)
print(np.flip(x, axis=0))
print('-'*50)
print(np.flip(x, axis=1))

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
--------------------------------------------------
[[8 9]
 [6 7]
 [4 5]
 [2 3]
 [0 1]]
--------------------------------------------------
[[1 0]
 [3 2]
 [5 4]
 [7 6]
 [9 8]]


### 축 변경
- swapaxes
    - 두축의 위치를 지정하여 변경
- transpose
    - 여러 축의 위치 변경

In [53]:
x = np.random.randint(0, 10, (5, 2))
print(x)

x.sort(axis=0)
x

[[2 3]
 [0 9]
 [9 9]
 [1 8]
 [8 7]]


array([[0, 3],
       [1, 7],
       [2, 8],
       [8, 9],
       [9, 9]])

In [56]:
x.sort(axis=1)
x

array([[0, 3],
       [1, 7],
       [2, 8],
       [8, 9],
       [9, 9]])

In [59]:
x = np.random.randint(0, 10, 5)
print(x)

y = x.argsort()
print(y)

[3 9 9 1 6]
[3 0 4 1 2]


In [65]:
# 중복값 제거
x = np.random.randint(0, 5, 20)
x.sort()
x

array([0, 0, 0, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4])

In [66]:
np.unique(x)

array([0, 1, 2, 3, 4])

In [67]:
x = np.full((3, 4), np.nan)


In [70]:
x = np.arange(6, 0, -1)
print(x)
y = np.where(x < 3)[0]
print(y)

[6 5 4 3 2 1]
[4 5]


In [71]:
# extract
x = np.arange(6).reshape(2, 3)
print(x)

y = np.extract(x > 2, x)
print(y)

[[0 1 2]
 [3 4 5]]
[3 4 5]


In [72]:
df = pd.DataFrame({
    'A': range(1, 6),
    'B': range(10, 0, -2),
    'C C': range(10, 5, -1)
    })
# B열 값이 6이상이면서 A열의 값이 3이상인 row 추출
df.query('A >= 3 and B >= 6')   # df.loc[(df.B >= 6) & (df.A >= 3)]
# A열 1 이상 B열 3 이상
df.query('A >= 1 and B >= 3')   # df.loc[(df.B >= 6) & (df.A >= 3)]
# C C열이 8이상이면서 A열이 3이상
df.query('`C C` >= 8 and A >= 3')
# A열이 값이 수학인 것을 추출
df.query('A == "수학"')

NameError: name 'pd' is not defined