# `01_numpy.ipynb`

- 데이터 분석: 데이터를 분석하여 의사 결정에 도움을 줌
- 데이터 분석 / 통계 / 머신 러닝
    - 데이터 분석: **문제를 정의하고 인사이트 도출** (고객 구매 패턴 분석)
    - 통계: 데이터를 **요약, 해석하는 수학** (평균, 분산)
    - 머신 러닝: 데이터를 학습하여 **예측** (스팸함 분류, 추천)

- 데이터 분석: 데이터를 분석하여 의사결정에 도움을 준다
    - 의사결정 데이터 기반의 근거
    - 패턴 발견, 예측(머신 러닝)

- DA Flow(흐름)
    1. 문제 정의
    1. 데이터 수집
    1. 데이터 정제 (결측치, 이상치 처리)
    1. 탐색 - 시각화 - 통계 분석 및 해석 (평균, 분포, 상관관계, 막대그래프, 히스토그램) (수학 -> 가설 검정, 회귀분석)
    1. 결론 도출

- 시트 / DB / Python
    - 시트: 편리함
    - DB: 대용량 데이터(억 단위) (CRUD)
    - Python: 시각화, 분석, 머신 러닝

- 라이브러리
    - `Numpy`: 신속함(배열 연산)
    - `Pandas`: 표(DataFrame) -> `Numpy` 기반으로 만들어짐
    - `Matplotlib`: 시각화 기본(그래프)
    - `Seaborn`: 시각화 심화
    - `Scipy`: 고급 통계, 수학 연산
    - `Scikit-Learn`: 머신 러닝

In [1]:
python_list = [1, 2, 3, 4, 5]

result = [x * 2 for x in python_list]
print(result)

[2, 4, 6, 8, 10]


In [3]:
import numpy as np

array = np.array([1, 2, 3, 4, 5])
result = array * 2
print(result)

[ 2  4  6  8 10]


In [5]:
# array의 특징: 모든 데이터의 타입이 똑같아야 함

arr = np.array([1, 2, 3, 4, 5])
print(arr, type(arr))
print('차원', arr.ndim)
print('형태', arr.shape)
print('크기', arr.size)

[1 2 3 4 5] <class 'numpy.ndarray'>
차원 1
형태 (5,)
크기 5


In [6]:
arr1d = np.array([1, 2, 3, 4, 5])
arr1d

array([1, 2, 3, 4, 5])

In [13]:
l2d = [
    [1, 2, 3],
    [4, 5, 6],
]

arr2d = np.array(l2d)

print(arr2d.ndim)
print(arr2d.shape)
print(arr2d.size)
print(arr2d.dtype)

2
(2, 3)
6
int64


In [11]:
# 실수형 array
np.array([1, 2, 3], dtype = float)

array([1., 2., 3.])

In [17]:
# 실수 0

z1d = np.zeros(5)
z2d = np.zeros((2, 3))

print(z1d, z2d)


# 1로 채움

o1d = np.ones(5)
o2d = np.ones((2, 3))

print(o1d, o2d)


# n을 채움 - 5칸 , 7로 채움

n1d = np.full(5, 7)
n2d = np.full((2, 3), 7)

print(n1d)
print(n2d)


# 빈칸이지만 먼저 만듦

empty = np.empty(3)
print(empty)

[0. 0. 0. 0. 0.] [[0. 0. 0.]
 [0. 0. 0.]]
[1. 1. 1. 1. 1.] [[1. 1. 1.]
 [1. 1. 1.]]
[7 7 7 7 7]
[[7 7 7]
 [7 7 7]]
[1. 2. 3.]


In [None]:
# 시퀀스 (이어지는 데이터)
# range

range_arr = np.arange(0, 10, 2)
print(range_arr)
# (일반적인 range와 타입이 다름)

# 등간격 실수 배열
lin_space = np.linspace(0, 1, 5)
print(lin_space)

# 로그 스케일
log_space = np.logspace(0, 2, 5) # 10^0 ~ 10^2 5개 요소
print(log_space)
# ( 규모 차이가 많이 나는 데이터를 다룰 때 ex: 판매량 1 - > 10 -> 1000 )

[0 2 4 6 8]
[0.   0.25 0.5  0.75 1.  ]
[  1.           3.16227766  10.          31.6227766  100.        ]


In [41]:
# 난수 배열

# 균등 분포 난수 (0~1)를 균등 분포
random = np.random.rand(3, 3)
print(random)

# 정규 분포 난수
normal = np.random.randn(3, 3)
print(normal)

# 정수 난수 (0 ~ 9, 3 * 3)
int_random = np.random.randint(0, 10, (3, 3))
print(int_random)

# 시드 설정(랜덤 재현 가능)

np.random.seed(42) # 랜덤 상황 42 고정
np.random.rand(3)

[[0.59865848 0.15601864 0.15599452]
 [0.05808361 0.86617615 0.60111501]
 [0.70807258 0.02058449 0.96990985]]
[[-0.46947439  0.54256004 -0.46341769]
 [-0.46572975  0.24196227 -1.91328024]
 [-1.72491783 -0.56228753 -1.01283112]]
[[2 6 3]
 [8 2 4]
 [2 6 4]]


array([0.37454012, 0.95071431, 0.73199394])

In [None]:
# 배열의 데이터 타입
# 데이터 타입 확인
arr = np.array([1, 2, 3])
print(arr.dtype)

# 데이터 타입 지정 생성
f_arr = np.array([1, 2, 3], dtype=np.float64)
print(f_arr.dtype)

# 데이터 타입 변경(int > float) 
converted = arr.astype(np.float32)
print(converted.dtype)

# 문자열 > 숫자
str_arr = np.array(['1.2', '2.3', '3.4'])
num_arr = str_arr.astype(float) # np.floatxx 라고 지정 안 하고 float 쓰면 -> float64
print(num_arr, num_arr.dtype)

int64
float64
float32
[1.2 2.3 3.4] float64


In [None]:
# 메모리 사용량 
print(arr.itemsize) # int64 = 8byte
print(converted.itemsize) # float32 = 4byte

# 총 메모리 사용량
print(arr.nbytes) # 8byte * 3칸
print(converted.nbytes)

8
4
24
12


In [53]:
# 배열 재구성
arr  = np.arange(12)
reshaped = arr.reshape(3, 4) # 3 row * 4 col
print(arr)
print(reshaped)

reshaped3d = arr.reshape(2, 2, 3) # 2페이지 2 row * 3 col
print(reshaped3d)

# 자동 계산
auto1 = arr.reshape(3, -1) # 3 row, free col 
auto2 = arr.reshape(-1, 6) # free row, 6 col

print(auto1)
print(auto2)

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]


In [67]:
# reshape: 원본을 그대로 두고 새로운 배열을 만듦
# resize: 원본을 변경함

arr = np.arange(12)
reshaped = arr.reshape(3, 4) # 새로운 배열 리턴

print(arr)
print(reshaped)


arr.resize(3, 4) # arr이 변경됨
print(arr)

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [None]:
# N차원 -> 1차원
arr = np.array([[1, 2, 3], [4, 5, 6]])

r = arr.ravel()  # 뷰(원본 연결)
f = arr.flatten() # 복사본

print(arr)
print(r, f)

[[1 2 3]
 [4 5 6]]
[1 2 3 4 5 6] [1 2 3 4 5 6]


In [140]:
# 전치 -> 행과 열을 교환
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
print(arr_2d)

arr_2d.transpose(), arr_2d.T

[[1 2 3]
 [4 5 6]]


(array([[1, 4],
        [2, 5],
        [3, 6]]),
 array([[1, 4],
        [2, 5],
        [3, 6]]))

In [59]:
# 1 ~ 15 정수 배열 ( arange vs array(range))
print(np.arange(1, 16)), np.array(range(1, 16))

# 0 ~ 9까지 홀수
print(np.arange(1, 10, 2))

# 0 ~ 3까지 균등 6등분 배열
print(np.linspace(0, 3, 6))

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]
[1 3 5 7 9]
[0.  0.6 1.2 1.8 2.4 3. ]


In [None]:
# 4 * 4 단위 행렬(identity matrix) = e 대각선 1, 나머지 0
print(np.eye(4))

# 3 * 4 사이즈 1로만 가득찬 int 배열
print(np.ones((3, 4), dtype=int))

# 2 * 3 * 4 사이즈 (3 * 4가 2페이지) 0 ~ 1 난수배열
np.random.rand((2, 3, 4))   # 인자로 차원 지정 -> 오래된 버전에서 사용
np.random.random((2, 3, 4))   # 튜플로 차원 지정 -> 새로운 버전에서 사용

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]
[[1 1 1 1]
 [1 1 1 1]
 [1 1 1 1]]


# 배열의 인덱싱 / 슬라이싱

In [None]:
arr = np.array([10, 20, 30, 40, 50])

print(arr[0], arr[2], arr[-1])

# 변경
arr[0] = 100
print(arr)



10 30 50
[100  20  30  40  50]


In [None]:
arr_2d = np.array(range(1, 10)).reshape(3, 3)

print(arr_2d)

# Numpy에서만 지원
arr_2d[0, 0] # arr_2d[0][0] -> r 0, c 0
arr_2d[1, 1]

arr_2d[1] # 행 접근

# 변경
arr_2d[0, 0] = 100
arr_2d

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([[100,   2,   3],
       [  4,   5,   6],
       [  7,   8,   9]])

In [77]:
# 슬라이싱

arr = np.arange(10)
print(
    arr[2:5],
    arr[:5],
    arr[5:]
)

print(
    arr[1:8:2], 
    arr[::2]
)

print(
    arr[::-1], 
    arr[7:2:-1]
)

# 슬라이싱으로 일괄 변경, python에서는 불가
arr[3:6] = 100
print(arr)

[2 3 4] [0 1 2 3 4] [5 6 7 8 9]
[1 3 5 7] [0 2 4 6 8]
[9 8 7 6 5 4 3 2 1 0] [7 6 5 4 3]
[  0   1   2 100 100 100   6   7   8   9]


In [None]:
# 다차원 배열 슬라이싱

arr_2d = np.arange(1, 13).reshape(3, -1)
print(arr_2d)

# row(행) 슬라이싱 -> 0, 1 idx 행
print(arr_2d[0:2])

# col(열) 슬라이싱 -> 모든 행의 idx 1, 2열
print(arr_2d[:, 1:3])

# row / col 동시 슬라이싱 -> 1, 2 행 / 0, 1 열
print(arr_2d[1:3, 0:2])

# 간격지정 -> 행 / 열 모두 2간격
print(arr_2d[::2, ::2])

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[[1 2 3 4]
 [5 6 7 8]]
[[ 2  3]
 [ 6  7]
 [10 11]]
[[ 5  6]
 [ 9 10]]
[[ 1  3]
 [ 9 11]]


In [83]:
# 다차원 배열 슬라이싱으로 변경

print(arr_2d)

# 부분배열 일괄변경

arr_2d[0:2, 0:2] = 0
print(arr_2d)

# 열 교체(모든 행, idx 3열) -> 벡터 -> 교체 -> 원본 matrix의 열이 바뀜
arr_2d[:, 3] = [100, 200, 300]
arr_2d

[[ 0  0  3  4]
 [ 0  0  7  8]
 [ 9 10 11 12]]
[[ 0  0  3  4]
 [ 0  0  7  8]
 [ 9 10 11 12]]


array([[  0,   0,   3, 100],
       [  0,   0,   7, 200],
       [  9,  10,  11, 300]])

In [88]:
# boolean 인덱싱
# 조건에 따라 배열 요소 선택

arr = np.arange(1, 6)

# 마스킹 -> T/F로 바꿈

mask  = arr > 3
print(mask, arr)

# 마스킹 배렬로 필터링
print(arr[mask])

# 직접 조건
print(arr[arr > 3])

# 다중 조건
print(arr[ (arr > 2) & (arr < 5)]) # and
print(arr[ (arr == 1) | (arr > 3)]) # or

[False False False  True  True] [1 2 3 4 5]
[4 5]
[4 5]
[3 4]
[1 4 5]


In [None]:
# 2차원 배결 불리언 인덱싱

arr_2d = np.arange(1, 10).reshape(3, 3)

mask = arr_2d > 5

# 원본 matrix 형태 없음. True로 필터된 값만 Vector로 나옴
print(arr_2d[mask])
print(arr_2d[arr_2d < 6])

# 조건에 맞는 행만 선택
row_mask = np.array([True, False, True])
print(arr_2d)
print(arr_2d[row_mask]) # row T, F, T -> 0, 2 row만 뽑아냄

[6 7 8 9]
[1 2 3 4 5]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 2 3]
 [7 8 9]]


In [None]:
# Fancy 인덱싱
arr = np.arange(10, 60, 10)
print(arr)

# arr[1, 2] -> arr[1][2]
arr[[1, 2]] # arr[1], arr[2]
arr[[0, 2, 3]] # -> arr[0], arr[2], arr[3]

print(arr[[0, 0, 1, 1, 2]])



[10 20 30 40 50]
[10 10 20 20 30]


In [96]:
arr_2d = np.arange(1, 10).reshape(3, 3)
print(arr_2d)

print(arr_2d[0]) # row 0

# 특정 행만 선택
print(arr_2d[[0, 2]])

# 특정 핼과 열 동시에 선택
print(
    arr_2d[
        [0, 1, 2], 
        [0, 2, 1]
    ]
)

# 행렬의 열을 순서 바꾸기

print(
    arr_2d[
        :, # 모든 행
        [2, 0, 1] # 열 idx를 바꿔라
    ]
)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[1 2 3]
[[1 2 3]
 [7 8 9]]
[1 6 8]
[[3 1 2]
 [6 4 5]
 [9 7 8]]


In [120]:
# 10부터 20까지의 정수 배열 생성
arr = np.arange(10, 21)
print('원본', arr)

# 문제1: 배열의 첫 번째, 세 번째, 마지막 요소 출력

print(arr[0], arr[2], arr[-1])

# 문제2: 인덱스 2부터 5까지 요소 출력

print(arr[2:6])

# 문제3: 처음부터 5번째 요소까지 모든 짝수 인덱스 요소 출력
print(arr[:6:2])

# 문제4: 배열의 요소를 역순으로 출력
print(arr[::-1])

원본 [10 11 12 13 14 15 16 17 18 19 20]
10 12 20
[12 13 14 15]
[10 12 14]
[20 19 18 17 16 15 14 13 12 11 10]


In [129]:
# 3 * 4 matrix
matrix = np.arange(12).reshape(3, 4)
print('원본', matrix)

# 문제1: (1,2) 위치의 요소 출력

print(matrix[1, 2])

# 문제2: 두 번째 행 전체 출력

print(matrix[1])

# 문제3: 마지막 열 전체 출력

print(matrix[:, -1])

# 문제4: 첫 번째와 세 번째 행의 두 번째와 네 번째 열 요소만 추출
print(matrix[[0, 2], :][:,[1, 3]])

원본 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
6
[4 5 6 7]
[ 3  7 11]
[[ 1  3]
 [ 9 11]]


In [138]:
arr = np.arange(1, 21)
print('원본', arr)

# 문제1: 5의 배수만 선택하여 출력
print(arr[arr % 5 == 0])
# 문제2: 3보다 크고 15보다 작은 요소 선택
print(arr[ (arr > 3) & (arr < 15)])
# 문제3: 7의 배수이거나 홀수인 요소 선택
print(arr[ (arr % 7 == 0) | (arr % 2 == 1)])

원본 [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20]
[ 5 10 15 20]
[ 4  5  6  7  8  9 10 11 12 13 14]
[ 1  3  5  7  9 11 13 14 15 17 19]


In [132]:
matrix = np.arange(1, 21).reshape(5, 4)
print('원본', matrix)

# 문제4: 10보다 큰 요소만 100으로 변경

matrix[matrix > 10] = 100
print(matrix)

원본 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]
 [17 18 19 20]]
[[  1   2   3   4]
 [  5   6   7   8]
 [  9  10 100 100]
 [100 100 100 100]
 [100 100 100 100]]


## 선형대수 연산

In [141]:
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

print(a + b)
print(a - b)
print(a * b)
print(a / b)

print(a ** 2)
print(a ** b)

[ 6  8 10 12]
[-4 -4 -4 -4]
[ 5 12 21 32]
[0.2        0.33333333 0.42857143 0.5       ]
[ 1  4  9 16]
[    1    64  2187 65536]


In [142]:
a = np.array([True, False, True, False])
b = np.array([False, True, False, True])

# 논리연산
# and
print(a & b)
# or
print(a | b)
# not
print(~a)

[False False False False]
[ True  True  True  True]
[False  True False  True]


### 배열=벡터(한 줄) <-> 스칼라(단일값) 연산
> Broadcasting(스칼라가 벡터 크기에 맞게 확장)

In [143]:
# 배열 생성
arr = np.array([1, 2, 3, 4, 5])

# 스칼라 덧셈
print(arr + 10)     # [11 12 13 14 15]

# 스칼라 뺄셈
print(arr - 1)      # [0 1 2 3 4]

# 스칼라 곱셈
print(arr * 2)      # [2 4 6 8 10]

# 스칼라 나눗셈
print(arr / 2)      # [0.5 1.  1.5 2.  2.5]

# 스칼라 거듭제곱
print(arr ** 2)     # [ 1  4  9 16 25]

# 스칼라 비교
print(arr > 3)      # [False False False  True  True]
print(arr == 2)     # [False  True False False False]

[11 12 13 14 15]
[0 1 2 3 4]
[ 2  4  6  8 10]
[0.5 1.  1.5 2.  2.5]
[ 1  4  9 16 25]
[False False False  True  True]
[False  True False False False]


### 매트릭스(행렬) <-> 스칼라(단일값) 연산
> Broadcasting(스칼라가 매트릭스 크기에 맞게 확장)

In [144]:
# 2차원 배열
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])

# 스칼라 연산
print(arr_2d + 10)
# [[11 12 13]
#  [14 15 16]]

print(arr_2d * 3)
# [[ 3  6  9]
#  [12 15 18]]

[[11 12 13]
 [14 15 16]]
[[ 3  6  9]
 [12 15 18]]


### 매트릭스(행렬) <-> 벡터(1줄) 연산

In [145]:
matrix = np.array([[1, 2, 3], [4, 5, 6]])
vector = np.array([10, 20, 30])

# 행렬 + 행 벡터
print(matrix + vector)

# 열 벡터 브로드캐스팅
col_vec = np.array(
    [
        [100],
        [200]
    ]
)
print(matrix + col_vec)

[[11 22 33]
 [14 25 36]]
[[101 102 103]
 [204 205 206]]


In [146]:
matrix = np.array([[1, 2, 3], [4, 5, 6]])
vector = np.array([10, 20, 30])

print('Matrix shape', matrix.shape)
print('Vector shape', vector.shape)

Matrix shape (2, 3)
Vector shape (3,)


In [None]:
# 브로드 캐스팅 가능한 경우
# shape이 동일해야만 함

A = np.ones((3, 2))       # 3x2 배열
B = np.ones((2,))         # 길이 2인 1차원 배열 (1x2로 해석) (행벡터)
C = np.ones((3, 1))       # 3x1 배열 (사실상 열벡터)

print("A + B 형태:", (A + B).shape)  # (3, 2) - B는 각 행에 브로드캐스팅
print(A + B)


print("A + C 형태:", (A + C).shape)  # (3, 2) - C는 각 열에 브로드캐스팅
print(A + C)

A + B 형태: (3, 2)
[[2. 2.]
 [2. 2.]
 [2. 2.]]
A + C 형태: (3, 2)
[[2. 2.]
 [2. 2.]
 [2. 2.]]


In [151]:
# 뷰(원본 데이터와 링크)와 복사본(완전 별도)의 차이
arr = np.arange(1, 6)
print(arr)

# 슬라이싱 - > 뷰 생성
view = arr[1:4]
print(view)

view[0] = 20
print(arr)

# 복사본  ..?
copy = arr.copy()
copy[0] = 100
print(arr, copy)


[1 2 3 4 5]
[2 3 4]
[ 1 20  3  4  5]
[ 1 20  3  4  5] [100  20   3   4   5]


In [153]:
# 연산중 데이터 자동 변환
int_arr = np.array([1, 2, 3])
float_arr = np.array([1.5, 2.5, 3.5])

# int + float = float
print(int_arr + float_arr)

# int / int = float
print( int_arr / 2)

# int // int = int
print( int_arr // 2)



[2.5 4.5 6.5]
[0.5 1.  1.5]
[0 1 1]
