# `01_numpy.ipynb`

- 통계 vs 데이터분석 vs 머신러닝
    - 데이터분석: **문제를 정의하고 인사이트 도출** (고객 구매 패턴 분석)
    - 통계: 데이터를 **요약, 해석하는 수학** (평균, 분산)
    - 머신러닝: 데이터를 학습하여 **예측** (스팸함 분류, 추천)
- 데이터분석 : 데이터를 분석하여 의사결정에 도움을 준다.
    - 의사결정 데이터 기반의 근거
    - 패턴 발견, 예측 (머신 러닝)

- DA Flow (흐름)
    1. 문제 정의
    1. **데이터 수집**
    1. **데이터 정제(결측치, 이상치 처리)**
    1. **탐색 - 시각화 - 통계분석 및 해석**
    1. 결론 도출

- 시트 vs DB vs Python
    - 시트는 편함.
    - DB는 대용량 CRUD (억단위)
    - 파이썬 시각화, 분석, 머신러닝

- 라이브러리
    - `numpy`: 빠름(배열 연산) `파이썬 리스트 vs Numpy 배열 차이점`
    - `pandas`: 표(DataFrame) -> `numpy` 기반으로 만들어 짐
    - `matplotlib` : 시각화 기본(그래프)
    - `seaborn` : 시각화 심화
    - `scipy` : 고급 통계, 수학 연산
    - `scikit-learn` : 머신러닝

In [None]:
%pip install numpy

In [None]:
python_list = [1, 2, 3, 4, 5]
# [2, 4, 6, 8, 10]
result = [x*2 for x in python_list]
print(result)

In [None]:
import numpy as np

array = np.array([1, 2, 3, 4, 5])
result = array * 2
print(result)

In [None]:
arr = np.array([1, 2, 3, 4, 5])
print(arr, type(arr))
print('차원', arr.ndim)
print('형태', arr.shape)
print('크기', arr.size)

In [None]:
arr1d = np.array([1, 2, 3, 4, 5])
arr1d

In [None]:
l2d = [
    [1, 2, 3],
    [4, 5, 6],
]
arr2d = np.array(l2d)

arr2d.ndim, arr2d.shape, arr2d.size, arr2d.dtype

In [None]:
# 실수형 arr
np.array([1, 2, 3], dtype=float)

In [None]:
# 0으로 채워짐
z1d = np.zeros(5)
z2d = np.zeros((2, 3))
print(z1d)
print(z2d)

# 1로 채워짐
o1d = np.ones(5)
o2d = np.ones((2, 3))
print(o1d)
print(o2d)

# n으로 채움 -> 5칸, 7로 채움
n1d = np.full(5, 7)
n2d = np.full((2, 3), 7)
print(n1d)
print(n2d)

# 빈칸이지만 먼저 만듬
empty = np.empty(3)
print(empty)

In [None]:
# 시퀀스 데이터

# range
range_arr = np.arange(0, 10, 2)
print(range_arr)

# 등간격 실수 배열
lin_space = np.linspace(0, 1, 5)
print(lin_space)

# *로그스케일
log_space = np.logspace(0, 2, 5)  # 10^0 ~ 10^2 5개 요소
print(log_space)

In [None]:
# 난수 배열

# 균등 분포 난수 (0~1) 사이를 균등활률 분포
random = np.random.rand(3, 3)  # 0 ~ 1 실수
print(random)

# *정규 분포 난수
normal = np.random.randn(3, 3)
print(normal)

# 정수 난수 (0 ~ 9, 3*3)
int_random = np.random.randint(0, 10, (3, 3))
print(int_random)

# 시드 설정(랜덤 재현 가능)
np.random.seed(42)  # 랜덤 상황 42 고정
np.random.rand(3)

In [None]:
# 배열의 데이터 타입
# 데이터 타입 확인
arr = np.array([1, 2, 3])
print(arr.dtype)

# 데이터 타입 지정 생성
f_arr = np.array([1, 2, 3], dtype=np.float64)
print(f_arr.dtype)

# 데이터 타입 변경 (int -> float)
converted = arr.astype(np.float32)
print(converted.dtype)

# 문자열 -> 숫자
str_arr = np.array(['1.2', '2.3', '3.4'])
num_arr = str_arr.astype(float)  # np.floatXX 라고 지정 안하고 float 쓰면 -> float64
print(num_arr, num_arr.dtype)

In [None]:
# 1칸의 메모리 사용량
print(arr.itemsize)  # int64 -> 8byte
print(converted.itemsize)  # float32 -> 4byte

# 총 메모리 사용량
print(arr.nbytes)  # 8byte * 3칸
print(converted.nbytes)

In [None]:
# 배열 재구성
arr = np.arange(12)
print(arr)

reshaped2d = arr.reshape(3, 4)  # 3row * 4col
print(reshaped2d)

reshaped3d = arr.reshape(2, 2, 3)  # 2페이지, 2row * 3col
print(reshaped3d)

# 자동계산
auto1 = arr.reshape(3, -1)  # row 3개, col 알아서
auto2 = arr.reshape(-1, 6)  # row 알아서, col 6개

print(auto1)
print(auto2)

In [None]:
# 1차원 -> N차원
# reshape -> 원본 그대로, 새로운 배열 만드
# resize  -> 원본을 바꿈

arr = np.arange(12)
reshaped = arr.reshape(3, 4)  # 새로운 배열 리턴
print(reshaped)
print(arr)

arr.resize(3, 4)  # arr 이 바뀜
print(arr)

In [None]:
# N차원 -> 1차원
arr = np.array([[1, 2, 3], [4, 5, 6]])

r = arr.ravel()    # 뷰(원본 연결) -> 빨리 펼쳐서 보기
f = arr.flatten()  # 복사본       -> 안전하게 새로 만들어서 활용

r[0] = 100
f[0] = -100

print(arr)
print(r, f)


In [None]:
# 1 ~ 15 정수 배열 ( arange vs array(range) )
print(np.arange(1, 16), np.array(range(1, 16)))

# 0 ~ 9까지 홀수
print(np.arange(1, 10, 2))

# 0 ~ 3까지 균등 6등분(5구간) 배열
print(np.linspace(0, 3, 6))

In [None]:
# 4 * 4 단위 행렬(identity matrix) -> 대각선1, 나머지0
print(np.eye(4))

# 3 * 4 사이즈의 1로 가득찬 int 배열
print(np.ones((3, 4), dtype=int))

# 2 * 3 * 4 사이즈 0~1 난수 배열  
np.random.rand(2, 3, 4)      # 인자로 차원 지정 -> 오래된 버전에서 주로 씀
np.random.random((2, 3, 4))  # 튜플로 차원 지정 -> 최신 버전에서 주로 씀

## 배열의 인덱싱/슬라이싱

In [None]:
arr = np.array([10, 20, 30, 40, 50])
# 접근
print(arr[0], arr[2], arr[-1], arr[-2])

# 변경
arr[0] = 100
print(arr)

In [None]:
# arr_2d = np.array(range(1, 10)).reshape(3, 3)
arr_2d = np.array(
    [
        [1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]
    ]
)
# Numpy 에서만 지원
arr_2d[0, 0]  # arr_2d[0][0] -> r 0, c 0
arr_2d[1, 1]

arr_2d[1]  # 행 접근

# 변경
arr_2d[0, 0] = 100
arr_2d


In [None]:
# 슬라이싱
arr = np.arange(10)
print(
    arr[2:5],
    arr[:5],
    arr[5:]
)

print(
    arr[1:8:2],
    arr[::2]
)

print(
    arr[::-1],
    arr[7:2:-1]
)

# 슬라이싱으로 일괄 변경 (Python X)
arr[3:6] = 100
print(arr)

In [None]:
# 다차원 배열 슬라이싱
arr_2d = np.arange(1, 13).reshape(3, -1)
print(arr_2d)

# row(행) 슬라이싱 -> 0, 1 idx 행
print(arr_2d[0:2])

# col(열) 슬라이싱 -> 모든 행의 idx 1, 2 열
print(arr_2d[:, 1:3])

# row / col 동시 슬라이싱 -> 1, 2 행 / 0, 1 열 
print(arr_2d[1:3, 0:2])

# 간격지정  -> 행/열 모두 2간격
print(arr_2d[::2, ::2])  

In [None]:
# 다차원 배열 슬라이싱으로 변경
print(arr_2d)

# 부분 배열 일괄 변경
arr_2d[0:2, 0:2] = 0
print(arr_2d)

# 열 교체 (모든행, idx 3열) -> 벡터 ->  교체 -> 원본 matrix 의 열이 바뀜
arr_2d[:, 3] = [100, 200, 300]

print(arr_2d)


In [None]:
# boolean 인덱싱
# 조건에 따라 배열 요소 선택

arr = np.arange(1, 6)  # [1, 2, 3, 4, 5]

# 마스킹 -> T/F 로 바꿈
mask = arr > 3
print(mask, arr)

# 마스킹 배열로 필터링
print(arr[mask])

# 직접 조건
print(arr[arr > 3])

# 다중조건
print(arr[ (arr > 2) & (arr < 5) ])  # and
print(arr[ (arr == 1) | (arr > 3) ])  # or

In [None]:
# 2차원 배열 불리언 인덱싱
arr_2d = np.arange(1, 10).reshape(3, 3)

mask = arr_2d > 5

# 원본 matrix 형태 없음. True 로 필터된 애들만 Vector로 나옴
print(arr_2d[mask])  
print(arr_2d[arr_2d < 6])

# 조건에 맞는 행만 선택
row_mask = np.array([True, False, True])
print(arr_2d)
print(arr_2d[row_mask])  # row T, F, T -> 0, 2 row 만 뽑음


In [193]:
# Fancy 인덱싱
arr = np.arange(10, 60, 10)
print(arr)
# arr[1, 2]  -> arr[1][2]
print(arr[ [1, 2] ])  # -> arr[1], arr[2] 를 뽑아라
print(arr[ [0, 2, 3] ])  # -> arr[0], arr[2], arr[3] 만 가져와라

print(arr[[0, 0, 1, 1, 2, 3, 4, 2, 1]])
print(arr[[4, 2, 3, 1, 0]])


[10 20 30 40 50]
[20 30]
[10 30 40]
[10 10 20 20 30 40 50 30 20]
[50 30 40 20 10]


In [None]:
arr_2d = np.arange(1, 10).reshape(3, 3)
print(arr_2d)

print(arr_2d[0])  # row 0

# 특정 행만 선택
print(arr_2d[ [0, 2] ])  # row 0, 2

print()

# 행과, 열 동시에 선택
print(
    arr_2d[  # (0, 0), (1, 2), (2, 1) 순서로 벡터 만듬
        [0, 1, 2],
        [0, 2, 1]
    ]
)

# 행렬의 열을 순서 바꾸기
print(
    arr_2d[
        :,         # 모든 행
        [2, 0, 1]  # 열 idx를 이렇게 바꿔라
    ]
)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[1 2 3]
[[1 2 3]
 [7 8 9]]

[1 6 8]
[[3 1 2]
 [6 4 5]
 [9 7 8]]


In [None]:
# 10부터 20까지의 정수 배열 생성
arr = np.arange(10, 21)
print('원본', arr)

# 문제1: 배열의 첫 번째, 세 번째, 마지막 요소 출력

# 문제2: 인덱스 2부터 5까지 요소 출력

# 문제3: 처음부터 5번째 요소까지 모든 짝수 인덱스 요소 출력

# 문제4: 배열의 요소를 역순으로 출력


In [None]:
# 3 * 4 matrix
matrix = np.arange(12).reshape(3, 4)
print('원본', matrix)

# 문제1: (1,2) 위치의 요소 출력

# 문제2: 두 번째 행 전체 출력

# 문제3: 마지막 열 전체 출력

# 문제4: 첫 번째와 세 번째 행의 두 번째와 네 번째 열 요소만 추출


In [None]:
arr = np.arange(1, 21)
print('원본', arr)

# 문제1: 5의 배수만 선택하여 출력

# 문제2: 3보다 크고 15보다 작은 요소 선택

# 문제3: 7의 배수이거나 홀수인 요소 선택

In [None]:
matrix = np.arange(1, 21).reshape(5, 4)
print('원본', matrix)

# 문제4: 10보다 큰 요소만 100으로 변경