# `01_numpy.ipynb`

- 데이터 분석 vs 통계 vs 머신러닝
    - 데이터 분석: **문제를 정의하고, 인사이트 도출** (고객 구매 패턴 분석 + 의사결정)
    - 통계: 데이터를 **요약, 해석하는 수학** (평균, 분산)
    - 머신러닝: 데이터를 학습하여 **예측** (스팸함 분류, 추천)

- 데이터 분석: 데이터를 분석하여 의사결정에 도움을 준다.
    - 의사결정 데이터 기반의 근거
    - 패턴 발견, 예측 (머신 러닝)

- DA Flow (데이터 분석 흐름)
    1. 문제 정의
    2. 데이터 수집
    3. 데이터 정제 (결측치, 이상치 처리)
    4. 탐색 - 시각화 (평균, 분포, 상관관계, 막대그래프, 히스토그램)
    5. 통계 분석 및 해석 (수학 -> 가설 검정, 회귀분석)
    6. 결론 도출

- 시트 vs DB vs Python
    - 시트는 편함
    - DB는 대용량 처리 CRUD (억단위)
    - 파이썬은 시각화, 분석, 머신러닝

- 라이브러리
    - `numpy`: 빠름(배열 연산)
    - `pandas`: 표(DataFrame) -> `numpy` 기반으로 만들어짐
    - `matplotlib`: 시각화 기본(그래프)
    - `seaborn`: 시각화 심화
    - `scipy`: 고급 통계, 수학 연산
    - `scikit-learn`: 머신러닝

In [8]:
%pip install numpy

Collecting numpy
  Downloading numpy-2.3.2-cp313-cp313-win_amd64.whl.metadata (60 kB)
Downloading numpy-2.3.2-cp313-cp313-win_amd64.whl (12.8 MB)
   ---------------------------------------- 0.0/12.8 MB ? eta -:--:--
   ---------------------------- ----------- 9.2/12.8 MB 45.9 MB/s eta 0:00:01
   ---------------------------------------- 12.8/12.8 MB 44.1 MB/s eta 0:00:00
Installing collected packages: numpy
Successfully installed numpy-2.3.2
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.3.1 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [12]:
python_list = [1, 2, 3, 4, 5]
result = [num*2 for num in python_list]
print(result)

result1 = []
for num in python_list:
    result1.append(num * 2)
print(result1)

[2, 4, 6, 8, 10]
[2, 4, 6, 8, 10]


In [11]:
import numpy as np

array = np.array([1, 2, 3, 4, 5])
result = array * 2
print(result)

[ 2  4  6  8 10]


In [18]:
arr = np.array([1, 2, 3, 4, 5])
print(arr, type(arr))
print('차원', arr.ndim)
print('형태', arr.shape)
print('크기', arr.size)

[1 2 3 4 5] <class 'numpy.ndarray'>
차원 1
형태 (5,)
크기 5


In [None]:
arr1d = np.array([1, 2, 3, 4, 5])
arr1d

array([1, 2, 3, 4, 5])

In [28]:
l2d = [
    [1, 2, 3],
    [4, 5, 6],
]
arr2d = np.array(l2d)

arr2d.ndim, arr2d.shape, arr2d.size, arr2d.dtype


(2, (2, 3), 6, dtype('int64'))

In [None]:
# 실수형 arr
np.array([1, 2, 3], dtype=float)

array([1., 2., 3.])

In [None]:
# 0으로 채워짐
z1d = np.zeros(5)
z2d = np.zeros((2, 3)) #행, 열 순으로 써줌
print(z1d)
print(z2d)

# 1로 채워짐
o1d = np.ones(5)
o2d = np.ones((2, 3))
print(o1d)
print(o2d)

# n으로 채움
n1d = np.full(5, 7) #7로 채워진 5개짜리
n2d = np.full((2, 3), 7)
print(n1d)
print(n2d)

# 빈칸이지만 먼저 만듦
emtpy = np.empty(3) # 3칸짜리를 만들었다
print(emtpy)


[0. 0. 0. 0. 0.]
[[0. 0. 0.]
 [0. 0. 0.]]
[1. 1. 1. 1. 1.]
[[1. 1. 1.]
 [1. 1. 1.]]
[7 7 7 7 7]
[[7 7 7]
 [7 7 7]]
[1. 2. 3.]


In [None]:
## 시퀀스 배열

# range
range_arr = np.arange(0, 10, 2)
print(range_arr)

# 등간격 실수 배열
lin_space = np.linspace(0, 1, 5) # 0부터 1까지 5개로 나눠줘
print(lin_space)

# 로그 스케일
log_space = np.logspace(0, 2, 5) #10^0~ 10^2까지 5개 요소
print(log_space)

[0 2 4 6 8]
[0.   0.25 0.5  0.75 1.  ]
[  1.           3.16227766  10.          31.6227766  100.        ]


In [48]:
## 난수 배열


#균등 분포 난수 (0~1) 사이를 균등 확률 분포
random = np.random.rand(3, 5) # 0 ~ 1 사이의 실수
print(random)

#정규 분포 난수
normal = np.random.randn(3, 5)
print(normal)

# 정수 난수 (0~9까지 3*3)
int_random = np.random.randint(0, 10, (3, 3))
print(int_random)

# 시드 설정(랜덤 재현 가능)
np.random.seed(42) # 랜덤 상황 42 고정
np.random.rand(3)

[[0.98104835 0.01745231 0.92891493 0.45092037 0.51443763]
 [0.62424021 0.78891504 0.7072102  0.9282857  0.68780182]
 [0.31107116 0.18010178 0.82722248 0.13168676 0.80313719]]
[[ 0.75929063  0.29592353 -0.86816529  0.15487395 -1.17132874]
 [ 0.47318939 -0.2649421  -0.63640968 -0.01331544  0.50740546]
 [-1.78182515  3.23227045  1.1669663  -0.82140429  0.4723228 ]]
[[6 3 2]
 [7 0 5]
 [1 6 8]]


array([0.37454012, 0.95071431, 0.73199394])

In [None]:
# 배열의 데이터 타입
# 데이터 타입 확인
arr = np.array([1, 2, 3])
print(arr.dtype)

# 데이터 타입 지정 생성
f_arr = np.array([1, 2, 3], dtype=np.float64)
print(f_arr.dtype)

# 데이터 타입 변경 (int -> float)
converted = arr.astype(np.float32)
print(converted.dtype)

# 문자열 -> 숫자
str_arr = np.array(['1.2', '2.3', '3.4'])
num_arr = str_arr.astype(float)  # np.floatXX 라고 지정 안하고 float 쓰면 -> float64
print(num_arr, num_arr.dtype)

In [None]:
# 1칸의 메모리 사용량
print(arr.itemsize) # int64 -> 8byte
print(converted.itemsize) # float32 -> 4byte

# 총 메모리 사용량
print(arr.nbytes) # 8byte * 3칸
print(converted.nbytes)

'''
과학 연산에는 64 쓰는 게 맞음
(소수점 정확할 수록 좋으니까용)
'''

8


In [65]:
## 배열 재구성

# 
arr = np.arange(12)
reshaped = arr.reshape(3, 4) # 3row * 4col
print(arr)
print(reshaped)

reshaped3d = arr.reshape(2, 2, 3) # 2페이지, 2row*3col
print(reshaped3d)

# 자동 계산
auto1 = arr.reshape(3, -1) # row 3개, col 알아서
auto2 = arr.reshape(-1, 6) # row 알아서, col 6개
print(auto1)
print(auto2)

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]


In [None]:
# reshape -> 원본 그대로, 새로운 배열 만드는 메서드
# resize -> 원본을 바꿈

arr = np.arange(12)
reshaped = arr.reshape(3, 4) # 새로운 배열 리턴
print(arr)
print(reshaped)

arr.resize(3, 4) # arr이 바뀜
print(arr)

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [None]:
# 1~15 정수 배열
print(np.arange(1, 16), np.array(range(1, 16)))

# 0부터 9까지 홀수
print(np.arange(1, 10, 2))

# 0에서 3까지 균등 6등분(5구간) 배열
print(np.linspace(0, 3, 6))


[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15] [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]
[1 3 5 7 9]
[0.  0.6 1.2 1.8 2.4 3. ]


In [79]:
# 4*4 단위 행렬 (identity matrix) -> 대각선 1, 나머지 0
print(np.eye(4))

# 3*4 사이즈의 1로 가득찬 int 배열
np.ones((3, 4), dtype=int)

# 2*3*4 사이즈 0~1 난수 배열
np.random.rand(2, 3, 4) # 인자로 차원 지정 -> 오래된 버전에서 주로 씀
np.random.random((2, 3, 4)) # 튜플로 차원 지정 -> 최신 버전에서 주로 씀

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


array([[[0.72900717, 0.77127035, 0.07404465, 0.35846573],
        [0.11586906, 0.86310343, 0.62329813, 0.33089802],
        [0.06355835, 0.31098232, 0.32518332, 0.72960618]],

       [[0.63755747, 0.88721274, 0.47221493, 0.11959425],
        [0.71324479, 0.76078505, 0.5612772 , 0.77096718],
        [0.4937956 , 0.52273283, 0.42754102, 0.02541913]]])