# **`01_numpy.ipynb`**

- 통계 vs 데이터분석 vs 머신러닝
    - 데이터분석: **문제를 정의하고 인사이트를 도출** (고객 구매 패턴 분석)
    - 통계: 데이터를 **요약, 해석하는 수학** (평균, 분산)
    - 머신러닝: 데이터를 학습하여 **예측** (스팸함 분류, 추천)
- 데이터분석 : 데이터를 분석하여 의사결정에 도움을 준다.
    - 의사결정 데이터 기반의 근거
    - 패턴 반견, 예측 (머신러닝)

- DA(Data Analysis) Flow
    1. 문제 정의
    2. 데이터 수집
    3. 데이터 정제 (결측치, 이상치 처리)
    4. 탐색 - 시각화 (평균, 분포, 상관관계, 막대그래프, 히스토그램) - 통계분석 및 해석 (수학 -> 가설 설정, 회귀분석)
    5. 결론 도출 

- 시트 vs Db vs Python
    - 시트는 편함
    - DB는 대용량 CRUD(Create, Read, Update, Delete) (억단위)
    - 파이썬 시각화, 분석, 머신러닝

- 라이브러리 
    - `numpy` : 빠름 (배열 연산)
    - `pandas` : 표 (Data Frame) -> `numpy` 기반으로 만들어 졌음.
    - `matplotlib` : 시각화 (그래프)
    - `seaborn` : 시각화 심화
    - `scipy` : 고급 통계, 수학 연산
    - `scikit-learn` : 머신러닝

In [4]:
python_list = [1, 2, 3, 4, 5]

# [2, 4, 6, 8, 10]를 만드는 코드
result = [x*2 for x in python_list]
print(result)


[2, 4, 6, 8, 10]


In [None]:
import numpy as np

array = np.array([1, 2, 3, 4, 5])
result = array * 2
print(result)


[ 2  4  6  8 10]


In [12]:
arr = np.array([1, 2, 3, 4, 5])
print(arr, type(arr))
print('차원', arr.ndim)
print('형태', arr.shape)
print('크기', arr.size)

[1 2 3 4 5] <class 'numpy.ndarray'>
차원 1
형태 (5,)
크기 5


In [20]:
arr1d = np.array([1, 2, 3, 4, 5])
arr1d

array([1, 2, 3, 4, 5])

In [None]:
l2d = [
    [1, 2, 3],
    [4, 5, 6],
]
arr2d = np.array(l2d)
arr2d.ndim, arr2d.shape, arr2d.size


(2, (2, 3), 6)

In [None]:
# 실수형 arr
np.array([1, 2, 3], dtype=float)

array([1., 2., 3.])

In [62]:
# 0으로 채워침
z1d = np.zeros(5)
z2d = np.zeros((2, 3))
print(z1d, z2d)

# 1로 채워침
o1d = np.ones(5)
o2d = np.ones((2, 3))
print(o1d, o2d)

#n으로 채움
n1d = np.full(5, 7)
n2d = np.full((2, 3), 7)
print(n1d, n2d)

# 빈칸이지만 먼저 만듬
empty = np.empty(3)
print(empty)

[0. 0. 0. 0. 0.] [[0. 0. 0.]
 [0. 0. 0.]]
[1. 1. 1. 1. 1.] [[1. 1. 1.]
 [1. 1. 1.]]
[7 7 7 7 7] [[7 7 7]
 [7 7 7]]
[7.74860419e-304 7.74860419e-304 7.74860419e-304]


In [None]:
# 시퀀스 데이터

# range
range_arr = np.arange(0, 10, 2)
print(range_arr)

# 등간격 실수 배열
lin_space = np.linspace(0, 1, 5)
print(lin_space)

# 로그스케일
log_space = np.logspace(0, 2, 5)  # 10^0 ~ 10^2 5개 요소
print(log_space)


[0 2 4 6 8]
[0.   0.25 0.5  0.75 1.  ]
[  1.           3.16227766  10.          31.6227766  100.        ]


In [63]:
# 난수 배열

# 균등 분포 난수 (0~1) 사이를 균들활률 분포
random = np.random.rand(3, 3)  # 0 ~ 1 실수
print(random)

# 정규 분포 난수
normal = np.random.randn(3, 3)
print(normal)

# 정수 난수 (0 ~ 9, 3*3)
int_random = np.random.randint(0, 10, (3, 3))
print(int_random)

# 시드 설정(랜덤 재현 가능)
np.random.seed(42)  # 랜덤 상황 42 고정
np.random.rand(3)


[[0.0452944  0.66940716 0.93781696]
 [0.64550841 0.08261883 0.24034056]
 [0.84269621 0.22490421 0.93193558]]
[[-0.52357322 -0.52087665 -0.3226145 ]
 [ 1.32303066 -1.7317256  -1.08457827]
 [ 0.84875513 -0.07504223 -2.6752923 ]]
[[7 1 9]
 [7 0 0]
 [6 4 6]]


array([0.37454012, 0.95071431, 0.73199394])

In [64]:
# 배열의 데이터 타입

# 데이터 타입 확인
arr = np.array([1, 2, 3])
print(arr.dtype)

# 데이터 타입 지정 생성
f_arr = np.array([1, 2, 3], dtype=np.float64)
print(f_arr.dtype)

# 데이터 타입 변경 (int -> float)
converted = arr.astype(np.float32)
print(converted.dtype)

# 문자열 -> 숫자
str_arr = np.array(['1.2', '2.3', '3.4'])
num_arr = str_arr.astype(float)  # np.floatXX 라고 지정 안하고 float 쓰면 -> float64
print(num_arr, num_arr.dtype)

int64
float64
float32
[1.2 2.3 3.4] float64


In [None]:
# 1칸의 메모리 사용량
print(arr.itemsize)  # int64 -> 8byte
print(converted.itemsize)  # float32 -> 4byte

# 총 메모리 사용량
print(arr.nbytes)  # 8byte * 3칸
print(converted.nbytes)

8
4
24
12


In [55]:
# 배열 재구성
arr = np.arange(12)
print(arr)

reshaped = arr.reshape(3, 4)  # 3row * 4col
print(reshaped)

reshaped3d = arr.reshape(2, 2, 3)  # 2페이지, 2row * 3col
print(reshaped3d)

# 자동계산
auto1 = arr.reshape(3, -1)
auto2 = arr.reshape(-1, 6)

print(auto1)
print(auto2)



[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]


In [66]:
# reshape -> 원본 그대로, 새로운 배열 만드
# resize  -> 원본을 바꿈

arr = np.arange(12)
reshaped = arr.reshape(3, 4)  # 새로운 배열 리턴
print(reshaped)
print(arr)

arr.resize(3, 4)  # arr 이 바뀜
print(arr)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [None]:
# 1 ~ 15 정수 배열 ( arange vs array(range) )
print(np.arange(1, 16), np.array(range(1, 16)))

# 0 ~ 9까지 홀수
print(np.arange(1, 10, 2))

# 0 ~ 3까지 균등 6등분(5구간) 배열
print(np.linspace(0, 3, 6))

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15] [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]
[1 3 5 7 9]
[0.  0.6 1.2 1.8 2.4 3. ]


In [61]:
# 4 * 4 단위 행렬(identity matrix) ->  대각선1, 나머지 0)
print(np.eye(4))

# 3 * 4 사이즈의 1로 가득찬 int 배열
np.ones((3, 4), dtype=int)

# 2 * 3 * 4 사이즈 0~1 난수 배열
np.random.rand(2, 3, 4)  # 인자로 차원 지정 -> 오래된 버전에서 주로 씀
np.random.random((2, 3, 4))  # 튜플로 차원 지정 -> 최신 버전에서 주로 씀

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


array([[[0.46857365, 0.84231998, 0.33759946, 0.15701231],
        [0.75378312, 0.45479635, 0.84789716, 0.21207357],
        [0.9963822 , 0.90767257, 0.36456491, 0.05651706]],

       [[0.95019754, 0.26666162, 0.84401091, 0.63946973],
        [0.70421252, 0.59925892, 0.75301278, 0.93919381],
        [0.09361873, 0.89032427, 0.29153019, 0.41369282]]])