**NUMPY**
ndarray : 행렬이나 다차원 배열을 관리하기 위한 ndarray객체

사용법 :
        
        data = [1,2,3] #리스트
        arr = np.array(data) #리스트 -> ndarray객체로 변환

shape > ndarray의 크기 정보 ex) arr.shape
ndim > ndarray의 차원 정보
dtype > 데이터타입

zeros() > 0으로 채워진 ndarray 리턴 ex) np.zeros(3) : [0. 0. 0.] - 기본적으로 float타입으로 저장

ones() > 1로 채워진 ndarray 리턴 ex) np.ones(3) : [1. 1. 1.]

arange() > 지정된 범위의 규치적인 숫자를 갖는 ndarray반환

ex) np.arange(5) : [0 1 2 3 4]

np.arange(1,5) : [1 2 3 4]

np.arange(1,5,2) : [1 3]

reshape() : 배열의 형상을 변경 ex) 배열.reshape(r,c)

In [None]:
# reshape

import numpy as np

arr1 = np.arange(6)
arr2 = arr1.reshape(2,3)
print(arr1)
print(arr2)

[0 1 2 3 4 5]
[[0 1 2]
 [3 4 5]]


In [None]:
#데이터 타입
import numpy as np

arr = np.array([1,2,3], dtype = np.uint8) # 데이터의 범위가 1~3이기 때문에 uint8 사용
print(arr.dtype)
print(arr.dtype.kind)
print(arr.dtype.alignment) # kind, alignment로 축약어 확인
arr = arr.astype('int8') # astype을 메소드로 데이터타입 변경 *변경할때 데이터 범위 주의*
print(arr.dtype)

uint8
u
1
int8


In [None]:
#데이터타입2
import numpy as np

a16 = np.array([1.333333], dtype = np.float16)
a32 = np.array([1.333333], dtype = np.float32)
a64 = np.array([1.333333], dtype = np.float64)

print(a16)
print(a32)
print(a64)

#무한대, 결측치#무한대, 결측치 (unfm nan)
print(np.nan, type(np.nan))
print(np.inf, type(np.inf))

arr = np.array([-1,-2,-3])
print(arr + np.nan)
print(arr + np.inf) # nan과 inf는 실수 타입이기때문에 사칙연산 적용 가능

[1.333]
[1.333333]
[1.333333]
nan <class 'float'>
inf <class 'float'>
[nan nan nan]
[inf inf inf]


In [None]:
#인덱싱

import numpy as np

arr = np.arange(4)
print(arr)
print(arr[0])

arr2 = arr.reshape(2,2)
print(arr2)
print(arr2[0])
print(arr2[0][0]) # [행][열]
print(arr2[0, 0]) # ndarray는 [행 , 열]형식으로 인덱싱 가능 * 데이터의 양이 많아지면 성능 차이 생김 주의 *

a = np.arange(10000).reshape(100, 100)
%timeit a[0, 50] # 이차원데이터의 [행, 열] 인덱싱의 실행 시간 측정
%timeit a[0][50] # 두번에 걸쳐 인덱싱 시간 측정 -> 한번에 인덱싱하는 코드가 빠름

[0 1 2 3]
0
[[0 1]
 [2 3]]
[0 1]
0
0
252 ns ± 8.43 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
306 ns ± 102 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [None]:
#슬라이싱

import numpy as np

arr = np.arange(4)
print(arr[ :2]) # ndarray 슬라이싱 -> ndarray

target = [0,2]
print(arr[target])
print(arr[[0,2]])

#이차원 데이터 슬라이싱
arr = np.arange(20).reshape(4,5)
print(arr[:2])
print(arr[:, :2]) # ndarray로 한번에 컬럼 슬라이싱 (행, 열)
print(arr[1:, 2:])


[0 1]
[0 2]
[0 2]
[[0 1 2 3 4]
 [5 6 7 8 9]]
[[ 0  1]
 [ 5  6]
 [10 11]
 [15 16]]
[[ 7  8  9]
 [12 13 14]
 [17 18 19]]


In [2]:
#브로드캐스팅

import numpy as np

a = np.array([1,2,3])
b = np.array([2,3,4])
print(a+b)
print(a*b)
print(a%b) #같은 인덱스를 갖는 데이터간 연산, 결과 ndarray에 저장

print(a+3) # 스칼라 연산 - a의 세개의 값에 자동으로 반복 적용

# 위와 같이 ndarray가 확장되는 것이 브로드 캐스팅
# 조건 - 뒤 축의 길이가 같다(이차원 데이터에서 열의 길이) or 비교하는 어느 한 축의 길이가 1이다. (둘중 하나 충족)

# 금융 데이터를 사용해서 브로드캐스팅
high = [92700, 92400, 92100, 94300, 92300]
low = [90000, 91100, 91700, 92100, 90900]

arr_high = np.array(high)
arr_low = np.array(low)
arr_result = arr_high - arr_low
print(arr_result)

avg = (arr_high * 3) + (arr_low * 2)
print(avg)

# 금융 데이터 2차원 데이터로 저장 돼있을 경우
data = [
    [92700, 92400, 92100, 94300, 92300],
    [90000, 91100, 91700, 92100, 90900]
]
arr = np.array(data)
print(arr[0] * 3 + arr[1] * 2)

weight = np.array([3,2]).reshape(2,1) # arr 이차원 데이터가 2행 5열 형태 (2,5) 이므로 가중치를 (2,1) 형태로 변형
print((weight * arr).sum(axis=0))

[3 5 7]
[ 2  6 12]
[1 2 3]
[4 5 6]
[2700 1300  400 2200 1400]
[458100 459400 459700 467100 458700]
[458100 459400 459700 467100 458700]
[458100 459400 459700 467100 458700]


In [None]:
# 조건 연산
import numpy as np

arr = np.array([10, 20, 30])
print(arr > 10) # ndarray의 조건 연산은 전체 데이터에 반복 적용
cond = arr > 10
print(arr[cond]) # 조건이 True인 데이터만 슬라이싱 가능

cond.all() # 값이 모두다 True일 경우 True 반환
cond.any() # 값이 하나라도 True일 경우 True 반환

#and, or, not -> & | ~
cond0 = arr > 10
cond1 = arr < 30
print(arr[cond0 & cond1])

#arr[cond] = 1 #조건을 충족하는 데이터 1로 변환
#arr[~cond] = 0 #조건을 충족하지 않는 데이터 0으로 변환
#print(arr)

#arr = np.where(arr > 10, 1, 0) # where함수에 차례로 조건문, 참일경우 값, 거짓일 경우 값 전달
#print(arr)

arr = np.where(arr > 10, arr + 10, arr - 10)
print(arr)


# ex
lge = np.array([93000,82400,99100,81000,72300])
result = lge[ lge <= 85000 ]
print(len(result))



[False  True  True]
[20 30]
[20]
[ 0 30 40]
3


In [6]:
# 함수와 메서드
import numpy as np

arr = np.arange(8).reshape(4,2)
print(arr)
print(arr.sum()) # ndarray의 데이터를 합하는 sum메서드
print(arr.sum(axis=0)) # x축방향으로 데이터의 합을 구하라는 의미
print(arr.sum(axis=1)) # y축방향으로 데이터의 합을 구하라는 의미# 함수와 메서드
# 그외에 min,max,mean(평균),std(표준편차),var(분산) 메소드 사용 가능


# 임의의 숫자 만들기
np.random.randint(3) # 0~2범위에서 임의의 숫자 하나 선택
np.random.randint(46, size = 5) # 0~45범위에서 5개의 숫자
np.random.randint(46, size=(2, 5)) # 0~45범위에서 2행 5열의 이차원 ndarray로 반환

# 차트를 그릴 때 빈번히 사용하는 linspace함수
x = np.linspace(0,10,3) # (시작값, 종료값, 분할 지점 수)
print(x)
y = x**2

# 여러개의 ndarray를 하나로 합칠때 사용하는 stack함수
a = np.arange(4)
b = np.arange(4,8)
c = np.vstack([a,b]) # 수직 방향으로 ndarray 합침
d = np.hstack([a,b]) # 수평 방향으로 ndarray 합침
print(c)
print(d)


[[0 1]
 [2 3]
 [4 5]
 [6 7]]
28
[12 16]
[ 1  5  9 13]
[ 0.  5. 10.]
[[0 1 2 3]
 [4 5 6 7]]
[0 1 2 3 4 5 6 7]
