# 빅데이터 전처리 및 시각화

### 패키지

패키지 : 모듈의 묶음
파이썬에서는 패키지를 하나의 라이브러리로 이해함

> conda install 패키지이름

numpy, pandas 설치
> pip install numpy pandas

> pip show 패키지 : 패키지 속성 열람 가능

### NumPy

* 벡터 산술연산, 다차원 배열 제공 패키지
* 반복문 작성 필요 없이 전치 데이터 배열에 대한 빠른 연산 가능
* C, C++, 포트란에 쓰인 코드 통합
* 선형대수, 난수발생기, 푸리에 변형가능

##### ndarray

다차원 배열 객체를 담을 수 있음
배열 : 스칼라 원소 간 연산에 사용하는 문법과 유사하게 적용

* 모든 배열은 각 차원의 크기를 알려주는 shape 라는 튜플과, 저장된 자료형을 알려주는 dtype 라는 객체를 가지고있음.

In [1]:
import numpy as np
data=np.random.randn(2,3)
data, data.shape, data.dtype

(array([[ 0.75533845,  1.4729043 ,  0.38006036],
        [-0.91596608, -1.45826592,  0.72023456]]), (2, 3), dtype('float64'))

##### ndarray 생성

* array() : 입력데이터를 ndarray 로 변환
* asarray() : 입력데이터를 변환하지만 이미 ndarray 면 복사가안됨
* arange() : 내장 range 함수와 유사하지만 리스트대신 ndarray 로 반환
* ones() : 주어진 dtype과 모양을 갖는 배열 생성, 원소는 1로 초기화
* ones_like() : 주어진 배열과 동일한 모양과 dtype을 갖는 배열 새로 생성
* zeros() : 주어진 dtype과 모양을 갖는 배열 생성, 원소는 0으로 초기화
* zeros_like() : 주어진 배열과 동일한 모양과 dtype을 갖는 배열 새로 생성
* empty() : 새로운 배열을 초기값 없이 생성
* empty_like() : 새로운 배열을 초기값 없이 생성
* identity() : n x n크기의 단위 행렬 생성
* eye() : n x n크기의 항등행렬 출력 (대각성분 : 1)

In [5]:
# array()

ls1=[1,2,4,4]
ls2=[33,25,74,37]
np.array(ls1)

vec_x=np.array([4,2,5,6,3])
mat_A=np.array([ls1, ls2])
# 1행에 ls1, 2행에 ls2

print(vec_x, vec_x.shape, vec_x.dtype)
print(mat_A, mat_A.shape, mat_A.dtype)

[4 2 5 6 3] (5,) int32
[[ 1  2  4  4]
 [33 25 74 37]] (2, 4) int32


In [8]:
# asarray()

vec_y=np.asarray(ls2)
print(vec_y, vec_y.shape, vec_y.dtype,end="\n")
print(id(ls2),id(vec_y))
mat_B=np.asarray(mat_A)
print(mat_A, mat_A.shape, mat_A.dtype,end="\n")
print(id(mat_A),id(mat_B))
# asarray 처리에서 matrix화 시킨 다음 asarray 시키면 같은 id 값을 공유

[33 25 74 37] (4,) int32
2186770371656 2186791648352
[[ 1  2  4  4]
 [33 25 74 37]] (2, 4) int32
2186791645712 2186791645712


In [9]:
# arange()

ls1=[1,2,3,4]
ls2=[33,25,74,34]
vec_x=np.arange(1,10,2)
print(vec_x)
# vec_x 가 배열형으로 출력

array([1, 3, 5, 7, 9])

In [13]:
# zeros, zeros_like, eye

print(np.zeros(4))
print(np.zeros_like(mat_A)) # mat_A와 크기가 같은 영행렬 출력
print(mat_A)
print(np.eye(5)) # 5x5인 항등행렬 출력

[0. 0. 0. 0.]
[[0 0 0 0]
 [0 0 0 0]]
[[ 1  2  4  4]
 [33 25 74 37]]
[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


##### ndarray 자료유형

int8~64, float8~64, complex8~64 등 정수부터 복소수까지 지원

> ndarray 객체.astype(자료유형)

In [16]:
ls1=[1,2,3,4]
ls2=[33,3,25,263,663,234,12,55]
vec_x=np.array(ls1,dtype=np.string_)
# 파이썬에서 키워드 옵션을 쓸 때, string_ 처럼 끝에 underbar 가 붙는 경우가 있음
print(vec_x, vec_x.dtype) # 강제로 문자열에 집어넣겠다는 뜻

[b'1' b'2' b'3' b'4'] |S1


In [31]:
# 배열 형변환

ls1=[1,2,3,4]
ls2=[33,3,25,263,663,234,12,55]
ls3=[88,77,66,55]
vec_x=np.array(ls1)
vec_x=vec_x.astype(np.int8) # int 8bit 형으로 변환
print(vec_x, vec_x.dtype)

mat1=np.array([ls1,ls3])
print(mat1, mat1.dtype)
mat1=mat1.astype(np.float16)
print(mat1, mat1.dtype)

[1 2 3 4] int8
[[ 1  2  3  4]
 [88 77 66 55]] int32
[[ 1.  2.  3.  4.]
 [88. 77. 66. 55.]] float16


In [30]:
# 배열 스칼라 연산

ls1=[1,2,3,4]
ls2=[33,3,25,263,663,234,12,55]
ls3=[88,77,66,55]

vec=np.array(ls1)
print(vec, 2*vec, vec/4)
mat=np.array([ls1,ls3])
print(mat)
print(2*mat, mat+10)

[1 2 3 4] [2 4 6 8] [0.25 0.5  0.75 1.  ]
[[ 1  2  3  4]
 [88 77 66 55]]
[[  2   4   6   8]
 [176 154 132 110]] [[11 12 13 14]
 [98 87 76 65]]


In [36]:
# 배열 indexing, slicing

ls1=[4,3,2,5,2,6,7,4,3,1]
ls2=[33,3,25,263,663,234,12,55]
vec=np.array(ls1)

# slicing
print(ls1, "\t", vec)
print(ls1[4], "\t", vec[4])
print(ls1[2:5], "\t", vec[2:5])

# indexing
ls1[3:6]=[999]; vec[3:6]=999
print(ls1, "\t", vec)
# 리스트 : 각 자료값을 999로 치환
# 배열 : 각 주소값에 해당하는 값을 999로 치환

[4, 3, 2, 5, 2, 6, 7, 4, 3, 1] 	 [4 3 2 5 2 6 7 4 3 1]
2 	 2
[2, 5, 2] 	 [2 5 2]
[4, 3, 2, 999, 7, 4, 3, 1] 	 [  4   3   2 999 999 999   7   4   3   1]


indexing, slicing 으로 일부 원소를 추출한 경우, 배열은 원본 배열을 공유한다.

완전히 다른 객체로 복사하려면, copy() 메소드 사용이 필요하다.

In [37]:
# slicing 한 값

sub_vec=vec[2:6]
print(vec, "\t", sub_vec)
# 배열 벡터에서 슬라이싱 한 부분도 벡터형
sub_vec2=vec[2:6].copy()
print(vec, "\t", sub_vec, sub_vec2)
sub_vec[2]=9999
print(vec, "\t", sub_vec, sub_vec2)

# copy() 해서 새 객체로 만든 것만 값이 수정이 됨.
# copy() 처리를 안하면 원 데이터의 값을 그대로 공유하기 때문에 바뀌지가 않음.
# 독립적인 객체로 쓰고싶으면 copy() 를 해준다음 넘겨준다.

[  4   3   2 999 999 999   7   4   3   1] 	 [  2 999 999 999]
[  4   3   2 999 999 999   7   4   3   1] 	 [  2 999 999 999] [  2 999 999 999]
[   4    3    2  999 9999  999    7    4    3    1] 	 [   2  999 9999  999] [  2 999 999 999]


In [59]:
# array 의 각 행,렬에 indexing, slicing 가능

ls1=[4,3,2,5,2,6,7,4,3]
ls2=[33,3,25,263,663,234,12,55]
ls3=[10,20,30,40,50,60,70,80]

A=np.array([ls1,ls2,ls3])
print(A)
print(A[:2]) # 1행, 2행만 출력
print(A[1][5]) # 2행 5열 출력
print(A[:2][1:4])

[list([4, 3, 2, 5, 2, 6, 7, 4, 3])
 list([33, 3, 25, 263, 663, 234, 12, 55])
 list([10, 20, 30, 40, 50, 60, 70, 80])]


In [64]:
# 3차원 배열 생성

ls11=[1,2,5,3]; ls12=[10,40,20,60]; ls13=[4,2,5,4]
ls21=[0,3,1,6]; ls22=[12,32,67,35]; ls23=[7,1,2,9]
arr3d=np.array([[ls11,ls12,ls13],[ls21,ls22,ls23]])
print(arr3d, "\n")
arr3d[0,1,3] # 행렬의 1층, 두번째 배열, 그 중의 4번쨰 원소 추출
# arr3d[0][1,3] 로 써도 똑같음

sub_arr1=arr3d[:2,1]
sub_arr2=arr3d[:2,1].copy()
print(arr3d, "\n\n", sub_arr1, "\n\n", sub_arr2)

[[[ 1  2  5  3]
  [10 40 20 60]
  [ 4  2  5  4]]

 [[ 0  3  1  6]
  [12 32 67 35]
  [ 7  1  2  9]]] 

[[[ 1  2  5  3]
  [10 40 20 60]
  [ 4  2  5  4]]

 [[ 0  3  1  6]
  [12 32 67 35]
  [ 7  1  2  9]]] 

 [[10 40 20 60]
 [12 32 67 35]] 

 [[10 40 20 60]
 [12 32 67 35]]


In [65]:
# 논리값을 이용한 indexing

ls11=[1,2,5,3]; ls12=[10,40,20,60]; ls13=[4,2,5,4]
ls21=[0,3,1,6]; ls22=[12,32,67,35]; ls23=[7,1,2,9]

mat1=np.array([ls11,ls12,ls13])
mat1[[False, True, False]] # True 값만 출력

array([[10, 40, 20, 60]])

##### fancy indexing

정수 index를 원하는 순서대로 리스트나 ndarray 로 지정

In [68]:
arr=np.random.randn(7,4)
arr1=arr[[6,3,5]]
arr2=arr[[-1,-4,-3]]
print("arr\n{0}\narr1\n{1}\narr2\n{2}".format(arr,arr1,arr2))

arr
[[-0.11049218  0.56041171  0.62695735  0.98511528]
 [ 1.75733881  2.10091343  0.24089792  1.14723403]
 [-0.39105961  0.73863928 -1.81194585 -0.05666518]
 [-0.15225058  2.47418762 -0.26456362  0.89163681]
 [ 1.23087067  0.54566112 -1.82794406  1.70519226]
 [ 0.98994195  0.74204166 -0.36938944  0.4736939 ]
 [-0.34315569  1.71267001 -0.82154233 -0.60557507]]
arr1
[[-0.34315569  1.71267001 -0.82154233 -0.60557507]
 [-0.15225058  2.47418762 -0.26456362  0.89163681]
 [ 0.98994195  0.74204166 -0.36938944  0.4736939 ]]
arr2
[[-0.34315569  1.71267001 -0.82154233 -0.60557507]
 [-0.15225058  2.47418762 -0.26456362  0.89163681]
 [ 1.23087067  0.54566112 -1.82794406  1.70519226]]


In [78]:
# fancy indexing

arr3=np.random.randn(7,5)
print(arr3,"\n")
print(arr3[[5,0,2],[3,1,4]],"\n")
# 5행 3열, 0행 1열, 2행 4열 이렇게 3개의 원소가 뽑힘
# 같은 index 안에 , 구분하게 되면 같은 행,렬의 원소들을 짝지어 뽑게되므로 주의한다.

print(arr3[[5,0,2]][:,[3,1,4]])
# fancy indexing : 이렇게 하면 원하는 값을 뽑을 수 있음
# 5행 전체에서, 3번째 1번째 4번째 원소를 뽑고
# 0행 전체에서, 3번째 1번째 4번째 원소를 뽑고
# 2행 전체에서, 3번째 1번째 4번째 원소를 뽑고

[[-0.31210069 -0.31145476 -0.06746639 -0.41168095  0.29174225]
 [-0.1823096   0.49806459 -1.06154276 -0.05712525  1.46790611]
 [-0.34724612  0.82009844  0.29658552 -0.34805486 -1.42316298]
 [-1.48899112  0.0360879   0.3545007   1.85923891 -1.35366226]
 [-1.47206152 -1.18705722 -0.29028649 -0.74664154  2.4773052 ]
 [-0.58268815 -2.1614191   1.00814155 -0.06824181  1.40827184]
 [ 0.18421004  0.04783627 -0.23303328  0.413048   -2.00477184]] 

[-0.06824181 -0.31145476 -1.42316298] 

[[-0.06824181 -2.1614191   1.40827184]
 [-0.41168095 -0.31145476  0.29174225]
 [-0.34805486  0.82009844 -1.42316298]]


In [80]:
# fancy indexing - np.ix_
# 아래 두 개의 표기는 같은 표기이다.

# print(arr3[[5,0,2]][:,[3,1,4]])
# print(arr3[np.ix_([5,0,2],[3,1,4])])

print(arr3[np.ix_([5,0,2],[3,1,4])])

[[-0.06824181 -2.1614191   1.40827184]
 [-0.41168095 -0.31145476  0.29174225]
 [-0.34805486  0.82009844 -1.42316298]]


##### 배열의 전치, 축 바꾸기

* 행과 열 크기가 서로 바뀌는 형태
* transpose 메소드와 T 속성
    * T 속성 : 전치행렬
    * transpose : 순수하게 전치하는게 아니라 조금 더 복잡한 변환을 해줄 때 사용

In [86]:
ex=np.arange(24).reshape(2,4,3)
print(ex, "\n", ex.transpose())

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]]] 
 [[[ 0 12]
  [ 3 15]
  [ 6 18]
  [ 9 21]]

 [[ 1 13]
  [ 4 16]
  [ 7 19]
  [10 22]]

 [[ 2 14]
  [ 5 17]
  [ 8 20]
  [11 23]]]


In [88]:
ex=np.arange(24).reshape(2,4,3)
ex1=ex.transpose(2,0,1)
print("ex\n{0}\nex1\n{1}".format(ex,ex1))
# transpose(2,0,1) : 열을 층, 층을 행, 행을 열로 변형한다.

ex
[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]]]
ex1
[[[ 0  3  6  9]
  [12 15 18 21]]

 [[ 1  4  7 10]
  [13 16 19 22]]

 [[ 2  5  8 11]
  [14 17 20 23]]]


In [92]:
ex2=ex.T
print("ex2\n{0}".format(ex2))

ex2
[[[ 0 12]
  [ 3 15]
  [ 6 18]
  [ 9 21]]

 [[ 1 13]
  [ 4 16]
  [ 7 19]
  [10 22]]

 [[ 2 14]
  [ 5 17]
  [ 8 20]
  [11 23]]]


In [90]:
ex3=ex.swapaxes(2,0)
print("ex3\n{0}".format(ex3))

ex3
[[[ 0 12]
  [ 3 15]
  [ 6 18]
  [ 9 21]]

 [[ 1 13]
  [ 4 16]
  [ 7 19]
  [10 22]]

 [[ 2 14]
  [ 5 17]
  [ 8 20]
  [11 23]]]


* T
* transpose(a)
* swapaxes(a,0,b) : 바꾸고자하는 축 두개 번호를 전달받아 두 축에 대해서 바꾸게 된다


3차원 배열의 경우

[][][]

차례대로 0,1,2 순서로 생각하고

파라미터로 (1,0,2) 이런식으로 전달하면

바뀐 결과의 순서가 0,1,2에서 1,0,2 순으로 바뀌게된다.


* T와 달리 transpose, swapaxes 의 경우 축을 골라서 고정시켜놓을 수 있음
    * T attribute 와 달리 자유도가 조금 더 높음

##### 범용함수

ufunc

* ndarray의 데이터 원소별로 연산을 수행하는 함수
* 하나 이상의 스칼라 값을 받아서, 하나 이상의 스칼라 결과 값을 반환하는 함수 >> 를 빠르게 처리하기 위한

##### 단항 유니버셜 함수

* abs(), fabs() : 각 원소의 절대값 / fab는 복소수가 아닌 경우에서 빠른 연산을 위함
* sqrt() : 제곱근
* square() : 제곱
* exp() : 지수
* log2(), log10(), log1p() : 로그2, 로그10, 자연로그+1
* sign() : 각 원소의 부호 계환 (1,0,-1)
* ceil() : 소수자리를 올리기
* floor() : 소수자리를 내리기


* rint() : 소수자리 반올림
* modf() : 몫과 나머지 반환
* isnan() : IsNotaNumber, 각 원소가 숫자인지 아닌지 판단
* isfinite(), isinf() : 유한수/무한수 여부
* cos, cosh(), sin(), sinh(), tan(), tanh() : 삼각함수, 쌍곡삼각함수
* arccos(), arccosh() : 역삼각함수
* logical_nat() : 논리값 반환

##### 이항 유니버셜 함수

* add()
* subtract()
* multiply()
* divide() : 사칙연산
* divide, floor_divide() : 첫 배열에서 두 번째 배열 원소를 나눔, floor_divide는 몫만 취함
* power() : 첫 배열 원소의 두번째 배열의 원소만큼 제곱
* maximum(), fmax() : 두 원소중 큰 원소 반환. fmax 는 NaN을 무시함
* minimum(), fmin() : 두 원소중 작은 원소 반환. fmin 은 NaN을 무시함
* mod() : 첫 배열 원소의 두번째 배열 원소를 나눈 나머지
* copysign() : 첫 배열 원소의 기호를 두번째 배열의 원소 기호로 바
* greater, greater_equal, less, less_equal, equal, not_equal() : 각 원소간 비교연산 결과를 boolean 배열로 반환
* logical_and, logical_or, logical_xor() : 각 원소간 논리연산 결과를 반환



In [95]:
# isfinite

A=np.arange(18).reshape(3,6)
B=np.random.randn(3,6)
print(A,"\n",B,"\n")
print(np.isfinite(B))

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]] 
 [[ 0.7710301  -0.00449534 -1.62786241  1.71932439  1.36879514  1.58172614]
 [-0.24963581 -1.14720593  1.47211463 -0.64988823 -0.02818101 -0.59958619]
 [-0.52098657 -0.60088464 -0.21402518  1.16442628  0.21613894 -0.30849193]] 

[[ True  True  True  True  True  True]
 [ True  True  True  True  True  True]
 [ True  True  True  True  True  True]]


In [96]:
# power

print(A,"\n",B,"\n")
print(np.power(A,B)) # A**B 랑 같은 결과값

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]] 
 [[ 0.7710301  -0.00449534 -1.62786241  1.71932439  1.36879514  1.58172614]
 [-0.24963581 -1.14720593  1.47211463 -0.64988823 -0.02818101 -0.59958619]
 [-0.52098657 -0.60088464 -0.21402518  1.16442628  0.21613894 -0.30849193]] 

[[ 0.          1.          0.32356727  6.61189902  6.66955392 12.75202407]
 [ 0.63936018  0.107275   21.35266003  0.23979992  0.93717131  0.23746266]
 [ 0.27400662  0.21411572  0.56845978 23.4137818   1.82077892  0.4172693 ]]


In [97]:
print(A,"\n",B,"\n")
print(np.greater(A,B)) # A>B와 같은 결과값

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]] 
 [[ 0.7710301  -0.00449534 -1.62786241  1.71932439  1.36879514  1.58172614]
 [-0.24963581 -1.14720593  1.47211463 -0.64988823 -0.02818101 -0.59958619]
 [-0.52098657 -0.60088464 -0.21402518  1.16442628  0.21613894 -0.30849193]] 

[[False  True  True  True  True  True]
 [ True  True  True  True  True  True]
 [ True  True  True  True  True  True]]


##### 배열 연산으로 조건절 표현

where() : x if 조건 else y와 같은 삼항 연산자의 벡터화 버전
    * (참) if 조건 else (거짓)

> np.where(조건, 조건에 맞을 때 값, 조건과 다를 때 값)

In [134]:
xarr=np.array([2,5,5,6,1,3,9,6,7])
yarr=np.array([2,6,-3,4,-5])
zarr=np.array(["서울", "경기", "서울", "인천", "경기"])
result=[(x if z=="서울" else y) for x,y,z in zip(xarr, yarr, zarr)]
print(result)

[2, 6, 5, 4, -5]


In [107]:
arr1=(10+5*np.random.randn(12)).reshape(4,3)
arr2=(10+5*np.random.randn(12)).reshape(4,3)
result=np.where(arr1>=10,arr1,np.where(arr2>=10,arr2,0))
print("arr1\n{0}\narr2\n{1}\nresult\n{2}".format(arr1,arr2,result))

# arr1 에서 10보다 큰 값들을 뽑아내고, 그렇지 않은 값들은 두번째 where 문을 거쳐서 뽑아낸다
# arr2 에서 10보다 큰 값들을 뽑아내고, 그렇지 않은 값들은 0 으로 뽑아낸다.
# 최종 배열에는 arr1, arr2 위치의 10보다 큰 값과 arr2의 10보다 작은 값들이 0으로 치환되어 나타난다.

arr1
[[ 2.7052176   1.41941194  3.47406576]
 [18.59416071 -0.14045156  9.37170487]
 [ 3.54244175 16.1501558  12.03535135]
 [ 6.90436486 15.64105241  9.30335518]]
arr2
[[16.33292746 14.15275613  8.88629988]
 [ 2.69550418 16.55090653  9.93185929]
 [ 7.32789331  7.57237001 11.52342283]
 [12.32751642  4.57883022  8.76941897]]
result
[[16.33292746 14.15275613  0.        ]
 [18.59416071 16.55090653  0.        ]
 [ 0.         16.1501558  12.03535135]
 [12.32751642 15.64105241  0.        ]]


##### 통계 메소드

* sum()  : 전체 또는 특정 축에대한 원소들의 합
* mean() : 전체 또는 특정 축에대한 원소들의 산술
* std(), var() : 전체 또는 특정 축에대한 원소들의 표준편차 (자유도 지정 가능, 기본값은 n)
* min(), max()
* argmin(), argmax() : 최소값, 최대값의 index
* cumsum() : 누적합
* cumprod()  누적곱

In [120]:
# mean

A=np.array([2,5,3,6,7,33])
B=np.array([3,6,4,6,7])
print(np.mean(A), np.mean(B))
print(A.std(ddof=0), np.std(A,ddof=1))

9.333333333333334 5.2
10.71862346054235 11.74166370948626


In [123]:
# mean 에 축을 줄 수 있음

xarr=np.array([[2,5,5,6,8,1],[3,9,5,7,2,9],[3,5,1,4,6,3],[1,3,5,7,8,1]])
print("xrr\n{0}".format(xarr))
print("열 평균\n{0}\n행 평균\n{1}".format(xarr.mean(axis=0),xarr.mean(axis=1)))

xrr
[[2 5 5 6 8 1]
 [3 9 5 7 2 9]
 [3 5 1 4 6 3]
 [1 3 5 7 8 1]]
열 평균
[2.25 5.5  4.   6.   6.   3.5 ]
행 평균
[4.5        5.83333333 3.66666667 4.16666667]


##### 논리값 배열을 위한 메소드

0(False), 1(True)

* all() : 모두 True면 True 반환
* any() : 모두 False면 False 반환

In [133]:
A=np.array([[2,5,33,6,7,55,2,356,12,78]])
print(A.dtype)
print((B>=5).shape) # (B>=5)도 배열객체

# 본래 sum method 는 숫자만 연산해주지만, 논리연산의 경우도 숫자로 형변환하여 계산해줌
# True 는 1, False 는 0
# 이를 "자동형변환" 이라 칭함
print((B>=5).sum())

print((B>=5).mean()) # 해당 조건이 맞는 데이터의 비율 (전체 : 1)

int32
(5,)
3
0.6


In [145]:
A=np.array([[2,5,3],[6,7,33],[4,2,7],[7,9,5]])
B=np.array([[2,5,33,6,7],[55,2,356,12,78]])
A.sort()
print(A)
# 각 행렬의 행마다 오름차순으로 정렬하게 되있는게 sort() 의 default 설정

A.sort(axis=0)
print(A)
# axis=0 으로 하면 각 열마다 정렬, 1이나 생략시 행마다 정렬

# numpy 내의 sort 도 같은 원
sort_B=np.sort(B)
print(sort_B)

sort_B1=B.sort()
print(sort_B1)

[[ 2  3  5]
 [ 6  7 33]
 [ 2  4  7]
 [ 5  7  9]]
[[ 2  3  5]
 [ 2  4  7]
 [ 5  7  9]
 [ 6  7 33]]
[[  2   5   6   7  33]
 [  2  12  55  78 356]]
None


##### 집합함수 (1차원 배열)

* unique(x) : x에서 중복원소 제공
* intersect1d(x,y) : 배열의 교집합
* unioin1d(x,y)
* in1d(x,y) : 포함하는지 여부 (논리값 반환)
* setdiff1d(x,y) : 교집합
* ersect1d(x,y) : 차집합

##### 배열을 binary 형식으로 저장

기본적으로 압축되지 않은 RAW 바이너리 형식인 .npy 확장자로 저장

* save() : 배열을 압축되지 않은 형식으로 저장
* savez() : 여러개의 배열을 압축된 형식으로 저장 (저장하려는 배열을 키얻로 전달)
* load() : 바이너리 형식으로 저장된 npy 파일 불러오기

In [152]:
# save

A=np.array([[2,5,3],[6,7,33],[4,2,7],[7,9,5]])
B=np.array([[2,5,33,6,7],[55,2,356,12,78]])
print(A,"\n\n", B)
np.save("C:/Users/Affinity/Downloads/Python_Data/ch02_data/new_arr_A.npy", A)
np.savez("C:/Users/Affinity/Downloads/Python_Data/ch02_data/new_arr_AB.npz", A2r=A, B2r=B)
# savez 의 경우 확장자를 npz, 키워드=배열명 을 끝에 배열마다 달아주고 저장해야

[[ 2  5  3]
 [ 6  7 33]
 [ 4  2  7]
 [ 7  9  5]] 

 [[  2   5  33   6   7]
 [ 55   2 356  12  78]]


In [157]:
# load

npy_A=np.load("C:/Users/Affinity/Downloads/Python_Data/ch02_data/new_arr_A.npy")
npy_AB=np.load("C:/Users/Affinity/Downloads/Python_Data/ch02_data/new_arr_AB.npz")

print(npy_A,"\n")
print(npy_AB)
# 이대로 로드하면 <numpy.lib.npyio.NpzFile object at 0x000001FD27019DA0> 이렇게 나옴
# 2개 이상이라서 압축된 것을 가져오다보니 객체로 표시되서 나옴

print(npy_AB["B2r"])
# 그래서 불러올때는 키워드로 불러온다.

[[ 2  5  3]
 [ 6  7 33]
 [ 4  2  7]
 [ 7  9  5]] 

<numpy.lib.npyio.NpzFile object at 0x000001FD27037860>
[[  2   5  33   6   7]
 [ 55   2 356  12  78]]


##### 텍스트파일 불러오기

* loadtxt()
* savetxt()

In [160]:
A=np.loadtxt("C:/Users/Affinity/Downloads/Python_Data/ch02_data/steel.txt", skiprows=5, delimiter="\t", usecols=(0,2))
print(A)

[[ 81.4  57. ]
 [122.2  61. ]
 [101.7  60. ]
 [175.6  62. ]
 [150.3  61. ]
 [ 64.8  54. ]
 [ 92.1  58. ]
 [113.8  61. ]]


### 선형대수

##### 행렬의 연산

* diag() : n x n 행렬의 대각/비대각 원소를 반환/1차원 배열을 대각 원소로 취함
* dot() : 행렬의 곱
* trace() : 대각원소의 합
* linarg.det() : 행렬식
* linarg.eig() : n x n 행렬의 고유값과 고유벡터
* linarg.inv() :  n x n 행렬의 역행렬
* linarg.pinv() : 무어-펜로즈 유사역원 역행렬
* linarg.qr() : QR분해
* inarg.svd() : 특이값 분해(SVD)
* linarg.solve() : 선형연립방정식 Ax=b 의 해 x
* linarg.lstsq() : 최소제곱해(회귀분석 등)