# "[DA] Numpy 기본 1"
> "Numpy 기본"

- toc: true
- branch: master
- badges: true
- comments: true
- categories: [numpy]
- author: 도형준

# Numpy

- Numeriacal Python
- 파이썬 머신러닝 패키지인 scikit-learn에서 기본 데이터 구조로 사용되어 Numpy 배열 형태의 데이터를 사용
- 파이썬 기반 데이터 분석 환경에서 행렬 및 벡터 연산에 필요한 다양한 함수를 제공
- 메모리 소모가 많은 반복문 없이 전체 데이터 배열에 빠른 연산을 처리할 수 있는 표준 수학 함수
> 배열 : 동일한 특성(데이터 타입) 및 일정한 규칙을 가지는 여러 개의 요소가 나열되어 있는 데이터 집합
- 파이썬 list 객체를 사용할 때 보다 Numpy의 ndarray 객체를 사용하면 연산 속도가 개선되어 더 많은 데이터를 더 빠르게 처리

In [1]:
# 라이브러리 가져오기: numpy
# as 별칭 선언 이후에는 별칭으로 해당 라이브러리의 기능을 호출 할 수 있다.
# import 라이브러리명 as 별칭
import numpy as np

In [2]:
# 라이브러리 버전 확인하기
np.__version__

'1.21.5'

## Numpy 배열 : numpy.ndarray

- 다차원 배열(1차원, 2차원, 3차원)으로 입체적인 데이터 구조를 구성하고 여러 개의 데이터 방향을 가진다.
- 배열 속성 : shape, ndim, dtype 등
- 데이터 방향 : axis = 0(행/높이), 1(열/폭), 2(채널/깊이)

![nparr1](https://user-images.githubusercontent.com/105966480/196338865-cf6c926f-b894-4595-9874-4881bf8fee40.jpg)

### 배열 생성

- np.array(data)
    - 파이썬 list객체를 전달받아 numpy list로 교환해주는 명령어
    - 배열 속성
        - shape : 구조 (행, 열, 차원)
        - ndim : 차원
        - dtype : 데이터 타입
        - size : 요소 개수 = 행 * 열 * 차원
    - 배열 메서드
        - astype() : 데이터 타입 변환(문자를 숫자로 라던지...)
    - 파이썬 내장함수를 사용한 속성값
        - type() : 객체의 자료형 확인
        - len() : 요소 내부의 자료 길이.
    - Numpy 함수를 사용한 속성
        - reshape(row, column) : 배열 재배치(1 * 12를 3 * 4 형태로 바꾼다던지...)
    - kind : 데이터 종류에 대한 구분 기호
        - b boolean
        - i 정수(int)
        - u 부호없는 정수(unsigned int, +- 개념 없이 절대값만 존재)
        - f 실수
        - c 복소 부동소수점
        - O 객체
        - S 바이트 문자열(ascii 코드, 영문자, 일부특문, 숫자)
        - U 유니코드 문자열(한글, 중국어, 태국어, 아랍어 등 영어와 다른 문자)

In [3]:
# 파이썬 1차원 리스트를 Numpy ndarray로 교환하기
tmp = [1,2,3,4,5,6]
arr = np.array(tmp)
arr

array([1, 2, 3, 4, 5, 6])

In [4]:
# 배열 객체의 속성 - 타입 자료형
print(type(arr),type(tmp))

<class 'numpy.ndarray'> <class 'list'>


In [5]:
# 배열 객체의 속성 - 구조 확인하기: shape(row, column, dim)
# (정수,): 정수 개수의 아이템을 가진 리스트가 배열로 변환된 결과물
arr.shape

(6,)

In [6]:
# 배열 객체의 속성 - 길이 => (n,)[1DArrray]: 아이템의 개수
len(arr)

6

In [7]:
# 배열 객체의 속성 -차원
arr.ndim

1

In [8]:
# 배열 요소의 속성 - 요소의 개수
arr.size

6

In [9]:
# 배열 요소의 속성 - 데이터 타입
arr.dtype

dtype('int32')

In [10]:
# 배열 객체의 속성 - 데이터 타입의 변환: astype => 원본 데이터 유지
arr2 = arr.astype(float)
print(arr)
print(arr2)

[1 2 3 4 5 6]
[1. 2. 3. 4. 5. 6.]


In [11]:
# 배열 구조 변환
# 기존 배열의 요소 총 개수(6개)와 변환하려는 구조의 총 개수(6개)는 일치해야 한다.
arr.reshape(2,3) #(2*3=6이므로), reshape(row,column)

array([[1, 2, 3],
       [4, 5, 6]])

In [12]:
# Numpy 객체 정보를 좀 더 편하게 확인하기 위한 사용자 함수 정의
# 객체타입, 구조, 차원, 데이터타입, 내부자료
# 를 확인하기 위해 정의하는 함수
def np_print(arr):
    text = '''
    type : {}
    shape : {}
    ndim : {}
    dtype : {}
    array data : \n {}'''.format(type(arr), arr.shape, arr.ndim, arr.dtype, arr)
    print(text)

In [13]:
# 리스트 요소 타입이 일관되지 않으면 우선순위에 따라 내부 데이터의 dtype이 통일된다.
# 우선순위 : str > float > int
# 서로 다른 타입의 혼합 1: int + str = str로 통일
tmp = [1,2,3,"4"]
arr1 = np.array(tmp)
np_print(arr1)


    type : <class 'numpy.ndarray'>
    shape : (4,)
    ndim : 1
    dtype : <U11
    array data : 
 ['1' '2' '3' '4']


In [14]:
# 서로 다른 타입의 혼합 2: int + float = float
tmp = [1,2,3.3,4]
arr1 = np.array(tmp)
np_print(arr1)


    type : <class 'numpy.ndarray'>
    shape : (4,)
    ndim : 1
    dtype : float64
    array data : 
 [1.  2.  3.3 4. ]


In [15]:
# 서로 다른 타입의 혼합 3: float + str = str
tmp = ['1',1.2,0.3]
arr1 = np.array(tmp)
np_print(arr1)


    type : <class 'numpy.ndarray'>
    shape : (3,)
    ndim : 1
    dtype : <U32
    array data : 
 ['1' '1.2' '0.3']


In [16]:
# 파이썬 2차원 리스트로 Numpy 배열 생성
# 2차원 배열의 shape 속성은 (eow, column)만 반환
tmp = [[1,2,3,4],
      [5,6,7,8]]
arr = np.array(tmp)
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (2, 4)
    ndim : 2
    dtype : int32
    array data : 
 [[1 2 3 4]
 [5 6 7 8]]


In [17]:
# 파이썬 3차원 리스트로 Numpy 배열 생성
tmp = [[[1,2,3],[4,5,6]],
      [[7,8,9],[10,1,121]]]
arr = np.array(tmp)
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (2, 2, 3)
    ndim : 3
    dtype : int32
    array data : 
 [[[  1   2   3]
  [  4   5   6]]

 [[  7   8   9]
  [ 10   1 121]]]


In [18]:
# 데이터 타입을 파라미터로 지정해서 Numpy 배열 내부 자료형을 바꿔줄 수 있따.
# np.array(data, dtype = '자료형')
tmp = [[[1,2,3],[4,5,6]],
      [[7,8,9],[10,1,121]]]
arr = np.array(tmp,dtype =float)
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (2, 2, 3)
    ndim : 3
    dtype : float64
    array data : 
 [[[  1.   2.   3.]
  [  4.   5.   6.]]

 [[  7.   8.   9.]
  [ 10.   1. 121.]]]


### 생성 및 초기화

- 1. 초기 값을 지정하여 데이터를 자동으로 가지는 배열을 생성

    - np.zeros()
    - np.ones()
    - np.full()
    - np.eye()
    - np.empty()

#### np.zeros(shape(행,열), dtype = float)

- 지정된 구조의 배열을 생성하고 모든 요소를 0으로 초기화(zeros)
- shape: tuple 형태로 행, 열 지정
- dtype: 배열에서 사용하는 데이터 타입을 지정, 기본값은 numpy.ndarray

In [19]:
# 3행 4열 구조 안에 모든 값이 0으로 채워짐
# 구조는 튜플로 묶어서 넘김
arr = np.zeros((3,4))
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (3, 4)
    ndim : 2
    dtype : float64
    array data : 
 [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [20]:
# dtype만 int로 바꿔서 생성
arr = np.zeros((3,4), dtype = int)
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (3, 4)
    ndim : 2
    dtype : int32
    array data : 
 [[0 0 0 0]
 [0 0 0 0]
 [0 0 0 0]]


#### np.ones(shape(행,열), dtype = float)

In [21]:
# 3행 4열 구조 안에서 초기값을 모두 1로 가지는 배열 생성
arr = np.ones((3,4), dtype = int)
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (3, 4)
    ndim : 2
    dtype : int32
    array data : 
 [[1 1 1 1]
 [1 1 1 1]
 [1 1 1 1]]


#### np.full(shape(행,열),fill_value,dtype)

- 지정된 구조의 배열을 생성하고 모든 요소를 fill_value 값으로 초기화
- shape: tuple 자료형으로 행열 구조를 지정
- dtype = 배열의 데이터 타입을 지정, 기본 값 = 들어오는 데이터의 자료형

In [22]:
# 3행 4열 구조 안에서 초기값을 5로 가지는 배열
arr = np.full((3,4), fill_value = 5)
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (3, 4)
    ndim : 2
    dtype : int32
    array data : 
 [[5 5 5 5]
 [5 5 5 5]
 [5 5 5 5]]


#### np.eye(N,M=None, dtype = float)

- (N,M) 구조의 단위 행렬을 생성
- M: 열 개수를 지정, 기본값 = N
- dtype: 배열의 데이터 타입을 지정, 기본값 = numpy.float64

In [23]:
# 3행 3열의 단위 행렬
arr = np.eye(4)
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (4, 4)
    ndim : 2
    dtype : float64
    array data : 
 [[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


In [24]:
# row =5, column = 3인 단위행렬 만들기
arr = np.eye(5,3)
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (5, 3)
    ndim : 2
    dtype : float64
    array data : 
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 0. 0.]
 [0. 0. 0.]]


#### np.empty(shape(행,열),dtype=float)

- 지정된 구조의 배열을 생성하고 모든 요소에 대한 초기화 과정 없이 직전 메모리에 지정된 값을 사용
- 배열을 생성하는데 가장 빠르고 효율적인 방법
- shape: tuple 타입으로 행,열 구조 지정
- dtype: 배열의 데이터 타입을 지정, 기본값 = numpy.float64

In [25]:
# 직전 메모리에 저장된 값을 사용하기 위해서는 직전에 만들었던 것과
# 동일한 shape의 배열을 생성해야 한다.
# 7 * 2
arr = np.empty((7,2))
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (7, 2)
    ndim : 2
    dtype : float64
    array data : 
 [[0. 0.]
 [0. 0.]
 [0. 0.]
 [0. 0.]
 [0. 0.]
 [0. 0.]
 [0. 0.]]


In [26]:
# 3*4 구조로 다시 만들기
arr = np.empty((3,4))
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (3, 4)
    ndim : 2
    dtype : float64
    array data : 
 [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


### like 함수

- 전달 받은 배열과 동일한 shjape으로 초기값을 설정하여 새로운 배열을 생성
    - np.zeros_like() : 초기값을 0으로 가지는 배열 생성
    - np.ones_like() : 초기값을 1으로 가지는 배열 생성
    - np.full_like() : 초기값을 fill_value 값으로 가지는 배열 생성

#### np.ones_like()

In [27]:
# 2행 3열의 구조에서 1~6의 숫자로 구성된 배열
data = [[1,2,3],
       [4,5,6]]
arr1 = np.array(data)
np_print(arr1)


    type : <class 'numpy.ndarray'>
    shape : (2, 3)
    ndim : 2
    dtype : int32
    array data : 
 [[1 2 3]
 [4 5 6]]


In [28]:
arr2 = np.ones_like(arr1)
np_print(arr2)


    type : <class 'numpy.ndarray'>
    shape : (2, 3)
    ndim : 2
    dtype : int32
    array data : 
 [[1 1 1]
 [1 1 1]]


### 범위와 조건이 있는 데이터를 가지는 1차원 배열 생성
    - np.linspace()
    - np.arange()
    - np.logspace()

#### np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)

- 시작값(start)부터 마지막값(stop) 사이의 범위에서 균등한 간격으로 일정 개수(num)개의 데이터를 가지는 배열 생성
- num : 데이터 개수, 기본값 = 50
- endpoint : 마지막값에 stop을 포함/제외하는 조건 지정, 기본값 = True(포함)
- retstep : True로 전달하면 (배열, 데이터 사이의 간격)의 데이터를 담은 tuple을 반환
- dtype : 배열의 데이터 타입을 지정, 기본값 = None 

In [29]:
# 기본값
# 0이상 1이하의 범위에서 발생한 숫자 5개를 포함하는 배열
arr = np.linspace(0,1,num =5)
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (5,)
    ndim : 1
    dtype : float64
    array data : 
 [0.   0.25 0.5  0.75 1.  ]


In [30]:
# endpoint를 False로 변환
arr = np.linspace(0,1,num=5, endpoint = False)
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (5,)
    ndim : 1
    dtype : float64
    array data : 
 [0.  0.2 0.4 0.6 0.8]


In [31]:
# retstep(리턴 스텝)설정 -> (배열 객체, 간격값)
arr = np.linspace(0,1,num = 5, retstep =True)
print(arr) # 슬라이싱 가능
print(arr[0])

(array([0.  , 0.25, 0.5 , 0.75, 1.  ]), 0.25)
[0.   0.25 0.5  0.75 1.  ]


#### np.arange(start=0, stop, step=1,  dtype=None)

- 시작값(start)부터 마지막값(stop) 사이의 범위에서 지정한 간격(step)으로 일정 개수(num)개의 데이터를 가지는 배열 생성
- 파이썬 내장함수 range()와 유사
- start : 시작값, 기본값 = 0
- stop : 마지막값으로 범위에 포함되지 않음
- step : 데이터 사이의 간격, 기본값 = 1
- dtype : 배열의 데이터 타입을 지정, 기본값 = None

In [32]:
list(range(5))

[0, 1, 2, 3, 4]

In [33]:
# 기본값
# 0이상 5미만의 범위에서 1씩 증가하는 숫자(정수)를 가지는 배열
arr = np.arange(5)
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (5,)
    ndim : 1
    dtype : int32
    array data : 
 [0 1 2 3 4]


In [34]:
# 시작, 간격, 끝
# 0이상 5 미만의 범위에서 0.5씩 증가하는 숫자를 가지는 배열
arr = np.arange(0,5,0.5)
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (10,)
    ndim : 1
    dtype : float64
    array data : 
 [0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5]


In [35]:
# arange()메서드로 생성된 배열과 shape(1,5)인 배열은 동일해 보이지만
# shape와 dimention이 서로 다르다
arr = np.arange(1,5)
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (4,)
    ndim : 1
    dtype : int32
    array data : 
 [1 2 3 4]


In [36]:
arr2 = arr.reshape(1,4)
np_print(arr2)


    type : <class 'numpy.ndarray'>
    shape : (1, 4)
    ndim : 2
    dtype : int32
    array data : 
 [[1 2 3 4]]


In [37]:
arr2 = arr.reshape(4)
np_print(arr2)


    type : <class 'numpy.ndarray'>
    shape : (4,)
    ndim : 1
    dtype : int32
    array data : 
 [1 2 3 4]


#### np.logspace(start, stop, num = 50. endpoint = True, dtype = None)

- 시작값(start)부터 마지막값(stop) 사이의 로그 스케일로 지정된 범위에서 균등한 간격으로 일정 개수(num)개의 데이터를 가지는 배열 생성
- num: 데이터 개수, 기본값 = 50
- endpoint: 마지막 값에 stop을 포함/ 제외하는 조건 지정, 기본값 = True(포함)
- dtype: 배열의 데이터 타입을 지정, 기본값 = None

In [38]:
# 기본값
# 0이상 1이하의 범위에서 로그스케일을 적용한 값(50개)를 가지고 배열
# 밑수가 10인 로그를 기준으로 만들어 줌
arr = np.logspace(0,1)
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (50,)
    ndim : 1
    dtype : float64
    array data : 
 [ 1.          1.04811313  1.09854114  1.1513954   1.20679264  1.26485522
  1.32571137  1.38949549  1.45634848  1.52641797  1.59985872  1.67683294
  1.75751062  1.84206997  1.93069773  2.02358965  2.12095089  2.22299648
  2.32995181  2.44205309  2.55954792  2.6826958   2.8117687   2.9470517
  3.0888436   3.23745754  3.39322177  3.55648031  3.72759372  3.90693994
  4.09491506  4.29193426  4.49843267  4.71486636  4.94171336  5.17947468
  5.42867544  5.68986603  5.96362332  6.25055193  6.55128557  6.86648845
  7.19685673  7.54312006  7.90604321  8.28642773  8.68511374  9.10298178
  9.54095476 10.        ]


In [39]:
# log개념 살펴보기
arr = np.logspace(0,3,4)
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (4,)
    ndim : 1
    dtype : float64
    array data : 
 [   1.   10.  100. 1000.]


In [41]:
# 시작, 끝, 개수(40)으로 해보기
arr = np.logspace(0,1,40)
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (40,)
    ndim : 1
    dtype : float64
    array data : 
 [ 1.          1.06081836  1.12533558  1.19377664  1.26638017  1.34339933
  1.42510267  1.51177507  1.60371874  1.70125428  1.80472177  1.91448198
  2.03091762  2.15443469  2.28546386  2.42446202  2.57191381  2.72833338
  2.89426612  3.07029063  3.25702066  3.45510729  3.66524124  3.88815518
  4.12462638  4.37547938  4.64158883  4.92388263  5.22334507  5.54102033
  5.87801607  6.23550734  6.61474064  7.01703829  7.44380301  7.89652287
  8.3767764   8.88623816  9.42668455 10.        ]


In [42]:
# endpoint 설정
arr = np.logspace(0,1,40,endpoint = False)
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (40,)
    ndim : 1
    dtype : float64
    array data : 
 [1.         1.05925373 1.12201845 1.18850223 1.25892541 1.33352143
 1.41253754 1.49623566 1.58489319 1.67880402 1.77827941 1.88364909
 1.99526231 2.11348904 2.23872114 2.37137371 2.51188643 2.66072506
 2.81838293 2.98538262 3.16227766 3.34965439 3.54813389 3.75837404
 3.98107171 4.21696503 4.46683592 4.73151259 5.01187234 5.30884444
 5.62341325 5.95662144 6.30957344 6.68343918 7.07945784 7.49894209
 7.94328235 8.41395142 8.91250938 9.44060876]


### 난수(특정한 순서나 규칙을 가지지 않는 무작위의 수)를 데이터로 가지는 배열을 생성
    - np.random.normal()
    - np.random.rand()
    - np.random.randn()
    - np.random.randint()
    - np.random.random()

#### 분산과 표준편차

     분산: 특정 요소가 평균 값으로부터 얼마나 떨어졌는 지를 나타내는 척도
     표준편차: 분산 과정에서 제곱을 하기 때문에 정확한 거리를 구할 수 없으므로 다시 제곱근해 얻어내는 값
- 어떤 집단간 평균이 같다고 해서 반드시 분포가 같지는 않다.
- 평균에서 어떤 요소가 얼마나 멀리 떨어져있는 지를 나타내는 분산값을 구한 다음
- 분산에 제곱근을 씌워 표준편차화 시켜야 비로소 분포가 눈에 보인다.

#### np.random.normal(loc=0.0, scale=1.0, size=None)

- 정규 분포 확률 밀도에서 표본을 추출하여 데이터로 가지는 배열을 생성
- loc : 정규분포의 평균, 기본값 = 0.0
- scale : 정규분포의 표준편차, 기본값 = 1.0
- size : (행,열,차원)의 배열 구조, 기본값 = single value(배열이 아닌 하나의 값을 반환)

In [43]:
# 기본값
v = np.random.normal(0,1) # 평균 0, 표준편차 1로 설정하고 난수 뽑기
v

-0.4170082269562043