# Numpy

- Numeriacal Python

- 파이썬 머신러닝 패키지인 scikit-learn에서 기본 데이터 구조로 사용되어 Numpy 배열 형태의 데이터를 사용

- 파이썬 기반 데이터 분석 환경에서 행렬 및 벡터 연산에 필요한 다양한 함수를 제공

- 메모리 소모가 많은 반복문 없이 전체 데이터 배열에 빠른 연산을 처리할 수 있는 표준 수학 함수

> 배열 : 동일한 특성(데이터 타입) 및 일정한 규칙을 가지는 여러 개의 요소가 나열되어 있는 데이터 집합

- 파이썬 list 객체를 사용할 때 보다 Numpy의 ndarray 객체를 사용하면 연산 속도가 개선되어 더 많은 데이터를 더 빠르게 처리

In [None]:
# 수치 데이터를 다루기 위한 라이브러리

In [4]:
# 1. 라이브러리 가져오기 : Numpy 

## as 별칭 선언 이후에는 별칭으로 해당 라이브러리의 기능을 쓸 수 있다.
## import 라이브러리명 (as 별칭)

import numpy as np

In [5]:
# 2. 라이브러리 버전 확인하기

np.__version__

'1.20.1'

## Numpy 배열 : numpy.ndarray

- 다차원 배열(1차원, 2차원, 3차원)으로 입체적인 데이터 구조를 구성하고 여러 개의 데이터 방향을 가진다.

- 배열 속성 : shape, ndim, dtype 등

- 데이터 방향 : axis = 0(행/높이), 1(열/폭), 2(채널/깊이)




- 사진을 집어넣을때는 img태그 를 사용합니다
    - axis(액시즈) : 축 (우선순위: 가로축 > 세로축 )
    - (오타)axis 3이 아니고 axis2임

<img src='img/nparr1.jpg' width='600' height='400' align='left'>

### 1. 배열 생성

- np.array(data)

    - 파이썬 list객체(data)를 전달받아 numpy list로 교환해주는 명령어
    
    - 배열 속성
        - shape : 구조 (행, 열, 차원)
        - ndim : 차원
        - dtype : 데이터 타입(정수, 실수, bool ..)
        - size : 요소 개수 = 행 * 열 * 차원 (내부에 데이터가 몇 개가 있냐)
        
    - 배열 메서드
        - astype() : 데이터 타입 변환(문자를 숫자로 라던지, 정수->실수 ..)
        
    - 파이썬 내장함수를 사용한 속성값
        - type() : 객체의 자료형 확인
        - len() : 요소 내부의 자료 길이. (배열의 길이. 몇 번 인덱스까지를 받아줄 수 있는지를 따져주는 개념)
        
    - Numpy 함수를 사용한 속성(꽤 많이 씀)
        - reshape(row, column) : 배열 재배치(1 * 12를 3 * 4 형태로 바꾼다던지...) (총 개수가 맞아야한다!)
        
    - kind : 데이터 종류에 대한 구분 기호
        - b boolean
        - i 정수(int)
        - u 부호없는 정수(unsigned int, +- 개념 없이 절대값만 존재)
        - f 실수
        - c 복소 부동소수점
        - O 객체
        - S 바이트 문자열(ascii 코드, 영문자, 일부특문, 숫자)
        - U 유니코드 문자열(한글, 중국어, 태국어, 아랍어 등 영어와 다른 문자)

In [6]:
# 🟥 파이썬 1차원 리스트를 Numpy 배열로 교환하기

In [7]:
tmp = [1, 2, 3, 4, 5, 6]

arr = np.array(tmp)
arr

array([1, 2, 3, 4, 5, 6])

In [8]:
# 🔴 배열 객체의 속성 - 타입(자료형)

print(type(arr), type(tmp))

<class 'numpy.ndarray'> <class 'list'>


In [9]:
# 🔴 배열 객체의 속성 : 구조 확인하기 - shape(행(row), 열(column), 차원(면))

## (정수,) : 정수 개수의 아이템을 가진 리스트가 배열로 변환된 결과물

arr.shape

## 결과값 : (6, ) => 1차원 배열, 데이터가 6개밖에 없다는 뜻.

(6,)

In [10]:
# 🔴 배열 객체의 속성 - 길이 => (n,)

## [1DArray] : 아이템의 개수'

len(arr)

6

In [11]:
# 🔴 배열 객체의 속성 - 차원

arr.ndim

1

In [12]:
# 🔴 배열 요소의 속성 - 요소 개수

## size는 배열 내부에 저장할 수 있는 '총 개수'임
arr.size

6

In [13]:
# 🔴 배열 객체의 속성 - 데이터 타입의 변환 :astype => 원본 데이터 유지

arr2 = arr.astype(float)
print(arr.dtype, arr2.dtype)

int32 float64


In [14]:
## arr2 출력 => . 뒤에 0은 생략해서 나온 것.
arr2

array([1., 2., 3., 4., 5., 6.])

In [16]:
# 🔴 배열 구조 변환

## 기존 배열의 요소 총 개수(1 x 6)와 변환하려는 구조의 총 개수(6개)는 일치해야한다.

## 2 * 3 = 6이므로 가능. reshape(row, column)
arr.reshape(3,2)

array([[1, 2],
       [3, 4],
       [5, 6]])

In [20]:
# 🔴 numpy 객체 정보를 좀 더 편하게 확인하기 위한 사용자 함수 정의

## 객체 타입, 구조, 차원, 데이터 타입, 내부자료
## 를 확인하기 위해 커스텀 함수를 정의한다(기본 기능이 아님)

def np_print(arr):
    text = '''
    type : %s
    shape : %s
    ndim : %s
    dtype : %s
    array data : \n %s''' % (type(arr), arr.shape, arr.ndim, arr.dtype, arr)
    print(text)

In [None]:
# 🔴 리스트 요소 타입이 일관되지 않으면 우선순위에 따라 내부 데이터의 dtype이 통일된다.

## 우선순위 : str(가장높음) > float > int(가장 낮음)

In [24]:
## 🔸 서로 다른 타입의 혼합 1 : int + str = str

### (설명)

### 파이썬은 배열에 다른 자료형이 들어갈 수 있다
tmp = [1, 2, 3, "4"]
print(tmp)

### 근데 넘파이 배열에서는 안됨. 같은 데이터 자료형만 받아야함.
arr1 = np.array(tmp)

### 넘파이에서는 교환 요청을 넣을때, 다른 자료로 들어와도 받아주기는 한다.
### 다만 ! ! ! 넘파이 배열에서 💛'강제로'💛 같은 데이터 타입으로 변환시키는 것
arr1

[1, 2, 3, '4']


array(['1', '2', '3', '4'], dtype='<U11')

In [25]:
### 위쪽에서 선언한 걸로 확인

np_print(arr1)


    type : <class 'numpy.ndarray'>
    shape : (4,)
    ndim : 1
    dtype : <U11
    array data : 
 ['1' '2' '3' '4']


In [26]:
## 🔸 서로 다른 타입 혼합 2 : int + float = float (콤마는 표현이 안됨)
tmp = [1, 2, 3.3, 4]
arr = np.array(tmp)
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (4,)
    ndim : 1
    dtype : float64
    array data : 
 [1.  2.  3.3 4. ]


In [27]:
## 🔸 서로 다른 타입 혼한 3 : float + str = str

tmp = ['1', 1.2, 0.3]
arr = np.array(tmp)
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (3,)
    ndim : 1
    dtype : <U32
    array data : 
 ['1' '1.2' '0.3']


In [30]:
# 🟥 파이썬 2차원 리스트로 Numpy 배열 생성

## 2차원 배열의 shape 속성은 (행(row), 세로축개수), 열(column, 가로축개수))만 반환

tmp = [[1, 2, 3, 4], [5, 6, 7, 8]]

arr = np.array(tmp)
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (2, 4)
    ndim : 2
    dtype : int32
    array data : 
 [[1 2 3 4]
 [5 6 7 8]]


In [32]:
# 🟥 파이썬 3차원 리스트로 numpy 배열 생성

tmp = [[[1,2,3], [4,5,6]],
       [[7, 8, 9], [10,11,12]]]

tmp

[[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]]

In [33]:
arr = np.array(tmp)
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (2, 2, 3)
    ndim : 3
    dtype : int32
    array data : 
 [[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


In [None]:
# 🔴 위의 arr의 타입을 실수로 바꾼다음, np_print()로 확인해주세요

In [34]:
arr2 = arr.astype(float)
np_print(arr2)


    type : <class 'numpy.ndarray'>
    shape : (2, 2, 3)
    ndim : 3
    dtype : float64
    array data : 
 [[[ 1.  2.  3.]
  [ 4.  5.  6.]]

 [[ 7.  8.  9.]
  [10. 11. 12.]]]


### 2. 생성 및 초기화

1. 초기값을 지정하여 데이터를 자동으로 가지는 배열을 생성
    - np.zeros()
    - np.ones()
    - np.full()
    - np.eye()
    - np.empty()

#### 1-1 np.zeros(shape(모양), dtype=float) : 0행열

- 지정된 구조의 배열을 생성하고 모든 요소를 0으로 초기화(zeros)
- shape : tuple 형태로 행, 열을 지정
- dtype : 배열에서 사용하는 데이터 타입을 지정, 기본값은 numpy.float64

In [35]:
# 🔴 3행 4열 구조 안에서 초기값을 모두 0으로 가지는 배열 (튜플로 감싸줘야 에러 안 남.)

arr = np.zeros((3, 4))
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (3, 4)
    ndim : 2
    dtype : float64
    array data : 
 [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


#### 1-2 np.ones(shape(행,열), dtype=float)

- 지정된 구조의 배열을 생성하고 모든 요소를 1로(ones) 초기화
- shape : tuple 자료로 행, 열 구조를 지정
- dtype : 배열의 데이터 타입을 지정, 기본값 = numpy.float64

In [36]:
arr = np.ones((3, 4))
np_print(arr)


    type : <class 'numpy.ndarray'>
    shape : (3, 4)
    ndim : 2
    dtype : float64
    array data : 
 [[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]
