<a href="https://colab.research.google.com/github/ssyyjj1012/data-analysis/blob/main/Numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Numpy 
- Numerical Python 의 줄인말
- 고성능의 과학계산 컴퓨팅과 데이터 분석에 필요한 기본 패키지
- Numpy 배열과 배열 기반의 컴퓨팅에 대한 이해는 pandas의 활용 능력을 향상 


### Numpy의 특징
- 빠르고 메모리를 효율적으로 사용
- 다차원 배열인 ndarray(벡터 산수연산과 브로드캐스팅 가능)
- 반복문을 작성 불필요
- 전체 데이터 배열에 대한 빠른 연산을 제공하는 표준 수학 함수
- 배열 데이터를 디스크에 쓰기/읽기
- 선형대수, 난수발생기, 푸리에 변환 가능
- C, C++ 포트란으로 쓰여진 코드 통합(글루 언어)

### ndarray : Numpy 배열의 특징
- 배열의 항목을 동일한 타입이어야 한다.
- 파이썬 리스트와는 달리 벡토화된 연산과 완전한 배열처리를 실행
- 배열을 특별히 빠르게 하기 위해 최적화된 C API 를 사용
- 파이썬처럼 NumPy 배열의 0으로 시작하는 인덱스가 생성
- 데이터 타입은 특별한 오브젝트로 표현

# 01 NumPy 배열 생성 - 1차 배열 만들기

In [1]:
import numpy as np
a = np.arange(5) # 자동으로 배열 생성
a

array([0, 1, 2, 3, 4])

In [2]:
a.shape

(5,)

In [3]:
b = np.array([0,1,2,3,4]) # 수동으로 배열 생성
b 

array([0, 1, 2, 3, 4])

# 01 NumPy 배열 생성 - 2차 배열 만들기



In [4]:
m = np.array([np.arange(2),np.arange(2)])
m

array([[0, 1],
       [0, 1]])

In [5]:
m.shape

(2, 2)

## **배열 인덱싱**

In [6]:
m[0,0] = 0
m[0,1] = 1
m[1,0] = 2
m[1,1] = 3
m

array([[0, 1],
       [2, 3]])

## **배열 인덱싱 2**

파이썬에서 사용하는 일반적인 자르기/인덱싱 방법으로 가능

(2차원 이상은 쉼표(,)를 기준으로 차원별로 인덱싱 적용)

In [7]:
a[1:3]

array([1, 2])

In [8]:
m[0,1:]

array([1])

## **배열 연산하기**

In [9]:
m + 2

array([[2, 3],
       [4, 5]])

In [10]:
m * 2

array([[0, 2],
       [4, 6]])

# 01 NumPy 초기화 배열 생성

numpy.zeros()

: 주어진 모양과 타입대로 0으로 채워진 새로운 배열 생성


In [11]:
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [12]:
np.zeros(5, dtype= np.int)

array([0, 0, 0, 0, 0])

In [13]:
np.zeros((2,1))

array([[0.],
       [0.]])

In [14]:
s = (2,2)
np.zeros(s)

array([[0., 0.],
       [0., 0.]])

In [15]:
np.zeros((2,),dtype=[('x', 'i4'),('y','i4')])

array([(0, 0), (0, 0)], dtype=[('x', '<i4'), ('y', '<i4')])

# 01 NumPy 랜덤 배열 생성

np.random.randn(d0,d1 ... dn)

: 정규화 분산 데이터로부터 랜덤한 값 리턴

In [16]:
np.random.randn()

-0.9197872501980081

In [17]:
2.5 * np.random.randn(2,4)*3

array([[-9.74634566,  9.74971088,  3.6950762 ,  2.95888435],
       [ 3.1290509 ,  9.17802977, -2.72446798, -2.5782642 ]])

### np.random.randint(n1, n2)

: n1 ~ n2 사이의 정수 생성

In [18]:
np.random.randint(2, size = 10)

array([1, 1, 1, 1, 1, 0, 0, 1, 0, 1])

In [19]:
np.random.randint(1, size = 10)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

## 연습문제

In [20]:
a = np.array([np.arange(3),np.arange(3)])
a

array([[0, 1, 2],
       [0, 1, 2]])

In [21]:
a = np.array([np.arange(3),np.arange(3)+3,np.arange(3)+6])*3
a

array([[ 0,  3,  6],
       [ 9, 12, 15],
       [18, 21, 24]])

In [36]:
## 위 문제의 또 다른 풀이코드
a = (np.arange(9).reshape(3,3))*3
a

array([[ 0,  3,  6],
       [ 9, 12, 15],
       [18, 21, 24]])

# 02 NumPy 자료형

일반적인 파이썬에서 해결할 수 없는 다양한 자료형을 내포

# 02 NumPy 자료형 - 형 선언하기
 
배열을 만들 때 인자에 dtype을 사용하여 적용 가능

In [24]:
arr1 = np.array([1,2,3],dtype = np.float)
arr2 = np.array([1,2,3],dtype = np.int32)

In [25]:
arr1.dtype

dtype('float64')

In [26]:
arr2.dtype

dtype('int32')

# 02 NumPy 자료형 - 형 변환하기
 
- ndarray의 astype 함수를 사용하여 배열의 형 변환 가능
- float형을 int형으로 변환하는 경우에는 float형의 소수 부분은 버려짐



In [27]:
arr1 = np.array([1.5, 1.2, 1.4], dtype = np.float)
arr2 = arr1.astype(np.int32)

In [28]:
arr1

array([1.5, 1.2, 1.4])

In [29]:
arr2

array([1, 1, 1], dtype=int32)

In [30]:
arr2.dtype

dtype('int32')

# 03 NumPy 속성

In [44]:
import numpy as np
a = np.arange(15).reshape(3,5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [45]:
type(a)

numpy.ndarray

In [46]:
 # 차원 == > 2차원 (3x5 형태)
a.ndim

2

In [47]:
a.itemsize

8

In [48]:
a.size

15

In [49]:
a.nbytes

120

In [50]:
a.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [51]:
a.shape

(3, 5)

In [52]:
a.dtype.name

'int64'

## 연습문제 - NumPy 속성

In [53]:
b = np.array([6,7,8])
b

array([6, 7, 8])

In [54]:
type(b)

numpy.ndarray

In [55]:
b.ndim

1

In [56]:
b.itemsize

8

In [57]:
b.size

3

In [58]:
b.nbytes

24

In [59]:
b.T

array([6, 7, 8])

In [60]:
b.shape

(3,)

In [61]:
b.dtype.name

'int64'

# 04 NumPy 마스킹 - 배열 선택적으로 골라내기

- ndarray에 배열을 집어 넣거나 mask를 적용하면 컬럼 선택이 가능
- 물결 기호(~) 사용 시 선택 컬럼 반전 가능


In [66]:
mask = np.array([0,1,0,1,0,1,0], dtype=bool)
mask

array([False,  True, False,  True, False,  True, False])

In [67]:
data = np.random.randn(7,4)
data

array([[-2.92608506e-01,  1.35330329e+00,  6.99945989e-01,
         9.70481244e-02],
       [-1.33018923e-01,  1.77998093e-01, -1.52750332e+00,
        -1.06024610e+00],
       [-1.36608724e+00,  6.87400764e-02, -2.92018539e-01,
         2.00321746e-01],
       [ 7.67566041e-01, -9.53504920e-01, -1.10200278e-02,
        -1.39090926e+00],
       [ 7.59585915e-01, -7.65444563e-01,  1.25105790e-03,
         3.38967344e-01],
       [ 6.99715213e-02,  2.20923449e-01,  3.62925041e-01,
        -7.17421380e-01],
       [-3.22759468e-03, -6.00892077e-01,  1.29796387e+00,
         2.33513189e+00]])

In [68]:
data[[1,2,3,4]]

array([[-1.33018923e-01,  1.77998093e-01, -1.52750332e+00,
        -1.06024610e+00],
       [-1.36608724e+00,  6.87400764e-02, -2.92018539e-01,
         2.00321746e-01],
       [ 7.67566041e-01, -9.53504920e-01, -1.10200278e-02,
        -1.39090926e+00],
       [ 7.59585915e-01, -7.65444563e-01,  1.25105790e-03,
         3.38967344e-01]])

In [69]:
data[mask]

array([[-0.13301892,  0.17799809, -1.52750332, -1.0602461 ],
       [ 0.76756604, -0.95350492, -0.01102003, -1.39090926],
       [ 0.06997152,  0.22092345,  0.36292504, -0.71742138]])

In [70]:
data[~mask]

array([[-2.92608506e-01,  1.35330329e+00,  6.99945989e-01,
         9.70481244e-02],
       [-1.36608724e+00,  6.87400764e-02, -2.92018539e-01,
         2.00321746e-01],
       [ 7.59585915e-01, -7.65444563e-01,  1.25105790e-03,
         3.38967344e-01],
       [-3.22759468e-03, -6.00892077e-01,  1.29796387e+00,
         2.33513189e+00]])

# 04 NumPy 마스킹 - 배열 선택적으로 골라내기

-  [ ]안에 조건을 전달하여 데이터 선택

In [73]:
over0 = data[data>0]
over0

array([1.35330329e+00, 6.99945989e-01, 9.70481244e-02, 1.77998093e-01,
       6.87400764e-02, 2.00321746e-01, 7.67566041e-01, 7.59585915e-01,
       1.25105790e-03, 3.38967344e-01, 6.99715213e-02, 2.20923449e-01,
       3.62925041e-01, 1.29796387e+00, 2.33513189e+00])

In [74]:
over0.shape

(15,)

In [75]:
over1 = data[1][data[1]>0]
over1

array([0.17799809])

# 05 NumPy - 배열 모양 변경

- Ravel() : 1차원 배열로 바꿈
- Flatten() : 1차원 배열로 바꿈
  - Ravel과는 다르게 항상 새로운 메모리에 배열 생성
- shape 변수 변경 : 튜플을 수정해 모양올 바로 정의
  - 해당 변수 메모리 직접 변조
- Transpose() : 교차시킴
  - 2차행렬 테이블에서 교차는 "행을 열이 되고 열은 행이 됨"을 의미
- Resize(a,b) : 배열을 원하는 모양으로 바꿈
  - reshape는 출력을 변경하지만, resize는 배열을 직접 바꾼다
  
  

In [81]:
import numpy as np

# 테스트 할 배열 b 생성 
b = np.arange(24)
b

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

In [82]:
# shape(튜플)을 변경하여 모양 설정하기 : 튜플을 수정하여 모양을 바로 정의

b.shape = (6,4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23]])

## Ravel()

In [84]:
b.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

## Flatten() 

- ravel() 함수와 같은 역할
- 그러나 flatten() 함수는 항상 새로운 메모리를 할당
- ravel은 해당 배열을 직접 변조




In [85]:
b.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

## Transpose ( 교차시키기 )

- 선형대수학에서는 행렬을 교차시키는 경우가 많음
- 2차행렬 테이블에서 교차는 "행은 열이 되고 열은 행이 됨을 의미"



In [86]:
b.transpose()

array([[ 0,  4,  8, 12, 16, 20],
       [ 1,  5,  9, 13, 17, 21],
       [ 2,  6, 10, 14, 18, 22],
       [ 3,  7, 11, 15, 19, 23]])

## Resize

- resize() 함수는 reshape() 함수처럼 동작
- reshape는 출력을 변경하지만, resize는 배열을 직접 변경




In [87]:
b.resize((2,12))
b

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23]])