# Intro to Numpy
1. Python 데이터 가공
2. Numpy 소개
3. 파이썬의 데이터 타입 이해하기
4. List로 ndarray 객체 생성하기
5. Numpy에 내장된 루틴을 사용해 ndarray 객체 만들기
6. NumPy 표준 데이터 타입

### 1. Python 데이터 가공
- 파이썬에서 인메모리 데이터를 효과적으로 적재하고 저장하고 가공하는 기법: Numpy, Pandas
- 데이터세트는 광법위한 원천으로부터 들어옴: 문서, 이미지, 사운드 클립, 수치 측정값 등 다양
- 모든 데이터를 근본적으로 숫자 배열로 간주하면 다루기 쉬워짐
- ex) 이미지 - 픽셀 밝기를 나타내는 2차원 숫자 배열/사운드 클립 - 시간 대비 강도를 나타내는 일차원 배열/텍스트 - 특정 단어나 단어 쌍의 빈도를 나타내는 이진수 등등 다양한 방식을 통해 데이터를 수치로 전환할 수 있음
- 데이터가 무엇이든 상관없이 그 데이터를 분석할 수 있게 만드는 첫 번째 단계는 데이터를 숫자 배열로 변환하는 것

### 2. Numpy 소개

- NumPy는 숫자 배열을 전문적으로 다룸 (Numerical Python의 약자). 조밀한 데이터 버퍼에서 저장하고 처리하는 효과적인 인터페이스 제공.
- 파이썬 내장 타입인 list와 비슷하지만 배열의 규모가 커질수록 데이터 저장 및 처리에 훨씬 효율적
- Numpy 배열은 데이터 과학 도구로 구성된 전체 생태계의 핵심

In [3]:
import numpy
numpy.__version__

'2.1.3'

In [4]:
import numpy as np

In [5]:
np?

[1;31mType:[0m        module
[1;31mString form:[0m <module 'numpy' from 'c:\\Users\\chels\\anaconda3\\envs\\emerald_city\\Lib\\site-packages\\numpy\\__init__.py'>
[1;31mFile:[0m        c:\users\chels\anaconda3\envs\emerald_city\lib\site-packages\numpy\__init__.py
[1;31mDocstring:[0m  
NumPy
=====

Provides
  1. An array object of arbitrary homogeneous items
  2. Fast mathematical operations over arrays
  3. Linear Algebra, Fourier Transforms, Random Number Generation

How to use the documentation
----------------------------
Documentation is available in two forms: docstrings provided
with the code, and a loose standing reference guide, available from
`the NumPy homepage <https://numpy.org>`_.

We recommend exploring the docstrings using
`IPython <https://ipython.org>`_, an advanced Python shell with
TAB-completion and introspection capabilities.  See below for further
instructions.

The docstring examples assume that `numpy` has been imported as ``np``::

  >>> import numpy as

### 3. 파이썬의 데이터 타입 이해하기
- 동적 타이핑 <-> C/자바: 정적 타이핑
- 정적 타입 체계를 가진 언어는 모든 변수를 명시적으로 선언해야 하지만, 파이썬은 변수 타입을 지정하지 않아도 되 유연한 코딩 가능
- 대신 파이썬 변수는 그 값의 유형에 대한 부가 정보도 함께 담고 있음

/* C코드/

int result = 0;
for(int i = 0; i<100; i++){
    result +=i;
}

/* 파이썬 코드/

result = 0
for i in range(100):
    result += i

x = 4

x = "four"

-> 파이썬에서는 오류가 발생하지 않음

파이썬의 리스트는 리스트 이상!
- 리스트의 각 항목에 타입 정보와 참조 횟수, 기타 정보가 들어감
- 각 항목이 완전한 파이썬 객체
- 배열: 인접한 데이터 블록을 가리키는 단일 포인터 <-> 리스트: 완전한 파이썬 객체들을 가리키는 포인터들의 목록을 가리키는 포인터 

<예시>

- a. 정수 리스트
- b. 문자열 리스트
- c. 서로 다른 데이터 타입의 요소를 담는 리스트 (동적타이핑(dynamic typing) 덕분!)

In [14]:
# a. 정수 리스트
L = list(range(10))
L

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [10]:
type(L[0])

int

In [15]:
# b. 문자열 리스트
L2 = [str(c) for c in L]
L2

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [12]:
type(L2[0])

str

In [17]:
# c. 서로 다른 데이터 타입의 요소를 담는 혼합리스트 (동적타이핑(dynamic typing) 덕분!)
L3=[True, "2", 3.0, 4]
[type(item) for item in L3]

[bool, str, float, int]

In [18]:
# 파이썬의 고정 타입 배열
import array # 파이썬의 내장 함수 array로 배열을 만들어 데이터를 효율적으로 저장할수있음
L = list(range(10))
A = array.array('i',L)
A # 아래 결과값의 'i'는 내용이 정수임을 가리키는 타입 코드

array('i', [0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### 4. List로 ndarray 객체 생성하기
- numpy 패키지의 ndarray 객체가 array보다 유용!
- 데이터의 효율적 저장 뿐 아니라 효율적 연산도 가능

In [20]:
# np.array를 사용해 파이썬 리스트에서 배열을 만들 수 있음
import numpy as np
np.array([1,4,2,5,3])

array([1, 4, 2, 5, 3])

In [21]:
# 리스트와 달리 배열의 모든 요소가 같은 타입이어야 함
# 타입이 일치하지 않으면 NumPy는 가능한 경우 상위 타입을 취함
np.array([3.14,4,2,3])

array([3.14, 4.  , 2.  , 3.  ])

In [22]:
# 배열의 데이터 타입을 명시적으로 설정하려면 dtype 키워드를 사용
np.array([1,2,3,4],dtype = 'float32')

array([1., 2., 3., 4.], dtype=float32)

In [23]:
# 파이썬 리스트와 달리 NumPy는 다차원 배열을 지원함
# 리스트의 리스트를 사용해 다차원 배열을 초기화
np.array([range(i,i+3) for i in [2,4,6]]) 

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

In [31]:
# Therefore, above code is equal to the following code:
list_of_range_objects =  [range(2, 5), range(4, 7), range(6, 9)]
array = np.array(list_of_range_objects)
print(array)

[[2 3 4]
 [4 5 6]
 [6 7 8]]


### 5. Numpy에 내장된 루틴을 사용해 ndarray 객체 만들기

In [32]:
# 0으로 채워진 길이 10의 정수 배열 만들기
np.zeros(10,dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [33]:
# 1로 채워진 3x5 부동 소수점 배열 만들기
np.ones((3,5),dtype=float)

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [34]:
# 3.14로 채워진 3x5 배열 만들기
np.full((3,5),3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [36]:
# 선형 수열로 채워진 배열 만들기
# 0에서 시작해 2씩 더해 20까지 채움
# (내장 함수인 range()와 유사함)
np.arange(0,20,2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [37]:
# 0과 1 사이에 일정한 간격을 가진 다섯 개의 값으로 채워진 배열 만들기
np.linspace(0,1,5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [38]:
# 균등하게 분포된 3x3 배열 만들기
# 0과 1 사이의 난수로 채움
np.random.random((3,3))

array([[0.06341884, 0.32293556, 0.46045121],
       [0.86901435, 0.27824075, 0.75016984],
       [0.86897477, 0.94876311, 0.09658082]])

In [40]:
# 정규 분포(평균=0, 표준편차=1)의 난수로 채운 3x3 배열 만들기
np.random.normal(0,1,(3,3))

array([[ 0.25491195,  1.24831622,  0.70264974],
       [-2.74784707, -1.61436016, -0.16950242],
       [-0.24526448,  1.64184301, -1.28235342]])

In [42]:
# [0,10] 구간의 임의의 정수로 채운 3x3 배열 만들기
np.random.randint(0,10,(3,3))

array([[6, 5, 8],
       [3, 2, 6],
       [6, 8, 6]], dtype=int32)

In [44]:
# 3x3 단위 행렬 만들기 (*단위행렬(identity matrix): 대각선은 1이고 나머지는 0)
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [47]:
# 세 개의 정수를 가지는 초기화되지 않은 배열 만들기
# 값은 해당 메모리 위치에 이미 존재하고 있는 값으로 채워짐
np.empty(3) # values are not initialized # values will vary
# faster than np.zeros/np.ones

array([1., 1., 1.])

### 6.NumPy 표준 데이터 타입
- bool_,int_,intc,intp
- int8,int16,int32,int64,
- uint8,unit16,unit32,unit64
- float_, float16, float32, float64
- complex_,complex64,complex128
- 자세한 내용은 47페이지 참조

In [48]:
# 데이터 타입 적용 방법
np.zeros(10,dtype='int16')

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int16)

In [49]:
np.zeros(10,dtype=np.int16)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int16)