# NumPy 

NumPy (or Numpy) is a Linear Algebra Library for Python, the reason it is so important for Data Science with Python is that almost all of the libraries in the PyData Ecosystem rely on NumPy as one of their main building blocks.

Numpy is also incredibly fast, as it has bindings to C libraries. For more info on why you would want to use Arrays instead of lists, check out this great [StackOverflow post](http://stackoverflow.com/questions/993984/why-numpy-instead-of-python-lists).

We will only learn the basics of NumPy, to get started we need to install it!

## Installation Instructions

**It is highly recommended you install Python using the Anaconda distribution to make sure all underlying dependencies (such as Linear Algebra libraries) all sync up with the use of a conda install. If you have Anaconda, install NumPy by going to your terminal or command prompt and typing:**
    
    conda install numpy
    
**If you do not have Anaconda and can not install it, please refer to [Numpy's official documentation on various installation instructions.](http://docs.scipy.org/doc/numpy-1.10.1/user/install.html)**

** 만약 아나콘다가 설치되지 않은 환경이라면 위 명령어 대신 이 명령어를 사용해보시길 바랍니다.

    pip install numpy

## Using NumPy

Once you've installed NumPy you can import it as a library:

In [6]:
# 현재 소스코드에 numpy 라이브러리를 추가합니다.
# np는 별명입니다. numpy의 기능을 사용할때마다 numpy를 모두 타이핑 하는 대신 np만 써서 쉽게 사용할 수 있도록 합니다.
import numpy as np

Numpy has many built-in functions and capabilities. We won't cover them all but instead we will focus on some of the most important aspects of Numpy: vectors,arrays,matrices, and number generation. Let's start by discussing arrays.

# Numpy Arrays

NumPy arrays are the main way we will use Numpy throughout the course. Numpy arrays essentially come in two flavors: vectors and matrices. Vectors are strictly 1-d arrays and matrices are 2-d (but you should note a matrix can still have only one row or one column).

Let's begin our introduction by exploring how to create NumPy arrays.

## Creating NumPy Arrays

### From a Python List

파이썬의 기본 자료 구조인 리스트를 이용하여 배열(Array)를 만들 수 있음

In [7]:
# 리스트 선언

my_list = [1,2,3]
my_list

[1, 2, 3]

In [8]:
# 만들어둔 my_list 를 numpy의 array형식으로 변환하여 arr이라는 새로운 변수에 저장합니다

arr = np.array(my_list)

In [9]:
arr

array([1, 2, 3])

In [10]:
# 2차원 list역시 numpy의 array형식으로 변환할 수 있습니다.

my_matrix = [[1,2,3],[4,5,6],[7,8,9]]
my_matrix

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [11]:
np.array(my_matrix)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

## Built-in Methods

배열을 생성하는 여러가지 함수들 - arange, zeros and ones, linspace, eye 등

### arange

Return evenly spaced values within a given interval.

In [12]:
#np.arange()는 0이상 10미만의 정수를 array형식으로 리턴해줍니다. (start = 0, end = 10)
# 인터벌 표시가 없을 경우는 인터벌이 1

np.arange(0,10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [13]:
#3번째 인수에 들어간 '2'는 인터벌입니다. 
#따라서 다음 명령어는 0이상 11미만의 정수를 2의 간격으로 리턴해줍니다. (start = 0, end = 11, step = 2)

np.arange(0,11,2)

array([ 0,  2,  4,  6,  8, 10])

### zeros and ones

Generate arrays of zeros or ones

In [14]:
# np.zeros()는 원하는 크기를 인수로 입력하면 그 크기의 array를 만들고 모두 0으로 채웁니다.
# 다음 명령어는 1X3크기의 array를 만들고 0으로 채웁니다

np.zeros(3)

array([ 0.,  0.,  0.])

In [15]:
# 2차원으로도 가능합니다. 다음 명령어는 같은 작업을 5X5의 2차원 array를 만들어 수행합니다.

np.zeros((5,5))

array([[ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.]])

In [16]:
# ones()는 array를 모두 1로 채웁니다.
np.ones(3)

array([ 1.,  1.,  1.])

In [17]:
np.ones((3,3))

array([[ 1.,  1.,  1.],
       [ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])

### linspace
Return evenly spaced numbers over a specified interval.

In [18]:
#linspace()는 start와 end값 사이를 균등하게 나누는 주어진 갯수만큼의 점을 찍습니다. 단 start값과 end값을 포함합니다.
#다음 명령어는 0과 10사이를 균등하게 나누는 점을 찍습니다. 0과 10도 각각 하나의 점이 되며 점의 개수는 총 3개입니다

np.linspace(0,10,3)

array([  0.,   5.,  10.])

In [19]:
#0과 10 사이를 50개의 점을 찍어 균등하게 나눕니다.

np.linspace(0,10,50)

array([  0.        ,   0.20408163,   0.40816327,   0.6122449 ,
         0.81632653,   1.02040816,   1.2244898 ,   1.42857143,
         1.63265306,   1.83673469,   2.04081633,   2.24489796,
         2.44897959,   2.65306122,   2.85714286,   3.06122449,
         3.26530612,   3.46938776,   3.67346939,   3.87755102,
         4.08163265,   4.28571429,   4.48979592,   4.69387755,
         4.89795918,   5.10204082,   5.30612245,   5.51020408,
         5.71428571,   5.91836735,   6.12244898,   6.32653061,
         6.53061224,   6.73469388,   6.93877551,   7.14285714,
         7.34693878,   7.55102041,   7.75510204,   7.95918367,
         8.16326531,   8.36734694,   8.57142857,   8.7755102 ,
         8.97959184,   9.18367347,   9.3877551 ,   9.59183673,
         9.79591837,  10.        ])

#### linspace()와 arange()에 들어가는 인수가 비슷해보입니다.
linspace()와 arange()에 들어가는 인수를 혼동하지 않도록 주의합시다

## eye

Creates an identity matrix

In [20]:
# eye()는 인수로 주어진 차원의 단위행렬(identity matrix)을 생성합니다. 단위행렬은 항상 행과 열의 크기가 같기 때문에 인수는 1개면 충분합니다

np.eye(4)

array([[ 1.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.],
       [ 0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  1.]])

## Random 

Numpy also has lots of ways to create random number arrays:

### rand
Create an array of the given shape and populate it with
random samples from a uniform distribution
over ``[0, 1)``. 

숫자별 빈도가 uniform한 분포

In [21]:
## 아래의 문장의 점(.) 뒤에 커서를 위치시킨 다음 탭(TAB)을 누르면 random에 속해있는 함수들을 볼 수 있습니다. 

np.random.

SyntaxError: invalid syntax (<ipython-input-21-b38186df8673>, line 2)

In [22]:
# 1X2 크기의 array를 만들고 난수로 채웁니다. 난수는 0과 1사이의 수로 만들어집니다.

np.random.rand(2)

array([ 0.3954622 ,  0.95174884])

In [23]:
np.random.rand(5,5)

array([[ 0.38885259,  0.59407287,  0.25877765,  0.46741708,  0.42321521],
       [ 0.76638751,  0.71231069,  0.37407108,  0.85488964,  0.75835011],
       [ 0.14675608,  0.15669688,  0.95964668,  0.45283902,  0.80647533],
       [ 0.63585097,  0.62994483,  0.92052245,  0.25636453,  0.89744535],
       [ 0.73658227,  0.28307414,  0.78258404,  0.53550598,  0.6914677 ]])

### randn

Return a sample (or samples) from the "standard normal" distribution. Unlike rand which is uniform:

표준정규분포를 이루는 난수 생성

In [24]:
#randn은 표준정규분포의 중심인 0부근에서 난수를 생성해줍니다.
#시각화 단원에서 실제로 이 점을 찍어보면 표준정규분포의 곡선을 확인할 수 있을 것입니다.

np.random.randn(2)

array([ -1.59692085e+00,  -4.11485986e-04])

In [25]:
np.random.randn(5,5)

array([[-0.78376951,  0.20204131, -1.8649709 , -0.4238054 , -0.49594411],
       [-0.26084524, -1.28539022,  0.73786472,  0.03060532,  0.78807378],
       [ 1.70005594,  0.71626682, -1.58178174,  0.02246251, -1.20834527],
       [ 0.12376497,  0.12439252,  1.87729415, -0.38198082,  0.50612134],
       [-0.1199637 ,  0.69837646,  0.24884091, -1.68177287, -1.00177359]])

### randint
Return random integers from `low` (inclusive) to `high` (exclusive).

In [26]:
#randint()는 주어진 범위에서 랜덤한 정수를 반환해줍니다.
#low값은 포함되지만 high값은 포함되지 않습니다.

np.random.randint(1,100)

29

In [27]:
#세번째 인수를 입력하면 그 값의 개수만큼 랜덤한 정수를 array형태로 반환해줍니다

np.random.randint(1,100,10)

array([42, 41,  3, 51, 24, 78, 48, 68, 62, 75])

## Array Attributes and Methods

Let's discuss some useful attributes and methods or an array:

In [28]:
arr = np.arange(25)

In [29]:
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24])

In [30]:
ranarr = np.random.randint(0,50,10)

In [31]:
ranarr

array([20, 27, 20,  1, 43, 15, 25, 36, 20, 20])

## Reshape
Returns an array containing the same data with a new shape.

In [32]:
# 앞에서 우리는 arr이라는 array를 만들었습니다. 
# 이 array에는 0부터 24까지의 수가 1차원 array에 들어있습니다.
# reshape() 함수는 array의 shape를 바꿀 수 있습니다. 5X5로 바꿔봅시다

arr.reshape(5,5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

### max,min,argmax,argmin

These are useful methods for finding max or min values. Or to find their index locations using argmin or argmax

최대값 혹은 최솟값을 알아내기 위한 유용한 함수가 있습니다. 또한 argmax와 argmin은 각각 최대값 혹은 최솟값이 위치한 index를 알려줍니다

In [33]:
#앞에서 만들어둔 ranarr를 이용하겠습니다.
ranarr

array([20, 27, 20,  1, 43, 15, 25, 36, 20, 20])

In [34]:
#ranarr안에서 최대값을 찾아줍니다
ranarr.max()

43

In [35]:
#49의 index를 반환해줍니다. index는 0부터 시작합니다
ranarr.argmax()

4

In [36]:
#ranarr안에서 최솟값을 찾아줍니다.
ranarr.min()

1

In [37]:
#12의 index를 반환해줍니다.
ranarr.argmin()

3

## Shape

Shape is an attribute that arrays have (not a method):

In [38]:
# Vector
# Shape는 함수가 아니라 해당 array가 가지고 있는 속성입니다.
# (25,)는 arr이 1차원이며 첫번째 array에 25개의 데이터가 있음을 나타냅니다.

arr.shape

(25,)

In [39]:
#5X5의 shape로 바꿔봅시다

arr = arr.reshape(5,5)

In [40]:
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [41]:
arr.shape

(5, 5)

In [42]:
#arr는 처음에 1X25 의 꼴이었습니다. 이번에는 반대로 25X1의 형태로 바꿔봅시다
arr.reshape(25,1)

array([[ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10],
       [11],
       [12],
       [13],
       [14],
       [15],
       [16],
       [17],
       [18],
       [19],
       [20],
       [21],
       [22],
       [23],
       [24]])

In [43]:
arr.reshape(25,1).shape

(25, 1)

### dtype

You can also grab the data type of the object in the array:

In [44]:
#arr에 있는 data들의 type을 알 수 있습니다.
#int32는 32bit로 이루어진 정수를 의미합니다
arr.dtype

dtype('int32')

randint() 메소드를 좀 더 편리하게 호출해봅시다



In [45]:
# np.random.randint(1,100)
# randint함수를 호출하기 위해서는 numpy.random. 뒤에 randint를 써서 호출해야 했습니다. (np는 맨 앞에서 설명했듯이 별명입니다.)
# numpy.random을 쓰지 않고 randint를 호출하는 방법을 알아봅시다.

# randint함수를 곧장 포함시킬 수 있습니다.

from numpy.random import randint

In [46]:
randint(2,10)

8

# Great Job!