# 머신러닝을 시작하기 전 기본 라이브러리
- Numpy
- Scipy
- Scikit-learn
- Pandas
- matplotlib

## Numpy/Pandas 소개
- C로 작성되어 있어 처리속도가 빠른편
- Numpy는 과학 계산을 위한 라이브러리로 다차원 배열을 처리하는데 필요한 여러 기능을 제공한다.  

### numpy 배열
numpy에서 배열은 동일한 타입의 값들을 갖는다.  
배열의 차원을 rank라고 한다.  

shape : 각차원의 크기를 튜플로 표시한 것  
  예> 2행, 3열인 2차원 배열은 rank는 2이고, shape(2,3)  
  
**numpy 배열의 생성**  
1. 파이썬의 리스트를 사용하는 방법  
array()메소드의 인자로 리스트를 넣어 생성한다.  
예> numpy.array([1,2,3])  
1. numpy에서 제공하는 함수를 사용하는 방법  
 - zeros()함수는 배열에 모두 -을 집어넣고,  
 - ones()함수는 모두 1을 집어 넣는다.  
 - full()함수는 사용자가 지정한 값을 넣는데 사용,  
 - eye()함수는 대각선으로는 1이고 나머지는 0 (identity)
1. range(n) : 0 ~ n-1까지의 숫자를 생성하는 함수
1. reshape() : 다차원으로 변형하는 함수

In [1]:
import numpy as np

list1 = [1,2,3,4]
a = np.array(list1)
a

array([1, 2, 3, 4])

In [2]:
a.shape

(4,)

In [3]:
b = np.array([[1,2,3],[4,5,6]])
b

array([[1, 2, 3],
       [4, 5, 6]])

In [4]:
b.shape

(2, 3)

In [5]:
# 슬라이싱 가능
print(b[0,0])
print(b[:,1:3])

1
[[2 3]
 [5 6]]


In [6]:
aa = np.zeros([5,2])
aa

array([[0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

In [7]:
type(aa)

numpy.ndarray

In [8]:
aa = np.ones([3,3])
aa

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [9]:
aa = np.full([2,3],29)
aa

array([[29, 29, 29],
       [29, 29, 29]])

In [10]:
aa = np.eye(6) #sqare matrix만 먹는듯
aa

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.]])

In [11]:
# 배열을 꽉채우기
aa = np.array(range(20))
aa

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [12]:
#배열 모양 바꾸기
aa.reshape([4,5])

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

## numpy 슬라이싱, 인덱싱, 연산

In [13]:
import numpy as np

list_a = [
    [1,2,3],
    [4,5,6],
    [7,8,9]
]

arr = np.array(list_a)

a = arr[0:2,0:2]
print(a)

print(arr[1:,1:])

[[1 2]
 [4 5]]
[[5 6]
 [8 9]]


numpy 배열 a에 대해서 a[[row1,row2],[col1,col2]]는  
a[row1,col1]과 a[row2,col2]라는 두개의 배열 요소 집합을 의미

In [14]:
arr[[0,2],[1,1]]

array([2, 8])

## Boolean 인덱싱

In [15]:
print('원래 list : \n',arr)
print('arr > 4 : \n',arr>4)
print('불린 인덱싱 : \n',arr[arr>4])

원래 list : 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
arr > 4 : 
 [[False False False]
 [False  True  True]
 [ True  True  True]]
불린 인덱싱 : 
 [5 6 7 8 9]


In [16]:
b_arr = np.array([
    [False,True,False],
    [True,False,True],
    [False,True,False]
])

arr[b_arr]

array([2, 4, 6, 8])

In [17]:
b_arr = np.array([
    [True,True,False],
    [True,True,False],
    [False,False,False]
])

print(arr[b_arr])
print(arr[b_arr].shape)

[1 2 4 5]
(4,)


## 불린 인덱싱 배열을 생성할 때 표현식으로 이용하기

- 배열 a에 대해서 짝수인 배열 요소만 True로 지정하겠다 하면  
- b_arr = (a%2==0)

In [18]:
arr = np.arange(1,10).reshape(3,3)

#배열 arr에 대해 짝수면 True, 홀수면 False
b_arr = (arr%2 == 0)
print(arr,'\n',b_arr,'\n',arr[b_arr])

[[1 2 3]
 [4 5 6]
 [7 8 9]] 
 [[False  True False]
 [ True False  True]
 [False  True False]] 
 [2 4 6 8]


## numpy 연산

**연산자**를 이용할 경우에는 +,-,*,/  

**함수**를 이용할 경우에는 add(),substract(),multiply(),divide()

- 배열 a와 배열b가 있을 때, a + b는 a[0] + b[0],a[1]+b[1].... 이와 같은 방식으로 결과 리턴  
인자별 연산

In [19]:
import numpy as np
a = np.array([1,2,3])
b = np.array([4,5,6])

print(a*b)
print(a/b)
print(np.add(a,b))
print(np.multiply(a,b))

[ 4 10 18]
[0.25 0.4  0.5 ]
[5 7 9]
[ 4 10 18]


In [20]:
# dot product
a = np.array([
    [1,2,3],
    [4,5,6],
    [7,8,9]
])
b = np.array([
    [2,2,2],
    [2,2,2],
    [2,2,2]
])

print(a*b)
print(a.prod(axis=0))
print(a.dot(b))

[[ 2  4  6]
 [ 8 10 12]
 [14 16 18]]
[ 28  80 162]
[[12 12 12]
 [30 30 30]
 [48 48 48]]


- numpy에서는 배열간의 연산을 위한 여러 함수들을 제공하는데, 
- 각배열의 요소를 더하는 함수 sum()
- 배열의 요소들을 곱하는 prod()
- 이 함수들은 axis 옵션을 사용한다. axis 0이면 컬럼끼리, 1이면 행끼리, 생략하면 모든 요소

In [21]:
a = np.array([
    [1,2],
    [3,4]
])

print(a.sum())
print(a.sum(axis=0))
print(a.sum(axis=1))
print('-----------')
print(a.prod())
print(a.prod(axis=0))
print(a.prod(axis=1))
print(np.sum(a,axis=1)) #이렇게 써도 똑같음

10
[4 6]
[3 7]
-----------
24
[3 8]
[ 2 12]
[3 7]
