# Numpy
NumPy(Numerical Python)는 파이썬에서 과학적 계산을 위한 핵심 라이브러리이다.<br/>
NumPy는 다차원 배열 객체와 배열과 함께 작동하는 도구들을 제공한다.<br/>
하지만 NumPy 자체로는 고수준의 데이터 분석 기능을 제공하지 않기 때문에 NumPy 배열과 배열 기반 컴퓨팅의 이해를 통해<br/>
pandas와 같은 도구를 좀 더 효율적으로 사용하는 것이 필요하다.

# ndarray 생성
numpy에서 제공하는 배열 생성 함수

In [1]:
import numpy as np

In [2]:
arr = np.array([1,2,3,4,5])
print(arr)

[1 2 3 4 5]


In [3]:
type(arr)

numpy.ndarray

### zeros, ones, empty 함수 사용

In [4]:
# 0으로 채워진 배열 반환
np.zeros((3,3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [5]:
# 1로 채워진 새로운 배열 반환
np.ones((2, 3))

array([[1., 1., 1.],
       [1., 1., 1.]])

In [6]:
# 초기화되지 않은 새로운 배열 반환
# 이전에 사용했던 값들이 뜬다. gabage 쓰레기
np.empty((4,4))

array([[4.67296746e-307, 1.69121096e-306, 1.02359984e-306,
        1.29061821e-306],
       [1.42418987e-306, 1.37961641e-306, 1.60220528e-306,
        1.24611266e-306],
       [9.34598925e-307, 1.24612081e-306, 1.11260755e-306,
        1.60220393e-306],
       [1.51320640e-306, 9.34609790e-307, 1.86921279e-306,
        1.24610723e-306]])

In [7]:
np.empty((3, 2))

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [8]:
# 단위행렬 생성
# 두개는 같은 결과값을 가진다.
np.identity(6)
np.eye(6)

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.]])

### arange 함수로 배열 생성하기

In [9]:
# np.arange(start숫자, stop숫자, step숫자, dtype=결과반환 데이터 타입)
# start 숫자 부터 stop 숫자 "미만" step만큼 띄워진 배열 반환
np.arange(0, 10, 1, dtype =int)
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [10]:
# start숫자, end숫자, 출력할갯수
# start와 end "포함"해서 동일한 간격으로 숫자를 출력갯수만큼 출력해준다.
np.linspace(0, 1, 11)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ])

### ndarray 배열의 모양(shape), 차수(ndim), 데이터 타입(dtype) 확인하기

In [11]:
arr = np.array([[1, 2, 3],[4, 5, 6]])
arr

array([[1, 2, 3],
       [4, 5, 6]])

In [12]:
#배열의 형태확인, 차원 확인
# 2행 3열
arr.shape

(2, 3)

In [13]:
# 차원의 수, 배열 축의 수
# 2차원
arr.ndim

2

In [14]:
# 데이터 타입확인
arr.dtype

dtype('int32')

In [15]:
# 전체 원소 갯수 반환
arr.size

6

### astype 함수로 배열 데이터 타입 변환하기

In [16]:
arr_float = arr.astype(np.float64)
print(arr_float)
arr_float.dtype

[[1. 2. 3.]
 [4. 5. 6.]]


dtype('float64')

### ndarray 배열의 연산
Numpy 배열의 연산은 연산자 (+,-,*,/)나 함수(add, subtract, multiply, divide)로 가능하다.

In [17]:
arr1 = np.array([[1, 2], [3, 4]])
arr2 = np.array([[5, 6], [7, 8]])

# arr3 = arr1 + arr2
arr3 = arr1 * arr2
print(arr3)

[[ 5 12]
 [21 32]]


<img src="images/numpy-1.png" width=800px style="float:left">
<img src="./images/numpy-2.png" width=800px style="float:left">

### ndarray 배열 슬라이싱 하기
ndarray 배열 슬라이싱 하기

In [18]:
arr = np.array([[1,2,3], [4,5,6], [7,8,9]])
# print(arr)
arr1 = arr[:2, 1:3] # end의 미만
print(arr1)

arr2 = arr[2:, 3:]

[[2 3]
 [5 6]]


슬라이싱한 배열은 원본 배열의 뷰이다.(슬라이싱한 배열을 수정하면 원본 배열도 바뀐다.) <br>
뷰가 아닌 새로운 배열을 생성하려면 arr[:2,1:3].copy()와 같은 함수를 사용해야 한다. 

In [19]:
arr.shape
arr1.shape

(2, 2)

In [20]:
arr_int = np.arange(10)
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
print(arr_int[0:8:3])
# start : end : step

[0 3 6]


In [21]:
print(arr[0, 2])# 0행, 2열

3


In [22]:
arr = np.array([[1, 2, 3], [4, 5, 6]])

In [23]:
idx = arr > 3

In [24]:
idx

array([[False, False, False],
       [ True,  True,  True]])

In [25]:
arr[idx]
# true 값만 뽑아낸다.
# = arr[arr>3]

array([4, 5, 6])

# wine quality


![Wine Quality 데이터 변수 설명](images/numpy-3.png)

### Wine Quality 데이터 불러오기

실습은 Wine Quality 데이터(red, white) 중 winequality-red.csv 파일만 사용한다. 

In [26]:
import numpy as np

redwine = np.loadtxt(fname='Samples/0407_winequality-red.csv', delimiter=';', skiprows=1)
print(redwine)

[[ 7.4    0.7    0.    ...  0.56   9.4    5.   ]
 [ 7.8    0.88   0.    ...  0.68   9.8    5.   ]
 [ 7.8    0.76   0.04  ...  0.65   9.8    5.   ]
 ...
 [ 6.3    0.51   0.13  ...  0.75  11.     6.   ]
 [ 5.9    0.645  0.12  ...  0.71  10.2    5.   ]
 [ 6.     0.31   0.47  ...  0.66  11.     6.   ]]


numpy 라이브러리 안에 loadtxt함수로 파일 오픈<br/>
csv 파일의 구분자는 ';'<br/>
skiprows=1은 첫번째 행을 skip

![배열 통계 메서드](images/numpy-4.png)

In [27]:
redwine.shape

(1599, 12)

In [28]:
print(type(redwine))
print(redwine.sum())
print(redwine.mean())

<class 'numpy.ndarray'>
152084.78194
7.926036165311652


In [29]:
# 각 컬럼의 평균값
print(redwine.mean(axis=0)) # axis=0은 열, axis=1은 행 / 이 코드에서는 각 열의 평균을 구함
print(redwine[:,0].mean())

[ 8.31963727  0.52782051  0.27097561  2.5388055   0.08746654 15.87492183
 46.46779237  0.99674668  3.3111132   0.65814884 10.42298311  5.63602251]
8.31963727329581


redwine[:0.mean(): redwine 데이터 셋의 첫번째 열 (0번째 열)의 모든 값들의 평균을 뜻한다. 즉, fixed acidity의 평균만 알 수 있다.