# Numpy

## Numpy의 소개

NumPy(Numerical Python)는 파이썬에서 과학적 계산을 위한 핵심 라이브러리이다. NumPy는 다차원 배열 객체와 배열과 함께 작동하는 도구들을 제공한다. 하지만 NumPy 자체로는 고수준의 데이터 분석 기능을 제공하지 않기 때문에 NumPy 배열과 배열 기반 컴퓨팅의 이해를 통해 pandas와 같은 도구를 좀 더 효율적으로 사용하는 것이 필요하다. 

### ndarray 생성

array 함수를 사용하여 배열 생성하기

In [1]:
import numpy as np

## ndarray 생성
arr = np.array([1,2,3,4])
print(arr)

[1 2 3 4]


zeros, ones, empty 함수를 사용하여 배열을 생성한다. 

In [2]:
np.zeros((3,3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [3]:
np.ones((2,2))

array([[1., 1.],
       [1., 1.]])

In [4]:
np.empty((4,4))

array([[6.23042070e-307, 4.67296746e-307, 1.69121096e-306,
        9.34609111e-307],
       [1.11256817e-306, 1.06811422e-306, 1.42417221e-306,
        1.11260619e-306],
       [8.90094053e-307, 1.86919378e-306, 1.06809792e-306,
        1.37962456e-306],
       [1.69111861e-306, 1.78020169e-306, 1.37961777e-306,
        7.56599807e-307]])

zeros 함수를 사용하면 모든 값이 0인 배열을 만들 수 있다. <br>
ones 함수를 사용하면 모든 값이 1인 배열을 만들 수 있다. <br>
empty 함수를 사용하면 값이 초기화 되지 않은 배열을 만들 수 있다. <br> 

arrange 함수를 사용하여 배열 생성하기

In [5]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

arrange 함수를 사용하면 범위 값을 순차적으로 갖는 배열을 만들 수 있다. 

### ndarray 배열의 모양, 차수, 데이터 타입 확인하기

In [6]:
arr = np.array([[1,2,3,],[4,5,6]])
print(arr)

[[1 2 3]
 [4 5 6]]


In [7]:
arr.shape

(2, 3)

In [8]:
arr.ndim

2

In [9]:
arr.dtype

dtype('int32')

### ndarray 배열의 타입 변환

astype 함수를 사용하여 정수형 데이터 배열을 실수형 데이터 배열로 변환하기

In [10]:
arr_int = np.array([1,2,3,4])

In [11]:
arr_int.dtype

dtype('int32')

In [12]:
arr_float = arr_int.astype(np.float64)

In [13]:
arr_float.dtype

dtype('float64')

문자형 데이터 배열을 정수형 데이터 배열로 변환하기

In [14]:
arr_str = np.array(['1','2','3'])

In [15]:
arr_str.dtype

dtype('<U1')

In [16]:
arr_int = arr_str.astype(np.int64)

In [17]:
arr_int.dtype

dtype('int64')

![numpy-1.png](attachment:numpy-1.png)

![numpy-2.png](attachment:numpy-2.png)

### ndarray 배열의 연산

기본 연산자와 함수를 통해 배열 연산하기

In [19]:
## 배열 연산
arr1 = np.array([[1,2],[3,4]])
arr2 = np.array([[5,6],[7,8]])

print(arr1 + arr2)

[[ 6  8]
 [10 12]]


In [20]:
np.add(arr1, arr2)

array([[ 6,  8],
       [10, 12]])

In [21]:
arr1 * arr2

array([[ 5, 12],
       [21, 32]])

In [22]:
np.multiply(arr1, arr2)

array([[ 5, 12],
       [21, 32]])

Numpy 배열의 연산은 연산자 (+,-,*,/)나 함수(add, subtract, multiply, divide)로 가능하다. 

dot 함수를 사용하여 행렬의 곱 계산하기

In [23]:
# dot 함수를 사용한 행렬의 곱 계산
arr1.dot(arr2) # 배열 객체의 인스턴스 메소드로 dot 함수 사용

array([[19, 22],
       [43, 50]])

In [24]:
np.dot(arr1, arr2)

array([[19, 22],
       [43, 50]])

앞에서 살펴본 것과 같이 Numpy 배열에 기본 연산자(*)를 통한 곱은 행렬의 곱이 아닌 배열 요소의 곱이다. 따라서 행렬의 곱을 수행하기 위해서는 dot 함수를 사용해야 한다. 

### ndarray 배열 슬라이싱 하기

ndarray 배열 슬라이싱 하기

In [25]:
## 배열 슬라이싱 
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])

In [26]:
arr_1 = arr[:2,1:3]

In [27]:
print(arr_1)

[[2 3]
 [5 6]]


슬라이싱한 배열은 원본 배열의 뷰이다.(슬라이싱한 배열을 수정하면 원본 배열도 바뀐다.) <br>
뷰가 아닌 새로운 배열을 생성하려면 arr[:2,1:3].copy()와 같은 함수를 사용해야 한다. 


ndarray 정수 배열 인덱싱 하기

In [28]:
## 정수 배열 인덱싱
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])

In [29]:
arr[0,2] #0행 2열 값에 접근

3

In [30]:
arr[[0,1,2],[2,0,1]] #0,1,2 행의 2,0,1열 값에 접근

array([3, 4, 8])

슬라이싱한 배열은 원본 배열의 뷰였던 것과 달리, 정수 배열 인덱싱은 새로운 배열을 생성한다.따라서 정수 인덱싱으로 생성한 배열을 수정하여도 원본 배열이 수정되지 않는다.

Boolean 배열 인덱싱하기

In [31]:
## Boolean 배열 인덱싱 
arr = np.array([[1,2,3],[4,5,6]])

In [32]:
idx = arr > 3 # arr에서 3보다 큰 값을 찾아서 같은 Shape의 True or False 값을 가진 배열로 생성

In [33]:
print(idx)

[[False False False]
 [ True  True  True]]


In [34]:
print(arr[idx])

[4 5 6]


idx의 값들은 arr의 값이 3보다 큰 것인지(True), 같거나 작은 것인지(False) 나타낸다. 

NumPy는 sum, mean과 같은 기본적인 수학 메서드와 통계 메서드를 제공하고 있다. 이를 활용하여 Wine Quality 데이터의 기초 통계 분석을 실습한다. 

### Wine Quality 데이터 설명

Wine Quality 데이터에는 포르투갈의 레드 와인과 화이트 와인 두 개의 데이터 세시이 있다. 각각의 데이터 셋 안에는 물리화학적 실험에 대한 12개의 변수들이 있다. 변수에 대한 설명은 다음과 같다. 

![numpy-3.png](attachment:numpy-3.png)

### Wine Quality 데이터 불러오기

실습은 Wine Quality 데이터(red, white) 중 winequality-red.csv 파일만 사용한다. 

In [35]:
import numpy as np

##winequality-red.csv 파일 불러오기
redwine = np.loadtxt(fname = 'samples/winequality-red.csv', delimiter=';', skiprows = 1)

In [36]:
print(redwine)

[[ 7.4    0.7    0.    ...  0.56   9.4    5.   ]
 [ 7.8    0.88   0.    ...  0.68   9.8    5.   ]
 [ 7.8    0.76   0.04  ...  0.65   9.8    5.   ]
 ...
 [ 6.3    0.51   0.13  ...  0.75  11.     6.   ]
 [ 5.9    0.645  0.12  ...  0.71  10.2    5.   ]
 [ 6.     0.31   0.47  ...  0.66  11.     6.   ]]


numpy 라이브러리 안에 loadtxt함수를 실행하여 텍스트 파일을 불러올 수 있다. <br>
fname에는 winequality-red.csv 파일이 위치한 디렉토리를 입력한다. <br>
csv 파일의 구분자가 ;이기 때문에 delimiter=;을 해주고, 변수인 첫 행은 불러 오지 않기 때문에 skiprows = 1를 해준다. 


### Wine Quality 데이터를 활용한 기초 통계 분석

NumPy에는 기본적인 배열 통계 메서드가 있다. sum, mean과 같은 기본적인 통계 메서드를 통해 3.2에서 불러온 redwine 데이터의 기초적인 통계 분석을 해본다. 실습할 통계 메서드는 다음과 같다. 

![numpy-4.png](attachment:numpy-4.png)

In [37]:
print(redwine.sum())

152084.78194


In [38]:
print(redwine.mean())

7.926036165311652


In [41]:
print(redwine.mean(axis=0))

[ 8.31963727  0.52782051  0.27097561  2.5388055   0.08746654 15.87492183
 46.46779237  0.99674668  3.3111132   0.65814884 10.42298311  5.63602251]


In [42]:
print(redwine[:,0].mean())

8.31963727329581


redwine.sum(): redwine 데이터 셋에 있는 모든 데이터의 합 <br>
redwine.mean(): redwine 데이터 셋에 있는 모든 데이터의 평균 <br>
redwine.mean(axis=0): redwine 데이터 셋의 열별(axis=0은 열을 뜻한다.) 평균, 이를 통해 각 변수별 평균을 알 수 있다. Fixed acidity의 평균은 8.31963722 이며, volatile acidity의 평균은 0.52782051 이다. <br>
redwine[:0.mean(): redwine 데이터 셋의 첫번째 열 (0번째 열)의 모든 값들의 평균을 뜻한다. 즉, fixed acidity의 평균만 알 수 있다.

In [43]:
print(redwine.max(axis=0))

[ 15.9       1.58      1.       15.5       0.611    72.      289.
   1.00369   4.01      2.       14.9       8.     ]


In [44]:
print(redwine.min(axis=0))

[4.6     0.12    0.      0.9     0.012   1.      6.      0.99007 2.74
 0.33    8.4     3.     ]


redwine.max(axis=0): redwine 데이터 셋의 열별(변수별) 최대값 <br>
redwine.min(axis=0): redwine 데이터 셋의 열별(변수별) 최소값 <br>