# Numpy

## Numpy의 소개

NumPy(Numerical Python)는 파이썬에서 과학적 계산을 위한 핵심 라이브러리이다. NumPy는 다차원 배열 객체와 배열과 함께 작동하는 도구들을 제공한다. 하지만 NumPy 자체로는 고수준의 데이터 분석 기능을 제공하지 않기 때문에 NumPy 배열과 배열 기반 컴퓨팅의 이해를 통해 pandas와 같은 도구를 좀 더 효율적으로 사용하는 것이 필요하다.

### ndarray 생성
array 함수를 사용해서 배열을 생성하기

In [1]:
import numpy as np

## ndarray 생성
arr = np.array([1, 2, 3, 4])    # -> list 타입처럼 보이지만 list타입은 아님 (, 없잖아)
print(arr)

[1 2 3 4]


In [2]:
np.zeros((3, 3))    # .zeros -> 0으로 초기화 시킴, (구성요소가 3개인 배열이 3개 생김)

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [3]:
np.ones((2, 2))    # .ones -> 1로 초기화 시킴 (구성요소가 2개인 배열이 2개 생김)

array([[1., 1.],
       [1., 1.]])

In [4]:
np.empty((4, 4))   # .empty -> 빈 값의 배열 만들기 (아래 값들은 메모리 상에 있는 찌꺼기 값들)

array([[4.67296746e-307, 1.69121096e-306, 1.29060871e-306,
        1.02360867e-306],
       [1.42418987e-306, 1.37961641e-306, 1.60220528e-306,
        1.24611266e-306],
       [9.34598925e-307, 1.24612081e-306, 1.11260755e-306,
        1.60220393e-306],
       [1.51320640e-306, 9.34609790e-307, 1.86921279e-306,
        1.24610723e-306]])

In [5]:
np.arange(10)   #  .arange(n) - 특정한 길이(범위)의 배열을 생성, (0부터 시작해서 n의 배열을 생성한다.)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [6]:
np.arange(-5, 5, 1)  # -> -5 부터 5까지 1씩 증가해라

array([-5, -4, -3, -2, -1,  0,  1,  2,  3,  4])

## ndarray 배열의 모양, 차수, 데이터 타입을 확인하는 방법

In [7]:
arr = np.array([[1, 2, 3],[4, 5, 6]])  # -> 구성요소가 3개인 배열이 2개가 생긴다. => 2차원 배열

In [8]:
print(arr)

[[1 2 3]
 [4 5 6]]


In [9]:
arr.shape    # .shape - 데이터의 구조를 알아봄 

(2, 3)

In [10]:
arr.ndim    # .ndim - 몇 차원인가?

2

In [11]:
arr.dtype

dtype('int32')

# naarray 배열의 타입 변환
astype 함수를 사용해서 정수형 데이터 배열을 실수형 데이터 배열로 변환하기

In [12]:
arr_int = np.array([1, 2, 3, 4])   # -> 정수형 배열

In [13]:
arr_int.dtype     # 정수형 배열에 실수를 넣으면 소수점 아래가 잘려나감

dtype('int32')

In [14]:
arr_float = arr_int.astype(np.float64)  # .astype - 새로운 타입으로 변환시켜줌

In [15]:
arr_float.dtype

dtype('float64')

In [16]:
print(arr_float)

[1. 2. 3. 4.]


### 문자형 데이터 배열을 정수형 데이터 배열로 변환하기

In [17]:
arr_str = np.array(['1', '2', '3'])

In [18]:
arr_str.dtype  
# <U1 - 유니코드 타입으로 저장되어 있다. (파이썬에 사용되는 데이터 타입은 기본적으로 유니코드 타입)

dtype('<U1')

In [19]:
arr_int = arr_str.astype(np.int64)

In [20]:
arr_int.dtype

dtype('int64')

![Built-in Python types, ndarray data types](images/numpy-1.png
)

![Data Types](images/numpy-2.png)

## ndarray 배열의 연산
기본 연산자와 함수를 통해 배열 연산하기

In [21]:
arr1 = np.array([[1, 2], [3, 4]])
arr2 = np.array([[5, 6], [7, 8]])

In [22]:
arr1 + arr2     # -> 각각의 차원에 맞는 것 끼리 연산이 된다.

array([[ 6,  8],
       [10, 12]])

In [23]:
np.add(arr1, arr2)

array([[ 6,  8],
       [10, 12]])

In [24]:
arr1 * arr2

array([[ 5, 12],
       [21, 32]])

In [25]:
np.multiply(arr1, arr2)

array([[ 5, 12],
       [21, 32]])

### numpy 배열의 연산은 연산자(+, -, *, /)나 함수(add, subtract, multiply, divide) 가능합니다.

In [26]:
arr1.dot(arr2)   
# -> 행렬(matrix)의 '곱', dot연산 - 행렬에 대한 연산, 각각의 차원이 다른 데이터들을 순서대로 곱해서 더하는 것?

array([[19, 22],
       [43, 50]])

https://towardsdatascience.com/a-complete-beginners-guide-to-matrix-multiplication-for-data-science-with-python-numpy-9274ecfc1dc6

In [27]:
np.dot(arr1, arr2)

array([[19, 22],
       [43, 50]])

앞에서 살펴본 것과 같이 Numpy 배열에 기본 연산자 *를 통한 곱은 행렬의 곱이 아닌 배열의 요소의 곱이다. 따라서 행렬의 곱을 수행하기 위해서는 dot 함수를 사용해야 한다.

## ndarray 배열 슬라이싱 하기

In [28]:
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

In [29]:
arr_1 = arr[:2, 1:3]

In [30]:
print(arr_1)

[[2 3]
 [5 6]]


In [31]:
arr_1[0, 0] = 5   # arr_1을 수정

In [32]:
arr_1

array([[5, 3],
       [5, 6]])

In [33]:
arr      #  => 원본 데이터(arr)를 슬라이싱 한 것 = '원본데이터의 view'(arr_1)가 생기는 것
         # arr_1을 수정하면 arr도 수정된다.

array([[1, 5, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [34]:
arr = np.array([[1, 2, 3], [4, 5, 6]])

In [35]:
idx = arr > 3  # -> 조건

In [36]:
print(idx)   # -> 조건의 결과

[[False False False]
 [ True  True  True]]


In [37]:
print(arr[idx])  # -> 조건에 맞는 값(True)만 출력됨

[4 5 6]


idx의 값들은 arr의 값이 3보다 큰 것인지(True), 같거나 작은 것인지(False) 나타낸다.

### Wine Quality 데이터 설명

Wine Quality 데이터에는 포르투갈의 레드 와인과 화이트 와인 두 개의 데이터 예시가 있다. 각각의 데이터 셋 안에는 물리화학적 실험에 대한 12개의 변수들이 있다. 변수에 대한 설명은 다음과 같다.

![Wine Quality 데이터 변수 설명](images/numpy-3.png)

In [38]:
import numpy as np

redwine = np.loadtxt(fname = 'samples/winequality-red.csv', delimiter = ';', skiprows = 1)  
# np.loadtxt - 텍스트 파일을 불러 온다 (fname - file name)
# delimiter - 구획 문자 -> 생략하면 기본값이 ,(콤마)
# skiprows - 스킵할 행(줄)

In [39]:
print(redwine)

[[ 7.4    0.7    0.    ...  0.56   9.4    5.   ]
 [ 7.8    0.88   0.    ...  0.68   9.8    5.   ]
 [ 7.8    0.76   0.04  ...  0.65   9.8    5.   ]
 ...
 [ 6.3    0.51   0.13  ...  0.75  11.     6.   ]
 [ 5.9    0.645  0.12  ...  0.71  10.2    5.   ]
 [ 6.     0.31   0.47  ...  0.66  11.     6.   ]]


In [40]:
redwine.shape   # .shape - 구조 / 1599행이 있고, 12개의 열이 있다.

(1599, 12)

### Wine Quality 데이터를 활용한 기초 통계 분석

NumPy에는 기본적인 배열 통계 메서드가 있다. sum, mean과 같은 기본적인 통계 메서드를 통해 3.2에서 불러온 redwine 데이터의 기초적인 통계 분석을 해본다. 실습할 통계 메서드는 다음과 같다.

![배열 통계 메서드](images/numpy-4.png)

In [41]:
print(redwine.sum())   # -> 전체 컬럼과 행의(전체 데이터의) 합 (일반적으로 이렇게는 안씀)

152084.78194


In [42]:
print(redwine.mean())

7.926036165311652


In [43]:
print(redwine.mean(axis = 0))    # axis = 축 -> axis = 0은 열, axis = 1은 행기준

[ 8.31963727  0.52782051  0.27097561  2.5388055   0.08746654 15.87492183
 46.46779237  0.99674668  3.3111132   0.65814884 10.42298311  5.63602251]


In [44]:
redwine[:, 0].mean()   # -> redwine의 전체 데이터에서 0번째 컬럼의 평균을 구한 것

8.31963727329581

redwine.sum(): redwine 데이터 셋에 있는 모든 데이터의 합 <br>
redwine.mean(): redwine 데이터 셋에 있는 모든 데이터의 평균 <br>
redwine.mean(axis=0): redwine 데이터 셋의 열별(axis=0은 열을 뜻한다.) 평균, 이를 통해 각 변수별 평균을 알 수 있다. Fixed acidity의 평균은 8.31963722 이며, volatile acidity의 평균은 0.52782051 이다. <br>
redwine[:0.mean(): redwine 데이터 셋의 첫번째 열 (0번째 열)의 모든 값들의 평균을 뜻한다. 즉, fixed acidity의 평균만 알 수 있다.

In [45]:
print(redwine.max(axis = 0))

[ 15.9       1.58      1.       15.5       0.611    72.      289.
   1.00369   4.01      2.       14.9       8.     ]


In [46]:
print(redwine.min(axis = 0))

[4.6     0.12    0.      0.9     0.012   1.      6.      0.99007 2.74
 0.33    8.4     3.     ]
