# Numpy

## Numpy 배열의 방법


In [5]:
import numpy as np

arr = np.array([1, 2, 3, 4])
print(arr)
print(type(arr))  # arr이 어떠한 타입인지 확인해 보았을 때, numpy.ndarray라는 것을 알 수 있다. 파이썬에서의 list와 numpy.ndarray는 성능에 차이가 많이 난다.

[1 2 3 4]
<class 'numpy.ndarray'>


In [6]:
# 0으로 초기화된 배열  # 0 뒤에 점이 붙는 이유는 실수를 사용한다는 의미이다.
arr = np.zeros((3, 3))
print(arr)   # 0으로 가득찬 배열이 만들어지게 된다.

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


In [9]:
# 빈 값으로 만들어진 배열
arr = np.empty((4, 4))
print(arr)

[[1.39577260e-316 3.80430547e-322 0.00000000e+000 0.00000000e+000]
 [0.00000000e+000 1.50008929e+248 4.31174539e-096 9.80058441e+252]
 [1.23971686e+224 2.59032729e-144 6.06003395e+233 1.06400250e+248]
 [2.59050167e-144 5.22286946e-143 2.66023306e-312 0.00000000e+000]]


In [11]:
# 1로 가득찬 배열을 만든다.
arr = np.ones((3, 3))
print(arr)

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


In [13]:
# 배열의 생성
arr = np.arange(10) # <- 10개 짜리 배열이 생성된다.
print(arr) # 이 배열은 넘파일 배열이라는 것을 알 수 있다.

[0 1 2 3 4 5 6 7 8 9]


In [14]:
# ndarray 배열의 모양, 차수, 데이터 타입 확인

arr = np.array([[1, 2, 3], [4, 5, 6]])
print(arr)

[[1 2 3]
 [4 5 6]]


* 2차원 배열이 나오는 것을 알 수 있다.
* 점이 붙어 있으면 실수형 배열인 거고, 점이 붙어 있지 않으면 정수형 배열이다.

In [15]:
arr.shape # shape을 사용하게 되면, 배열의 모양을 알 수 있다.

(2, 3)

* 2차원 배열이라는 것을 shape을 통해서 알 수 있다.

In [16]:
arr.ndim

2

* ndim을 사용하면, 차원만 볼 수 있다.

In [17]:
arr.dtype

dtype('int64')

* 배열의 데이터 타입을 확인할 수 있다.

In [19]:
# 데이터 타입을 바꾸는 방법
# 파이썬은 제일 처음 사용하면 결정되는 동적 사용방법이다.
arr_float = arr.astype(np.float64) # float의 뒤에 숫자가 크면 클 수록 범위가 넓어진다.
arr_float.dtype 

dtype('float64')

* 데이터 타입이 float로 바뀌었다는 것을 알 수 있다.

In [23]:
arr_str = np.array(['1', '2', '3'])
arr_str.dtype

dtype('<U1')

In [24]:
arr_int = arr.astype(np.int64)
arr_int.dtype

dtype('int64')

## Numpy 배열의 연산 방법

In [28]:
# ndarray 배열의 연산

arr1 = np.array([[1, 2], [3, 4]])
arr2 = np.array([[5, 6], [7, 8]])

* arr1과 arr2의 배열을 만든다. 

In [29]:
arr1 + arr2 

array([[ 6,  8],
       [10, 12]])

In [30]:
np.add(arr1, arr2)

array([[ 6,  8],
       [10, 12]])

* +를 사용하든, np.add()를 사용하든 결과는 똑같다.

In [31]:
arr1 * arr2

array([[ 5, 12],
       [21, 32]])

* 덧셈 처럼 곱셈도 잘 되는 것을 알 수 있다.

In [32]:
np.multiply(arr1, arr2)

array([[ 5, 12],
       [21, 32]])

* *를 사용하든, np.multiply()를 사용하든 결과는 똑같다.

## ndarray 배열 슬라이싱 하기

In [33]:
# ndarray 배열 슬라이싱 하기 

arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr.ndim

2

In [35]:
arr_1 = arr[:2, 1:3]  # 이차원 배열이기 때문에 슬라이싱을 이차원으로 표현을 해 놓은 것이다.
print(arr_1)

[[2 3]
 [5 6]]


In [36]:
arr[0, 2]

3

In [37]:
arr[[0, 1, 2], [2, 0, 1]] # 앞에 있는 것은 큰 배열의 요소를 선택하고, 뒤에 있는 것은 선택한 요소의 자리의 값을 가지고 온다.

array([3, 4, 8])

In [38]:
idx = arr > 3
print(idx)

[[False False False]
 [ True  True  True]
 [ True  True  True]]


* 3보다 크지 않으면 False가 나오고 3보다 크면 True가 나오는 것을 알 수 있다.

In [40]:
print(arr[idx]) # arr을 하게 되면 true인 것만 뽑아내서 배열을 만든다. 

[4 5 6 7 8 9]


# Numpy를 이용한 기초 통계

In [44]:
## winequality-red.csv 파일 불러오기
redwine = np.loadtxt(fname="winequality-red.csv", delimiter = ';', skiprows = 1)  # 첫줄은 데이터가 아니기 때문에 skiprows를 사용해서 첫 줄을 제외해준다.
print(redwine)

[[ 7.4    0.7    0.    ...  0.56   9.4    5.   ]
 [ 7.8    0.88   0.    ...  0.68   9.8    5.   ]
 [ 7.8    0.76   0.04  ...  0.65   9.8    5.   ]
 ...
 [ 6.3    0.51   0.13  ...  0.75  11.     6.   ]
 [ 5.9    0.645  0.12  ...  0.71  10.2    5.   ]
 [ 6.     0.31   0.47  ...  0.66  11.     6.   ]]


In [45]:
# 합계

print(redwine.sum())  # 바로 위에 보이는 전체 데이터의 합계가 나오게 된다.

152084.78194


In [46]:
# 평균

print(redwine.mean())

7.926036165311652


In [49]:
# 축(axis)

print(redwine.sum(axis = 0))
print()
print(redwine.mean(axis = 0))  # axis = 0은 열의 평균을 나타낸다.

[13303.1       843.985     433.29     4059.55      139.859   25384.
 74302.       1593.79794  5294.47     1052.38    16666.35     9012.     ]

[ 8.31963727  0.52782051  0.27097561  2.5388055   0.08746654 15.87492183
 46.46779237  0.99674668  3.3111132   0.65814884 10.42298311  5.63602251]


* 축이라는 개념을 생각해야 한다.

In [52]:
redwine[:, 0] # 첫 번째는 전체 데이터를 나타내는 것을 표현함, 두 번째는 제일 첫 번째 컬럼을 표현함.

array([7.4, 7.8, 7.8, ..., 6.3, 5.9, 6. ])

In [50]:
print(redwine[:, 0].mean())  # 슬라이싱을 사용해서 mean()을 구해보면, 첫 번째 열에 대한 평균이 나오게 된다.

8.31963727329581


In [54]:
redwine.max(axis = 0)  # 각 컬럼별로 최대 값을 뽑아 볼 수 있다.

array([ 15.9    ,   1.58   ,   1.     ,  15.5    ,   0.611  ,  72.     ,
       289.     ,   1.00369,   4.01   ,   2.     ,  14.9    ,   8.     ])

In [56]:
redwine.min(axis = 0)

array([4.6    , 0.12   , 0.     , 0.9    , 0.012  , 1.     , 6.     ,
       0.99007, 2.74   , 0.33   , 8.4    , 3.     ])

# End