### Numpy
#### - 고성능의 수치 계산을 위한 핵심 라이브러리
#### - 다차원 배열 객체와 배열과 함께 작동하는 도구들을 제공

In [1]:
# array함수를 사용하여 배열 생성
import numpy as np

arr = np.array([1,2,3,4]) # 1,2,3,4로 이루어진 랭크 1의 배열
print(arr)

[1 2 3 4]


In [2]:
# 모든 값이 0인 배열
np.zeros((3,3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [4]:
# 모든 값이 1인 배열
np.ones((2,2))

array([[1., 1.],
       [1., 1.]])

In [5]:
# 값이 초기화되지 않은 배열
np.empty((4,4))

array([[0.00000000e+000, 1.02327518e-311, 0.00000000e+000,
        0.00000000e+000],
       [0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
        0.00000000e+000],
       [0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
        0.00000000e+000],
       [0.00000000e+000, 1.02323358e-311, 8.27804436e-315,
        1.02339304e-311]])

In [6]:
# 범위 값을 순차적으로 갖는 배열
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [7]:
np.arange(0, 100, 2*3+1)

array([ 0,  7, 14, 21, 28, 35, 42, 49, 56, 63, 70, 77, 84, 91, 98])

In [10]:
# 2차원 배열 // 2행 3열 (rank=2)
arr = np.array([[1,2,3], [4,5,6]])
print(arr)

[[1 2 3]
 [4 5 6]]


In [11]:
# 배열의 모양
arr.shape

(2, 3)

In [12]:
# 배열의 차수
arr.ndim

2

In [13]:
# 데이터 타입
arr.dtype

dtype('int32')

In [14]:
# 타입 변환
arr_int = np.array([1,2,3,4])
arr_int.dtype

dtype('int32')

In [17]:
arr_float = arr_int.astype(np.float64)
arr_float.dtype

dtype('float64')

In [19]:
arr_str = np.array(["1","2","3"])
arr_str.dtype

dtype('<U1')

In [22]:
arr_int = arr_str.astype(np.int64)
arr_int.dtype

dtype('int64')

In [24]:
# 배열 연산
arr1 = np.array([[1,2], [3,4]])
arr2 = np.array([[4,6], [2,4]])
print(arr1+arr2)

[[5 8]
 [5 8]]


In [25]:
np.add(arr1, arr2)

array([[5, 8],
       [5, 8]])

In [26]:
arr1*arr2

array([[ 4, 12],
       [ 6, 16]])

In [27]:
# 행렬의 곱 계산 (배열 요소의 곱과 다름)
arr1.dot(arr2)

array([[ 8, 14],
       [20, 34]])

In [28]:
np.dot(arr1, arr2)

array([[ 8, 14],
       [20, 34]])

In [30]:
arr = np.array([[1,2,3], [4,5,6], [7,8,9]])
arr

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [33]:
# 배열 슬라이싱
# 슬라이싱한 배열은 원본 배열의 뷰이다(슬라이싱한 배열을 수정하면 원본 배열도 바뀜)
# 뷰가 아닌 새로운 배열을 생성하려면 copy() 사용
arr[:2, 1:3]
arr1 = arr[:2, 1:3].copy()

In [34]:
arr1

array([[2, 3],
       [5, 6]])

In [35]:
arr[0,2]

3

In [36]:
# 정수 배열 인덱싱
# 정수 배열은 슬라이싱과 달리 새로운 배열을 생성하기 때문에
# 정수 인덱싱으로 생선한 배열을 수정해도 원본 배열이 변하지 않는다
arr[[0,1,2], [2,0,1]] # 0,1,2행의 2,0,1열 값에 접근

array([3, 4, 8])

In [39]:
# boolean 배열 인덱싱
arr > 3 # 3보다 큰 값을 찾아서 같은 Shape의 True or False 값을 가진 배열로 생성

array([[False, False, False],
       [ True,  True,  True],
       [ True,  True,  True]])

In [40]:
idx = arr > 3
arr[idx] # 조건에 맞는 배열 구성

array([4, 5, 6, 7, 8, 9])

### numpy 데이터 분석 사례

#### 와인 품질 예측 Wine Quality 데이터 사용해서 실습

In [41]:
import numpy as np

# csv 파일의 구분자가 ;이기 때문에 delimiter = ';'로,
# 변수인 첫 행은 불러오지 않기 때문에 skiprows=1로 해줌
redwine = np.loadtxt(fname='c:/sjjang/workspace/winequality-red.csv', delimiter=';', skiprows=1)
print(redwine)

[[ 7.4    0.7    0.    ...  0.56   9.4    5.   ]
 [ 7.8    0.88   0.    ...  0.68   9.8    5.   ]
 [ 7.8    0.76   0.04  ...  0.65   9.8    5.   ]
 ...
 [ 6.3    0.51   0.13  ...  0.75  11.     6.   ]
 [ 5.9    0.645  0.12  ...  0.71  10.2    5.   ]
 [ 6.     0.31   0.47  ...  0.66  11.     6.   ]]


In [43]:
# url로 가져오기
url = "http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv"
redwine = np.loadtxt(fname=url, delimiter=';', skiprows=1)
print(redwine) 

[[ 7.4    0.7    0.    ...  0.56   9.4    5.   ]
 [ 7.8    0.88   0.    ...  0.68   9.8    5.   ]
 [ 7.8    0.76   0.04  ...  0.65   9.8    5.   ]
 ...
 [ 6.3    0.51   0.13  ...  0.75  11.     6.   ]
 [ 5.9    0.645  0.12  ...  0.71  10.2    5.   ]
 [ 6.     0.31   0.47  ...  0.66  11.     6.   ]]


In [44]:
redwine.shape

(1599, 12)

In [45]:
redwine.ndim

2

In [46]:
redwine.sum()

152084.78194

In [50]:
redwine.mean(axis=0) # 열에 대한 평균

array([ 8.31963727,  0.52782051,  0.27097561,  2.5388055 ,  0.08746654,
       15.87492183, 46.46779237,  0.99674668,  3.3111132 ,  0.65814884,
       10.42298311,  5.63602251])

In [51]:
redwine.mean(axis=1) # 행에 대한 평균

array([ 6.21198333, 10.25456667,  8.30825   , ...,  8.37347833,
        8.76795583,  7.7077075 ])

In [53]:
redwine[:,0].mean()

8.31963727329581

In [54]:
redwine.max(axis=0)

array([ 15.9    ,   1.58   ,   1.     ,  15.5    ,   0.611  ,  72.     ,
       289.     ,   1.00369,   4.01   ,   2.     ,  14.9    ,   8.     ])

In [55]:
redwine.min(axis=1)

array([0.   , 0.   , 0.04 , ..., 0.076, 0.075, 0.067])