# Numpy
NumPy(Numerical Python)는 파이썬에서 과학적 계산을 위한 핵심 라이브러리이다. NumPy는 다차원 배열 객체와 배열과 함께 작동하는 도구들을 제공한다. 하지만 NumPy 자체로는 고수준의 데이터 분석 기능을 제공하지 않기 때문에 NumPy 배열과 배열 기반 컴퓨팅의 이해를 통해 pandas와 같은 도구를 좀 더 효율적으로 사용하는 것이 필요하다.

### ndarray 생성
array 함수를 사용하여 배열 생성하기

In [1]:
import numpy as np

In [2]:
# ndarray를 생성
arr = np.array([1,2,3,4])

In [3]:
print(arr)

[1 2 3 4]


In [4]:
type(arr)

numpy.ndarray

In [5]:
np.zeros((3,3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [6]:
np.ones((3,3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [8]:
np.empty((4,4))

array([[3.06038736e-312, 3.45845952e-323, 0.00000000e+000,
        2.46122040e-312],
       [0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
        0.00000000e+000],
       [0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
        0.00000000e+000],
       [0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
        0.00000000e+000]])

In [9]:
np.arange(10)    #[0,1,2,3,4,5,6,7,8,9]

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### ndarray 배열의 모양, 차수, 데이터 타입 확인하기

In [10]:
arr = np.array([[1,2,3],[4,5,6]])

In [11]:
print(arr)

[[1 2 3]
 [4 5 6]]


In [12]:
arr.shape   #2행 3열

(2, 3)

In [13]:
arr.ndim   #2차원

2

In [14]:
arr.dtype   #이 배열의 데이터 타입은?  32비트..로 깔린듯

dtype('int32')

In [17]:
arr_float = arr.astype(np.float64)   #'실수' 형식으로 표현하면 숫자 뒤에 점 붙음.64비트..

In [18]:
print(arr_float)

[[1. 2. 3.]
 [4. 5. 6.]]


In [19]:
arr_float.dtype

dtype('float64')

In [20]:
arr.dtype

dtype('int32')

In [24]:
arr1 = np.array([[1,2],[3,4]])
arr2 = np.array([[5,6],[7,8]])

#arr3 = arr1 + arr2
#arr3 = np.add(arr1,arr2)
#arr3= arr1 * arr2
arr3 = np.multiply(arr1, arr2)
print(arr3)

[[ 5 12]
 [21 32]]


Numpy 배열의 연산은 연산자 (+,-,*,/)나 함수(add, subtract, multiply, divide)로 가능하다.

### ndarray 배열 슬라이싱 하기

ndarray 배열 슬라이싱 하기

In [25]:
# 배열 슬라이싱
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])

In [37]:
arr_1= arr[:2,1:3]     #처음부터 2행까지만, 1열 시작 3열 끝 ?  (열과 행의 시작이 '0')
print(arr_1)

[[2 3]
 [5 6]]


In [27]:
arr.shape

(3, 3)

In [34]:
arr_int = np.arange(10)   # print문으로 출력해야 에러가 나지 않음  
print(arr_int[:])      # [ 처음 : 끝 : step]

[0 1 2 3 4 5 6 7 8 9]


In [35]:
print(arr[0,2])    # 21행의 3열 값이 3이니까)

3


In [41]:
arr = np.array([[1,2,3],[4,5,6]])   #넘파이 배열로 지정 

In [42]:
idx = arr > 3   #3보다 큰 것
print(idx)

[[False False False]
 [ True  True  True]]


In [43]:
print(arr[idx])   #그것을 출력

[4 5 6]


In [44]:
redwine = np.loadtxt(fname='samples/winequality-red.csv',
                       delimiter=';',
                       skiprows=1)

In [45]:
print(redwine)

[[ 7.4    0.7    0.    ...  0.56   9.4    5.   ]
 [ 7.8    0.88   0.    ...  0.68   9.8    5.   ]
 [ 7.8    0.76   0.04  ...  0.65   9.8    5.   ]
 ...
 [ 6.3    0.51   0.13  ...  0.75  11.     6.   ]
 [ 5.9    0.645  0.12  ...  0.71  10.2    5.   ]
 [ 6.     0.31   0.47  ...  0.66  11.     6.   ]]


In [46]:
redwine.shape

(1599, 12)

In [47]:
type(redwine)

numpy.ndarray

In [48]:
print(redwine.sum())

152084.78194


In [49]:
print(redwine.mean())   #평균값

7.926036165311652


In [50]:
print(redwine.mean(axis=0)) #열기준 0

[ 8.31963727  0.52782051  0.27097561  2.5388055   0.08746654 15.87492183
 46.46779237  0.99674668  3.3111132   0.65814884 10.42298311  5.63602251]


In [53]:
print(redwine[:,0].mean())

8.31963727329581
