In [1]:
# Numpy

# C언어로 개발된 파이썬에서 과학적 계산을 위한 핵심 라이브러리. 
# 다차원 배열 객체와 배열과 함께 작동하는 도구들을 제공한다. 
# 하지만 고수준의 데이터 분석기능을 제공하지는 않기 때문에 Numpy 배열과 함께 Pandas와 같은 도구를 함께 사용한다. 

In [2]:
import numpy as np

In [3]:
arr = np.array([1,2,3,4])
print(arr)
print(type(arr))

[1 2 3 4]
<class 'numpy.ndarray'>


In [5]:
# zeros, ones, empty를 사용해서 배열을 생성한다. 
car = np.zeros((3,3))
print(car)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


In [6]:
np.ones((2,2))

array([[1., 1.],
       [1., 1.]])

In [7]:
np.empty((4,4))

array([[1.92539279e-316, 0.00000000e+000, 3.17095813e+180,
        1.68823157e+195],
       [1.27966001e-152, 1.21696546e-152, 5.13121664e+252,
        6.01347002e-154],
       [1.27734658e-152, 7.22935903e+159, 1.06263900e+248,
        5.83439515e+252],
       [1.94211626e+227, 1.49001906e+195, 3.86598877e+233,
        5.52659244e-311]])

In [8]:
# 특정 범위의 변수를 생성할 때 arange()를 사용한다. 
print(np.arange(10))
print(np.arange(1,10))
print(np.arange(1,10,2))

[0 1 2 3 4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]
[1 3 5 7 9]


In [9]:
# ndarray 배열의 모양, 차수, 데이터 타입 확인해보기 
arr = np.array([[1,2,3],[4,5,6]])
print(arr)

[[1 2 3]
 [4 5 6]]


In [10]:
# 차원의 확인
arr.ndim

2

In [11]:
# 데이터의 모양을 확인하는 방법
arr.shape

(2, 3)

In [12]:
# 데이터 타입의 확인 
print(type(arr))
print(arr.dtype)

<class 'numpy.ndarray'>
int64


In [13]:
# ndarray 배열의 타입 변환
arr_int = np.array([1,2,3,4])
print(arr_int.dtype)
arr_float = arr_int.astype(np.float64)
print(arr_float.dtype)

int64
float64


In [14]:
arr_str = np.array(['1','2','3','4']) 
print(arr_str.dtype) # <U1 == 유니코드
arr_int = arr_str.astype(np.int64)
print(arr_int.dtype)

<U1
int64


In [15]:
# 배열의 연산
arr1 = np.array([[1,2],[3,4]])
arr2 = np.array([[5,6],[7,8]])
print(arr1 + arr2)
print(arr1 - arr2)
print(arr1 * arr2)

[[ 6  8]
 [10 12]]
[[-4 -4]
 [-4 -4]]
[[ 5 12]
 [21 32]]


In [16]:
print(np.add(arr1, arr2))
print(np.multiply(arr1, arr2))

[[ 6  8]
 [10 12]]
[[ 5 12]
 [21 32]]


In [17]:
#ndarray 배열 슬라이싱 하기
arr = np.array([[1,2,3],
                [4,5,6],
                [7,8,9]])

In [18]:
arr_1 = arr[:2,1:3]
print(arr_1)

[[2 3]
 [5 6]]


In [19]:
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr[0,2]

3

In [20]:
arr = np.array([[1,2,3],[4,5,6]])
idx = arr > 3
print(idx)

[[False False False]
 [ True  True  True]]


In [21]:
arr[idx]

array([4, 5, 6])

In [23]:
redwine = np.loadtxt(fname='winequality-red.csv', delimiter=';', skiprows=1)

In [24]:
print(redwine)

[[ 7.4    0.7    0.    ...  0.56   9.4    5.   ]
 [ 7.8    0.88   0.    ...  0.68   9.8    5.   ]
 [ 7.8    0.76   0.04  ...  0.65   9.8    5.   ]
 ...
 [ 6.3    0.51   0.13  ...  0.75  11.     6.   ]
 [ 5.9    0.645  0.12  ...  0.71  10.2    5.   ]
 [ 6.     0.31   0.47  ...  0.66  11.     6.   ]]


In [25]:
# 기초 통계 함수 
# sum   합계
# mean  평균
# std   표준 편차
# var   분산 (std의 제곱)
# min   최소값
# max   최대값

print(redwine.sum())
print(redwine.sum(axis=0))
print(redwine.mean(axis=0))

152084.78194
[13303.1       843.985     433.29     4059.55      139.859   25384.
 74302.       1593.79794  5294.47     1052.38    16666.35     9012.     ]
[ 8.31963727  0.52782051  0.27097561  2.5388055   0.08746654 15.87492183
 46.46779237  0.99674668  3.3111132   0.65814884 10.42298311  5.63602251]


In [26]:
print(redwine[:,0].mean())

8.31963727329581


In [27]:
print(redwine.max(axis=0))
print(redwine.min(axis=0))

[ 15.9       1.58      1.       15.5       0.611    72.      289.
   1.00369   4.01      2.       14.9       8.     ]
[4.6     0.12    0.      0.9     0.012   1.      6.      0.99007 2.74
 0.33    8.4     3.     ]
