# **Numpy**
---

- 속도가 빠르다.
- 배열을 다룰 때 유용하게 많이 사용한다.
- C 언어로 개발된 파이썬에서 과학적 계산을 위핸 핵심 라이브러리
- 다차원 배열 객체와 배열과 함께 작동하는 도구들을 제공한다.
- 하지만 고수준의 데이터 분석 기능을 제공하지는 않기 때문에 `Numpy` 배열과 함께 `Pandas`와 같은 도구를 함께 사용한다.
    - `Pandas`는 `Numpy`를 이용하여 만들어졌다.

In [1]:
import numpy as np      # 이제 numpy는 np로 별명지어 사용한다. (aliasing)

In [2]:
arr = np.array([1, 2, 3, 4])    # numpy 배열 만들기
print(arr)

[1 2 3 4]


In [3]:
print(type(arr))      # ndarray 타입이다.

<class 'numpy.ndarray'>


In [5]:
# 앞으로 배울 배열들은 사이즈가 크다.
# numpy 배열을 사용해야 이러한 큰 사이즈의 배열을 다루기 쉽다. (일반 배열로는 힘들다.)

## **`zeros`, `ones`, `empty`를 사용해서 배열 만들기**
---

In [9]:
sosauge = np.zeros(5)     # 1차원 배열을 생성한다. (0으로 가득찬 배열)
print(sosauge)

[0. 0. 0. 0. 0.]


In [7]:
car = np.zeros((3, 3))     # 3x3 크기의 2차원의 배열을 생성한다.
print(car)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


In [10]:
np.ones((2, 2))     # 1로 가득찬 배열 만들기

array([[1., 1.],
       [1., 1.]])

In [11]:
np.empty((4, 4))     # 비어있는 배열 만들기 (채워져 있는 배열은)

array([[4.67296746e-307, 1.69121096e-306, 1.69121231e-306,
        8.34441742e-308],
       [1.78022342e-306, 6.23058028e-307, 9.79107872e-307,
        6.89807188e-307],
       [7.56594375e-307, 6.23060065e-307, 1.78021527e-306,
        8.34454050e-308],
       [1.11261027e-306, 1.15706896e-306, 1.33512173e-306,
        1.33504432e-306]])

In [12]:
# 메모리를 사용한 후, 지웠을 때 그 메모리가 비었다고 표시된다. ('비었음'이라고 마크만 바꿔놓는다.)
# 이전에 메모리 속에 이전에 사용하던 값들이 찌꺼기(Garbage)로 남아 있다.
# 그래서 이러한 찌꺼기를 없애기 위해 0이나 1로 초기화할 필요가 있다. (이렇게 하지 않으면 이전에 사용했던 값들이 그대로 남아 있게 된다.)
# empty를 사용하면 이전에 사용하던 찌꺼기가 남아 있게 된다. 그래서 위의 코드 블럭과 같이 [4.67296746e-307, 1.69121096e-306, 1.69121231e-306, 8.34441742e-308] 같이 출력된다. (이렇게 찌꺼기가 남지 않도록 하려면 zeros나 ones를 사용하여 0 또는 1로 초기화시킨다.)

## **특정 범위의 변수를 생성할 때 arange()를 사용한다.**
---

In [17]:
print(np.arange(10))           # 0 <= x < 10 범위의 숫자 배열을 생성한다.
print(np.arange(1, 10))        # 0 <= x < 10 범위의 숫자 배열을 생성한다.
print(np.arange(1, 10, 2))     # 증가값을 2씩 증가시킨다.

[0 1 2 3 4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]
[1 3 5 7 9]


## **ndarray 배열의 모양, 차수, 데이터 타입 확인해보기**
---

In [21]:
arr = np.array([[1, 2, 3], [4, 5, 6]])    # 2차원 배열 생성 (2x3)
print(arr)    # 꺾인 괄호([)가 몇 개 열렸는지를 보면 몇 차원인지 알 수 있다. (2개 열리면 2차원)

[[1 2 3]
 [4 5 6]]


In [23]:
# 차원의 확인
arr.ndim      # dimension : 차원

2

In [24]:
# 데이터의 모양을 확인
arr.shape

(2, 3)

In [27]:
# 데이터 타입의 확인
print(type(arr))        # 배열의 데이터 타입을 확인한다.
print(arr.dtype)        # 배열 안의 데이터 타입을 확인할 수 있다. (32비트 정수형으로 생성)

<class 'numpy.ndarray'>
int32


## **ndarray 배열의 타입 변환 : `astype()`**
---

In [34]:
arr_int = np.array([1, 2, 3, 4])     # 정수형 배열 만들기
print(arr_int.dtype)

arr_float = arr_int.astype(np.float64)     # astype()를 사용하여 타입 변환
print(arr_float.dtype)

int32
float64


In [36]:
arr_str = np.array(['1', '2', '3', '4'])     # 문자 배열로 만들기
print(arr_str.dtype)     # 배열 안의 데이터 타입을 확인한다. (U1의 U는 유니코드를 의미한다.)

# 문자형 -> 숫자형으로 바꾸기
arr_int = arr_str.astype(np.int64)
print(arr_int.dtype)

<U1
int64


## **배열의 연산**
---

In [38]:
arr1 = np.array([[1, 2], [3, 4]])
arr2 = np.array([[5, 6], [7, 8]])

print(arr1 + arr2)
print(arr1 - arr2)
print(arr1 * arr2)
print(arr1 / arr2)

[[ 6  8]
 [10 12]]
[[-4 -4]
 [-4 -4]]
[[ 5 12]
 [21 32]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]


In [40]:
print(np.add(arr1, arr2))         # 메서드를 이용하여 더하기 연산 수행하기
print(np.multiply(arr1, arr2))    # 메서드를 이용하여 곱하기 연산 수행하기

[[ 6  8]
 [10 12]]
[[ 5 12]
 [21 32]]


## **ndarray 배열 슬라이싱하기**
---

In [41]:
arr = np.array([[1, 2, 3],
                [4, 5, 6],
                [7, 8, 9]])

In [45]:
arr_1 = arr[:2, 1:3]     # 행 : 0<=y<2, 열 : 1<=x<3
print(arr_1)

[[2 3]
 [5 6]]


In [47]:
arr = np.array([[1, 2, 3],
                [4, 5, 6],
                [7, 8, 9]])

# 배열의 요소에 접근하기
print(arr[0, 2])

3


In [51]:
arr = np.array([[1, 2, 3], [4, 5, 6]])
idx = arr > 3     # 조건을 주기
print(idx)     # 조건을 만족하는지 확인하기

[[False False False]
 [ True  True  True]]


In [50]:
arr[idx]     # true인 값만 출력하기  (이런 방식을 사용하면 조건에 맞는 데이터만 뽑아낼 수 있다.)

array([4, 5, 6])

In [56]:
# 외부 파일 불러오기
redwine = np.loadtxt(fname='winequality-red.csv', delimiter=';', skiprows=1)    # 구분자는 ;, 첫 1행은 무시

In [57]:
print(redwine)

[[ 7.4    0.7    0.    ...  0.56   9.4    5.   ]
 [ 7.8    0.88   0.    ...  0.68   9.8    5.   ]
 [ 7.8    0.76   0.04  ...  0.65   9.8    5.   ]
 ...
 [ 6.3    0.51   0.13  ...  0.75  11.     6.   ]
 [ 5.9    0.645  0.12  ...  0.71  10.2    5.   ]
 [ 6.     0.31   0.47  ...  0.66  11.     6.   ]]


In [60]:
# 기초 통계 함수
# sum : 합계
# mean : 평균
# std : 표준편차
# var : 분산 (std의 제곱)
# min : 최솟값
# 최댓값

print(redwine.sum())          # 전체 데이터의 합계 구하기
print(redwine.sum(axis=0))    # 세로축 기준(axis=0)으로 합계 구하기
print(redwine.mean(axis=0))   # 세로축 기준으로 평균 구하기

152084.78194
[13303.1       843.985     433.29     4059.55      139.859   25384.
 74302.       1593.79794  5294.47     1052.38    16666.35     9012.     ]
[ 8.31963727  0.52782051  0.27097561  2.5388055   0.08746654 15.87492183
 46.46779237  0.99674668  3.3111132   0.65814884 10.42298311  5.63602251]


In [61]:
print(redwine[:])     # 전체 데이터로 출력하기

[[ 7.4    0.7    0.    ...  0.56   9.4    5.   ]
 [ 7.8    0.88   0.    ...  0.68   9.8    5.   ]
 [ 7.8    0.76   0.04  ...  0.65   9.8    5.   ]
 ...
 [ 6.3    0.51   0.13  ...  0.75  11.     6.   ]
 [ 5.9    0.645  0.12  ...  0.71  10.2    5.   ]
 [ 6.     0.31   0.47  ...  0.66  11.     6.   ]]


In [62]:
print(redwine.mean(axis=1))     # 가로축 기준(axis=1)으로 평균 구하기 (한 줄씩 평균 내기)

[ 6.21198333 10.25456667  8.30825    ...  8.37347833  8.76795583
  7.7077075 ]


In [64]:
print(redwine[:,0].mean())    # 첫 번째 칼럼의 평균값을 뽑아온다.

8.31963727329581


In [66]:
print(redwine.max(axis=0))       # 칼럼별로 최댓값 뽑기
print(redwine.min(axis=0))       # 칼럼별로 최솟값 뽑기

[ 15.9       1.58      1.       15.5       0.611    72.      289.
   1.00369   4.01      2.       14.9       8.     ]
[4.6     0.12    0.      0.9     0.012   1.      6.      0.99007 2.74
 0.33    8.4     3.     ]
