## Numpy 개요

In [1]:
# Numpy는 수치해석용 파이썬 패키지
# 다차원의 배열 자료구조 클래스인 ndarray 클래스를 지원
# 벡터와 행렬을 사용하는 선형대수 계산 사용

## 특징

In [2]:
#numpy의 배열 연산은 c로 구현된 내부 반복문을 사용
# 파이썬 반복문에 비해 빠른 속도
# 벡터화 연산을 이용
# 간단한 코드로도 복잡한 선형 대수 연산을 수행
# 배열 인덱식을 사용한 질의 가능

## 자주 사용하는 기능

In [3]:
# 배열에서 데이터 변경, 정제, 부분 집합, 필터링의 빠른 수행
# 정렬, 유일 원소 찾기, 집합 연산
# 통계 표현과 데이터의 수집/ 요약
# 여러 데이터의 병합, 데이터 정렬과 데이터 조작

In [4]:
!pip install numpy #numpy 설치



## 스칼라와 벡터

In [5]:
# 스칼라- 하나의 숫자만으로 이루어진 데이터
# 벡터- 여러 개의 숫자가 특정한 순서대로 모여있는 것

## 배열

In [3]:
#numpy의 array라는 함수에 리스트[]를 넣으면 배열로 변환
# 1차원 배열 만들기
import numpy as np
arr=np.array([0,1,2,3,4,5,6]) 
arr


array([0, 1, 2, 3, 4, 5, 6])

In [10]:
# 타입 확인
type(arr)

numpy.ndarray

In [11]:
# array의 형태(크기)를 확인
arr.shape

(7,)

In [12]:
# array의 자료형을 확인
arr.dtype

dtype('int32')

## 벡터화 연산

In [13]:
data=[0,1,2,3,4,5,6,7,8,9]
x=np.array(data)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [14]:
2*x #리스트의 안에 있는 값마다 2를 곱함 [스칼라(2) * 벡터(x)]

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [18]:
# array끼리 연산
a=np.array([1,2,3])
b=np.array([10,20,30])

2*a+b #스칼라(2)와 배열 a를 계산한 후 배열 b를 더함

array([12, 24, 36])

In [19]:
b-a

array([ 9, 18, 27])

In [20]:
# 조건 연산 
a==2

array([False,  True, False])

In [21]:
b>=10

array([ True,  True,  True])

In [22]:
(a==2)&(b>10) #배열마다 조건연산을 하고 a랑 b를 조건 연산함

array([False,  True, False])

## 2차원 배열

In [23]:
# 다차원 배열 자료 구조
# 2차원 배열은 행렬(matrix)로 행(row)과 열(column)로 구성

In [25]:
# 2차원 배열 생성
c=np.array([[0,1,2],[3,4,5]])
c

array([[0, 1, 2],
       [3, 4, 5]])

In [26]:
# 행과 열의 갯수를 len()으로 확인
len(c) # 행의 갯수

2

In [27]:
len(c[0] # 열의 갯수

3

## 3차원 배열

In [28]:
# 크기를 나타낼 때는 가장 바깥쪽 리스트의 길이부터 가장 안쪽 리스트 길이의 
# 순서로 표시한다. (행 x 열 x 깊이)

In [29]:
# 3차원 배열 생성 (2 x 3 x 4 array)
d=np.array([[[1,2,3,4],[5,6,7,8],[9,10,11,12]],[[11,12,13,14],[15,16,17,18],[19,20,21,22]]])
d

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[11, 12, 13, 14],
        [15, 16, 17, 18],
        [19, 20, 21, 22]]])

## 배열의 인덱싱

In [31]:
# 1차원 배열의 인덱싱

a=np.array([1,2,3,4])
a[2]

3

In [32]:
a[-1]

4

In [4]:
# 다차원 배열의 인덱싱
# 배열 객체로 구현한 다차원 배열의 원소 중 하나의 개체를 선택
# 콤마로 구분된 차원을 축(axis)이라 하며, 그래프의 x,y축과 동일

b=np.array([[0,1,2],[3,4,5]])
b

array([[0, 1, 2],
       [3, 4, 5]])

In [8]:
b[1,0] # 2행 1열의 값 출력

3

In [6]:
b[0,1]

1

In [7]:
b[-1,-1] #행의 마지막 원소, 열의 마지막 원소

5

## 배열의 불리안 인덱싱

In [9]:
# 불리안 배열 인덱싱 방식은 인덱스 배열의 원소가 True, False 두 값으로만 구성
# 인덱스 배열의 크기가 원래 n차원 객체의 크기와 동일한 조건

# 예를 들어 1차원 배열에서 짝수인 원소만 골라내려면 짝수인 원소에 대응하는 인덱스 값이 true,
# 홀수인 원소에 대응하는 인덱스 값이 false인 인덱스 배열을 리스트로 넣어주면 된다.

In [10]:
a=np.array([0,1,2,3,4,5,6,7,8,9])
idx=np.array([True,False,True,False,True,False,True,False,True,False])
a[idx] #True의 값만 나옴

array([0, 2, 4, 6, 8])

In [11]:
a%2 #배열 원소의 나머지 값 출력

array([0, 1, 0, 1, 0, 1, 0, 1, 0, 1], dtype=int32)

In [13]:
a%2==0 #조건을 넣어주면 True,False로 출력

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

In [14]:
a[a%2==0] #조건과 동일한 값을 반환

array([0, 2, 4, 6, 8])

## 배열의 슬라이싱

In [15]:
# 배열 객체로 구현한 다차원 배열의 원소 중 복수 개를 선택
# 일반적인 파이썬의 슬라이싱과 comma(,)를 함께 사용

#slicing 사용 예
#[:] 배열전체
#[0:n] 0번째 부터 n-1번째까지, 즉n번 항목은 포함하지 않는다.
#[:5] 0번째 부터 4번째 까지
#[2:] 2번째부터 끝까지
#[-1] 제일 끝에 있는 배열값 반환
#[-2] 제일 끝에서 두번째 값 반환

In [16]:
a=np.array([[0,1,2],[3,4,5]])
a

array([[0, 1, 2],
       [3, 4, 5]])

In [18]:
a[0,:] #첫번째 행 전체

array([0, 1, 2])

In [23]:
a[:,1] # 두번째 열 전체

array([1, 4])

In [21]:
a[:2,:2] #1행 2열까지, 2행 2열까지

array([[0, 1],
       [3, 4]])

## numpy 데이터 타입

In [24]:
# n차원 클래스는 데이터가 같은 자료형
# 배열 명령으로 배열을 만들때 자료형 지정은 dtype 사용

In [25]:
a=np.array([1,2,3])
a.dtype

dtype('int32')

In [26]:
b=np.array([1.0,2.0,3.0])
b.dtype

dtype('float64')

In [27]:
c=np.array([1,2,3.0])
c.dtype

dtype('float64')

In [28]:
d=np.array([1,2,3],dtype="f") #자신이 원하는 자료형으로 지정가능 dtype에 인자를 함께 써줌
d.dtype

dtype('float32')

## numpy inf와 non

In [29]:
# 무한대를 표현하기 위한 np.inf와 정의할 수 없는 숫자를 나타내는 np.nan 
# 예) 1을 0으로 나누거나 0에 대한 로그 값을 계산하면 무한대인 np.inf
#   0을 0으로 나누면 np.nan이 나온다.

In [31]:
np.array([0,1,-1,0])/np.array([1,0,0,0])

  """Entry point for launching an IPython kernel.
  """Entry point for launching an IPython kernel.


array([  0.,  inf, -inf,  nan])

In [32]:
np.log(0)

  """Entry point for launching an IPython kernel.


-inf

In [33]:
np.exp(-np.inf)

0.0

## 배열 생성 -zeros, ones, arange

In [46]:
a=np.zeros(5) # 배열로 리스트값에 실수형(0)값을 5번 반환
a

array([0., 0., 0., 0., 0.])

In [36]:
b=np.zeros((2,3)) #2차원 배열(2행 3열)을 0의 값으로 생성
b

array([[0., 0., 0.],
       [0., 0., 0.]])

In [39]:
c=np.zeros((5,2),dtype="i") #데이터 타입을 int로 변경 배열(5행 2열)에 정수형(0)값을 반환
c

array([[0, 0],
       [0, 0],
       [0, 0],
       [0, 0],
       [0, 0]], dtype=int32)

In [40]:
# np. ones 1로 초기화된 배열을 생성
e=np.ones((2,3,4),dtype="i8") # 3차원 배열 생성 (3행 4열을 2개 생성)
e

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int64)

In [42]:
# np.arange
# 파이썬 기본 명령어 range와 같은 특정한 규칙에 따라 증가하는 수열을 생성
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [43]:
# 시작, 끝(포함하지 않음), 단계
np.arange(3,21,2) #3부터 시작해서 21미만까지 도달, 2씩 증가

array([ 3,  5,  7,  9, 11, 13, 15, 17, 19])

## 전치연산

In [47]:
# 행과 열을 바꾸는 전치연산으로 t 속성 사용
a=np.array([[1,2,3],[4,5,6]])
a

array([[1, 2, 3],
       [4, 5, 6]])

In [48]:
#3x2 행렬을 2x3으로 전치
a.T

array([[1, 4],
       [2, 5],
       [3, 6]])

In [51]:
## 배열의 크기변환

#만들어진 배열의 내부 데이터는 보존한 채로 형태만 reshape 명령이나 메서드로 변형
a=np.arange(12)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [50]:
# 1차원 배열을 3x4 행렬로 변형
b=a.reshape(3,4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

## 배열의 연산

In [52]:
# 벡터화 연산
# x 벡터와 y 벡터의 연산시
# numpy의 벡터 연산
x=np.arange(1,10001)
y=np.arange(10001,20001)
x,y

(array([    1,     2,     3, ...,  9998,  9999, 10000]),
 array([10001, 10002, 10003, ..., 19998, 19999, 20000]))

In [53]:
z=x+y
z

array([10002, 10004, 10006, ..., 29996, 29998, 30000])

In [54]:
#numpy의 벡터 연산 -지수, 제곱, 로그함수
a=np.arange(5)
a

array([0, 1, 2, 3, 4])

In [55]:
np.exp(a) # 지수의 값이 반환 ,e0, e1, e2, e3, e4

array([ 1.        ,  2.71828183,  7.3890561 , 20.08553692, 54.59815003])

In [56]:
10**a #10^0, 10^1, 10^2, 10^3, 10^4

array([    1,    10,   100,  1000, 10000], dtype=int32)

In [58]:
np.log(a+1)

array([0.        , 0.69314718, 1.09861229, 1.38629436, 1.60943791])

In [60]:
# numpy의 스칼라와 벡터 연산
x=np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [61]:
100*x

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

In [63]:
x=np.arange(12).reshape(3,4)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [64]:
100*x

array([[   0,  100,  200,  300],
       [ 400,  500,  600,  700],
       [ 800,  900, 1000, 1100]])

## 배열의 브로드캐스팅

In [65]:
# 벡터 연산 시에 두 벡터의 크기가 동일한 조건 요구
# 브로드캐스팅은 서로 다른 크기를 가진 두 배열의 사칙 연산에서,
# 크기가 작은 배열을 자동으로 반복 확장하여 크기가 큰 배열에 맞춰준다.
# 브로드 캐스팅은 다음과 같이 스칼라를 벡터와 같은 크기로 확장시켜서 덧셈 계산한다.
# 예) x=np.arange(5) x+1 전체 배열에 1씩 더해짐

In [66]:
x=np.arange(5)
x

array([0, 1, 2, 3, 4])

In [67]:
x+1

array([1, 2, 3, 4, 5])

In [69]:
y=np.arange(3)
y

array([0, 1, 2])

In [71]:
x+y  # x값은 5개의 행으로 y값은 3개의 열로 값이 나옴

ValueError: operands could not be broadcast together with shapes (5,) (3,) 

## 차원 축소 연산

In [72]:
# 차원 축소연산은 행렬의 하나의 행에 있는 원소들을 하나의 데이터 집합으로 보고 그 집합의 평균을 구하면 1차원 벡터가 반환

#numpy 차원 축소 연산 메서드
# 최대/최소: min, max, argmin, argmax
# 통계: sum,mean, median, std, var(분산값)
# 불리언: all, any

In [74]:
#x=[1,2,3,4]일 때, 합 값을 구한다면
x=np.array([1,2,3,4])
x

array([1, 2, 3, 4])

In [75]:
np.sum(x) #배열의 값을 합함

10

In [76]:
x.sum()

10

In [77]:
# 최소(min), 최대(max)값 및 그 수의 위치를 구한다면,
x=np.array([1,2,3,4])
x

array([1, 2, 3, 4])

In [78]:
x.min()

1

In [81]:
np.min(x)

1

In [82]:
x.max()

4

In [83]:
np.max(x)

4

In [86]:
x.argmin() # 최소값의 위치값을 반환해줌

0

In [87]:
x.argmax() # 최대값의 위치값을 반환해줌

3

In [103]:
# 평균(mean), 중간(median) 값을 구한다면,
y=np.array([1,2,3,1])
y
y.mean() # 배열의 평균값을 출력

1.75

In [104]:
np.median(y) # y 변수의 중간값을 출력 크기 순으로 나열한 후 중앙의 두 수의 평균

1.5

In [93]:
# 연산의 대상이 2차원 이상인 경우에는 어느 차원으로 계산을 할지를 axis 인수를 사용
# axis=0인 경우는 열 연산, axis=1인 경우는 행 연산
# 디폴트 값은 axis=0, axis를 사용하지 않은경우

x=np.array([[1,1],[2,2]])
x

array([[1, 1],
       [2, 2]])

In [94]:
x.sum()

6

In [105]:
x.sum(axis=0) # 열의 배열을 합하여 배열로 나타냄

array([3, 3])

In [106]:
x.sum(axis=1) # 행의 배열을 합하여 배열로 나타냄

array([2, 4])

In [107]:
# count : 배열 전체의 요소 수를 계산한다.
# sum : 배열 전체 혹은 특정 축에 대한 모든 원소의 합을 계산
# mean : 산술평균을 구한다. 크기가 0인 배열에 대한 mean 결과는 nan
# std, var: 각각 표준편차와 분산을 구한다.
# min, max: 최소값, 최대값
# argmin, argmax: 최소 원소의 색인 값, 최대 원소의 색인 값 [위치값]
# cumsum, cumprod : 각 원소의 누적합, 누적곱

In [114]:
x=np.array([18,5,10,23,19,-5,10,0,0,5,2,126,8,2,5,5,15,-3,4,-1,-20,8,9,-4,25,-12])
x

array([ 18,   5,  10,  23,  19,  -5,  10,   0,   0,   5,   2, 126,   8,
         2,   5,   5,  15,  -3,   4,  -1, -20,   8,   9,  -4,  25, -12])

In [115]:
len(x) # 데이터 개수를 반환

26

In [116]:
np.mean(x) # 평균

9.76923076923077

In [118]:
np.var(x) # 분산

637.9467455621302

In [119]:
np.std(x) # 표준편차

25.257607676938253

In [120]:
np.max(x) # 최대값 

126

In [121]:
np.min(x) # 최소값 

-20

In [122]:
np.median(x) # 중앙값

5.0

## numpy 난수 생성

In [124]:
# 데이터를 무작위로 섞거나 임의의 수 즉, 난수를 발생시키는 numpy의 random 서브패키지 사용명령어는
# rand : 0부터 1사이의 균일 분포
# randn: 가우시안 표준 정규 분포
# randint: 균일 분포의 정수 난수

np.random.rand(10)

array([0.35819736, 0.79245933, 0.53934621, 0.49062834, 0.72236079,
       0.35971732, 0.7262466 , 0.0876246 , 0.44251255, 0.66681974])

In [129]:
np.random.rand(3,2) #3x2 배열의 난수를 발생

array([[0.19751448, 0.108083  ],
       [0.19384809, 0.72016156],
       [0.41856677, 0.57735599]])

In [132]:
np.random.rand(3,2)

array([[0.89276568, 0.53128439],
       [0.21317486, 0.96921915],
       [0.27069926, 0.59140035]])

In [133]:
# randint 명령
# numpy.random.randint(low,high=none,size=none)
# high를 입력하지 않으면 0과 low 사이의 숫자를, higt를 입력하면 low와 high는 사이의 숫자를 출력하고, size는 난수의 숫자 

In [134]:
np.random.randint(10,20,size=10) # 10과 20사이에 10개의 난수를 1차원 배열에 반환

array([18, 16, 12, 13, 11, 16, 13, 19, 16, 11])

In [135]:
np.random.randint(10,20,size=(3,5))

array([[16, 14, 15, 19, 17],
       [15, 13, 10, 18, 18],
       [19, 12, 17, 15, 19]])