<a href="https://colab.research.google.com/github/shims94/230619_colab_note/blob/main/230619_ch05_01_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Numpy 기초

## 배열(Array)
* 많은 데이터를 하나의 변수에 넣는 법? : **리스트**
* 하지만 리스트는...
    * 속도가 느리다
    * 메모리를 많이 차지한다

> 그래서? **배열(Array)**을 사용한다

* 적은 메모리로 많은 데이터를 빠르게 처리할 수 있음

## 특징
1. 모든 원소가 같은 **자료형**이어야 함
2. 원소의 갯수를 바꿀 수 없음

> 그런데 파이썬은 자체적으로 배열 자료형을 제공하지 않음<br>
> 그래서 우리는 **넘파이(Numpy)** 패키지를 import해서 사용

In [None]:
# 파이썬 pip -> 외부 패키지 관리자 (툴들, 기능들 -> 패키지 -> 불러오기)
# 파이썬은 numpy가 내장이 아니기 때문에... -> pip install numpy
# 1. anaconda -> numpy가 딸려들어옴
# 2. colab -> numpy가 이미 설치
import numpy  # import 가져오기 -> 이미 설치된 numpy라는 기능을 가져오겠다...
# 너무 자주 쓰이기 때문에 numpy라는 전체 이름을 쓰지 않고 np라는 축약어를 사용
import numpy as np  # 다른 이름을 주지 마세요
# tap 입력시 자동입력
import numpy as np
# https://www.kaggle.com/
# https://dacon.io/
# https://datascienceschool.net/intro.html
# https://www.youtube.com/c/todaycode

## 1차원 배열
* 리스트나 튜플처럼 한 줄로 이루어진 형태의 배열

In [None]:
np.array([1, 2, 3])  # 마지막에 실행된 실행문의 결과를 아래 블록에 표시 (변수명, 값, 함수들..)

array([1, 2, 3])

In [None]:
arr = np.array(range(10))
arr, type(arr)

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]), numpy.ndarray)

## ndarray
* 배열 객체 타입(자료형)
* 리스트와 동일해 보이지만 차이가 많음

|자료형|특징|
|:-|:-|
|리스트(list)|각각의 원소가 다른 자료형이 될 수 있음|
|배열(array)|연속적인 메모리 배치를 가지기 때문에 모든 원소가 같은 자료형이어야 함<br>원소에 대한 접근과 반복문 실행이 빨라짐|

In [None]:
import random

def average_python(n): # n개의 길이
    '''
    n개의 랜덤한 0~1 사이의 실수를 평균해주는 함수
    '''
    s = 0  # 총 합계
    for i in range(n):
        s += random.random()  # 총합
    return s / n  # 총합 / 갯수 => 산술 평균

# ctrl + enter => 한 개의 블록 실행 혹은 왼쪽 play button

In [None]:
%time average_python(100_000)  # %time : 시간 재기 -> 1번 실행

CPU times: user 21.4 ms, sys: 0 ns, total: 21.4 ms
Wall time: 35.1 ms


0.4996291080661607

In [None]:
%timeit average_python(100_000)  # %timeit : 시간 재기 (여러 번 실행)
# ms : 1000분의 초

10.8 ms ± 334 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [None]:
def average_numpy(n):
    'n개의 랜덤한 0~1 사이의 실수를 numpy를 사용해서 평균내는 함수'
    s = np.random.random(n)  # n개의 랜덤한 실수를 불러오는 numpy의 기능
    return s.mean()  # mean -> 평균 (mean, average)
# shift + enter : 현재 칸을 실행하고 다음 칸으로 넘어가기

In [None]:
%time average_numpy(100_000)  # 속도가 1/10...

CPU times: user 1.64 ms, sys: 0 ns, total: 1.64 ms
Wall time: 1.66 ms


0.5014571976508923

In [None]:
%timeit average_numpy(100_000)
# 10^3 -> 10^7 us.

1.14 ms ± 306 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [None]:
# alt + enter : 새로운 코드 블록 (윗 블록 실행)
# python 3.11 <- 리스트의 속도가 상당히 빨라졌음...
# list comprehension > numpy > list, for.

## 벡터화 연산
* 배열 객체는 **배열의 각 원소에 대한 반복 연산을 하나의 명령어로 처리**하는 벡터화 연산(vectorized operation)을 지원

In [None]:
data = list(range(10))
data

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
%%timeit
# %%time 전체 블록실행
# 여러 개의 데이터를 모두 2배 할 때 (파이썬)
answer = []
for d in data:
  answer.append(d*2)
answer

770 ns ± 98 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [None]:
%%timeit
# 리스트 컴프리헨션
[ d*2 for d in data ]

669 ns ± 176 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [None]:
# 벡터화 연산
arr = np.array(data)
# 시퀀스 형태의 데이터를 np.array -> numpy 배열
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
#time arr * 2

In [None]:
# 리스트 객체에 정수를 곱하면 객체의 크기가 해당 정수 배만큼 증가


* 벡터화 연산은 비교 연산과 논리 연산을 포함한 모든 종류의 수학 연산에 대해 적용

## 2차원 배열
* `ndarray`는 N-dimensional Array의 약자, 즉 1차원 배열 이외에도 2차원 배열, 3차원 배열 등의 다차원 배열 자료 구조를 지원
* 2차원 배열 = 행렬 (matrix)
* 가로줄 : 행(row), 세로줄 : 열(column)
> 엑셀 스프레드시트와 같은 형태의 배열

* 리스트의 리스트(list of list)를 이용하여 2차원 배열 생성
    * 안쪽 리스트의 길이 : 행렬의 열의 수 (가로 크기)
    * 바깥쪽 리스트의 길이 : 행렬의 행의 수 (세로 크기)

In [None]:
# 행의 갯수, 열의 갯수


## 💡 연습문제 1
> 아래 모양의 행렬 만들어 보기
```
10 20 30 40
50 60 70 80
```

## 3차원 배열

In [None]:
# 크기를 나타낼 때는 가장 바깥쪽 리스트의 길이부터 가장 안쪽 리스트 길이의 순서로 표시


In [None]:
# 깊이, 행, 열


## 배열의 차원과 크기 알아내기
* `ndim`, `shape` **속성** 사용
> 속성 : 괄호 없이 이름만 써서 값을 호출

* `ndim` : 배열의 차원
* `shape` : 배열의 크기

## 배열의 복사
* copy와 view의 차이점은 copy는 새 배열(깊은 복사)이고 view는 원래 배열과 연결 되어 있다는 것(얕은 복사)
* copy는 데이터를 소유하며 copy에 대한 변경 사항은 원본 배열에 영향을 미치지 않으며 원본 배열에 대한 변경은 copy에 영향을 주지 않음
* view는 데이터를 소유하지 않으며 view에 대한 모든 변경 사항은 원래 배열에 영향을 미치고 원래 배열에 대한 모든 변경 사항은 보기에 영향을 줌

## 배열의 인덱싱

### 일차원 배열
* 리스트의 인덱싱과 같음

### 다차원 배열
* 콤마(comma, `,`)를 사용하여 접근
* 콤마로 구분된 차원을 축(axis)라고 함
    * like 그래프의 x축, y축

## 배열 슬라이싱
* 다차원 배열의 원소 중 2개 이상의 복수 개를 접근하려면 일반적인 파이썬 슬라이싱(slicing)과 comma(,)를 함께 사용

## 💡 연습문제 2

In [None]:
m = np.array([[0,  1,  2,  3,  4],
              [5,  6,  7,  8,  9],
              [10, 11, 12, 13, 14]])
m

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [None]:
#@markdown (1) 값 7을 인덱싱


In [None]:
#@markdown (2) 값 14을 인덱싱


In [None]:
#@markdown (3) 배열 [6,7]을 슬라이싱


In [None]:
#@markdown (4) 배열 [7,12]을 슬라이싱


In [None]:
#@markdown (5) 배열 [[3,4],[8,9]]을 슬라이싱


## 배열 인덱싱
* 대괄호(Bracket, [])안의 인덱스 정보로 숫자나 슬라이스가 아니라 위치 정보를 나타내는 또다른 `ndarray` 배열을 받을 수 있음 (인덱스 배열)
* 일종의 조건 검색 기능

### 불리언 (Boolean) 배열 인덱싱
* 인덱스 배열의 원소가 True, False 두 값으로만 구성되며 인덱스 배열의 크기가 원래 ndarray 객체의 크기와 같아야 함

In [None]:
# 짝수인 원소만 골라내고 싶다면?
# 짝수에 대응하는 곳에 True, 홀수에 대응하는 곳에 False


In [None]:
# 조건문 연산


### 정수 배열 인덱싱
* 인덱스 배열의 원소 각각이 원래 `ndarray` 객체 원소 하나를 가리키는 인덱스 정수이여야 함

* 이 때는 배열 인덱스의 크기가 원래의 배열 크기와 달라도 상관없음
* 같은 원소를 반복해서 가리키는 경우에는 배열 인덱스가 원래의 배열보다 더 커지기도 함

### 다차원 배열에서의 배열 인덱싱

## 💡 연습문제 3

In [None]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
             11, 12, 13, 14, 15, 16, 17, 18, 19, 20])

In [None]:
# (1) 3의 배수 찾기


In [None]:
# (2) 4로 나누면 1이 남는 수 찾기


In [None]:
# (3) 3로 나누면 나누어지고 4로 나누면 1이 남는 수 찾기


## 배열 검색

# Numpy 기초

## 배열(Array)
* 많은 데이터를 하나의 변수에 넣는 법? : **리스트**
* 하지만 리스트는...
    * 속도가 느리다
    * 메모리를 많이 차지한다

> 그래서? **배열(Array)**을 사용한다

* 적은 메모리로 많은 데이터를 빠르게 처리할 수 있음

## 특징
1. 모든 원소가 같은 **자료형**이어야 함
2. 원소의 갯수를 바꿀 수 없음

> 그런데 파이썬은 자체적으로 배열 자료형을 제공하지 않음<br>
> 그래서 우리는 **넘파이(Numpy)** 패키지를 import해서 사용

In [None]:
# 파이썬 pip -> 외부 패키지 관리자 (툴들, 기능들 -> 패키지 -> 불러오기)
# 파이썬은 numpy가 내장이 아니기 때문에... -> pip install numpy
# 1. anaconda -> numpy가 딸려들어옴
# 2. colab -> numpy가 이미 설치
import numpy  # import 가져오기 -> 이미 설치된 numpy라는 기능을 가져오겠다...
# 너무 자주 쓰이기 때문에 numpy라는 전체 이름을 쓰지 않고 np라는 축약어를 사용
import numpy as np  # 다른 이름을 주지 마세요
# tap 입력시 자동입력
import numpy as np
# https://www.kaggle.com/
# https://dacon.io/
# https://datascienceschool.net/intro.html
# https://www.youtube.com/c/todaycode

## 1차원 배열
* 리스트나 튜플처럼 한 줄로 이루어진 형태의 배열

In [None]:
np.array([1, 2, 3])  # 마지막에 실행된 실행문의 결과를 아래 블록에 표시 (변수명, 값, 함수들..)

array([1, 2, 3])

In [None]:
arr = np.array(range(10))
arr, type(arr)

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]), numpy.ndarray)

## ndarray
* 배열 객체 타입(자료형)
* 리스트와 동일해 보이지만 차이가 많음

|자료형|특징|
|:-|:-|
|리스트(list)|각각의 원소가 다른 자료형이 될 수 있음|
|배열(array)|연속적인 메모리 배치를 가지기 때문에 모든 원소가 같은 자료형이어야 함<br>원소에 대한 접근과 반복문 실행이 빨라짐|

In [None]:
import random

def average_python(n): # n개의 길이
    '''
    n개의 랜덤한 0~1 사이의 실수를 평균해주는 함수
    '''
    s = 0  # 총 합계
    for i in range(n):
        s += random.random()  # 총합
    return s / n  # 총합 / 갯수 => 산술 평균

# ctrl + enter => 한 개의 블록 실행 혹은 왼쪽 play button

In [None]:
%time average_python(100_000)  # %time : 시간 재기 -> 1번 실행

CPU times: user 18.4 ms, sys: 15 µs, total: 18.4 ms
Wall time: 19.8 ms


0.4997886026400019

In [None]:
%timeit average_python(100_000)  # %timeit : 시간 재기 (여러 번 실행)
# ms : 1000분의 초

15.1 ms ± 5.38 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [None]:
def average_numpy(n):
    'n개의 랜덤한 0~1 사이의 실수를 numpy를 사용해서 평균내는 함수'
    s = np.random.random(n)  # n개의 랜덤한 실수를 불러오는 numpy의 기능
    return s.mean()  # mean -> 평균 (mean, average)
# shift + enter : 현재 칸을 실행하고 다음 칸으로 넘어가기

In [None]:
%time average_numpy(100_000)  # 속도가 1/10...

CPU times: user 2.25 ms, sys: 0 ns, total: 2.25 ms
Wall time: 5.3 ms


0.4990429789061435

In [None]:
%timeit average_numpy(100_000)
# 10^3 -> 10^7 us.

1.42 ms ± 568 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [None]:
# alt + enter : 새로운 코드 블록 (윗 블록 실행)
# python 3.11 <- 리스트의 속도가 상당히 빨라졌음...
# list comprehension > numpy > list, for.

## 벡터화 연산
* 배열 객체는 **배열의 각 원소에 대한 반복 연산을 하나의 명령어로 처리**하는 벡터화 연산(vectorized operation)을 지원

In [None]:
data = list(range(10))
data

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
# alt + enter
# 리스트 객체에 정수 곱하면?
data * 2  # 모든 원소에 2배가 됩니까?
# 리스트 객체에 정수를 곱하면 객체의 크기가 해당 정수 배만큼 증가 (n >= 1 클 때)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
%%time
# %%time 전체 블록을 실행
# 여러 개의 데이터를 모두 2배 할 때 (파이썬)
answer = []
for d in data:
    answer.append(d * 2)
answer

CPU times: user 25 µs, sys: 0 ns, total: 25 µs
Wall time: 30 µs


[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [None]:
%%timeit
# %%time 전체 블록을 실행
# 여러 개의 데이터를 모두 2배 할 때 (파이썬)
answer = []
for d in data:
    answer.append(d * 2)
answer

779 ns ± 136 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [None]:
%%time
# 리스트 컴프리헨션
[d * 2 for d in data]

CPU times: user 8 µs, sys: 0 ns, total: 8 µs
Wall time: 10.7 µs


[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [None]:
%%timeit
# 리스트 컴프리헨션
[d * 2 for d in data]

647 ns ± 149 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [None]:
# 벡터화 연산
arr = np.array(data)  # 시퀀스 형태의 데이터를 np.array -> numpy 배열
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
%time arr * 2  # 배열

CPU times: user 36 µs, sys: 0 ns, total: 36 µs
Wall time: 38.9 µs


array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [None]:
%timeit arr * 2  # 배열

1.32 µs ± 385 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [None]:
# 3.9 버전까지는 웬만하면 numpy 압살 -> 3.10 (리스트 속도 개선을 위한 작업) -> 속도는 비슷.

In [None]:
# 리스트 객체에 정수를 곱하면 객체의 크기가 해당 정수 배만큼 증가
data * 3  # repeat

[0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9]

* 벡터화 연산은 비교 연산과 논리 연산을 포함한 모든 종류의 수학 연산에 대해 적용

In [None]:
a = np.array(range(1, 4))
b = np.array(range(10, 40, 10))
a, b

(array([1, 2, 3]), array([10, 20, 30]))

In [None]:
a * 10

array([10, 20, 30])

In [None]:
a**2, b**0.5

(array([1, 4, 9]), array([3.16227766, 4.47213595, 5.47722558]))

In [None]:
a==2 , b>10

(array([False,  True, False]), array([False,  True,  True]))

## 2차원 배열
* `ndarray`는 N-dimensional Array의 약자, 즉 1차원 배열 이외에도 2차원 배열, 3차원 배열 등의 다차원 배열 자료 구조를 지원
* 2차원 배열 = 행렬 (matrix)
* 가로줄 : 행(row), 세로줄 : 열(column)
> 엑셀 스프레드시트와 같은 형태의 배열

* 리스트의 리스트(list of list)를 이용하여 2차원 배열 생성
    * 안쪽 리스트의 길이 : 행렬의 열의 수 (가로 크기)
    * 바깥쪽 리스트의 길이 : 행렬의 행의 수 (세로 크기)

In [None]:
# 행의 갯수, 열의 갯수


## 💡 연습문제 1
> 아래 모양의 행렬 만들어 보기
```
10 20 30 40
50 60 70 80
```

## 3차원 배열

In [None]:
# 크기를 나타낼 때는 가장 바깥쪽 리스트의 길이부터 가장 안쪽 리스트 길이의 순서로 표시


In [None]:
# 깊이, 행, 열


## 배열의 차원과 크기 알아내기
* `ndim`, `shape` **속성** 사용
> 속성 : 괄호 없이 이름만 써서 값을 호출

* `ndim` : 배열의 차원
* `shape` : 배열의 크기

## 배열의 복사
* copy와 view의 차이점은 copy는 새 배열(깊은 복사)이고 view는 원래 배열과 연결 되어 있다는 것(얕은 복사)
* copy는 데이터를 소유하며 copy에 대한 변경 사항은 원본 배열에 영향을 미치지 않으며 원본 배열에 대한 변경은 copy에 영향을 주지 않음
* view는 데이터를 소유하지 않으며 view에 대한 모든 변경 사항은 원래 배열에 영향을 미치고 원래 배열에 대한 모든 변경 사항은 보기에 영향을 줌

## 배열의 인덱싱

### 일차원 배열
* 리스트의 인덱싱과 같음

### 다차원 배열
* 콤마(comma, `,`)를 사용하여 접근
* 콤마로 구분된 차원을 축(axis)라고 함
    * like 그래프의 x축, y축

## 배열 슬라이싱
* 다차원 배열의 원소 중 2개 이상의 복수 개를 접근하려면 일반적인 파이썬 슬라이싱(slicing)과 comma(,)를 함께 사용

## 💡 연습문제 2

In [None]:
m = np.array([[0,  1,  2,  3,  4],
              [5,  6,  7,  8,  9],
              [10, 11, 12, 13, 14]])
m

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [None]:
#@markdown (1) 값 7을 인덱싱


In [None]:
#@markdown (2) 값 14을 인덱싱


In [None]:
#@markdown (3) 배열 [6,7]을 슬라이싱


In [None]:
#@markdown (4) 배열 [7,12]을 슬라이싱


In [None]:
#@markdown (5) 배열 [[3,4],[8,9]]을 슬라이싱


## 배열 인덱싱
* 대괄호(Bracket, [])안의 인덱스 정보로 숫자나 슬라이스가 아니라 위치 정보를 나타내는 또다른 `ndarray` 배열을 받을 수 있음 (인덱스 배열)
* 일종의 조건 검색 기능

### 불리언 (Boolean) 배열 인덱싱
* 인덱스 배열의 원소가 True, False 두 값으로만 구성되며 인덱스 배열의 크기가 원래 ndarray 객체의 크기와 같아야 함

In [None]:
# 짝수인 원소만 골라내고 싶다면?
# 짝수에 대응하는 곳에 True, 홀수에 대응하는 곳에 False


In [None]:
# 조건문 연산


### 정수 배열 인덱싱
* 인덱스 배열의 원소 각각이 원래 `ndarray` 객체 원소 하나를 가리키는 인덱스 정수이여야 함

* 이 때는 배열 인덱스의 크기가 원래의 배열 크기와 달라도 상관없음
* 같은 원소를 반복해서 가리키는 경우에는 배열 인덱스가 원래의 배열보다 더 커지기도 함

### 다차원 배열에서의 배열 인덱싱

## 💡 연습문제 3

In [None]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
             11, 12, 13, 14, 15, 16, 17, 18, 19, 20])

In [None]:
# (1) 3의 배수 찾기


In [None]:
# (2) 4로 나누면 1이 남는 수 찾기


In [None]:
# (3) 3로 나누면 나누어지고 4로 나누면 1이 남는 수 찾기


## 배열 검색

# Numpy 기초

## 배열(Array)
* 많은 데이터를 하나의 변수에 넣는 법? : **리스트**
* 하지만 리스트는...
    * 속도가 느리다
    * 메모리를 많이 차지한다

> 그래서? **배열(Array)**을 사용한다

* 적은 메모리로 많은 데이터를 빠르게 처리할 수 있음

## 특징
1. 모든 원소가 같은 **자료형**이어야 함
2. 원소의 갯수를 바꿀 수 없음

> 그런데 파이썬은 자체적으로 배열 자료형을 제공하지 않음<br>
> 그래서 우리는 **넘파이(Numpy)** 패키지를 import해서 사용

In [None]:
# 파이썬 pip -> 외부 패키지 관리자 (툴들, 기능들 -> 패키지 -> 불러오기)
# 파이썬은 numpy가 내장이 아니기 때문에... -> pip install numpy
# 1. anaconda -> numpy가 딸려들어옴
# 2. colab -> numpy가 이미 설치
import numpy  # import 가져오기 -> 이미 설치된 numpy라는 기능을 가져오겠다...
# 너무 자주 쓰이기 때문에 numpy라는 전체 이름을 쓰지 않고 np라는 축약어를 사용
import numpy as np  # 다른 이름을 주지 마세요
# tap 입력시 자동입력
import numpy as np
# https://www.kaggle.com/
# https://dacon.io/
# https://datascienceschool.net/intro.html
# https://www.youtube.com/c/todaycode

## 1차원 배열
* 리스트나 튜플처럼 한 줄로 이루어진 형태의 배열

In [None]:
np.array([1, 2, 3])  # 마지막에 실행된 실행문의 결과를 아래 블록에 표시 (변수명, 값, 함수들..)

array([1, 2, 3])

In [None]:
arr = np.array(range(10))
arr, type(arr)

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]), numpy.ndarray)

## ndarray
* 배열 객체 타입(자료형)
* 리스트와 동일해 보이지만 차이가 많음

|자료형|특징|
|:-|:-|
|리스트(list)|각각의 원소가 다른 자료형이 될 수 있음|
|배열(array)|연속적인 메모리 배치를 가지기 때문에 모든 원소가 같은 자료형이어야 함<br>원소에 대한 접근과 반복문 실행이 빨라짐|

In [None]:
import random

def average_python(n): # n개의 길이
    '''
    n개의 랜덤한 0~1 사이의 실수를 평균해주는 함수
    '''
    s = 0  # 총 합계
    for i in range(n):
        s += random.random()  # 총합
    return s / n  # 총합 / 갯수 => 산술 평균

# ctrl + enter => 한 개의 블록 실행 혹은 왼쪽 play button

In [None]:
%time average_python(100_000)  # %time : 시간 재기 -> 1번 실행

CPU times: user 19.3 ms, sys: 1 µs, total: 19.3 ms
Wall time: 21.1 ms


0.5011859584486454

In [None]:
%timeit average_python(100_000)  # %timeit : 시간 재기 (여러 번 실행)
# ms : 1000분의 초

12.9 ms ± 3.68 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [None]:
def average_numpy(n):
    'n개의 랜덤한 0~1 사이의 실수를 numpy를 사용해서 평균내는 함수'
    s = np.random.random(n)  # n개의 랜덤한 실수를 불러오는 numpy의 기능
    return s.mean()  # mean -> 평균 (mean, average)
# shift + enter : 현재 칸을 실행하고 다음 칸으로 넘어가기

In [None]:
%time average_numpy(100_000)  # 속도가 1/10...

CPU times: user 1.84 ms, sys: 0 ns, total: 1.84 ms
Wall time: 1.85 ms


0.5007957276398354

In [None]:
%timeit average_numpy(100_000)
# 10^3 -> 10^7 us.

916 µs ± 7.43 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [None]:
# alt + enter : 새로운 코드 블록 (윗 블록 실행)
# python 3.11 <- 리스트의 속도가 상당히 빨라졌음...
# list comprehension > numpy > list, for.

## 벡터화 연산
* 배열 객체는 **배열의 각 원소에 대한 반복 연산을 하나의 명령어로 처리**하는 벡터화 연산(vectorized operation)을 지원

In [None]:
data = list(range(10))
data

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
# alt + enter
# 리스트 객체에 정수 곱하면?
data * 2  # 모든 원소에 2배가 됩니까?
# 리스트 객체에 정수를 곱하면 객체의 크기가 해당 정수 배만큼 증가 (n >= 1 클 때)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
%%time
# %%time 전체 블록을 실행
# 여러 개의 데이터를 모두 2배 할 때 (파이썬)
answer = []
for d in data:
    answer.append(d * 2)
answer

CPU times: user 24 µs, sys: 0 ns, total: 24 µs
Wall time: 38.1 µs


[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [None]:
%%timeit
# %%time 전체 블록을 실행
# 여러 개의 데이터를 모두 2배 할 때 (파이썬)
answer = []
for d in data:
    answer.append(d * 2)
answer

937 ns ± 310 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [None]:
%%time
# 리스트 컴프리헨션
[d * 2 for d in data]

CPU times: user 8 µs, sys: 0 ns, total: 8 µs
Wall time: 11 µs


[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [None]:
%%timeit
# 리스트 컴프리헨션
[d * 2 for d in data]

595 ns ± 6.57 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [None]:
# 벡터화 연산
arr = np.array(data)  # 시퀀스 형태의 데이터를 np.array -> numpy 배열
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
%time arr * 2  # 배열

CPU times: user 0 ns, sys: 43 µs, total: 43 µs
Wall time: 47.2 µs


array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [None]:
%timeit arr * 2  # 배열

1.34 µs ± 414 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [None]:
# 3.9 버전까지는 웬만하면 numpy 압살 -> 3.10 (리스트 속도 개선을 위한 작업) -> 속도는 비슷.

In [None]:
# 리스트 객체에 정수를 곱하면 객체의 크기가 해당 정수 배만큼 증가
data * 3  # repeat

[0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9]

* 벡터화 연산은 비교 연산과 논리 연산을 포함한 모든 종류의 수학 연산에 대해 적용

In [None]:
a = np.array(range(1, 4))
b = np.array(range(10, 40, 10))
a, b

(array([1, 2, 3]), array([10, 20, 30]))

In [None]:
a * 10

array([10, 20, 30])

In [None]:
a * 2 + b  # 벡터화 연산을 통한 산술연산

array([12, 24, 36])

In [None]:
a ** 2, b ** 0.5

(array([1, 4, 9]), array([3.16227766, 4.47213595, 5.47722558]))

In [None]:
a == 2, b > 10, b <= 10  # 비교 연산

(array([False,  True, False]),
 array([False,  True,  True]),
 array([ True, False, False]))

In [None]:
# & : and
'''
(array([False,  True, False]),
 array([False,  True,  True])
'''
(a == 2) & (b > 10), (a == 2) | (b > 10)
# 논리 연산

(array([False,  True, False]), array([False,  True,  True]))

## 2차원 배열
* `ndarray`는 N-dimensional Array의 약자, 즉 1차원 배열 이외에도 2차원 배열, 3차원 배열 등의 다차원 배열 자료 구조를 지원
* 2차원 배열 = 행렬 (matrix)
* 가로줄 : 행(row), 세로줄 : 열(column)
> 엑셀 스프레드시트와 같은 형태의 배열

* 리스트의 리스트(list of list)를 이용하여 2차원 배열 생성
    * 안쪽 리스트의 길이 : 행렬의 열의 수 (가로 크기)
    * 바깥쪽 리스트의 길이 : 행렬의 행의 수 (세로 크기)

In [None]:
# 행의 갯수, 열의 갯수


## 💡 연습문제 1
> 아래 모양의 행렬 만들어 보기
```
10 20 30 40
50 60 70 80
```

## 3차원 배열

In [None]:
# 크기를 나타낼 때는 가장 바깥쪽 리스트의 길이부터 가장 안쪽 리스트 길이의 순서로 표시


In [None]:
# 깊이, 행, 열


## 배열의 차원과 크기 알아내기
* `ndim`, `shape` **속성** 사용
> 속성 : 괄호 없이 이름만 써서 값을 호출

* `ndim` : 배열의 차원
* `shape` : 배열의 크기

## 배열의 복사
* copy와 view의 차이점은 copy는 새 배열(깊은 복사)이고 view는 원래 배열과 연결 되어 있다는 것(얕은 복사)
* copy는 데이터를 소유하며 copy에 대한 변경 사항은 원본 배열에 영향을 미치지 않으며 원본 배열에 대한 변경은 copy에 영향을 주지 않음
* view는 데이터를 소유하지 않으며 view에 대한 모든 변경 사항은 원래 배열에 영향을 미치고 원래 배열에 대한 모든 변경 사항은 보기에 영향을 줌

## 배열의 인덱싱

### 일차원 배열
* 리스트의 인덱싱과 같음

### 다차원 배열
* 콤마(comma, `,`)를 사용하여 접근
* 콤마로 구분된 차원을 축(axis)라고 함
    * like 그래프의 x축, y축

## 배열 슬라이싱
* 다차원 배열의 원소 중 2개 이상의 복수 개를 접근하려면 일반적인 파이썬 슬라이싱(slicing)과 comma(,)를 함께 사용

## 💡 연습문제 2

In [None]:
m = np.array([[0,  1,  2,  3,  4],
              [5,  6,  7,  8,  9],
              [10, 11, 12, 13, 14]])
m

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [None]:
#@markdown (1) 값 7을 인덱싱


In [None]:
#@markdown (2) 값 14을 인덱싱


In [None]:
#@markdown (3) 배열 [6,7]을 슬라이싱


In [None]:
#@markdown (4) 배열 [7,12]을 슬라이싱


In [None]:
#@markdown (5) 배열 [[3,4],[8,9]]을 슬라이싱


## 배열 인덱싱
* 대괄호(Bracket, [])안의 인덱스 정보로 숫자나 슬라이스가 아니라 위치 정보를 나타내는 또다른 `ndarray` 배열을 받을 수 있음 (인덱스 배열)
* 일종의 조건 검색 기능

### 불리언 (Boolean) 배열 인덱싱
* 인덱스 배열의 원소가 True, False 두 값으로만 구성되며 인덱스 배열의 크기가 원래 ndarray 객체의 크기와 같아야 함

In [None]:
# 짝수인 원소만 골라내고 싶다면?
# 짝수에 대응하는 곳에 True, 홀수에 대응하는 곳에 False


In [None]:
# 조건문 연산


### 정수 배열 인덱싱
* 인덱스 배열의 원소 각각이 원래 `ndarray` 객체 원소 하나를 가리키는 인덱스 정수이여야 함

* 이 때는 배열 인덱스의 크기가 원래의 배열 크기와 달라도 상관없음
* 같은 원소를 반복해서 가리키는 경우에는 배열 인덱스가 원래의 배열보다 더 커지기도 함

### 다차원 배열에서의 배열 인덱싱

## 💡 연습문제 3

In [None]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
             11, 12, 13, 14, 15, 16, 17, 18, 19, 20])

In [None]:
# (1) 3의 배수 찾기


In [None]:
# (2) 4로 나누면 1이 남는 수 찾기


In [None]:
# (3) 3로 나누면 나누어지고 4로 나누면 1이 남는 수 찾기


## 배열 검색

# Numpy 기초

## 배열(Array)
* 많은 데이터를 하나의 변수에 넣는 법? : **리스트**
* 하지만 리스트는...
    * 속도가 느리다
    * 메모리를 많이 차지한다

> 그래서? **배열(Array)**을 사용한다

* 적은 메모리로 많은 데이터를 빠르게 처리할 수 있음

## 특징
1. 모든 원소가 같은 **자료형**이어야 함
2. 원소의 갯수를 바꿀 수 없음

> 그런데 파이썬은 자체적으로 배열 자료형을 제공하지 않음<br>
> 그래서 우리는 **넘파이(Numpy)** 패키지를 import해서 사용

In [None]:
# 파이썬 pip -> 외부 패키지 관리자 (툴들, 기능들 -> 패키지 -> 불러오기)
# 파이썬은 numpy가 내장이 아니기 때문에... -> pip install numpy
# 1. anaconda -> numpy가 딸려들어옴
# 2. colab -> numpy가 이미 설치
import numpy  # import 가져오기 -> 이미 설치된 numpy라는 기능을 가져오겠다...
# 너무 자주 쓰이기 때문에 numpy라는 전체 이름을 쓰지 않고 np라는 축약어를 사용
import numpy as np  # 다른 이름을 주지 마세요
# tap 입력시 자동입력
import numpy as np
# https://www.kaggle.com/
# https://dacon.io/
# https://datascienceschool.net/intro.html
# https://www.youtube.com/c/todaycode

## 1차원 배열
* 리스트나 튜플처럼 한 줄로 이루어진 형태의 배열

In [None]:
np.array([1, 2, 3])  # 마지막에 실행된 실행문의 결과를 아래 블록에 표시 (변수명, 값, 함수들..)

array([1, 2, 3])

In [None]:
arr = np.array(range(10))
arr, type(arr)

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]), numpy.ndarray)

## ndarray
* 배열 객체 타입(자료형)
* 리스트와 동일해 보이지만 차이가 많음

|자료형|특징|
|:-|:-|
|리스트(list)|각각의 원소가 다른 자료형이 될 수 있음|
|배열(array)|연속적인 메모리 배치를 가지기 때문에 모든 원소가 같은 자료형이어야 함<br>원소에 대한 접근과 반복문 실행이 빨라짐|

In [None]:
import random

def average_python(n): # n개의 길이
    '''
    n개의 랜덤한 0~1 사이의 실수를 평균해주는 함수
    '''
    s = 0  # 총 합계
    for i in range(n):
        s += random.random()  # 총합
    return s / n  # 총합 / 갯수 => 산술 평균

# ctrl + enter => 한 개의 블록 실행 혹은 왼쪽 play button

In [None]:
%time average_python(100_000)  # %time : 시간 재기 -> 1번 실행

CPU times: user 19.4 ms, sys: 3 µs, total: 19.4 ms
Wall time: 26.3 ms


0.5001143402163701

In [None]:
%timeit average_python(100_000)  # %timeit : 시간 재기 (여러 번 실행)
# ms : 1000분의 초

13.6 ms ± 5.65 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [None]:
def average_numpy(n):
    'n개의 랜덤한 0~1 사이의 실수를 numpy를 사용해서 평균내는 함수'
    s = np.random.random(n)  # n개의 랜덤한 실수를 불러오는 numpy의 기능
    return s.mean()  # mean -> 평균 (mean, average)
# shift + enter : 현재 칸을 실행하고 다음 칸으로 넘어가기

In [None]:
%time average_numpy(100_000)  # 속도가 1/10...

CPU times: user 2.95 ms, sys: 0 ns, total: 2.95 ms
Wall time: 1.78 ms


0.4993516964380556

In [None]:
%timeit average_numpy(100_000)
# 10^3 -> 10^7 us.

973 µs ± 64.4 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [None]:
# alt + enter : 새로운 코드 블록 (윗 블록 실행)
# python 3.11 <- 리스트의 속도가 상당히 빨라졌음...
# list comprehension > numpy > list, for.

## 벡터화 연산
* 배열 객체는 **배열의 각 원소에 대한 반복 연산을 하나의 명령어로 처리**하는 벡터화 연산(vectorized operation)을 지원

In [None]:
data = list(range(10))
data

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
# alt + enter
# 리스트 객체에 정수 곱하면?
data * 2  # 모든 원소에 2배가 됩니까?
# 리스트 객체에 정수를 곱하면 객체의 크기가 해당 정수 배만큼 증가 (n >= 1 클 때)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
%%time
# %%time 전체 블록을 실행
# 여러 개의 데이터를 모두 2배 할 때 (파이썬)
answer = []
for d in data:
    answer.append(d * 2)
answer

CPU times: user 24 µs, sys: 0 ns, total: 24 µs
Wall time: 28.1 µs


[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [None]:
%%timeit
# %%time 전체 블록을 실행
# 여러 개의 데이터를 모두 2배 할 때 (파이썬)
answer = []
for d in data:
    answer.append(d * 2)
answer

816 ns ± 161 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [None]:
%%time
# 리스트 컴프리헨션
[d * 2 for d in data]

CPU times: user 8 µs, sys: 0 ns, total: 8 µs
Wall time: 12.2 µs


[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [None]:
%%timeit
# 리스트 컴프리헨션
[d * 2 for d in data]

617 ns ± 6.25 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [None]:
# 벡터화 연산
arr = np.array(data)  # 시퀀스 형태의 데이터를 np.array -> numpy 배열
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
%time arr * 2  # 배열

CPU times: user 57 µs, sys: 0 ns, total: 57 µs
Wall time: 58.9 µs


array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [None]:
%timeit arr * 2  # 배열

1.16 µs ± 106 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [None]:
# 3.9 버전까지는 웬만하면 numpy 압살 -> 3.10 (리스트 속도 개선을 위한 작업) -> 속도는 비슷.

In [None]:
# 리스트 객체에 정수를 곱하면 객체의 크기가 해당 정수 배만큼 증가
data * 3  # repeat

[0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9]

* 벡터화 연산은 비교 연산과 논리 연산을 포함한 모든 종류의 수학 연산에 대해 적용

In [None]:
a = np.array(range(1, 4))
b = np.array(range(10, 40, 10))
a, b

(array([1, 2, 3]), array([10, 20, 30]))

In [None]:
a * 10

array([10, 20, 30])

In [None]:
a * 2 + b  # 벡터화 연산을 통한 산술연산

array([12, 24, 36])

In [None]:
a ** 2, b ** 0.5

(array([1, 4, 9]), array([3.16227766, 4.47213595, 5.47722558]))

In [None]:
a == 2, b > 10, b <= 10  # 비교 연산

(array([False,  True, False]),
 array([False,  True,  True]),
 array([ True, False, False]))

In [None]:
# & : and
'''
(array([False,  True, False]),
 array([False,  True,  True])
'''
(a == 2) & (b > 10), (a == 2) | (b > 10)
# 논리 연산

(array([False,  True, False]), array([False,  True,  True]))

## 2차원 배열
* `ndarray`는 N-dimensional Array의 약자, 즉 1차원 배열 이외에도 2차원 배열, 3차원 배열 등의 다차원 배열 자료 구조를 지원
* 2차원 배열 = 행렬 (matrix)
* 가로줄 : 행(row), 세로줄 : 열(column)
> 엑셀 스프레드시트와 같은 형태의 배열

* 리스트의 리스트(list of list)를 이용하여 2차원 배열 생성
    * 안쪽 리스트의 길이 : 행렬의 열의 수 (가로 크기)
    * 바깥쪽 리스트의 길이 : 행렬의 행의 수 (세로 크기)

In [None]:
arr = np.array([[0,1,2], [3,4,5]])
arr

array([[0, 1, 2],
       [3, 4, 5]])

In [None]:
# 행의 갯수, 열의 갯수
len(arr), len(arr[0]), len(arr[1])

(2, 3, 3)

## 💡 연습문제 1
> 아래 모양의 행렬 만들어 보기
```
10 20 30 40
50 60 70 80
```

In [None]:
array = np.array([[10,20,30,40],[50,60,70,80]])
print(array)

[[10 20 30 40]
 [50 60 70 80]]


In [None]:
np.array([[(a*4 + (b+1))*10 for b in range(4)] for a in range(3)])

array([[ 10,  20,  30,  40],
       [ 50,  60,  70,  80],
       [ 90, 100, 110, 120]])

## 3차원 배열

In [None]:
# alt + shift + d + 방향키 > 복사
# alt 방향키 > 이동(블록범위)
# 크기를 나타낼 때는 가장 바깥쪽 리스트의 길이부터 가장 안쪽 리스트 길이의 순서로 표시
t = np.array(
    [
        [
            [1,2,3,4],
            [5,6,7,8],
            [9,10,11,12],
        ],
        [
            [11,12,13,14],
            [15,16,17,18],
            [19,20,21,22],
        ],
    ]
)
t

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[11, 12, 13, 14],
        [15, 16, 17, 18],
        [19, 20, 21, 22]]])

In [None]:
# 깊이, 행, 열
len(t), len(t[0]), len(t[0][0])

(2, 3, 4)

## 배열의 차원과 크기 알아내기
* `ndim`, `shape` **속성** 사용
> 속성 : 괄호 없이 이름만 써서 값을 호출

* `ndim` : 배열의 차원
* `shape` : 배열의 크기

In [None]:
a = np.array(range(1, 4))
a.ndim, a.shape

(1, (3,))

In [None]:
m = np.array((range(3), range(3, 6)))  # 3개 3개.
m

array([[0, 1, 2],
       [3, 4, 5]])

In [None]:
m.ndim, m.shape


(2, (2, 3))

## 배열의 복사
* copy와 view의 차이점은 copy는 새 배열(깊은 복사)이고 view는 원래 배열과 연결 되어 있다는 것(얕은 복사)
* copy는 데이터를 소유하며 copy에 대한 변경 사항은 원본 배열에 영향을 미치지 않으며 원본 배열에 대한 변경은 copy에 영향을 주지 않음
* view는 데이터를 소유하지 않으며 view에 대한 모든 변경 사항은 원래 배열에 영향을 미치고 원래 배열에 대한 모든 변경 사항은 보기에 영향을 줌

## 배열의 인덱싱

### 일차원 배열
* 리스트의 인덱싱과 같음

### 다차원 배열
* 콤마(comma, `,`)를 사용하여 접근
* 콤마로 구분된 차원을 축(axis)라고 함
    * like 그래프의 x축, y축

## 배열 슬라이싱
* 다차원 배열의 원소 중 2개 이상의 복수 개를 접근하려면 일반적인 파이썬 슬라이싱(slicing)과 comma(,)를 함께 사용

## 💡 연습문제 2

In [None]:
m = np.array([[0,  1,  2,  3,  4],
              [5,  6,  7,  8,  9],
              [10, 11, 12, 13, 14]])
m

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [None]:
#@markdown (1) 값 7을 인덱싱


In [None]:
#@markdown (2) 값 14을 인덱싱


In [None]:
#@markdown (3) 배열 [6,7]을 슬라이싱


In [None]:
#@markdown (4) 배열 [7,12]을 슬라이싱


In [None]:
#@markdown (5) 배열 [[3,4],[8,9]]을 슬라이싱


## 배열 인덱싱
* 대괄호(Bracket, [])안의 인덱스 정보로 숫자나 슬라이스가 아니라 위치 정보를 나타내는 또다른 `ndarray` 배열을 받을 수 있음 (인덱스 배열)
* 일종의 조건 검색 기능

### 불리언 (Boolean) 배열 인덱싱
* 인덱스 배열의 원소가 True, False 두 값으로만 구성되며 인덱스 배열의 크기가 원래 ndarray 객체의 크기와 같아야 함

In [None]:
# 짝수인 원소만 골라내고 싶다면?
# 짝수에 대응하는 곳에 True, 홀수에 대응하는 곳에 False


In [None]:
# 조건문 연산


### 정수 배열 인덱싱
* 인덱스 배열의 원소 각각이 원래 `ndarray` 객체 원소 하나를 가리키는 인덱스 정수이여야 함

* 이 때는 배열 인덱스의 크기가 원래의 배열 크기와 달라도 상관없음
* 같은 원소를 반복해서 가리키는 경우에는 배열 인덱스가 원래의 배열보다 더 커지기도 함

### 다차원 배열에서의 배열 인덱싱

## 💡 연습문제 3

In [None]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
             11, 12, 13, 14, 15, 16, 17, 18, 19, 20])

In [None]:
# (1) 3의 배수 찾기


In [None]:
# (2) 4로 나누면 1이 남는 수 찾기


In [None]:
# (3) 3로 나누면 나누어지고 4로 나누면 1이 남는 수 찾기


## 배열 검색

# Numpy 기초

## 배열(Array)
* 많은 데이터를 하나의 변수에 넣는 법? : **리스트**
* 하지만 리스트는...
    * 속도가 느리다
    * 메모리를 많이 차지한다

> 그래서? **배열(Array)**을 사용한다

* 적은 메모리로 많은 데이터를 빠르게 처리할 수 있음

## 특징
1. 모든 원소가 같은 **자료형**이어야 함
2. 원소의 갯수를 바꿀 수 없음

> 그런데 파이썬은 자체적으로 배열 자료형을 제공하지 않음<br>
> 그래서 우리는 **넘파이(Numpy)** 패키지를 import해서 사용

In [None]:
# 파이썬 pip -> 외부 패키지 관리자 (툴들, 기능들 -> 패키지 -> 불러오기)
# 파이썬은 numpy가 내장이 아니기 때문에... -> pip install numpy
# 1. anaconda -> numpy가 딸려들어옴
# 2. colab -> numpy가 이미 설치
import numpy  # import 가져오기 -> 이미 설치된 numpy라는 기능을 가져오겠다...
# 너무 자주 쓰이기 때문에 numpy라는 전체 이름을 쓰지 않고 np라는 축약어를 사용
import numpy as np  # 다른 이름을 주지 마세요
# tap 입력시 자동입력
import numpy as np
# https://www.kaggle.com/
# https://dacon.io/
# https://datascienceschool.net/intro.html
# https://www.youtube.com/c/todaycode

## 1차원 배열
* 리스트나 튜플처럼 한 줄로 이루어진 형태의 배열

In [None]:
np.array([1, 2, 3])  # 마지막에 실행된 실행문의 결과를 아래 블록에 표시 (변수명, 값, 함수들..)

array([1, 2, 3])

In [None]:
arr = np.array(range(10))
arr, type(arr)

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]), numpy.ndarray)

## ndarray
* 배열 객체 타입(자료형)
* 리스트와 동일해 보이지만 차이가 많음

|자료형|특징|
|:-|:-|
|리스트(list)|각각의 원소가 다른 자료형이 될 수 있음|
|배열(array)|연속적인 메모리 배치를 가지기 때문에 모든 원소가 같은 자료형이어야 함<br>원소에 대한 접근과 반복문 실행이 빨라짐|

In [None]:
import random

def average_python(n): # n개의 길이
    '''
    n개의 랜덤한 0~1 사이의 실수를 평균해주는 함수
    '''
    s = 0  # 총 합계
    for i in range(n):
        s += random.random()  # 총합
    return s / n  # 총합 / 갯수 => 산술 평균

# ctrl + enter => 한 개의 블록 실행 혹은 왼쪽 play button

In [None]:
%time average_python(100_000)  # %time : 시간 재기 -> 1번 실행

CPU times: user 19.3 ms, sys: 0 ns, total: 19.3 ms
Wall time: 28 ms


0.5010152055658965

In [None]:
%timeit average_python(100_000)  # %timeit : 시간 재기 (여러 번 실행)
# ms : 1000분의 초

13.3 ms ± 3.84 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [None]:
def average_numpy(n):
    'n개의 랜덤한 0~1 사이의 실수를 numpy를 사용해서 평균내는 함수'
    s = np.random.random(n)  # n개의 랜덤한 실수를 불러오는 numpy의 기능
    return s.mean()  # mean -> 평균 (mean, average)
# shift + enter : 현재 칸을 실행하고 다음 칸으로 넘어가기

In [None]:
%time average_numpy(100_000)  # 속도가 1/10...

CPU times: user 1.71 ms, sys: 0 ns, total: 1.71 ms
Wall time: 1.94 ms


0.49920728083016597

In [None]:
%timeit average_numpy(100_000)
# 10^3 -> 10^7 us.

1.14 ms ± 292 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [None]:
# alt + enter : 새로운 코드 블록 (윗 블록 실행)
# python 3.11 <- 리스트의 속도가 상당히 빨라졌음...
# list comprehension > numpy > list, for.

## 벡터화 연산
* 배열 객체는 **배열의 각 원소에 대한 반복 연산을 하나의 명령어로 처리**하는 벡터화 연산(vectorized operation)을 지원

In [None]:
data = list(range(10))
data

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
# alt + enter
# 리스트 객체에 정수 곱하면?
data * 2  # 모든 원소에 2배가 됩니까?
# 리스트 객체에 정수를 곱하면 객체의 크기가 해당 정수 배만큼 증가 (n >= 1 클 때)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
%%time
# %%time 전체 블록을 실행
# 여러 개의 데이터를 모두 2배 할 때 (파이썬)
answer = []
for d in data:
    answer.append(d * 2)
answer

CPU times: user 25 µs, sys: 0 ns, total: 25 µs
Wall time: 28.8 µs


[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [None]:
%%timeit
# %%time 전체 블록을 실행
# 여러 개의 데이터를 모두 2배 할 때 (파이썬)
answer = []
for d in data:
    answer.append(d * 2)
answer

746 ns ± 16.4 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [None]:
%%time
# 리스트 컴프리헨션
[d * 2 for d in data]

CPU times: user 7 µs, sys: 0 ns, total: 7 µs
Wall time: 10.5 µs


[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [None]:
%%timeit
# 리스트 컴프리헨션
[d * 2 for d in data]

805 ns ± 258 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [None]:
# 벡터화 연산
arr = np.array(data)  # 시퀀스 형태의 데이터를 np.array -> numpy 배열
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
%time arr * 2  # 배열

CPU times: user 36 µs, sys: 1e+03 ns, total: 37 µs
Wall time: 39.1 µs


array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [None]:
%timeit arr * 2  # 배열

1.22 µs ± 194 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [None]:
# 3.9 버전까지는 웬만하면 numpy 압살 -> 3.10 (리스트 속도 개선을 위한 작업) -> 속도는 비슷.

In [None]:
# 리스트 객체에 정수를 곱하면 객체의 크기가 해당 정수 배만큼 증가
data * 3  # repeat

[0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9]

* 벡터화 연산은 비교 연산과 논리 연산을 포함한 모든 종류의 수학 연산에 대해 적용

In [None]:
a = np.array(range(1, 4))
b = np.array(range(10, 40, 10))
a, b

(array([1, 2, 3]), array([10, 20, 30]))

In [None]:
a * 10

array([10, 20, 30])

In [None]:
a * 2 + b  # 벡터화 연산을 통한 산술연산

array([12, 24, 36])

In [None]:
a ** 2, b ** 0.5

(array([1, 4, 9]), array([3.16227766, 4.47213595, 5.47722558]))

In [None]:
a == 2, b > 10, b <= 10  # 비교 연산

(array([False,  True, False]),
 array([False,  True,  True]),
 array([ True, False, False]))

In [None]:
a = np.array(range(1, 4))
b = np.array(range(10, 40, 10))
# & : and
'''
(array([False,  True, False]),
 array([False,  True,  True])
'''
(a == 2) & (b > 10), (a == 2) | (b > 10)
# 논리 연산

(array([False,  True, False]), array([False,  True,  True]))

## 2차원 배열
* `ndarray`는 N-dimensional Array의 약자, 즉 1차원 배열 이외에도 2차원 배열, 3차원 배열 등의 다차원 배열 자료 구조를 지원
* 2차원 배열 = 행렬 (matrix)
* 가로줄 : 행(row), 세로줄 : 열(column)
> 엑셀 스프레드시트와 같은 형태의 배열

* 리스트의 리스트(list of list)를 이용하여 2차원 배열 생성
    * 안쪽 리스트의 길이 : 행렬의 열의 수 (가로 크기)
    * 바깥쪽 리스트의 길이 : 행렬의 행의 수 (세로 크기)

In [None]:
arr = np.array([[0, 1, 2], [3, 4, 5]])
arr

array([[0, 1, 2],
       [3, 4, 5]])

In [None]:
# 행의 갯수, 열의 갯수
len(arr), len(arr[0]), len(arr[1])

(2, 3, 3)

https://shareg.pt/Veo0aTL

## 💡 연습문제 1
> 아래 모양의 행렬 만들어 보기
```
10 20 30 40
50 60 70 80
```

In [None]:
# 2행, 3열 크기를 가지는 2차원 배열, 행렬.
np.array([
    [10, 20, 30, 40],  # 1행
    [50, 60, 70, 80],  # 2행
])

array([[10, 20, 30, 40],
       [50, 60, 70, 80]])

In [None]:
np.array([
    [1, 2, 3, 4],  # 1행
    [5, 6, 7, 8],  # 2행
]) * 10

array([[10, 20, 30, 40],
       [50, 60, 70, 80]])

In [None]:
# https://sharegpt.com/c/PMXQXr3
np.array([[(a * 4 + (b + 1)) * 10 for b in range(4)] for a in range(2)])

array([[10, 20, 30, 40],
       [50, 60, 70, 80]])

## 3차원 배열

In [None]:
# 크기를 나타낼 때는 가장 바깥쪽 리스트의 길이부터 가장 안쪽 리스트 길이의 순서로 표시
# m : matrix (2차원 배열, 행렬)
# t : three-dimention
t = np.array(
    [
        [
            [1, 2, 3, 4],
            [5, 6, 7, 8],
            [9, 10, 11, 12],
        ],
        [
            [11, 12, 13, 14],
            [15, 16, 17, 18],
            [19, 20, 21, 22],  # 4개
        ],  # 3개
    ]  # 가장 밖 리스트 -> 요소 2개
)
t

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[11, 12, 13, 14],
        [15, 16, 17, 18],
        [19, 20, 21, 22]]])

In [None]:
# 깊이, 행, 열
len(t), len(t[0]), len(t[0][0])

(2, 3, 4)

## 배열의 차원과 크기 알아내기
* `ndim`, `shape` **속성** 사용
> 속성 : 괄호 없이 이름만 써서 값을 호출

* `ndim` : 배열의 차원
* `shape` : 배열의 크기

https://sharegpt.com/c/KzM7tLs

In [None]:
a = np.array(range(1, 4))
a

array([1, 2, 3])

In [None]:
a.ndim, a.shape

(1, (3,))

In [None]:
m = np.array((range(3), range(3, 6)))  # 3개 3개.
m

array([[0, 1, 2],
       [3, 4, 5]])

In [None]:
m.ndim, m.shape

(2, (2, 3))

In [None]:
t.ndim, t.shape

(3, (2, 3, 4))

## 배열의 복사
* copy와 view의 차이점은 copy는 새 배열(깊은 복사)이고 view는 원래 배열과 연결 되어 있다는 것(얕은 복사)
* copy는 데이터를 소유하며 copy에 대한 변경 사항은 원본 배열에 영향을 미치지 않으며 원본 배열에 대한 변경은 copy에 영향을 주지 않음
* view는 데이터를 소유하지 않으며 view에 대한 모든 변경 사항은 원래 배열에 영향을 미치고 원래 배열에 대한 모든 변경 사항은 보기에 영향을 줌

In [None]:
arr = np.array(range(1, 6))
arr2 = arr  # 복사 -> 할당/대입
arr[0] = 40
arr, arr2

(array([40,  2,  3,  4,  5]), array([40,  2,  3,  4,  5]))

In [None]:
arr = np.array(range(1, 6))
arr2 = arr.view()  # 읽기 전용의 사본 (일부러 원본과 연결된 사본)
arr[0] = 40
arr, arr2

(array([40,  2,  3,  4,  5]), array([40,  2,  3,  4,  5]))

In [None]:
arr = np.array(range(1, 6))
arr2 = arr.copy()  # 얕은 복사 x <- 깊은 복사.
arr[0] = 40
arr, arr2

(array([40,  2,  3,  4,  5]), array([1, 2, 3, 4, 5]))

In [None]:
arr3 = np.array([arr, arr])  # np.array로 만들어지면서 완전하 사본
arr4 = arr3.copy()
arr3, arr4

(array([[40,  2,  3,  4,  5],
        [40,  2,  3,  4,  5]]),
 array([[40,  2,  3,  4,  5],
        [40,  2,  3,  4,  5]]))

In [None]:
arr[0] = 41
arr4[0] = 43
arr3, arr4

(array([[40,  2,  3,  4,  5],
        [40,  2,  3,  4,  5]]),
 array([[43, 43, 43, 43, 43],
        [40,  2,  3,  4,  5]]))

## 배열의 인덱싱

### 일차원 배열
* 리스트의 인덱싱과 같음

In [None]:
a = np.array(range(5))
print(a)  # 1차원 배열
a[0], a[2], a[-1], a[len(a)-1]

[0 1 2 3 4]


(0, 2, 4, 4)

### 다차원 배열
* 콤마(comma, `,`)를 사용하여 접근
* 콤마로 구분된 차원을 축(axis)라고 함
    * like 그래프의 x축, y축

In [None]:
b = np.array([range(3), range(3, 6)])
b, b.ndim, b.shape

(array([[0, 1, 2],
        [3, 4, 5]]),
 2,
 (2, 3))

In [None]:
# b[0][0]  # 첫번째 행의 첫번째 열
b[0, 0]

0

In [None]:
# 첫번째 행의 두번째 열
b[0, 1]

1

In [None]:
# 마지막 행의 마지막 열
b[-1, -1]

5

## 배열 슬라이싱
* 다차원 배열의 원소 중 2개 이상의 복수 개를 접근하려면 일반적인 파이썬 슬라이싱(slicing)과 comma(,)를 함께 사용

In [None]:
a = np.array([range(4), range(4, 8)])
a

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [None]:
# a[0]  # 첫번째 행의 전체 열
a[0], a[0,:]

(array([0, 1, 2, 3]), array([0, 1, 2, 3]))

In [None]:
# 두 번째 '열'의 모든 행 (모든 행의 두 번째 열)
a[:,1]

array([1, 5])

In [None]:
a[1,1:]

array([5, 6, 7])

In [740]:
#첫행에서 두번째 행, 첫열에서 두번째열
a[:2,:2]

array([[0, 1],
       [4, 5]])

## 💡 연습문제 2

In [741]:
m = np.array([[0,  1,  2,  3,  4],
              [5,  6,  7,  8,  9],
              [10, 11, 12, 13, 14]])
m

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [742]:
#@markdown (1) 값 7을 인덱싱
m[1][2], m[1, 2], m[1, -3], m[-2, 2], m[-2, -3]

(7, 7, 7, 7, 7)

In [743]:
#@markdown (2) 값 14을 인덱싱
m[2, 4], m[2, -1], m[-1, 4], m[-1, -1]

(14, 14, 14, 14)

In [744]:
#@markdown (3) 배열 [6,7]을 슬라이싱
m[1, 1:3], m[-2, 1:3], m[1, -4:-2], m[-2, -4:-2]  # 같은 행에서 열을 인덱스

(array([6, 7]), array([6, 7]), array([6, 7]), array([6, 7]))

In [745]:
#@markdown (4) 배열 [7,12]을 슬라이싱
# 같은 열 -> 행을.
m[1:, 2], m[-2:, 2], m[1:, -3], m[-2:, -3]

(array([ 7, 12]), array([ 7, 12]), array([ 7, 12]), array([ 7, 12]))

In [746]:
#@markdown (5) 배열 [[3,4],[8,9]]을 슬라이싱
print(m[:2,3:])
print(m[:-1,3:])
print(m[:2,-2:])
print(m[:-1,-2:])

[[3 4]
 [8 9]]
[[3 4]
 [8 9]]
[[3 4]
 [8 9]]
[[3 4]
 [8 9]]


## 배열 인덱싱
* 대괄호(Bracket, [])안의 인덱스 정보로 숫자나 슬라이스가 아니라 위치 정보를 나타내는 또다른 `ndarray` 배열을 받을 수 있음 (인덱스 배열)
* 일종의 조건 검색 기능

### 불리언 (Boolean) 배열 인덱싱
* 인덱스 배열의 원소가 True, False 두 값으로만 구성되며 인덱스 배열의 크기가 원래 ndarray 객체의 크기와 같아야 함

In [747]:
# 0~8 사이의 (끝포함) 짝수만 가진 배열
a1 = np.array(range(0, 9, 2))
# a2 = np.array([i for i in range(0, 9) if i % 2 == 0])
a2 = np.array([i for i in range(0, 9) if not i % 2])
a3 = np.array(range(9))[::2]  # 배열 슬라이싱도 증가폭이 된다
a1, a2, a3

(array([0, 2, 4, 6, 8]), array([0, 2, 4, 6, 8]), array([0, 2, 4, 6, 8]))

In [748]:
# 짝수인 원소만 골라내고 싶다면?
# 짝수에 대응하는 곳에 True, 홀수에 대응하는 곳에 False
a = np.array(range(10))
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [749]:
# idx = np.array([True, False, True, False, True, False, True, False, True, False])
idx = np.array([i % 2 == 0 for i in range(10)])
idx

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

In [750]:
a[idx]  # 내가 보기를 원하는 곳만 True를 넣어놓은 배열을 [] 안에 넣으니까...
# 필터링

array([0, 2, 4, 6, 8])

In [751]:
# 조건문 연산
a%2

array([0, 1, 0, 1, 0, 1, 0, 1, 0, 1])

In [752]:
a % 2 == 0  # 불리언 인덱스 배열 <- 비교 연산

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

In [753]:
a[a % 2 == 0]

array([0, 2, 4, 6, 8])

In [754]:
a[a % 3 == 0], a[a % 3 != 0], a[a // 2 == 1]

(array([0, 3, 6, 9]), array([1, 2, 4, 5, 7, 8]), array([2, 3]))

### 정수 배열 인덱싱
* 인덱스 배열의 원소 각각이 원래 `ndarray` 객체 원소 하나를 가리키는 인덱스 정수이여야 함

In [756]:
a = np.array(range(1, 10)) * 11
a

array([11, 22, 33, 44, 55, 66, 77, 88, 99])

In [755]:
# 0, 2, 4, 6, 8 -> 인덱스
idx = np.array([0, 2, 4, 6, 8])
a[idx]

array([0, 2, 4, 6, 8])

* 이 때는 배열 인덱스의 크기가 원래의 배열 크기와 달라도 상관없음
* 같은 원소를 반복해서 가리키는 경우에는 배열 인덱스가 원래의 배열보다 더 커지기도 함

In [None]:
idx = np.array([0] * 6 + [1] * 5 + [2] * 5)
print(idx)
a[idx]  # 해당 인덱스가 반복해서 등장

array([11, 11, 11, 11, 11, 11, 22, 22, 22, 22, 22, 33, 33, 33, 33, 33])

### 다차원 배열에서의 배열 인덱싱

In [757]:
a = np.array([range(1,5), range(5,9), range(9,13)])
a, a.ndim, a.shape

(array([[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]]),
 2,
 (3, 4))

In [758]:
print(a[:,[0,3]])
print(a[:,[3,0]])
print(a[:,[0,3]])

[[ 1  4]
 [ 5  8]
 [ 9 12]]
[[ 4  1]
 [ 8  5]
 [12  9]]
[[ 1  4]
 [ 5  8]
 [ 9 12]]


In [759]:
a[[2, 0, 1],:]

array([[ 9, 10, 11, 12],
       [ 1,  2,  3,  4],
       [ 5,  6,  7,  8]])

## 💡 연습문제 3

In [760]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
             11, 12, 13, 14, 15, 16, 17, 18, 19, 20])

In [761]:
# (1) 3의 배수 찾기
x[x % 3 == 0]
# x[x % 3 != 0]

array([ 3,  6,  9, 12, 15, 18])

In [762]:
# (2) 4로 나누면 1이 남는 수 찾기
x[x % 4 == 1]
# x[x // 4 == 1]

array([ 1,  5,  9, 13, 17])

In [763]:
# (3) 3로 나누면 나누어지고 4로 나누면 1이 남는 수 찾기
x[(x % 3 == 0) & (x % 4 == 1)]
# x[(x % 3 == 0) | (x % 4 == 1)]

array([9])

## 배열 검색

In [764]:
arr = np.array([1, 2, 3, 4, 5, 4, 4])
arr

array([1, 2, 3, 4, 5, 4, 4])

In [765]:
# np.where(배열 비교/논리 연산) -> 조건을 만족시킨 값의 인덱스 반환
x = np.where(arr == 4)
x, arr[x]

((array([3, 5, 6]),), array([4, 4, 4]))

In [766]:
arr = np.array(range(1, 9))
print(arr)
x = np.where(arr % 2 == 0)  # 짝수 <- 인덱스
x, arr[x], arr[arr % 2 == 0]

[1 2 3 4 5 6 7 8]


((array([1, 3, 5, 7]),), array([2, 4, 6, 8]), array([2, 4, 6, 8]))

In [767]:
a = np.array(range(100, 1000, 100)) # 9개  # 점수 배열
b = np.array([i + "파이썬" for i in "김이박최류유조한송"])  # 이름 배열
b[np.where(a % 200 == 0)]

array(['이파이썬', '최파이썬', '유파이썬', '한파이썬'], dtype='<U4')