In [6]:
# Python의 함수는 다음과 같이 만든다

# 함수명은 가독성을 높이기 위해 소문자를 사용
# Java 의 경우 Camel Case
# Python 은 분리된 단어는 밑줄로 표현, Snake Case
# myFunc -> Java Style, my_func -> Python Style

# 사용자 정의 함수 만들기
# 함수를 정의하기 위한 keyword => def

def my_sum(a, b, c):
    return a + b + c

result = my_sum(1, 2, 3)
print(result)

# 함수의 body가 없는 경우에는
# 함수가 하는 일이 없는 경우에는 pass라는 keyword를 사용

def my_sum(a, b, c):
    pass

# Python은 여러 개의 값을 리턴 할 수 있다?
# 실제로는 tuple을 리턴하는 것이다

def my_sum(a, b, c):
    result1 = a + b + c
    result2 = a * b * c
    return result1, result2

result = my_sum(1, 2, 3)
print(result) # (6, 6)

tmp = 100


def my_func(x):
    # 여기서 지역변수가 아닌 전역변수를 사용 가능
    global tmp
    # 하지만 좋은 방식이 아님
    # 전역변수를 사용하면 Code 가 Tightly Coupled
    tmp += x
    return tmp

result = my_func(100)
print(result) # 200


6
(6, 6)
200


In [8]:
# 내장 함수
# 매우 많다
# 많이 사용하는 내장함수

a = int('100')
print(a)

result = len('안녕하세요 바보')
print(result) # 8

# type(), list(), tuple(), dict(), set(), ...



100
8


In [None]:
# Python 의 객체지향
# class -> 상속 및 기타 객체지향 개념

In [None]:
# Python 데이터 처리
# Numpy (Numerical Python)

# Numpy: Module(Library) -> 수치 계산을 쉽게할 수 있도록 도와줌, 외부 Module
# Numpy는 대규모의 다차원 배열과 행렬처리를 편하게 하기 위해 사용
# 다차원 배열
# 머신러닝, 딥러닝은 결국 행렬 계산
# ML, DL의 기본 자료구조는 Numpy의 자료구조를 기본으로 함
# Numpy가 가지고 있는 기본 자료구조
# ndarray (n-Dimensional Array) -> 다차원 배열을 지칭
# 자료구조의 이해 필요


In [3]:
# Numpy는 외부 module이라서 설치 필요
# 가상환경에 설치
# 어제 이미 설치
# 명령어: conda install numpy


import numpy as np

print(np.__version__)

1.24.3


In [5]:
# ndarray 생성 및 확인

# 가장 쉽게 ndarray를 만드는 방법: python의 list 이용
a = [1, 2, 3, 4]
print(a) # [1, 2, 3, 4]
print(type(a)) # <class 'list'>

b = np.array(a)
print(b) # [1 2 3 4] - 1차원 vector
print(type(b)) # <class 'numpy.ndarray'>


[1, 2, 3, 4]
<class 'list'>
[1 2 3 4]
<class 'numpy.ndarray'>


In [10]:
# 2차원 형태의 ndarray 만들기

my_list = [[1,2,3], [4,5,6]]
arr = np.array(my_list)

print(arr) # 2차원 ndarray (2행 3열)

print(arr[1,1])  # 5
print(arr[1])    # [4 5 6] -> 1차원 ndarray
print(arr[1][2]) # 6

[[1 2 3]
 [4 5 6]]
5
[4 5 6]
6


In [11]:
my_list = [[1,2,3], [4,5,6]]

# 일반적으로 ndarray 를 사용할 때는 실수를 사용
arr = np.array(my_list, dtype=np.float64)
print(arr)

[[1. 2. 3.]
 [4. 5. 6.]]


In [12]:
my_list = [[1,2,3], [4,5,6.0]]

# array의 가장 큰 특징
#     - 일단 사이즈가 결정되면 변경 불가
#     - 모든 칸에 같은 데이터 타입이 들어감
#     - 따라서 ndarray로 변환시 더 넓음 범주의 값으로 타입을 자동으로 맞춰줌

arr = np.array(my_list)
print(arr)

[[1. 2. 3.]
 [4. 5. 6.]]


In [16]:
# ndarray 가 가지는 중요한 속성 2가지
# ndim 은 잘 쓰이지 않음
# shape 은 많이 쓰임


my_list = [1, 2, 3, 4]
arr = np.array(my_list) # 1차원 ndarray
print(arr)

print(arr.ndim)  # 1 -> 차원의 값을 숫자로 나타냄
print(arr.shape) # (4,) -> shape의 결과값은 tuple
                 # (3,) -> 1차원
                 # (4, 5) -> 2차원
                 # (1, 5, 4) -> 3차원
                 # 각 숫자는 해당 차원의 요소의 개수를 나타냄

[1 2 3 4]
1
(4,)


In [19]:
my_list = [[1, 2, 3], [4, 5, 6]]
arr = np.array(my_list) # 2차원 ndarray
print(arr)

print(arr.ndim)  # 2
print(arr.shape) # (2, 3)

[[1 2 3]
 [4 5 6]]
2
(2, 3)


In [20]:
my_list = [[[1, 2, 3], [4, 5, 6]], [[1, 2, 3], [4, 5, 6]]]
arr = np.array(my_list) # 3차원 ndarray
print(arr)

print(arr.ndim)  # 3
print(arr.shape) # (2, 2, 3)

[[[1 2 3]
  [4 5 6]]

 [[1 2 3]
  [4 5 6]]]
3
(2, 2, 3)


In [28]:
my_list = [[1, 2, 3], [4, 5, 6]]
arr = np.array(my_list) # 2차원 ndarray
print(arr)

print(arr.size) # size -> ndarray의 요소의 개수
print(len(arr)) # 2 : len -> 제일 상위 차원의 요소의 개수

[[1 2 3]
 [4 5 6]]
6
2


In [29]:
my_list = [[1, 2, 3], [4, 5, 6]]
arr = np.array(my_list) # 2차원 ndarray

# ndarray 의 data type 변환
# 정수 -> 실수로 혹은 실수 -> 정수로
arr = arr.astype(np.float64)

print(arr)

[[1. 2. 3.]
 [4. 5. 6.]]


In [30]:
# ndarray를 만드는 다른 방법

# zeros의 인자로 shape을 넘김
# shape 은 tuple 타입
arr = np.zeros((3, 4)) # shape 형태로 모든 요소가 0으로 초기화된 ndarray 생성
print(arr)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [31]:
# ndarray를 만드는 다른 방법

arr = np.ones((10, 5)) # shape 형태로 모든 요소가 1으로 초기화된 ndarray 생성
print(arr)

[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


In [32]:
arr = np.empty((4, 5)) # shape 형태로 모든 요소가 초기화가 안된 ndarray 생성, garbage 값이 들어있음
print(arr)

[[6.23042070e-307 4.67296746e-307 1.69121096e-306 2.22522461e-306
  7.56599807e-307]
 [8.90104239e-307 9.34593493e-307 6.23059726e-307 7.56603881e-307
  1.95821439e-306]
 [8.01097889e-307 1.78020169e-306 7.56601165e-307 1.02359984e-306
  1.33510679e-306]
 [2.22522597e-306 6.23053614e-307 1.60221072e-306 1.42410974e-306
  8.34402697e-308]]


In [33]:
arr = np.full((4, 5), 7) # shape 형태로 모든 요소가 내가 결정한 값(7)으로 초기화된 ndarray 생성
arr

array([[7, 7, 7, 7, 7],
       [7, 7, 7, 7, 7],
       [7, 7, 7, 7, 7],
       [7, 7, 7, 7, 7]])

In [35]:
# ndarray를 만드는 다른 방법
# arange() -> python의 range() 와 유사
# python의 range()는 데이터를 가지고 있지 않음, 범위만 지칭
# numpy의 arange()는 실제 데이터를 가지는 ndarray를 생성

arr = np.arange(9) # 1차원 ndarray 생성
print(arr)

[0 1 2 3 4 5 6 7 8]


In [42]:
# ndarray를 만드는 다른 방법
# random 기반으로 생성하는 방법

# 5 가지 방식
# 가장 대표적인 2개 함수

# 1. np.random.normal() 
#     - random 값으로 채워진 ndarray 생성, normal(): 일반 정규분포
#     - 일반 정규분포는 평균과 표준편차를 알아야 함
mean = 50 # 평균
std = 2   # 표준편차

arr = np.random.normal(mean, std, (3, 4))
print(arr)


# 2. np.random.randint()
#     - 주어진 범위 내에서 정수현 난수를 균등분포로 도출해주는 함수
arr = np.random.randint(0, 100, (3, 4))
print(arr)


# 랜덤 값 = 난수
# 컴퓨터가 난수를 도출할 때는 특정 알고리즘을 사용
# 이 알고리즘의 seed 값을 고정하면 항상 같은 값을 도출
np.random.seed(42)
arr = np.random.randint(0, 100, (3, 4))
print(arr)

[[50.7851595  48.14163067 50.15966362 49.680967  ]
 [50.04444365 49.14441417 48.93636518 49.765049  ]
 [50.4441578  48.464047   50.2849292  49.93069563]]
[[ 2 50  6 20]
 [72 38 17  3]
 [88 59 13  8]]
[[51 92 14 71]
 [60 20 82 86]
 [74 74 87 99]]


In [50]:
# shape
# shape을 원하는 대로 변경 가능

my_list = [[1, 2, 3], [4, 5, 6]]
arr = np.array(my_list) # 2차원 ndarray
print(arr)
print(arr.shape) # (2, 3)

new_arr = arr.reshape(3,2)
print(new_arr)

print(new_arr[0, 0]) # 1
new_arr[0, 0] = 100
print(new_arr)
print(arr) 

# reshape 을 하면 새로운 ndarray 가 만들어지는 것이 아님
# shape 만 바뀐 view 가 만들어짐
# 데이터는 원본과 같음


[[1 2 3]
 [4 5 6]]
(2, 3)
[[1 2]
 [3 4]
 [5 6]]
1
[[100   2]
 [  3   4]
 [  5   6]]
[[100   2   3]
 [  4   5   6]]


In [54]:
my_list = [[1, 2, 3], [4, 5, 6]]
arr = np.array(my_list) # 2차원 ndarray

print(arr) # 2 x 3


# -1 의 의미: reshape 할 때 알아서 계산
new_arr = arr.reshape(-1, 1, 3)
print(new_arr)

[[1 2 3]
 [4 5 6]]
[[[1 2 3]]

 [[4 5 6]]]


In [58]:
# ndarray 를 arange를 이용해 만들기
# copy() 를 이용하면 ndarray를 메모리 상에 만든다
# 더이상 view가 아님
arr = np.arange(12).reshape(3, 4).copy()

print(arr)


# ravel()
# ravel() 은 무조건 1차원 view 로 만듦
print(arr.ravel())

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [61]:
# 기본적으로 알아두면 좋은 방식

arr = np.arange(12).reshape(3, 4).copy()

print(arr) 

new_arr = np.resize(arr, (3, 5)) # 원소의 수가 맞지 않아도 바꿀 수 있다
                                 # 데이터를 추가하여 바꾸기 때문에 View가 아님
                                 # 다른 ndarray 를 생성
print(new_arr)

new_arr = np.resize(arr, (2, 2)) # 데이터가 잘림
print(new_arr)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11  0  1  2]]
[[0 1]
 [2 3]]


In [68]:
# ndarray 에 대해 indexing, slicing 다루기 -> 가장 기반이 되는 기술

arr = np.arange(10, 20, 1)
print(arr)
print(arr[2]) # 12
print(arr[5:-1]) # [15 16 17 18] 

arr = np.arange(10, 22, 1).reshape(3, 4)
print(arr)

print(arr[1, 3]) # indexing -> scalar
print(arr[2, :]) # indexing & slicing -> 1차원
print(arr[1:2, 0:2]) # slicing & slicing -> 2차원

[10 11 12 13 14 15 16 17 18 19]
12
[15 16 17 18]
[[10 11 12 13]
 [14 15 16 17]
 [18 19 20 21]]
17
[18 19 20 21]
[[14 15]]


In [93]:
# indexing 종류
#     - 기본적인 indexing: 숫자 indexing
#     - Boolean Indexing
#     - Fancy Indexing


# Boolean Indexing
# 배열의 각 요소의 indexing 여부(선택 여부)를 True, False로 구성된 boolean mask를 이용해 지정하는 방식
# boolean mask에서 True 로 지정된 요소만 indexing
# boolean mask: arr과 shape이 같음, True, False 의 값만 있음

np.random.seed(1)
arr = np.random.randint(0, 10, (10,))
print(arr)

# 이 중 짝수만 추출
# boolean mask 이용
# ndarray 에 대해서 연산을 수행하면 broadcasting 과 각 위치에 관한 연산이 수행됨
# broadcasting: 자기 차원을 늘림

# [5 8 9 5 0 0 1 7 6 9] % [2 2 2 2 2 2 2 2 2 2] == 0
# [False True ...]

print(arr % 2 == 0) # [False  True False False  True  True False False  True False]
                    # Boolean Mask

print(arr[arr % 2 == 0]) # [8 0 0 6]


# 2차원일 때
arr = np.random.randint(0, 10, (3,4))
print(arr)
print(arr % 2 == 0)
print(arr[arr % 2 == 0])


# boolean indexing 은 조건을 통해 원하는 데이터를 추출하기 위해 사용


[5 8 9 5 0 0 1 7 6 9]
[False  True False False  True  True False False  True False]
[8 0 0 6]
[[2 4 5 2]
 [4 2 4 7]
 [7 9 1 7]]
[[ True  True False  True]
 [ True  True  True False]
 [False False False False]]
[2 4 2 4 2 4]


In [105]:
# Fancy Indexing
# 배열에 index 배열을 전달해서 배열 요소를 참조하는 방식

np.random.seed(1)
arr = np.random.randint(0, 10, (3,4))
print(arr)

# 6, 2만 가져오기
print(arr[2, [0,2]])


# 8, 5, 9, 4 가져오기
print(arr[[0, 2], [1, 3]]) # [8 4]
                           # 여러 차원에 Fancy Indexing이 들어가 있으면 원하는대로 추출되지 않음

# numpy 함수 이용
# np.ix_([0, 2], [1, 3])
print(arr[np.ix_([0, 2], [1, 3])])

[[5 8 9 5]
 [0 0 1 7]
 [6 9 2 4]]
[6 2]
[8 4]
[[8 5]
 [9 4]]


In [111]:
# 4칙 연산 수행
arr1 = np.array([[1,2,3],[4,5,6]])
arr2 = np.array([[11,12,13],[14,15,16]])

# 같은 위치의 원소끼리 연산을 수행
# python의 list는 + 연산시 연결
print(arr1 + arr2)
print(arr1 - arr2)
print(arr1 * arr2)
print(arr1 / arr2)

[[12 14 16]
 [18 20 22]]
[[-10 -10 -10]
 [-10 -10 -10]]
[[11 24 39]
 [56 75 96]]
[[0.09090909 0.16666667 0.23076923]
 [0.28571429 0.33333333 0.375     ]]


In [112]:
np.matmul(arr1, arr2.reshape(3,2)) # 결과는 2x2

array([[ 82,  88],
       [199, 214]])

In [117]:
# numpy는 수치연산에 특화된 library이기 때문에 여러 집계 함수를 제공

arr = np.arange(1,7,1).reshape(2,3).copy()
print(arr)

print(np.sum(arr)) # 21
print(arr.sum())   # 21

print(arr.mean())
print(arr.max())
print(arr.min())

print(arr.argmax()) # 1차원으로 변경하여 최댓값의 인덱스 값을 리턴 -> 5
print(arr.std())    # 표준편차

# numpy의 모든 집계함수는 axis를 기준으로 계산
# 위의 경우 axis는 None으로 간주, 전체를 대상으로 집계함수 적용


[[1 2 3]
 [4 5 6]]
21
21
3.5
6
1
5
1.707825127659933


In [121]:
arr = np.arange(1,7,1)
print(arr)

# axis는 축을 의미, 숫자로 표현
# axis는 1차원일 때 1개, 2차원일 때 2개, 3차원일 때 3개
arr.sum(axis=0)

arr = np.arange(1,7,1).reshape(3,2)
print(arr)

print(arr.sum())       # 21
print(arr.sum(axis=0)) # [ 9 12]
print(arr.sum(axis=1)) # [ 3  7 11]

[1 2 3 4 5 6]
[[1 2]
 [3 4]
 [5 6]]
21
[ 9 12]
[ 3  7 11]


In [124]:
# 연습문제

# 1부터 16까지 숫자로 구성된 2차원 ndarray 를 생성하세요
# 4 X 4 형태

# 만들어진 ndarray 안에 10보다 큰 숫자가 몇 개 있는지 알아내는 코드를 작성하세요
# Hint: 조건 -> boolean indexing

arr = np.arange(1,17,1).reshape(4,4).copy()
print(arr)

print(arr[arr > 10])

print(len(arr[arr > 10]))

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]]
[11 12 13 14 15 16]
6


In [127]:
arr = np.arange(1,17,1).reshape(4,4).copy()
print(arr)
print(arr > 10)

# True는 1로 간주, False는 0으로 간주
print((arr > 10).sum())

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]]
[[False False False False]
 [False False False False]
 [False False  True  True]
 [ True  True  True  True]]
6


In [None]:
# 내일은 Pandas library 이용
# Pandas: 실제 데이터 분석, 데이터 탐색을 위한 library