- 파이썬에서 제공하는 list나 tuple로는 행렬에 관련된 작업을 하기에는 한계가 있다.
- 행렬에 관련된 연산을 위해서 제공되는 라이브러리
- ndarray : n차원 행렬이라는 뜻의 타입

In [1]:
list1 = [10, 20, 30, 40, 50]
list2 = [60, 70, 80, 90, 100]

# 더하기
list3 = list1 + list2
# 곱하기
list4 = list1 * 3

print(list3)
print(list4)

[10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
[10, 20, 30, 40, 50, 10, 20, 30, 40, 50, 10, 20, 30, 40, 50]


In [2]:
import numpy as np
import pandas as pd

In [3]:
array1 = np.array([10, 20, 30, 40, 50])
array2 = np.array([60, 70, 80, 90, 100])

array3 = array1 + array2
array4 = array1 * 3

print(array3)
print(array4)

[ 70  90 110 130 150]
[ 30  60  90 120 150]


### 행렬 생성

In [4]:
# 값을 지정하여 행렬을 생성한다.
# 관리할 값들을 리스트나 튜플에 담아 전달한다.
list1 = [10, 20, 30, 40, 50]
array1 = np.array([10, 20, 30, 40, 50])

print(list1)
print(array1)

[10, 20, 30, 40, 50]
[10 20 30 40 50]


In [5]:
display(list1)
display(array1)

[10, 20, 30, 40, 50]

array([10, 20, 30, 40, 50])

In [6]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

In [7]:
list1
array1

[10, 20, 30, 40, 50]

array([10, 20, 30, 40, 50])

In [8]:
type(list1)
type(array1)

list

numpy.ndarray

In [9]:
# 2차원 행렬
list2 = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]

array2 = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

list2
array2

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

### 행렬과 자료형의 관계

In [10]:
# 행렬은 같은 타입의 값만 담을 수 있다.
# 행렬 생성시 여러가지 타입의 값을 지정하면 가장 많은 값을
# 표현할 수 있는 형태로 변환된다.
# 불리언 -> 정수 -> 실수 -> 문자열

list1 = [True, 100, 11.11, '문자열']
array1 = np.array([True, 100, 11.11, '문자열'])

list1
array1

[True, 100, 11.11, '문자열']

array(['True', '100', '11.11', '문자열'], dtype='<U32')

In [11]:
# 행렬에 저장되어 있는 값의 타입
array1.dtype

dtype('<U32')

In [12]:
# 행렬 생성시 타입을 지정한다.
# 정수 : int, 실수 : float, 불리언 : bool, 문자열 : str

# 타입을 지정하지 않으면 저장되어 있는 값을 확인하여 자동으로 지정된다
array1 = np.array([0, 1, 2, 3, 4])
array1
array1.dtype

array([0, 1, 2, 3, 4])

dtype('int64')

In [13]:
array2 = np.array([0, 1, 2, 3, 4], dtype='float')
array2
array2.dtype

array([0., 1., 2., 3., 4.])

dtype('float64')

In [14]:
array3 = np.array([0, 1, 2, 3, 4], dtype='bool')
array3
array3.dtype

array([False,  True,  True,  True,  True])

dtype('bool')

### 다양한 행렬 생성 함수

In [15]:
# arange : range 함수와 비슷하다. 지정된 범위의 값을 갖는 1차원 행렬을 
# 생성한다.

# 0 ~ 10 - 1까지, 1씩 증가
array1 = np.arange(10)
array1

# 3 ~ 17 - 1까지, 1씩 증가
array2 = np.arange(3, 17)
array2

# 3 ~ 17 - 1까지, 2씩 증가
array3 = np.arange(3, 17, 2)
array3

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

array([ 3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16])

array([ 3,  5,  7,  9, 11, 13, 15])

In [16]:
# 0 행렬 : 0으로 채워진 행렬

# 0이 5개 있는 1차원 행렬
array1 = np.zeros(5)
array1

# 0이 들어있는 3행 4열 2차원 행렬
array2 = np.zeros([3, 4])
array2

array([0., 0., 0., 0., 0.])

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [17]:
# 1로 채워진 행렬
array1 = np.ones(5)
array2 = np.ones([3, 4])

array1
array2

array([1., 1., 1., 1., 1.])

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [18]:
# n으로 채워진 행렬
# 1차원 : 값의 개수, 채울 값
array1 = np.full(5, 7)
array1

# 2차원 : [행, 렬], 채울 값
array2 = np.full([3, 4], 7)
array2

array([7, 7, 7, 7, 7])

array([[7, 7, 7, 7],
       [7, 7, 7, 7],
       [7, 7, 7, 7]])

In [19]:
# 값을 지정하지 않고 행렬을 생성한다.
# 메모리에 행렬을 생성하고 아무것도 채워주지 않기 때문에 행렬 생성과정이
# 매우 단순해진다.
# 행렬 생성 후 값을 직접 채워주고 사용하겠다면 이함수를 이용해
# 행렬을 생성한다.
array1 = np.empty(5)
array2 = np.empty([3, 4])

array1
array2

array([1., 1., 1., 1., 1.])

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

### 행렬 정보 파악하기

In [20]:
array1 = np.array([
    [10, 20, 30],
    [40, 50, 60]
])

array1

array([[10, 20, 30],
       [40, 50, 60]])

In [21]:
f'차원 : {array1.ndim}'
f'행과 열의 수 : {array1.shape}'
f'데이터 타입 : {array1.dtype}'

'차원 : 2'

'행과 열의 수 : (2, 3)'

'데이터 타입 : int64'

### 행렬의 타입 변환

In [22]:
# 이미 생성되어 있는 행렬의 타입을 변환
array1 = np.array([True, False, True, False, True])
# np.int, np.bool, np.float, np.str
# 정수형으로 변환하고 새로운 행렬을 생성한다.
array2 = array1.astype(np.int)

array2.dtype
array2

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  array2 = array1.astype(np.int)


dtype('int64')

array([1, 0, 1, 0, 1])

### 행렬 계산(산수)

In [23]:
array1 = np.array([
    [10, 20, 30],
    [40, 50, 60],
    [70, 80, 90]
])

array2 = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

In [24]:
# 행렬과 행렬에 대한 산술 연산을 수행할 경우
# 각 행렬의 원소를 1:1 매칭시켜서 연산을 한 후 그 결과를 담은
# 행렬을 생성해 반환한다.
a1 = array1 + array2
a2 = array1 - array2
a3 = array1 * array2
a4 = array1 // array2

a1
a2
a3
a4

array([[11, 22, 33],
       [44, 55, 66],
       [77, 88, 99]])

array([[ 9, 18, 27],
       [36, 45, 54],
       [63, 72, 81]])

array([[ 10,  40,  90],
       [160, 250, 360],
       [490, 640, 810]])

array([[10, 10, 10],
       [10, 10, 10],
       [10, 10, 10]])

In [25]:
# 행렬과 특정 숫자간의 연산
# 행렬내의 모든 원소와 지정된 숫자와 계산한 결과를 담고 있는
# 행렬을 생성한다.
a1 = array1 + 10
a2 = array1 - 10
a3 = array1 * 10
a4 = array1 // 10

a1
a2
a3
a4

array([[ 20,  30,  40],
       [ 50,  60,  70],
       [ 80,  90, 100]])

array([[ 0, 10, 20],
       [30, 40, 50],
       [60, 70, 80]])

array([[100, 200, 300],
       [400, 500, 600],
       [700, 800, 900]])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [26]:
a1 = array1 > 50
a1

array([[False, False, False],
       [False, False,  True],
       [ True,  True,  True]])

### 인덱싱과 슬라이싱
- 인덱싱 : 특정 값 하나를 가져오는 것
- 슬라이싱 : 지정된 범위의 값을 가져오는 것

In [27]:
list1 = list(range(10))
array1 = np.arange(10)

list1
array1

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [28]:
# 인덱스 2번째
list1[2]
array1[2]

2

2

In [29]:
# 2 ~ 6 - 1 까지
list1[2:6]
array1[2:6]

[2, 3, 4, 5]

array([2, 3, 4, 5])

In [30]:
# 처음부터 6-1까지
list1[:6]
array1[:6]

[0, 1, 2, 3, 4, 5]

array([0, 1, 2, 3, 4, 5])

In [31]:
# 2 ~ 끝까지
list1[2:]
array1[2:]

[2, 3, 4, 5, 6, 7, 8, 9]

array([2, 3, 4, 5, 6, 7, 8, 9])

In [32]:
list2d = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]

list2d

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [33]:
array2d = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

array2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [34]:
# 2행 3열 값을 가져온다.
list2d[1][2]
array2d[1][2]

6

6

In [35]:
# 인덱스 1 ~ 3-1행, 1 ~ 3 - 1열 데이터를 가져온다.
# [][] 는 앞서 가져온 영역 한군데 내부의 데이터를 탐색하는 처리릏 하기 때문에
# 원하는 데이터를 가져올 수 없다.
list2d[1:3][1:3]
array2d[1:3][1:3]

[[7, 8, 9]]

array([[7, 8, 9]])

In [36]:
# 행렬의 일부분을 발췌하기 위해 [행, 열] 형태로 작성한다.
array2d[1, 2]
array2d[1:3, 1:3]

6

array([[5, 6],
       [8, 9]])

In [37]:
# 원하는 인덱스 번째 값들을 가져온다.
array1 = np.array([10, 20, 30, 40, 50])
array1[[0, 1, 4]]

array([10, 20, 50])

In [38]:
# True, False로 구성된 list, tuple, ndarray를 통해 가져온다.
array1 = np.array([10, 20, 30, 40, 50])
array1[[True, False, True, False, True]]

array([10, 30, 50])

In [39]:
# 0 ~ 99까지 들어있는 행렬을 생성한다.
array1 = np.arange(100)
array2 = array1 % 3 == 0
array1[array2]

array([ 0,  3,  6,  9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48,
       51, 54, 57, 60, 63, 66, 69, 72, 75, 78, 81, 84, 87, 90, 93, 96, 99])

In [40]:
array1[array1 % 3 == 0]

array([ 0,  3,  6,  9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48,
       51, 54, 57, 60, 63, 66, 69, 72, 75, 78, 81, 84, 87, 90, 93, 96, 99])

In [47]:
# csv 파일
# encoding='euc-kr' 없을 경우 에러가 난다. 엑셀에서 만들어져서 그렇다. 
# encoding='euc-kr'를 적어도 되고 다시 다른이름으로 UTF-8 저장을 하면 된다. 
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1.index = ['학생1', '학생2', '학생3', '학생4', '학생5']
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
학생1,철수,1,남자,98,,88.0,64.0
학생2,영희,2,여자,88,90.0,62.0,72.0
학생3,민수,1,남자,92,70.0,,
학생4,수현,3,여자,63,60.0,31.0,70.0
학생5,호영,4,남자,120,50.0,,88.0


In [48]:
# csv를 통해 데이터 프레임을 생성하면 첫 번째 줄은 무조건 컬럼이름으로
# 사용한다.
# 만약 첫 번재 줄 부터 데이터에 해당한다면
# header=None을 설정한다.
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr', header=None)
df1

Unnamed: 0,0,1,2,3,4,5,6
0,이름,학년,성별,국어,영어,수학,과학
1,철수,1,남자,98,,88,64
2,영희,2,여자,88,90,62,72
3,민수,1,남자,92,70,,
4,수현,3,여자,63,60,31,70
5,호영,4,남자,120,50,,88


In [49]:
# 만약 특정 행을 지칭하면...
# 2 : 3번째 줄이 컬럼명으로 지정되고 그 이후의 데이터만 데이터로 포함된다.
# 그 위의 데이터들은 포함되지 않는다.
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr', header=2)
df1

Unnamed: 0,영희,2,여자,88,90,62,72
0,민수,1,남자,92,70,,
1,수현,3,여자,63,60,31.0,70.0
2,호영,4,남자,120,50,,88.0


In [5]:
# 엑셀 파일로부터 데이터를 읽어온다.
# 인코딩 자동 설정된다.
# sheet_name 생략 : 첫 번째 sheet가 지정된다.
df1 = pd.read_excel('data/grade.xlsx')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [6]:
# sheet_name : 숫자를 지정하면 sheet의 순서(0 부터 시작)
df1 = pd.read_excel('data/grade.xlsx', sheet_name=1)
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,홍길동,1,남자,98,,88.0,64.0
1,김길동,2,여자,88,90.0,62.0,72.0
2,박길동,1,남자,92,70.0,,
3,최길동,3,여자,63,60.0,31.0,70.0
4,이길동,4,남자,120,50.0,,88.0


In [7]:
# sheet_name : 문자열. sheet의 이름을 지정한다.
df1 = pd.read_excel('data/grade.xlsx', sheet_name='grade2')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,홍길동,1,남자,98,,88.0,64.0
1,김길동,2,여자,88,90.0,62.0,72.0
2,박길동,1,남자,92,70.0,,
3,최길동,3,여자,63,60.0,31.0,70.0
4,이길동,4,남자,120,50.0,,88.0
