### 자료구조
- 1. 리스트 (기본구조)
- 2. 튜플 (상수, 불변)
- 3. 딕셔너리 (key:value)
- 4. 세트(set): 집합 --> 반복되는 것을 하나로 봄
- 5. 배열 (numpy)
- 6. 판다스 구조 (Series, DataFrame)

#### numpy
- 배열(array) 생성, 연산
- 배열은 하나의 데이터 타입만 허용 (int, float, str 등)
- 다차원 자료구조

In [3]:
#1차원배열
import numpy as np
np.array([1,2,3]) 

array([1, 2, 3])

In [5]:
#2차원배열
np.array([[1,2,3],[4,5,6],[7,8,9]])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [6]:
#3차원배열
np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [7]:
np.arange(1,26)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25])

In [8]:
np.arange(1,26).reshape(5,5) 

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25]])

In [9]:
a1 = np.arange(1,26).reshape(5,5) 
type(a1)

numpy.ndarray

#### 1) 색인

In [10]:
a2 = np.array([[1,2,3],[4,5,6],[7,8,9]])

In [11]:
a2[1,:]

array([4, 5, 6])

In [12]:
#정수색인 (두번째 열 선택: 차원 축소 발생)
a2[:,1]
#1차원

array([2, 5, 8])

In [14]:
#슬라이스 색인 (두번째 열 선택 : 차원 축소가 발생하지 않음)
a2[:,1:2]
#2차원 , 모든 행의 1열

array([[2],
       [5],
       [8]])

In [15]:
#interval
a2[0:3:2,:]

array([[1, 2, 3],
       [7, 8, 9]])

In [16]:
a2[:,[0,2]]

array([[1, 3],
       [4, 6],
       [7, 9]])

In [17]:
a2[1,1]

5

In [19]:
a2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [18]:
a2[[1,2],[1,2]]
#원하는 출력 결과는 5,6,8,9 (1,2행과 1,2열의 겹치는 부분)
#a2[1,1],a2[2,2] 과 같은 포인트 인덱싱으로 인식
#색인함수 (ix_()) 를 사용하여 해결 가능

array([5, 9])

In [20]:
a2[np.ix_([1,2],[1,2])]
#2차원 출력

array([[5, 6],
       [8, 9]])

In [23]:
a = np.arange(10).reshape(2,5)
a

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [24]:
ixgrid = np.ix_([0,1],[2,4])
ixgrid

(array([[0],
        [1]]),
 array([[2, 4]]))

In [25]:
ixgrid[0].shape

(2, 1)

In [26]:
ixgrid[1].shape

(1, 2)

In [27]:
a[ixgrid]

array([[2, 4],
       [7, 9]])

#### 2) 조건 색인

In [28]:
a2 > 5

array([[False, False, False],
       [False, False,  True],
       [ True,  True,  True]])

In [30]:
a2[a2 > 5] #True만 출력

array([6, 7, 8, 9])

In [31]:
a2[:,0] > 5 #첫번째 컬럼 중 5보다 큰 값

array([False, False,  True])

In [32]:
a2[a2[:,0] > 5,:]
#2차원
#조건 결과를 행 방향에 색인 값으로 전달

array([[7, 8, 9]])

#### 3) 메서드

In [34]:
a2.dtype #numpy 구성 데이터 타입

dtype('int32')

In [35]:
a2.shape

(3, 3)

In [36]:
a2.reshape(1,9) #array 모양 변경

array([[1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [38]:
a2.ndim  #array 차원 (number, dimension)

2

#### 4) 연산

In [40]:
[1,2,3] + [4,5,6]  
#list는 원소끼리의 연산이 불가능, 확장으로 해석 됨

[1, 2, 3, 4, 5, 6]

연산할 수 있는 방법 --> numpy 

In [42]:
np.array([1,2,3]) + np.array([4,5,6])
#size가 같아야 함

array([5, 7, 9])

#### 5) 형(type) 변환 메서드

In [44]:
a2.astype('float')

array([[1., 2., 3.],
       [4., 5., 6.],
       [7., 8., 9.]])

In [47]:
a2.astype('int')

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [48]:
a2.astype('str')

array([['1', '2', '3'],
       ['4', '5', '6'],
       ['7', '8', '9']], dtype='<U11')

#### 6) np.where 함수
- if 문의 축약
- np.where(조건, 참일 때의 값, 거짓일 때의 값)
- cf. SQL문 기본형태: select * from db where

In [49]:
np.where(a2>5,'A','B')

array([['B', 'B', 'B'],
       ['B', 'B', 'A'],
       ['A', 'A', 'A']], dtype='<U1')

####  7) 산술 연산 메서드

In [50]:
a2.describe()
#배열은 불가능, pandas에서 가능

AttributeError: 'numpy.ndarray' object has no attribute 'describe'

In [52]:
a2.sum() #전체합

45

In [53]:
a2.mean() #전체평균

5.0

In [54]:
a2.var() #전체분산

6.666666666666667

In [55]:
a2.std() #전체표준편차(평균에서 떨어진 정도)

2.581988897471611

In [56]:
a2.min()  #전체 최소값

1

In [57]:
a2.max() #전체 최대값

9

In [58]:
(a2 > 5).sum()  
#a2에서 5보다 큰 값의 합(큰 값의 '개수')
#True=1, False=0

4

In [60]:
(a2 > 5).any()  
#a2에 5보다 큰 값이 하나라도 있을 경우 True

True

In [61]:
(a2 > 5).all()  
#a2의 값이 모두 5보다 클 경우만 True

False

In [63]:
a2.sum(axis = 0)
#서로 다른 행 원소끼리 더하기 (열의 합)
#1행의 첫번째 +  2행의 첫번째 + 3행의 첫번째
#하나의 열처럼 더함

array([12, 15, 18])

In [65]:
a2.sum(axis = 1)
#서로 다른 열 원소끼리 더하기 (행의 합)
#1열의 첫번째 +  2열의 첫번째 + 3열의 첫번째
#하나의 행처럼 더함

array([ 6, 15, 24])

In [66]:
#축 번호
#2차원 : 행(0) 열(1)
#3차원 : 층(0) 행(1) 열(2)

#### 8) 전치 메서드

In [67]:
np.arange(1,9)

array([1, 2, 3, 4, 5, 6, 7, 8])

In [69]:
a1 = np.arange(1,9).reshape(4,2)
a1

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

1) 행과 열의 전치(T)

In [70]:
a1.T

array([[1, 3, 5, 7],
       [2, 4, 6, 8]])

2) swapaxes : 두 축을 전달 받아 서로 전치, 전달순서는 중요하지 않음

In [72]:
#axes : 축
a1.swapaxes(0,1)

array([[1, 3, 5, 7],
       [2, 4, 6, 8]])

In [73]:
a1.swapaxes(1,0)

array([[1, 3, 5, 7],
       [2, 4, 6, 8]])

3) transpose : 원본의 차원에 맞는 축번호를 인수에 차례대로 전달, 전달순서 중요함

In [74]:
a1.transpose(0,1) #행과 열 전치

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [75]:
a1.transpose(1,0) #원본 그대로 출력

array([[1, 3, 5, 7],
       [2, 4, 6, 8]])

#### 9) 외부파일 입출력

1) 파일 불러오기

In [None]:
'''
np.loadtxt(fname,      #파일명
           dtype,      #데이터타입
           delimiter,  #구분자(필드 구분 기호)
           skiprows,   #skip 할 행의 수
           usecols,    #선택할 컬럼 위치(값)
           encoding)   #인코딩 옵션
'''

In [None]:
#np.loadtxt('C:/Users/ZenBook/Desktop/data/file1.txt', delimiter = ',',dtype = 'str')

2) 파일 내려쓰기

In [None]:
'''
np.savetxt(fname,      # 파일명
            X,          # 객체명
            delimiter,  # 구분자
            fmt,        # 출력형식(format)
            header,     # 헤더 출력 여부(file 첫 문자열)
            encoding)   # 인코딩 옵션
'''

In [77]:
#x = np.arange(0.0,5.0,1.0)
#np.savetxt('C:/Users/ZenBook/Desktop/data/file1.txt', x, delimiter = ',', fmt = '%s')

#### [참고: fmt(포맷) 전달/변경 방식]
- %s : 문자열
- %f : float(실수)
- %d : 정수

In [78]:
'%s' % 123 #문자로 바꿈

'123'

In [79]:
'%f' % 123 #실수로 바꿈

'123.000000'

In [83]:
'%.2f' % 123 #실수형으로 바꾸고 소수점 둘째자리까지 표현

'123.00'

In [81]:
'%d' % 123 

'123'

In [85]:
'%7d' % 123 

'    123'