# collections의 deque(데크) 자료구조

- 양방향에서 데이터를 처리할 수 있음
- list와 비슷한데 ``deque(데이터)``로 데크 자료구조로 만듦
- list처럼 append(), pop() 등 사용 가능!

In [1]:
from collections import deque

## append & appendleft

In [44]:
# append ( list, deque 둘다 가능)
lst = [1,2,3]
lst.append(4)
print(lst)
print()

deq = deque([1,2,3])
deq.append(4)
print(deq)

[1, 2, 3, 4]

deque([1, 2, 3, 4])


- list와 deque 둘다 `튜플, 리스트, dict도 요소로 넣어줄 수 있음` 이렇게 해서 여러 요소 묶어서 삽입 가능~

In [3]:
# appendleft -> 앞쪽에서 요소를 추가 삽입해줌!(deque만 가능)

deq = deque([1,2,3,4])
deq.appendleft(0)
print(deq)

deque([0, 1, 2, 3, 4])


## extend & extendleft 

In [4]:
# extend(iterable) -> 요소들을 마지막에 추가로 삽입해줌(문자열이어야 함!)
# list, deque 둘 다 가능

# 우선 list의 append vs extend 비교
lst = [1,2,3,4]
lst.append('abc')
print(lst)
print()
lst.extend('abc')
print(lst)

[1, 2, 3, 4, 'abc']

[1, 2, 3, 4, 'abc', 'a', 'b', 'c']


In [5]:
# deque의 extend(문자열) , int형 에러발생
lst = [1,2,3,4]
deq = deque(lst)
deq.extend('abc')
print(deq)

deque([1, 2, 3, 4, 'a', 'b', 'c'])


In [6]:
# extendleft(iterable) -> 앞쪽에서 데이터를 반복적으로 추가 
# deque만 가능
lst = [1,2,3,4]
deq = deque(lst)
deq.extendleft('abc') # 앞에 추가할때 문자열의 역순으로 첨가됨
print(deq)

deque(['c', 'b', 'a', 1, 2, 3, 4])


## pop & popleft

In [7]:
# pop() -> 리스트의 마지막 원소를 뺌(inplace됨!)
# pop(index) -> 해당 인덱스의 원소를 뺌(inplace됨!)
# pop은 list, deque 모두 가능

lst = [1,2,3]
lst.pop()
print(lst)

lst = [1,2,3]
deq = deque(lst)
deq.pop()
print(deq)

[1, 2]
deque([1, 2])


In [8]:
# popleft : 리스트의 첫번째 원소부터 차례대로 제거
lst = [1,2,3]
deq = deque(lst)
deq.popleft()
print(deq)

deque([2, 3])


## rotate(n) 
- 요소들을 n값만큼 회전해주는 메소드, inplace됨!
- ``음수``면 ``왼쪽``  회전
- ``양수``면 ``오른쪽`` 회전

In [9]:
deq = deque([1,2,3,4,5,6,7])
print("원본:", deq)
deq.rotate(1) # 한개 만큼 오른쪽으로 회전!
print(deq)

deq = deque([1,2,3,4,5,6,7])
deq.rotate(2) # 두개 만큼 오른쪽으로 회전!
print(deq)

deq = deque([1,2,3,4,5,6,7])
deq.rotate(-1) # 한개만큼 왼쪽으로 회전!
print(deq)

deq = deque([1,2,3,4,5,6,7])
deq.rotate(-2) # 두개만큼 왼쪽으로 회전!
print(deq)

원본: deque([1, 2, 3, 4, 5, 6, 7])
deque([7, 1, 2, 3, 4, 5, 6])
deque([6, 7, 1, 2, 3, 4, 5])
deque([2, 3, 4, 5, 6, 7, 1])
deque([3, 4, 5, 6, 7, 1, 2])


## deque의 maxlen 인자

- deque 자료구조의 최대 길이 설정
- 최대 길이 초과해서 첨가하게 되면 왼쪽부터 값이 삭제!(appendleft로 추가할 시에는 오른쪽부터 삭제!)

In [38]:
test = deque([1,2,3], maxlen=3)
test

deque([1, 2, 3])

In [39]:
test.append(4)
print(test)

deque([2, 3, 4], maxlen=3)


In [40]:
test.appendleft(5)
print(test)

deque([5, 2, 3], maxlen=3)


# numpy

## numpy의 identity

- 주로 One-hot을 만들 때 사용됨

In [11]:
depth = 5
np.identity(depth)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [12]:
# label이 0~4별로 하나씩 one-hot vector 뽑기
for i in range(0, depth):
    ohe = np.identity(depth)
    ohe_data = ohe[i:i+1]
    print(ohe_data)

[[1. 0. 0. 0. 0.]]
[[0. 1. 0. 0. 0.]]
[[0. 0. 1. 0. 0.]]
[[0. 0. 0. 1. 0.]]
[[0. 0. 0. 0. 1.]]


## np.random

### np.random.rand

- 0~1사이의 균등분포에서 난수값을 리턴
- integer를 주어서 그 개수만큼의 난수를 생성

In [14]:
np.random.rand(1)

array([0.86859982])

In [15]:
np.random.rand(2)

array([0.99360109, 0.25218306])

In [16]:
np.random.rand(10)

array([0.55294206, 0.86818499, 0.12033713, 0.00723117, 0.4440046 ,
       0.33926238, 0.22921347, 0.38722507, 0.28311948, 0.3219217 ])

- shape형태로 주어서 shape형태만큼의 0~1사이의 균등분포 값을 리턴(``이중 tuple아님!``)

In [18]:
np.random.rand(1,1)

array([[0.79328777]])

In [19]:
np.random.rand(2,2)

array([[0.73750421, 0.59303024],
       [0.43189349, 0.30258485]])

In [20]:
np.random.rand(2,3)

array([[0.18923542, 0.39708562, 0.94240602],
       [0.06497432, 0.9206853 , 0.55057929]])

- 아무값을 인자로 안주면 스칼라값 하나 생성함

In [26]:
np.random.rand()

0.4005584076789074

### np.random.randn

- 정규분포(가우시안 분포)를 가정하여 대체로 -1~1사이의 값을 리턴
- 이 또한 integer을 주면 그 개수만큼의 난수를 생성

In [21]:
np.random.randn(1)

array([2.18388595])

In [22]:
np.random.randn(3)

array([-0.04542243, -0.56062621, -0.02815788])

- shape형태로 주면 그 shape만큼의 난수값을 생성(``이중 tuple아님!``)

In [23]:
np.random.randn(1,1)

array([[0.62811143]])

In [24]:
np.random.randn(2,2)

array([[ 2.26919702, -1.08813954],
       [-0.41905715, -0.29870642]])

In [25]:
np.random.randn(2,3)

array([[ 0.49888236,  1.01444182, -1.43047371],
       [ 1.75967821, -0.77260299, -0.71040597]])

- 이 또한 아무값을 인자로 안주면 하나의 스칼라값 반환

In [27]:
np.random.randn()

1.244290628362782

### np.random.randint

- 무조건 적어도 하나의 인자를 추가시켜야함
- 특정 범위 이내의 정수형을 반환
- argument 설명
    * low: 난수를 생성시킬 범위의 최솟값 설정(``만약 low값만 인자로 주면 이 low값을 범위 최댓값으로 설정하고 0~low사이의 값을 리턴``)
    * high(optional) : 난수를 생성시킬 범위의 최댓값 설정
    * size : 몇 개의 난수를 반환받을지 결정. 단, ``shape형태로``주어서 shape만큼의 array를 반환해줌!
    * dtype : int형 type 설정 가능

In [29]:
np.random.randint(low=5, high=10, size=10)

array([7, 7, 6, 7, 6, 6, 7, 8, 8, 7])

In [30]:
np.random.randint(low=5, size=10)

array([1, 3, 0, 2, 0, 3, 3, 4, 1, 2])

In [31]:
np.random.randint(low=5, size=(2,3))

array([[0, 4, 3],
       [0, 1, 3]])

In [32]:
# low를 입력하지 않으면 에러 발생
np.random.randint(high=5, size=10)

TypeError: randint() takes at least 1 positional argument (0 given)

### np.random.random

- np.random.rand랑 유사!
- 단, ``rand는 0 <= 난수 <= 1``이지만 ``random은 0 < 난수 < 1``이다!

In [33]:
np.random.random()

0.4498273075229674

In [34]:
np.random.random(2)

array([0.1349445 , 0.53664529])

- 단, random은 shape인자로 추가할 때 ``이중 tuple``로 해주어야 함!

In [35]:
# tuple 씌워주지 않으면 에러 발생
np.random.random(2,3)

TypeError: random() takes at most 1 positional argument (2 given)

In [36]:
np.random.random((2,3))

array([[0.40510866, 0.87862812, 0.48780369],
       [0.9830187 , 0.9849908 , 0.1684783 ]])

### np.eye(int), np.identity(int)
- int만큼의 n by n 정방 대각행렬을 만든다!

In [6]:
import numpy as np
eye = np.eye(5)
identity = np.identity(5)
print(eye)
print()
print(identity)

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


# random
## random.randrange

- np.random.randint와 비슷하게 정수를 반환
- ``randrange(start, end, step)`` => start부터 end사이 범위에서 step만큼의 sequenct 정수값들 중 랜덤하게 하나 선택!
- start기본 값은 0임
- step기본 값은 1임

In [51]:
import random
random.randrange(10, 50, 10)

40

In [77]:
random.randrange(1, 100, 3)

19

In [87]:
# 인자 하나만 주면 argument를 end로 간주가고 start=0, step=1로 하고 그 범위안에서 랜덤한 숫자 하나 리턴
random.randrange(10)

6

## random.sample
- ``sample(seq or set, N)``
    * 튜플, 리스트, set 구조 할당 가능
    * N개 개수만큼의 요소를 랜덤하게 unique한 요소만 있도록 뽑음(순서 상관없이)

In [90]:
a = ['a','b','c']
random.sample(a, 2)

['a', 'b']

# pandas

- sort_index()로 인덱스 바로 정렬 가능함!(reset_index()안해도 됨!)
    * ascending=False 옵션도 추가 가능
    * inplace 옵션도 있음
    * 주로 value_counts() 시 자주 사용되는 듯함!

- dataframe.clip(lower, upper, axis) : 특정 임곗값 위(아래)에 해당하는 값들만 추출
    * upper : 해당 임곗값보다 아래인 값들!
    * lower : 해당 임곗값보다 위인 값들!

- df.isin(list) => 리스트 요소를 포함하고 있는 True, False반환
    * df[column].isin(list) -> 리스트 요소를 포함하고 있는 True, False반환

- dataframe.sample(n, frac=1)
    * n : n개 만큼 샘플링
    * frac : 전체 개수의 비율만큼을 샘플링(eg.1이면 전체개수만큼 뽑으라!)
    * ``frac=1을 설정해서 데이터를 shuffle해주는 효과``있음!

- dataframe.mean(axis)
    * axis=0이면 ``행 방향``으로 평균값이 므로 결국 ``column``간의 평균임!

- Series.to_frame() : Series를 dataFrame으로 변경

In [2]:
import pandas as pd

series = pd.Series([1,2,3])
series.rename('test').to_frame()

Unnamed: 0,test
0,1
1,2
2,3


- dataframe.stack() : 밑으로 쌓자!
    * 다른 변수를 값으로 넣어서 스택!

In [4]:
df_single_level_cols = pd.DataFrame([[0, 1], [2, 3]],
                                    index=['cat', 'dog'],
                                    columns=['weight', 'height'])
df_single_level_cols

Unnamed: 0,weight,height
cat,0,1
dog,2,3


In [5]:
df_single_level_cols.stack()

cat  weight    0
     height    1
dog  weight    2
     height    3
dtype: int64

- pandas의 iloc
    * df.iloc[[0]] : 0번 행의 데이터를 가져옴!
    * df.iloc[[0, 1]] : 0번,1번 행의 데이터를 가져옴!
    * df.iloc[:3] : 0~2번 행의 데이터를 가져옴!
    * df.iloc[[True, False, True]] : True인 0번, 2번행 데이터를 가져옴!