# Fastcampus 파이썬 전처리 - 1-2. 파이썬 주요 데이터 구조

- toc: true
- badges: false
- comments: true
- author: Jay Sung
- categories: [ ___  B. MACHINE LEARNING ___ > Pre-processing]

- - -
- - -
# 리스트와 튜플


_[공통점]_

- 인덱싱과 슬라이싱 가능
- iterable

_[차이점]_

- __리스트는 가변, 튜플은 불변__ 이므로 리스트는 사전의 key로 사용할 수 없고 튜플은 가능하다. 
- 순회 속도는 리스트보다 __튜플이 약간 더 빠르다__ (따라서 요소 변경이 필요없는 경우 튜플이 적합)

- - -
## 리스트 관련 함수

In [18]:

list1 = [5, 6, 7, 8, 9, 10]

## 요소 추가
# .append(x) => 새로운 요소x를 맨 뒤에 추가
list1.append(10)
print(list1)
list1.append(20)
print(list1)

# .insert(a, x) => 새로운 요소 x를 a 위치에 추가 (기존의 요소는 뒤로 밀림)
list1.insert(1,15)
print(list1)

[5, 6, 7, 8, 9, 10, 10]
[5, 6, 7, 8, 9, 10, 10, 20]
[5, 15, 6, 7, 8, 9, 10, 10, 20]


In [15]:

## 요소 제거
# .remove(x) => 기존 요소 x를 제거 (단, x가 여러 개면 맨 앞 하나만 지워지고, 없으면 오류 발생)
list1.remove(10)
print(list1)

# .pop() => 맨 마지막 요소를 출력하면서 그 요소를 삭제 (stack 구조)
list1.pop()

[5, 15, 6, 7, 8, 9, 10, 20]


20

In [17]:

## 위치 찾기
# .index(x) => x의 위치를 반환 (단, x가 여러 개면 맨 앞 인덱스를 반환하고, 없으면 오류 발생)
list1.index(7)

3

- - -
## 튜플 관련 함수

- 소괄호를 쓰지 않아도 된다는 특징 덕분에 SWAP (값을 서로 변경), 함수의 가변인자 및 여러개의 출력을 받는데 많이 사용

In [21]:

# 소괄호 없이 튜플 만들기
T = 1, 2, 3
print(T)

(1, 2, 3)


In [22]:

# 원소가 하나인 튜플은 반드시 원소뒤에 쉼표 붙여서 표시
T = 1,
print(type(T))
print(T)

<class 'tuple'>
(1,)


In [23]:

# 튜플을 이용한 여러 값 동시에 입력 받기 및 SWAP
a, b = 1, 2
print(a, b)
b, a = a, b
print(a, b)

1 2
2 1


In [24]:

# 함수의 가변인자로 사용
def f(*x):
	print("입력된 데이터 타입 {}".format(type(x)))
	sum_x = 0
	product_x = 1
	for val in x:  # x는 튜플이므로 iterable => for문 사용가능
		sum_x += val
		product_x *= val
	return sum_x, product_x

S, P = f(1,2,3,4,5)
print(S, P)

입력된 데이터 타입 <class 'tuple'>
15 120


- - -
- - -
# 사전

- 사전(dictionary)이란 key와 value 쌍으로 이루어진 hash table

- - -
## 사전 관련 함수

In [27]:

## 요소 확인하는 함수 - 값을 효율적으로 순회하거나 변경할 때 사용

dic = {1:1, 2:4, 3:9, 4:16, 5:25}

# .keys() => 키 리스트 받기
print(dic.keys())
print(list(dic.keys()))

# .values() => 값 리스트 받기
print(dic.values())
print(list(dic.values()))

# .items() => 키와 값 쌍으로 얻기
print(dic.items())
print(list(dic.items()))

dict_keys([1, 2, 3, 4, 5])
[1, 2, 3, 4, 5]
dict_values([1, 4, 9, 16, 25])
[1, 4, 9, 16, 25]
dict_items([(1, 1), (2, 4), (3, 9), (4, 16), (5, 25)])
[(1, 1), (2, 4), (3, 9), (4, 16), (5, 25)]


- - -
- - -
# 반복문과 comprehension

- - -
## 대표적인 이터레이터 객체 생성 함수 : itertools 모듈 함수

- itertools 모듈은 다양한 종류의 이터레이터 객체를 생성하는 함수로 구성됨

In [33]:
import itertools

## itertools.product(*L)
# 순회가능한 여러 개의 객체를 순서대로 순회하는 이터레이터를 생성 (**다중 for문과 같다**)
count = 0
for a, b, c in itertools.product(range(2), range(2), range(2)):
	print(a, b, c)



0 0 0
0 0 1
0 1 0
0 1 1
1 0 0
1 0 1
1 1 0
1 1 1


In [37]:

## itertools.combination(p,r)
# 이터레이터 객체 p 에서 크기 r의 가능한 모든 *조합*을 갖는 이터레이터를 생성

L = ['a', 'b', 'c', 'd']
for comb in itertools.combinations(L, 2):
	print(comb)

('a', 'b')
('a', 'c')
('a', 'd')
('b', 'c')
('b', 'd')
('c', 'd')


In [39]:

# L에서 가능한 모든 조합 뽑기

for r in range(1, len(L) + 1):
	for comb in itertools.combinations(L, r):
		print(comb)

('a',)
('b',)
('c',)
('d',)
('a', 'b')
('a', 'c')
('a', 'd')
('b', 'c')
('b', 'd')
('c', 'd')
('a', 'b', 'c')
('a', 'b', 'd')
('a', 'c', 'd')
('b', 'c', 'd')
('a', 'b', 'c', 'd')


In [36]:

## itertools.permutations(p,r)
# 이터레이터 객체 p 에서 크기 r의 가능한 모든 *순열*을 갖는 이터레이터를 생성

for per in itertools.permutations(L, 2):
	print(per)

('a', 'b')
('a', 'c')
('a', 'd')
('b', 'a')
('b', 'c')
('b', 'd')
('c', 'a')
('c', 'b')
('c', 'd')
('d', 'a')
('d', 'b')
('d', 'c')


- - -
## Comprehension

___list comprehension___

- for문을 사용하여 한줄로 리스트 작성
- 문법 : [output **for** element **in** iterator (**if** condition)]

___dictionary comprehension___

- for문을 사용하여 한줄로 사전 작성
- 문법 : {~key~ : ~val~  **for** key, val **in** iterator (**if** condition)}

In [50]:

# 예시1 (dictionary comprehension)

dic1 = {x:y**2 for x,y in zip(range(10), range(10)) if x%2 == 0}
print(dic1)

{0: 0, 2: 4, 4: 16, 6: 36, 8: 64}


In [49]:

# 풀어쓰면 아래와 같다
dic2 = dict()
for x, y in zip(range(10), range(10)):
	if x%2 == 0:
		dic2[x] = y ** 2
print(dic2)

{0: 0, 2: 4, 4: 16, 6: 36, 8: 64}


In [52]:

# 예시2 (dictionary comprehension)
dic_ex1 = {1 : 'NaN', 2:2, 3:4, 4:'NaN'}
dic_ex2 = {x:y for x,y in dic_ex1.items() if y != 'NaN'}

print(dic_ex1)
print(dic_ex2)

{1: 'NaN', 2: 2, 3: 4, 4: 'NaN'}
{2: 2, 3: 4}


- - -
- - -
# Numpy의 데이터 구조

- - -
- - -
# Pandas의 데이터 구조