<a href="https://colab.research.google.com/github/Wooney98/playdata-python/blob/main/08_%EB%AA%A8%EB%93%88%EA%B3%BC_%ED%8C%A8%ED%82%A4%EC%A7%80.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 모듈(Module), 패키지(Package)
- 모듈: 변수, 함수, 클래스를 모아놓은 `.py`확장자 파일
    - `.py`: 마크다운이나 셀같은 정보는 없고 순수한 파이썬 코드만 존재
    - `.ipynb`: 데이터분석가들이 파이썬 언어와 데이터로 작업하고 실험할수 있는 interactive한 개발환경 파일
- 패키지: 모듈의 기능을 폴더별로 정리한 개념
    - 패키지 생성: 기능별로 폴더를 정리하는것


```python
# 모듈 불러오기
import <모듈명>

# 패키지에서 모듈 불러오기
from <패키지명> import <모듈명>

# 모듈 안에 함수와 클래스 불러오기
from <모듈명> import <함수 or 클래스>

# 별칭 주기
import <모듈명> as <별칭>
```

# sys, os 모듈 사용해보기

In [None]:
import sys,os
sys.path

['',
 '/content',
 '/env/python',
 '/usr/lib/python37.zip',
 '/usr/lib/python3.7',
 '/usr/lib/python3.7/lib-dynload',
 '/usr/local/lib/python3.7/dist-packages',
 '/usr/lib/python3/dist-packages',
 '/usr/local/lib/python3.7/dist-packages/IPython/extensions',
 '/root/.ipython']

In [None]:
os.getcwd()

'/content'

In [None]:
sys.version

'3.7.13 (default, Apr 24 2022, 01:04:09) \n[GCC 7.5.0]'

- cpu 개수 확인하기

In [None]:
os.cpu_count()

2

- 폴더 만들기
    - 폴더가 이미 있을 경우 에러가 발생

In [None]:
os.mkdir("data")

In [None]:
os.mkdir("/content/data/files")

- 폴더 또는 파일명 변경

In [None]:
os.rename("data","data2")

- 폴더 삭제하기

In [None]:
os.rmdir("data2/files")

- 폴더 존재 여부 확인

In [None]:
os.path.isdir("data1"), os.path.isdir("data2")

(False, True)

- 파일 존재 여부 확인

In [None]:
os.path.isfile("demo.py")

False

In [None]:
os.path.exists("data2"), os.path.exists("demo.py")

(True, False)

- 파일 삭제하기

In [None]:
os.remove("demo.py")

FileNotFoundError: ignored

#random 모듈 사용해보기

In [None]:
import random

- random 함수
    - 0~1사이에 랜덤한 실수를 반환한다.

In [None]:
random.random()

0.7609635608176939

- uniform 함수
    - 두개의 숫자 사이의 랜덤한 실수를 반환한다.

In [None]:
random.uniform(1,10)

6.686556368074149

- randint 함수
    - 두개의 숫자 사이의 랜덤한 정수를 반환한다.

In [None]:
random.randint(0,5)

5

- randrange 함수
    - start,stop,step 으로 만들어지는 정수중에 랜덤값을 반환한다.
    - (start, stop-1,step)

In [None]:
random.randrange(1)

0

In [None]:
random.randrange(0,10,2)

4

- choice 함수
    - 시퀀스 자료형에서 랜덤하게 하나의 요소를 선택해서 반환한다.

In [None]:
lst = [1,2,3,4,5,6]
random.choice(lst)

6

- sample 함수
    - 시퀀스 자료형에서 랜덤하게 두번째 인수의 개수로 선택해서 반환

In [None]:
random.sample(lst,2)

[6, 3]

- shuffle 함수
    - 요소의 순서를 랜덤하게 변경한다.

In [None]:
lst = [1,2,3,4,5,6,7]
random.shuffle(lst)
lst

[6, 3, 4, 7, 5, 1, 2]

In [None]:
random.seed(42)
lst = [1,2,3,4,5,6]
random.shuffle(lst)
lst

[4, 2, 3, 5, 1, 6]

# collections 모듈
- 파이썬의 내장 자료구조
- 기존 자료구조를 확장하여 제작됨

## deque

In [None]:
from collections import deque

In [None]:
dq = deque()
dq

deque([])

- append

In [None]:
dq.append(100)
dq

deque([100])

- appendleft
    - 인자로 넣은 값을 왼쪽으로 추가

In [None]:
dq.appendleft(300)
dq

deque([300, 100])

- deque 객체 생성시 반복가능한 객체를 인자로 넣어도 된다.

In [None]:
dq = deque(range(10))
dq

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

- rotate
    - dq 객체 안에 요소를 회전한다.

In [None]:
dq.rotate()
dq

deque([9, 0, 1, 2, 3, 4, 5, 6, 7, 8])

In [None]:
dq.rotate(-1)
dq

deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 0])

In [None]:
dq[0] # 인덱싱 지원, 슬라이싱 지원X

1

- 속도 비교

In [None]:
%%timeit
dq = deque()
for i in range(1000000):
    dq.append(i)

10 loops, best of 5: 105 ms per loop


In [None]:
%%timeit
lst=[]
for i in range(1000000):
    lst.append(i)

10 loops, best of 5: 110 ms per loop


In [None]:
%%timeit
lst = [i for i in range(1000000) ]

10 loops, best of 5: 69.9 ms per loop


## defaultdict
- 딕셔너리의 단점으로 없는 key 접근시 에러가 발생하는 단점을 보완
- 딕셔너리의 없는 key에 접근시 지정한 기본값을 이용하여 key,value 생성

In [None]:
from collections import defaultdict
default_dict = defaultdict(lambda:0)
default_dict["key1"]

0

In [None]:
dict(default_dict)

{'key1': 0}

### defaultdict 활용방법


- 딕셔너리 예제

In [None]:
tup_list = [
    ("경제","10시 경제기사"),
    ("정치","10시 정치기사"),
    ("사회","10시 사회기사"),
    ("경제","14시 경제기사"),
    ("정치","15시 정치기사"),
]
news_dict = {}
for k,v in tup_list:
    if news_dict.get(k) is None:
        news_dict[k] = []
    news_dict[k].append(v)
news_dict

{'경제': ['10시 경제기사', '14시 경제기사'],
 '사회': ['10시 사회기사'],
 '정치': ['10시 정치기사', '15시 정치기사']}

In [None]:
news_dict = defaultdict(list)
for k,v in tup_list:
    news_dict[k].append(v)
news_dict

defaultdict(list,
            {'경제': ['10시 경제기사', '14시 경제기사'],
             '사회': ['10시 사회기사'],
             '정치': ['10시 정치기사', '15시 정치기사']})

## OrderedDict
- 순서를 가진 딕셔너리 객체
- key,value 생성한 순서대로 저장


In [None]:
from collections import OrderedDict
order_dict = OrderedDict()

order_dict["apple"] = 200
order_dict["banana"] = 100
order_dict["kiwi"] = 500

for k,v in order_dict.items():
    print(k,v)

apple 200
banana 100
kiwi 500


## Counter
- 시퀀스 자료형의 데이터의 값의 개수를 딕셔너리 형태로 반환

In [None]:
from collections import Counter
Counter("aaabbcce")

Counter({'a': 3, 'b': 2, 'c': 2, 'e': 1})

In [None]:
cnt = Counter({"사과":3,"딸기":5,"포도":1,"수박":6})
cnt

Counter({'딸기': 5, '사과': 3, '수박': 6, '포도': 1})

- most_common
    - value를 기준으로 내림차순 정렬하여 key, value를 튜플에 담고 리스트에 담아 반환

In [None]:
cnt.most_common()

[('수박', 6), ('딸기', 5), ('사과', 3), ('포도', 1)]

- elements
    - value의 개수만큼 key를 반복할 수 있는 객체를 반환

In [None]:
for i in cnt.elements():
    print(i)

사과
사과
사과
딸기
딸기
딸기
딸기
딸기
포도
수박
수박
수박
수박
수박
수박


# 파이썬 속도 향상을 위한 팁
- 단순하게 반복해서 데이터를 담는 경우

In [None]:
#Bad
lst = []
for i in range(1,1000):
    if i%2 == 0:
        lst.append(i)

In [None]:
#Good
lst = [i for i in range(1,1000) if i % 2 == 0]

- 여러개의 변수를 초기화 할때

In [None]:
#Bad
a = None
b = 0
c = ""

In [None]:
#Good
a,b,c = None,0,""

- 컬렉션에 있는 문자열을 연결할때

In [None]:
#Bad
lst = [
    ("A반","90점"),
    ("B반","88점"),
    ("C반","76점")
]
for s1,s2 in lst:
    print(f"{s1} {s2}")


A반 90점
B반 88점
C반 76점


In [None]:
#Good
for s in lst:
    print(" ".join(s))

A반 90점
B반 88점
C반 76점


- 함수 호출은 컴퓨팅 비용이 많이든다.

In [None]:
#Bad
%%timeit
def square(n):
    return n**2
sq = []
for i in range(1000000):
    sq.append(square(i))

1 loop, best of 5: 409 ms per loop


In [None]:
#Good
%%timeit
def square():
    sq = []
    for i in range(1000000):
        sq.append(i**2)
    return sq
square()

1 loop, best of 5: 355 ms per loop


- 모듈을 불러올때

In [None]:
#Bad
import collections
cnt = collections.Counter() # 참조연산이 컴퓨팅비용을 잡아먹음
cnt

Counter()

In [None]:
#Good
from collections import Counter
cnt = Counter()
cnt

Counter()