# 7장 모듈

* 모듈의 기본적인 사용 방법을 이해한다.
* 파이썬의 표준 모듈에는 어떤 것이 있는지 알아본다.
* 파이썬 표준 문서를 활용해 모듈의 기능을 찾는 방법에 대해 이해한다.


## 7-1 표준 모듈


*   표준 모듈 : 기본적으로 내장되어 있는 모듈 (파이썬 라이브러리 문서 찾아보기)
*   외부 모듈 : 다른 사람들이 만들어서 공개한 모듈



```
import 모듈 이름
```





### 모듈 사용의 기본 : **math 모듈**
자동 완성 기능을 사용하면 math 모듈이 어떤 변수와 함수를 가졌는지 확인 가능하다!

In [None]:
import math

print(math.sin(1))
print(math.tan(1))
print(math.cos(1))
print(math.floor(2.5))  # 내림 (실수를 정수로 변환)
print(math.ceil(2.5))   # 올림 (실수를 정수로 변환)

# 반올림은 파이썬 내장 함수 round
# 컴퓨터가 내부적으로 소수를 제대로 표현할 수 없기 때문에,
# 정수 부분이 짝수일 때 소수점이 5라면 내리고, 홀수일 때 소수점이 5라면 올리는 방식이다...(일반적인 상식과 다름)
print(round(1.5))
print(round(2.5))
print(round(3.5))
print(round(4.5))
print(round(5.5))

0.8414709848078965
1.5574077246549023
0.5403023058681398
2
3
2
2
4
4
6


## **from 구문**
모듈에는 정말 많은 변수와 함수가 들어있다.<br>
하지만 그중에서 우리가 활용하고 싶은 기능은 극히 일부일 수 있으며,<br>
math.cos(), math.sin(), math.pi처럼 앞에 무언가를 계속 입력하는 것이 귀찮다고 느껴질 수 있다.

```
from 모듈 이름 import 가져오고 싶은 변수 또는 함수
```

In [None]:
# 예시
from math import sin, cos, tan, floor, ceil

print(sin(1))
print(cos(1))
print(tan(1))
print(floor(1))
print(ceil(1))

0.8414709848078965
0.5403023058681398
1.5574077246549023
1
1


```
from math import *
```
앞에 'math'를 붙이는 것이 싫고, 모든 기능을 가져오는 것이 목적일 때..

### as 구문
```
import 모듈 as 사용하고 싶은 식별자
```

In [None]:
import math as m

print(m.sin(1))
print(m.cos(1))

0.8414709848078965
0.5403023058681398


## **random 모듈**
랜덤한 값을 생성할 때 사용하는 모듈

In [None]:
import random

print("# 랜덤 모듈")

# random() : 0.0 <= x < 1.0 사이의 float를 리턴합니다.
print("- random():", random.random())

# uniform(min, max): 지정한 범위의 float를 리턴합니다.
print("- uniform(10, 20):", random.uniform(10, 20))

# randrange(): 지정한 범위의 int를 리턴합니다.
# - randrange(max): 0부터 max 사이의 값을 리턴
# - randrange(min, max): min부터 max사이의 값을 리턴
print("- randrange(10):", random.randrange(10))
print("- randrange(10,30):", random.randrange(10, 20))

# choice(list): 리스트 내부에 있는 요소를 랜덤하게 선택합니다.
print("- choice([1,2,3,4,5]):", random.choice([1,2,3,4,5]))

# shuffle(list): 리스트의 요소들을 랜덤하게 섞습니다.
print("- shuffle([1,2,3,4,5]):", random.shuffle([1,2,3,4,5]))

# sample(list, k=<숫자>): 리스트의 요소 중에 k개를 뽑습니다.
print("- sample([1,2,3,4,5], k=2)", random.sample([1,2,3,4,5], k=2))

# 랜덤 모듈
- random(): 0.393317036286814
- uniform(10, 20): 16.184870804941866
- randrange(10): 2
- randrange(10,30): 16
- choice([1,2,3,4,5]): 5
- shuffle([1,2,3,4,5]): None
- sample([1,2,3,4,5], k=2) [4, 2]


# 주의!!
파이썬의 모듈은 사실 단순한 파이썬 파일이다.<br>
import 구문은 가장 먼저 현재 폴더에서 import 뒤에 적어 놓은 파일을 찾는다. 만약 찾으면 이를 '모듈'로 인식하고 읽어 들인다.<br>
따라서 모듈과 같은 이름으로 파일을 저장하지 않게 주의해야한다!!

## **sys 모듈**
시스템과 관련된 정보를 가지고 있는 모듈이다.<br>
명령 매개변수를 받을 때 많이 사용한다.

In [None]:
import sys

# 명령 매개변수를 출력
print(sys.argv)
print(" --- ")

# 컴퓨터 환경과 관련된 정보를 출력한다.
print("getwindowsversion:()", sys.getwindowsversion())
print(" --- ")
print("copyright:", sys.copyright)
print(" --- ")
print("version:", sys.version)

# 프로그램을 강제로 종료
sys.exit()

['/usr/local/lib/python3.10/dist-packages/ipykernel_launcher.py', '-f', '/root/.local/share/jupyter/runtime/kernel-eb0439e8-ad24-454c-8326-be243f19145c.json']
 --- 


AttributeError: ignored

## **os 모듈**
운영체제와 관련된 기능을 가진 모듈. <br>
새로운 폴더를 만들거나 폴더 내부의 파일목록을 보는 일도 모두 os 모듈을 활용해서 처리

In [None]:
import os

# 기본 정보 몇 개 출력
print("현재 운영체제:", os.name)
print("현재 폴더:", os.getcwd())
print("현재 폴더 내부의 요소:", os.listdir())

# 폴더를 만들고 제거한다(폴더가 비어있을 때만 제거 가능)
os.mkdir("hello")   # make directory
os.rmdir("hello")   # remove directory

# 파일을 생성하고 + 파일 이름을 변경한다
with open("original.txt", "w") as file:
  file.write("hello").

os.rename("original.txt", "new.txt")

# 파일을 제거
os.remove("new.txt")
# os.unlink("new.txt")

# 시스템 명령어 실행
os.system("dir")

현재 운영체제: posix
현재 폴더: /content
현재 폴더 내부의 요소: ['.config', 'sample_data']


0

## **datetime 모듈**
date(날짜), time(시간)과 관련된 모듈로, 날짜 형식을 만들 때 자주 사용되는 코드들로 구성되어 있다.

In [None]:
import datetime

# 현재 시각을 구하고 출력하기
print("# 현재 시각 출력하기")

now = datetime.datetime.now()

print(now.year, "년")
print(now.month, "월")
print(now.day, "일")
print(now.hour, "시")
print(now.minute, "분")
print(now.second, "초")
print()

# 시간 출력 방법
print("# 시간을 포맷에 맞춰 출력하기")

output_a = now.strftime("%Y.%m.%d %H:%M:%S")
output_b = "{}년 {}월 {}일 {}시 {}분 {}초".format(now.year, \
                                            now.month, \
                                            now.day, \
                                            now.hour, \
                                            now.minute, \
                                            now.second)
output_c = now.strftime("%Y{} %m{} %d{} %H{} %M{} %S{}".format(*"년월일시분초"))
# 문자열, 리스트 앞에 '*'를 붙이면 요소 하나하나가 매개변수로 지정된다!!

print(output_a)
print(output_b)
print(output_c)
print()

# strftime()함수를 사용하면 시간을 형식에 맞춰 출력할 수 있다.
# 다만 한국어 등의 문자는 매개변수에 넣을 수 없어서 이를 보완하고자 output_b / output_c 같은 형식을 사용한다!

# 현재 시각 출력하기
2023 년
7 월
21 일
11 시
34 분
18 초

# 시간을 포맷에 맞춰 출력하기
2023.07.21 11:34:18
2023년 7월 21일 11시 34분 18초
2023년 07월 21일 11시 34분 18초



In [None]:
# 시간 처리하기

# 모듈을 읽어 들인다
import datetime

now = datetime.datetime.now()

# 특정 시간 이후의 시간 구하기
print("# datetime.timedelta로 시간 더하기")

after = now + datetime.timedelta(\
                                 weeks=1, \
                                 days=1, \
                                 hours=1, \
                                 minutes=1, \
                                 seconds=1)

print(after.strftime("%Y{} %m{} %d{} %H{} %M{} %S{}").format(*"년월일시분초"))
print()

# 특정 시간 요소 교체하기
print("# now.replace()로 1년 더하기")

output = now.replace(year=(now.year + 1))
print(output.strftime("%Y{} %m{} %d{} %H{} %M{} %S{}").format(*"년월일시분초"))

# timedelta() 함수를 사용하면 특정한 시간의 이전 or 이후를 구할 수 있다.
# 다만 1년 후, 2년 후 등의 면 년 후를 구하는 기능이 없기 때문에 replace() 함수를 사용하여 아예 날짜 값을 교체한다.

# datetime.timedelta로 시간 더하기
2023년 07월 29일 12시 44분 12초

# now.replace()로 1년 더하기
2024년 07월 21일 11시 43분 11초


## **time 모듈**
시간과 관련된 기능을 다룰 때 time 모듈을 사용한다.<br>
time 모듈로도 날짜와 관련된 처리를 할 수 있지만, 그런 처리는 datetime 모듈을 사용하는 경우가 더 많다.<br>
4챕터에서 살펴보았던 것 처럼 유닉스 타임(1970년 1월 1일 0시 0분 0초를 기준으로 계산한 시간 단위)을 구할 때, **특정 시간 동안 코드 진행을 정지할 때** 많이 사용한다.

In [None]:
import time

print("지금부터 5초 동안 정지합니다!")
time.sleep(5)
print("프로그램을 종료합니다")

지금부터 5초 동안 정지합니다!
프로그램을 종료합니다


## **urllib 모듈**
URL을 다루는 라이브러리이다.<br>
(Uniform Resource Locator
= 네트워크의 자원이 어디에 위치하는지 확인할 때 사용하는 것 <br>
or 웹 브라우저의 주소창에 입력하는 주소라고 이해)<br>
<br>
따라서, 인터넷 주소를 활용할 때 사용하는 라이브러리이다.

In [None]:
from urllib import request

# urlopen() 함수로 구글의 메인 페이지를 읽는다.
target = request.urlopen("https://google.com")
output = target.read()

# 출력
print(output)

# 맨 앞에 'b'는 바이너리 데이터(binary data)를 의미한다.
# Binary는 2진법을 의미하며, '1'과 '0'만을 사용하여 수를 나타내는 진법이다.
# 모든 컴퓨터는 데이터를 2진법을 사용하여 저장하고 사용한다.
# 이러한 Binary Digits를 좀 더 편하게 부르기 위해 "bits"라는 용어를 사용한다.

# https://brunch.co.kr/@ericbaek/94 --> 참고!!

b'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="en"><head><meta content="Search the world\'s information, including webpages, images, videos and more. Google has many special features to help you find exactly what you\'re looking for." name="description"><meta content="noodp" name="robots"><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="eF6e7mfdwmTqCifIn99h9Q">(function(){var _g={kEI:\'KHG6ZO69L4-lqtsP7ZW4uAU\',kEXPI:\'0,1359409,1710,4349,206,4804,2316,383,246,5,1129120,1748,12,2,1195945,694,380090,16111,28687,22430,1362,12319,2815,14765,4998,17075,38444,2872,2891,3926,213,4209,3406,606,30668,30022,6398,8926,2025,1,16916,2652,4,1528,2304,29062,13064,13659,2980,1457,9358,13255,6624,7596,1,42154,2,16395,342,23024,5679,1021,31122,4567,6259,23418,1246,5841,19300,7484,445,2,2,1,10957,13669,2006,8155,7381,2,3,15964

# 좀 더 알아보기 // operator.itemgetter() 함수
람다에서 다룬 코드를 다시 한번 보자.
```
books = [{
  "제목": "혼자 공부하는 파이썬",
  "가격": 18000
}, {
  "제목": "혼자 공부하는 머신러닝 + 딥러닝",
  "가격": 26000
}, {
  "제목": "혼자 공부하는 자바스크립트",
  "가격": 24000
}]

def value_exract(book): # 콜백 함수
  return book["가격"]

min(books, key = value_extract)
min(books, key = lambda book: book["가격"]) # 람다 사용
```



* 콜백 함수를 활용한 경우
<br>
코드를 위에서 아래로 읽어 내리다가 '가격추출함수'가 무엇인지 알기위해 함수를 찾아서 내용을 살펴봐야한다.
<br>
* 람다를 활용한 경우
<br>
생각보다 어려운 문법이다. 개발자들 중 람다의 존재 자체를 모르는 개발자도 있다.(다른 프로그래밍 언어를 다루던 개발자들)<br>
따라서 람다를 사용하면 다른 사람이 코드를 읽는 것이 어려울 수 있다.


## operator 모듈의 itemgetter() 함수는 특정 요소를 추출하는 함수를 만드는 함수이다.
이 함수를 사용하면 위의 문제를 해결할 수 있다.
* 코드를 읽으면서 바로 이해 가능
* 람다 함수를 사용한 것보다 코드 읽는 것이 쉽다. itemgetter() 함수가 무엇인지 몰라도 코드와 함수 이름만 보아도 '어떠한 기능을 하겠다'고 생각 할 수 있다.

```
# key 매개변수를 itemgetter() 함수로 작성한 코드로 완전히 변경하면 다음과 같다.

from operator import itemgetter

books = [{
  "제목": "혼자 공부하는 파이썬",
  "가격": 18000
}, {
  "제목": "혼자 공부하는 머신러닝 + 딥러닝",
  "가격": 26000
}, {
  "제목": "혼자 공부하는 자바스크립트",
  "가격": 24000
}]

print("# 가장 저렴한 책")
print(min(books, key = itemgetter("가격")))
print()

print("# 가장 비싼 책")
print(max(books, key = itemgetter("가격")))
```

In [None]:
from operator import itemgetter

books = [{
  "제목": "혼자 공부하는 파이썬",
  "가격": 18000
}, {
  "제목": "혼자 공부하는 머신러닝 + 딥러닝",
  "가격": 26000
}, {
  "제목": "혼자 공부하는 자바스크립트",
  "가격": 24000
}]

print("# 가장 저렴한 책")
print(min(books, key = itemgetter("가격")))
print()

print("# 가장 비싼 책")
print(max(books, key = itemgetter("가격")))

# 가장 저렴한 책
{'제목': '혼자 공부하는 파이썬', '가격': 18000}

# 가장 비싼 책
{'제목': '혼자 공부하는 머신러닝 + 딥러닝', '가격': 26000}


# 7-1 확인 문제

## 3번
os 모듈의 os.listdir() 함수와 os.path.isdir() 함수를 사용하면 특정 디렉터리를 읽어 파일인지 디렉터리인지를 확인할 수 있다. 직접 코드를 작성하고 실행해보자. 실행하는 위치에 따라서 출력 결과가 달리진다.

### 현재 디렉터리를 읽어 들이고 파일인지 디렉터리인지 구분하기

In [None]:
# 모듈을 읽어 들인다
import os

# 현재 폴더의 파일/폴더를 출력한다.
output = os.listdir(".")    # . 는 현재의 폴더를 의미한다.
print("os.listdir():", output)
print()

# 현재 폴더의 파일/폴더를 구분한다.
print("# 폴더와 파일 구분하기")
for path in output:         # output에는 현재 폴더의 갯수만큼 이터레이터가 되는지??
  if os.path.isdir(path):
    print("폴더:", path)
  else:
    print("파일:", path)

os.listdir(): ['.config', 'sample_data']

# 폴더와 파일 구분하기
폴더: .config
폴더: sample_data


위를 활용해서 '폴더라면 또 탐색하기' 라는 재귀 구성으로 현재 폴더 내부에 있는 모든 파일을 탐색하도록 코드를 작성해보자

In [None]:
# 모듈을 읽어 들인다.
import os

# 폴더를 읽어 들이는 함수
def read_folder(path):
  # 폴더의 요소 읽어 들이기
  output = os.listdir(path)

  # 폴더의 요소 구분하기
  for item in output:
    if os.path.isdir(item):
      # 폴더라면 계속 읽어 들이기
      read_folder(path+"/"+item)
    else:
      # 파일이라면 출력하기
      print("파일:", item)

# 현재 폴더의 파일/폴더를 출력한다.
read_folder(".")

파일: config_sentinel
파일: active_config
파일: default_configs.db
파일: logs
파일: .last_opt_in_prompt.yaml
파일: .last_survey_prompt.yaml
파일: configurations
파일: gce
파일: .last_update_check.json
파일: README.md
파일: anscombe.json
파일: mnist_train_small.csv
파일: mnist_test.csv
파일: california_housing_test.csv
파일: california_housing_train.csv


# 7-2 외부모듈

## 모듈 설치하기

# `pip install 모듈이름`



In [None]:
pip install beautifulsoup4



### Beautiful Soup 모듈로 날씨 가져오기

In [None]:
# 모듈을 읽어 들인다.
from urllib import request
from bs4 import BeautifulSoup

# urlopen() 함수로 기상청의 전국 날씨를 읽는다.
target = request.urlopen("http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109")

# BeautifulSoup을 사용해 웹 페이지를 분석한다.
soup = BeautifulSoup(target, "html.parser")

# location 태그를 찾는다.   # 태그를 볼 줄 알아야한다.
for location in soup.select("loaction"):
  # 내부의 city, wf, tmn, tmx 태그를 찾아 출력한다.
  print("도시 : ", location.select_one("city").string)
  print("날씨 : ", location.select_one("wf").string)
  print("최저기온 : ", location.select_one("tmn").string)
  print("최고기온 : ", location.select_one("tmx").string)
  print()



## Flask 모듈 (작은 기능만을 제공하는 웹 개발 프레임워크)

In [None]:
pip install flask



In [None]:
from flask import Flask

app = Flask(__name__)

@app.route("/")
def hello():
  return "<h1>Hello World!</h1>"

## Beautiful Soup 스크레이핑 실행하기

In [None]:
# 모듈 읽기
from flask import Flask
from urllib import request
from bs4 import BeautifulSoup

# 웹 서버 생성하기
app = Flask(__name__)
@app.route("/")

def hello():
  # urlopen() 함수로 기상청의 전국 날씨를 읽는다
  target = request.urlopen("http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109")

  # BeautifulSoup를 사용해 웹 페이지를 분석
  soup = BeautifulSoup(target, "html.parser")

  # location 태그를 찾는다
  output = ""
  for location in soup.select("location"):
    # 내부의 city, wf, tmn, tmx 태그를 찾아 출력
    output += "<h3>{}</h3>".format(location.select_one("city").string)
    output += "날씨 : {}<br/>".format(location.select_one("wf").string)
    output += "최저/최고 기온 : {}/{}"\
    .format(\
            location.select_one("tmn").string,\
            location.select_one("tmx").string\
           )
    output += "<hr/>"

  return output

# **라이브러리**와 **프레임워크**
* **라이브러리 (library)** : 정상적인 제어를 하는 모듈<br>
: 개발자가 모듈의 기능을 호출하는 형태의 모듈<br><br>
* **프레임워크 (framework)** : 제어 역전이 발생하는 모듈<br>
: 내부에 함수만 정의했지 직접적으로 무언가 진행하는 코드는 단 하나도 없다<br>
: 모듈이 개발자가 작성한 코드를 실행하는 형태의 모듈

## **함수 데코레이터**

: @로 시작하는 구문을 파이썬에서는 '데코레이터'라고 부른다<br>
* 함수 데코레이터<br>
: 함수의 앞뒤에 꾸밀 부가적인 내용, 혹은 반복할 내용을 데코레이터로 정의해서 손쉽게 사용할 수 있도록 한 것<br><br>
* 클래스 데코레이터<br>
: 데코레이터는 함수로 만들 수도 있지만 클래스로도 만드는 것이 가능하다.

### 함수 데코레이터 기본

In [3]:
# 함수 데코레이터를 생성
def test(function):
  def wrapper():
    print("인사가 시작되었습니다.")
    function()
    print("인사가 종료되었습니다.")
    return wrapper

# 데코레이터를 붙여 함수를 만든다
@test
def hello():
  print("hello")

# 함수 호출
hello()

TypeError: ignored

# 7-2 확인문제

## 1번
- 구글에서 "python prime module"이라고 검색하여 파이썬에서 소수를 구하는 모듈을 찾아보아라. prime, primenumbers, pyprimes, pyprimesieve 등 다양한 모듈이 나올 것이다. 적당한 것을 선택해서 100 ~ 1000 사이에 있는 소수가 몇 개인지 구해보자.

In [4]:
pip install primePy

Collecting primePy
  Downloading primePy-1.3-py3-none-any.whl (4.0 kB)
Installing collected packages: primePy
Successfully installed primePy-1.3


In [7]:
from primePy import primes

test = primes.between(100, 1000)

print(test)

print("100 ~ 1000 사이의 소수의 갯수 : ", len(test))

# 확인 점검
a = primes.between(1, 10)
print(a)
print(len(a))

[101, 103, 107, 109, 113, 127, 131, 137, 139, 149, 151, 157, 163, 167, 173, 179, 181, 191, 193, 197, 199, 211, 223, 227, 229, 233, 239, 241, 251, 257, 263, 269, 271, 277, 281, 283, 293, 307, 311, 313, 317, 331, 337, 347, 349, 353, 359, 367, 373, 379, 383, 389, 397, 401, 409, 419, 421, 431, 433, 439, 443, 449, 457, 461, 463, 467, 479, 487, 491, 499, 503, 509, 521, 523, 541, 547, 557, 563, 569, 571, 577, 587, 593, 599, 601, 607, 613, 617, 619, 631, 641, 643, 647, 653, 659, 661, 673, 677, 683, 691, 701, 709, 719, 727, 733, 739, 743, 751, 757, 761, 769, 773, 787, 797, 809, 811, 821, 823, 827, 829, 839, 853, 857, 859, 863, 877, 881, 883, 887, 907, 911, 919, 929, 937, 941, 947, 953, 967, 971, 977, 983, 991, 997]
100 ~ 1000 사이의 소수의 갯수 :  143
[1, 3, 5, 7]
4


## 2번
자신이 나아가고자 하는 분야에서 사용되는 모듈을 찾아보자. 어떤 과정으로 찾으면 되는지 간단한 예를 살펴보겠다.<br>

* **웹 서버 개발**<br>
: 유튜브로 동영상을 보았던 적이 있는가? 카카오톡으로 친구와 메시지를 나누었던 적이 있는가?<br>
우리는 어떻게 다른 사람이 올린 동영상을 볼 수 있고, 내가 보낸 메시지는 친구에게 어떻게 전달되는 것일까?<br>
이는 어딘가에 이러한 처리를 하는 프로그램이 있기 때문이다. 이러한 프로그램을 통신 **서버**라고 부르며, 웹을 통해 이러한 처리를 한다면 그것을 **웹 서버**라고 부른다. 파이썬으로 웹 서버를 개발할 때는 **Dango**와 **Flask**라는 모듈을 사용한다.
<br><br>

* **인공지능 개발**<br>
: 알파고는 어떻게 바둑을 둘 수 있는 것일까? 자율 주행 자동차는 어떻게 사물을 인식하고 이를 피해 달리는 것일까? 10년 전만 해도 '컴퓨터가 바둑으로는 사람을 이길 수 없을 것이다', '컴퓨터가 이미지를 인식하는 일은 하기 힘든 일이다'라고 했지만 지금은 가능한 일이 되었다.<br>
이는 딥러닝(심층 학습)이라는 분야의 발전 덕분이다. 그리고 딥러닝과 관련된 모듈을 가장 많이 제공하며, 쉽게 사용할 수 있는 프로그래밍 언어가 바로 파이썬이다. 아마 서점에 가서 인공지능, 머신러닝, 딥러닝 책을 보면 대부분 파이썬을 사용한다는 것을 알 수 있을 것이다.<br>
파이썬으로 인공지능을 개발할 때는 **scikit-learn**, **tensorflow**, **keras** 등의 모듈을 활용한다.
<br><br>

* **데이터 분석**<br>
: 일반적으로 개발자를 꿈꾸는 독자가 파이썬을 공부한다고 하면 위에서 언급한 두 가지가 목적일 것이다. 하지만 개발자가 아닌 사람들이 파이썬을 공부한다면 업무적으로 프로그래밍을 활용하기 위해서일 가능성이 크다.<br>
기업에서 지금까지의 정보를 기반으로 데이터를 분석해 상황을 확인하거나 미래의 마케팅/경영전략을 세우는 등의 작업을 할 때 파이썬을 활용할 수 있다. 최근에는 데이터 분석이 인공지능과 결합되어 미래의 데이터를 예측하는 경우도 많다.<br>
파이썬으로 데이터를 분석할 때는 **pandas**, **matplotlib** 등의 모듈을 활용한다. 사실 분석하고자 하는 데이터에 따라서 너무 많은 선택지가 펼쳐지므로, 무엇을 많이 사용한다고 설명하기는 어렵다.
<br><br>

* **크롤러 개발**<br>
: 인공지능 개발, 데이터 분석 등을 할 때는 데이터가 필요하다. 기업과 연구소라면 내부 데이터를 활용할 수 있지만, 그러한 경우가 아니라면 필요한 데이터를 직접 수집해야 한다. 또한 기업과 연구소라도 외부 데이터, 예를 들어 트위터에서 우리 기업과 관련된 긍정적인 평가가 많은지, 부정적인 평가가 많은지 알고 싶다면 외부 데이터(트위터에 있는 데이터)를 수집해야 할 것이다.<br>
이러한 데이터를 수집할 때는 파이썬의 **BeautifulSoup**, **request**, **scrapy** 모듈 등을 활용한다.<br>
<br><br>
분야를 결정했다면 인터넷에서 분야와 관련된 책을 찾아보고, 그 책의 목차를 확인해 보기 바란다. 그럼 어떤 모듈들이 활용되는지 알 수 있다. 이러한 모듈을 세 개 정도 정리해보자. 이 책을 모두 마친 후에 어떤 것을 공부할 것인지 감을 잡을 수 있을 것이다.

# 7-3 모듈 만들기
```
파이썬은 모듈을 만드는 방법이 간단하다.
단순하게 파이썬 파일을 만들고, 이를 외부에서 읽어들이면 모듈이 된다!
너무 간단하고 유연해서 모듈을 코드로 인식하고 실행해 버리는 문제 등이 발생할 수 있다.
그러나 파이썬은 이를 막기 위한 다양한 대처 방법도 제공해준다. 또한 모듈을 구조화해서 거대한 모듈(패키지)을 만드는 기능도 제공해 준다.
```

## **현재 경로 확인하기**

In [10]:
import os

dir_path = os.getcwd()
file_list = os.listdir(dir_path)

print(dir_path)   # 현재의 폴더경로
print(file_list)    # 현재 폴더 경로안에 있는 파일들을 리스트형식으로 보여줌

/content
['.config', 'test_module2.py', 'sample_data']


### 쉬운 모듈 만들기
<br>
먼저 module_basic 디렉터리를 만든 다음 아래 두 파일을 저장한 후 main.py 파일을 실행한다

In [None]:
# test_module.py 파일
PI = 3.141592

def number_input():
  output = input("숫자 입력 > ")
  return float(output)

def get_circumference(radius):
  return 2 * PI * radius

def get_circle_area(radius):
  return PI * radius * radius

# 구글 코랩의 모듈 디렉터리 주소 찾아보기
# 위의 코드를 file 함수를 사용하여 저장하여 실행해보기

In [None]:
# main.py 파일 (현재 chapter_7.ipynb에서 실행)
import test_module as test

radius = test.number_input()
print(test.get_circumference(radius))
print(test.get_circle_area(radius))

숫자 입력 > 2
12.566368
12.566368


# **chapter_5에서 배운 파일 열고 닫기로 module 생성해보기**

In [9]:
# 파일 열어보기
file = open("test_module2.py", "w")

# 파일에 텍스트를 쓴다.
file.write('''
PI = 3.141592

def number_input():
  output = input("숫자 입력 > ")
  return float(output)

def get_circumference(radius):
  return 2 * PI * radius

def get_circle_area(radius):
  return PI * radius * radius
  ''')

# 파일 닫기
file.close()

In [11]:
import test_module2 as test

radius = test.number_input()
print(test.get_circumference(radius))
print(test.get_circle_area(radius))

숫자 입력 > 3
18.849552000000003
28.274328000000004


## 모듈 이름을 출력하는 모듈 만들기

In [None]:
# main.py 파일에서
import test_module

print("# 메인의 __name__ 출력하기")
print(__name__)
print()

# 메인의 __name__ 출력하기
__main__



### **module_main 파일에서 예제 실행**
쉬운 모듈 만들기<br>
모듈 이름을 출력하는 모듈 만들기<br>
 **import로 모듈을 읽어들이면 모듈을 먼저 실행시키게 된다**

### **module_example 파일에서 예제 실행**
모듈 활용하기<br>
역시 import로 모듈을 읽어 오면 모듈먼저 실행하게 된다<br>
엔트리 포인트(main)를 확인하는 모듈 만들기

## **패키지**
import로 가져오는 모든 것을 모듈(module)이라고 했다.<br>
pip는 Python Package Index의 줄임말로 패키지 관리 시스템이다.<br>
따라서, **모듈이 모여서 구조를 이루면 패키지라고 부른다**


### module_package 폴더 안에 main.py는 엔트리 포인트로 사용, test_package 폴더는 패키지로 사용한 폴더
test_package 폴더 내부에 모듈을 하나 이상 넣으면 된다.<br>
패키지 폴더 내부에 `__init__.py` 파일은 어떤 처리를 수행해야 하거나 패키지 내부의 모듈들을 한꺼번에 가져오고 싶을 때 사용한다.<br>
`__init__.py`은 해당 폴더가 패키지임을 알려주고, 패키지와 관련된 초기화 처리를 하는 파일이다.<br>
`__init__.py`에 `__all__` 이라는 이름의 리스트를 만드는데, 이 리스트에 지정한 모듈들이 `from <패키지 이름> import *` 를 할 때 전부 읽어 들여진다.

# 좀 더 알아보기

## 텍스트 데이터
: 컴퓨터는 내부적으로 모든 처리를 0과 1로 이루어진 이진 숫자로 수행한다. 따라서 원래 컴퓨터 내부에 있는 모든 것들은 이진 숫자로 구성되어 있다.

* 실제로 "Hello Pyhton" 이라는 글자를 메모장에 적고 저장하면 **내부적으로는 앞서 언급한 2진수로 저장된다**

우리가 쉽게 읽을 수 있는 형태의 데이터를 '텍스트 데이터'라고 부른다. 텍스트 데이터는 쉽게 읽을 수 있는 것은 물론이고, 텍스트 에디터만 있으면 쉽게 편집할 수도 있다. 우리가 입력해 왔던 모든 코드 역시 텍스트 데이터이다.

## 바이너리 데이터
: 텍스트 에디터에서 '100'이라는 숫자를 표현하는 경우, '1','0','0' 이라는 글자로 이루어져 있다. ASCII 코드표를 보면 '49','48','48'로 변환할 수 있다.

* 3바이트를 차지하는 텍스트 데이터 100[49 48 48]
00110001  00110000  00110000
* 1바이트를 차지하는 바이너리 데이터 100[100]
01100100

100이라는 숫자는 ASCII 코드표에서 'd'에 해당한다. 따라서 텍스트 에디터로 이러한 내용의 파일을 읽어들이면 'd'라는 내용이 들어 있을 것이다. 즉 텍스트 데이터로 표현할 경우 의미를 알 수 없는 데이터가 되어버린다.<br>
컴퓨터에서는 이처럼 텍스트 에디터로 열었을 때 의미를 이해할 수 없는 데이터를 **바이너리 데이터** 라고 부른다.

대표적인 예는 '이미지'와 '동영상'이다. 이미지를 메모장으로 열어보면 무슨 말인지 전혀 이해할 수가 없다.

# 텍스트 데이터와 바이너리 데이터 비교

## **텍스트 데이터**
* 구분 방법<br>
 : 텍스트 에디터로 열었을 때 읽을 수 있다.
* 장점<br>
 : 사람이 쉽게 읽을 수 있다.<br>
 : 텍스트 에디터로 쉽게 편집할 수 있다.<br>
* 단점<br>
 : 용량이 크다.<br><br>

## **바이너리 데이터**
* 구분 방법<br>
 : 텍스트 에디터로 열어도 읽을 수 없다.
* 장점<br>
 : 용량이 적다.<br>
* 단점<br>
 : 사람이 쉽게 읽을 수 없다.<br>
 : 일반적으로는 텍스트 에디터로 편집할 수 없다.

# **인코딩과 디코딩**
텍스트 데이터도, 바이너리 데이터도 2진수의 집합일 뿐이다.<br>
텍스트 데이터를 맞춰 우리가 읽기 쉬운 글자로 보여 주려면, 그리고 바이너리 데이터를 읽어서 이미지로 보여 주려면 변환을 해야한다.

이를 인코딩(encoding)방식이라고 부른다.<br><br>
**텍스트 데이터**의 경우<br>
ASCII, UTF-8, UTF-16, EUC-KR, Shift_JIS 등이 있다.<br>,<br>
**바이너리 데이터**의 경우<br>
이미지만 해도 JPEG, PNG, GIF 등이 있다.<br><br>
인코딩 방식을 기반으로 A라는 형식을 B라는 형식으로 변환하는 것을 **인코딩(encoding)**이라고 부르며,<br>
인코딩된 데이터를 반대로 돌리는 것을 **디코딩(decoding)**이라 부른다.

## 인터넷의 이미지 저장하기

In [13]:
# 이미지 읽어 들이고 저장하기

# 모듈을 읽어 들인다.
from urllib import request

# urlopen() 함수로 구글의 메인 페이지를 읽는다.
target = request.urlopen("https://www.hanbit.co.kr/images/common/logo_hanbit.png")
output = target.read() # 이 시점에 파일이 생겨 저장된다..
print(output) # 가져온 output(이미지) 데이터를 코드로 출력해본다.

# write binary[바이너리 쓰기] 모드로
file = open("output.png", "wb") # 'b' -> 바이너리 형식으로 쓴다
file.write(output) # 파일에 데이터 코드를 쓰고, # png형식의 파일로 열어보면 이미지가 보인다.
file.close()

b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x01\x04\x00\x00\x00,\x08\x06\x00\x00\x00\x83\x80\xc6\xe5\x00\x00\x00\x19tEXtSoftware\x00Adobe ImageReadyq\xc9e<\x00\x00\x0f/IDATx\xda\xec]\ttU\xc5\x19\xfe\xb3\x11 D\x11\x13\x0cF\x08\x11\x14KEA\xf6M\xd0\xd6\xa3\xb8\xe1\x12W\x8a\xa8\xc7R\xac\xb5`\x05\xad\xed\xa9\xbbb\x17\n\xd4\xa5Pj\x05\x11+4*\n\x15\xc4\xca\xa2\xf6\x00Q\x9b`+\xa2\xa0$\x10%l\x91%\t!\x81\xd0\xff\xcb\xfb\x9f\x99\xdc\xdc\xfb\xee\xf2\xeeM^\xc2\xfc\xe7\xcc\xbb\xef\xbe\x99;3w\x96o\xfem\xe6\xc5\x1d;v\x8c4i\xd2\xa4\t\x94\x88\x8f\xb8\xb88O\x0fg,\x9a\x93\xc4\x97\x81\x1cFr\xe8\xcb\xe1L\x0e\x99\x1cN\x94$U\x1c\xf6s\xd8\xcc\xe13\x0e\x1fpXUr\xfd\x8f\x8bt\xd3k\xd2\x14[\x04\xe6 \xae\xf6\xc3% 0\x10\xf4\xe4\xcb\x04\x0e7rH\xf7P\xf6z\x0e\xf38\xccep8\xa4\xbbB\x93\xa6f\x08\x08\x0c\x04g\xf1e*\x87\xd1`,|\xa8\xc3^\x0e\xbf\xe30\x93\x81\xe1\xb0\xee\x12M\x9a\x9a\x01 0\x10\xb4\xe2\xcb\xc3\x1c&sH\n\xa0.[8\xdc\xc1\xa0\xb0Fw\x8b&M1\x0c\x08\x0c\x06\xd9|Y\xc8\xa1\x7f\xc0\xf5\xa9\xe1\xf0\x18\x87G\x18\x18\xb4\xa6

In [None]:
# 파일을 열 때 'wb'가 아닌 'w'로만 했을 때는 어떻게 될까?

# 모듈을 읽어 들인다.
from urllib import request

# urlopen() 함수로 구글의 메인 페이지를 읽는다.
target = request.urlopen("https://www.hanbit.co.kr/images/common/logo_hanbit.png")
output = target.read() # 이 시점에 파일이 생겨 저장된다..
print(output)

# write binary[바이너리 쓰기] 모드로
file = open("output.png", "w") # --> '텍스트 형식'으로 쓰면 어떻게 될까?
file.write(output) # 가져온 output(이미지) 데이터를 코드로 출력해본다.
file.close()


# write() 함수의 매개변수에 'bytes(바이너리)'가 아니라 'str(문자열)'을 넣어 달라는 오류가 발생!!
# 바이너리를 사용할 때는 꼭 "b"를 붙여야 한다!!! **

b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x01\x04\x00\x00\x00,\x08\x06\x00\x00\x00\x83\x80\xc6\xe5\x00\x00\x00\x19tEXtSoftware\x00Adobe ImageReadyq\xc9e<\x00\x00\x0f/IDATx\xda\xec]\ttU\xc5\x19\xfe\xb3\x11 D\x11\x13\x0cF\x08\x11\x14KEA\xf6M\xd0\xd6\xa3\xb8\xe1\x12W\x8a\xa8\xc7R\xac\xb5`\x05\xad\xed\xa9\xbbb\x17\n\xd4\xa5Pj\x05\x11+4*\n\x15\xc4\xca\xa2\xf6\x00Q\x9b`+\xa2\xa0$\x10%l\x91%\t!\x81\xd0\xff\xcb\xfb\x9f\x99\xdc\xdc\xfb\xee\xf2\xeeM^\xc2\xfc\xe7\xcc\xbb\xef\xbe\x99;3w\x96o\xfem\xe6\xc5\x1d;v\x8c4i\xd2\xa4\t\x94\x88\x8f\xb8\xb88O\x0fg,\x9a\x93\xc4\x97\x81\x1cFr\xe8\xcb\xe1L\x0e\x99\x1cN\x94$U\x1c\xf6s\xd8\xcc\xe13\x0e\x1fpXUr\xfd\x8f\x8bt\xd3k\xd2\x14[\x04\xe6 \xae\xf6\xc3% 0\x10\xf4\xe4\xcb\x04\x0e7rH\xf7P\xf6z\x0e\xf38\xccep8\xa4\xbbB\x93\xa6f\x08\x08\x0c\x04g\xf1e*\x87\xd1`,|\xa8\xc3^\x0e\xbf\xe30\x93\x81\xe1\xb0\xee\x12M\x9a\x9a\x01 0\x10\xb4\xe2\xcb\xc3\x1c&sH\n\xa0.[8\xdc\xc1\xa0\xb0Fw\x8b&M1\x0c\x08\x0c\x06\xd9|Y\xc8\xa1\x7f\xc0\xf5\xa9\xe1\xf0\x18\x87G\x18\x18\xb4\xa6

TypeError: ignored

In [14]:
pip list # 컴퓨터에 설치된 모듈을 찾아보기.

Package                          Version
-------------------------------- ---------------------
absl-py                          1.4.0
aiohttp                          3.8.5
aiosignal                        1.3.1
alabaster                        0.7.13
albumentations                   1.3.1
altair                           4.2.2
annotated-types                  0.5.0
anyio                            3.7.1
appdirs                          1.4.4
argon2-cffi                      23.1.0
argon2-cffi-bindings             21.2.0
array-record                     0.4.1
arviz                            0.15.1
astropy                          5.3.2
astunparse                       1.6.3
async-timeout                    4.0.3
attrs                            23.1.0
audioread                        3.0.0
autograd                         1.6.2
Babel                            2.12.1
backcall                         0.2.0
beautifulsoup4                   4.11.2
bleach                           6.0.0


In [15]:
pip show beautifulsoup4 # 모듈이 설치된 위치를 확인해보기.

Name: beautifulsoup4
Version: 4.11.2
Summary: Screen-scraping library
Home-page: https://www.crummy.com/software/BeautifulSoup/bs4/
Author: Leonard Richardson
Author-email: leonardr@segfault.org
License: MIT
Location: /usr/local/lib/python3.10/dist-packages
Requires: soupsieve
Required-by: gdown, google, nbconvert, yfinance


In [None]:
# location에 모듈이 설치되어 있다.ㄴ
# 처음 모듈을 분석할 때 일단 코드가 기니까 오랜 시간을 갖고 차근차근 분석해보자.
# 모듈들이 꼬리를 문다고 그런 모듈들을 모두 타고 올라가며 분석할 필요는 없다.
# '이런 코드가 이런 기능을 하는구나', '이런 기능을 구현할 때 조건문과 반복문이 아니라 리스트와 클래스를 활용했구나' 라는 형태로
# 스스로 생각하기 힘들었던 부분들을 찾을 수 있으면 그것으로 충분하다.