## 웹 크롤링

### 인터넷 접속 라이브러리 추가

- urllib.request 모듈로 작업
- html 소스 로드로 별다른 문제없음

In [31]:
from urllib.request import urlopen, Request

# 도시별 날씨 검색함수
def get_weather(city):
    # 기상청 홈페이지 도시별 날씨 페이지
    url = 'https://www.weather.go.kr/w/obs-climate/land/city-obs.do'
    page = urlopen(url = url)

    text = page.read().decode('utf-8')              # print(text)결과 index.html.py
    # 문자열 fine() : text.find(찾을 문자, 시작index, 끝 index) return은 해당위치의 index
    text = text[text.find(f'>{city}</a>'):]       

    # 기온 가져오기
    for i in range(7):
        text = text[text.find('<td>')+1:]           # <td> 7번째로 이동. 결과: td>구름많음....

    start = 3
    end = text.find('</td>')
    current_temp = text[start:end]      # 인텍스3('td>' 다음 글자)부터 </td>까지 
    print(f'{city}의 현재 기온은 {current_temp}˚C 입니다')

    # 습도 가져오기
    for i in range(3):
        text = text[text.find('<td>')+1:]

    start = 3
    end = text.find('</td')
    current_humid = text[start:end]
    print(f'{city}의 현재 습도은 {current_humid}% 입니다')


get_weather('부산')



부산의 현재 기온은 11.6˚C 입니다
부산의 현재 습도은 26% 입니다


### OpenAPI 크롤링
- 공공데이터 포털
    - https://www.data.go.kr
    - 부산광역시 버스 정보 안내기 현황

```python
response = requests.get(total_url, verify=False)
```
- 문제점
    - https를 일반 request로 부르면 SSL 오류발생
    - 해결하려면 외부모듈 REQUESTS를 사용, verify=False(검증안함) 옵션을 지정 
    - 아래 셀의 19번 라인!  

```python
api_url = 'https://apis.data.go.kr/6260000/BusanTblBusinfoeqStusService/getTblBusinfoeqStusInfo'
queryString = '?' + urlencode(
    {
        'serviceKey': 'Hp7RL4tCw0cXBMTYsWCTrydbix/qtqe4+u5yRNze4LKbniVQhVKmNWMk8IxYObz6/EB41Vo47zCdEVUVRfAvsA==',
        'pageNo': '1',
        'numOfRows':'10',
        'resultType': type,
        'stationLoc': stationName
    }
)
total_url = api_url + queryString
```
- URL: URL은 ASCII 코드값만 사용됨. 파라미터에 한글이 포함될 경우, ASCII 코드만으로 표현을 할 수 없어서 인코딩을 진행해야 합니다.
    - 인코딩: 문자(문자열)을 바이트형식(컴퓨터가 알수있는 형식)으로 변환
    - 디코딩: 바이트형식(컴퓨터가 알수있는 형식)을 문자(문자열)으로 변환

- requests 라이브러리
    - 응답 상태 코드: status_code
    - 응답 전문 방식
        - content: 바이너리 타입으로 데이터 받음
        - text: TF-8로 인코딩된 문자열 받음
        - json() : 딕셔너리 타입으로 변환

```python
json_data = json.loads(result)
station_data = json_data['getTblBusinfoeqStusInfo']['body']['items']['item']
```
- json.loads(result) : JSON 문자열을 사전형(dict형)으로 변환

In [3]:
from urllib.parse import quote, unquote, urlencode  # 한글을 URLencode 변환하는 함수
import requests
import json

# stationName 정류소 이름
def getDataPortalSearch(stationName, type):
    api_url = 'https://apis.data.go.kr/6260000/BusanTblBusinfoeqStusService/getTblBusinfoeqStusInfo'
    queryString = '?' + urlencode(
        {
            'serviceKey': 'Hp7RL4tCw0cXBMTYsWCTrydbix/qtqe4+u5yRNze4LKbniVQhVKmNWMk8IxYObz6/EB41Vo47zCdEVUVRfAvsA==',
            'pageNo': '1',
            'numOfRows':'10',
            'resultType': type,
            'stationLoc': stationName
        }
    )

    total_url = api_url + queryString
    response = requests.get(total_url, verify=False)
    return response.text  

try:
    result = getDataPortalSearch('백화점', 'json')
    # print(result)
    json_data = json.loads(result)  # 딕셔너리
    station_data = json_data['getTblBusinfoeqStusInfo']['body']['items']['item']    # 리스트

    for item in station_data:
        print(item)     # 딕셔너리
except Exception as e:
    print('찾는 데이터가 없습니다.')

{'stationNum': '09283', 'stationLoc': '롯데백화점센텀시티점', 'lat': '35.16967324', 'lng': '129.1317843', 'addr': '해운대구 우동 1496', 'insYear': '', 'dataDay': '2023-02-03'}
{'stationNum': '09336', 'stationLoc': '롯데백화점센텀시티점', 'lat': '35.16997953', 'lng': '129.1320357', 'addr': '해운대구 우동 1498', 'insYear': '', 'dataDay': '2023-02-03'}
{'stationNum': '05718', 'stationLoc': '서면역.롯데호텔백화점', 'lat': '35.15776525', 'lng': '129.0566948', 'addr': '부산진구 부전동 576-1', 'insYear': '', 'dataDay': '2023-02-03'}
{'stationNum': '05719', 'stationLoc': '서면역.롯데호텔백화점', 'lat': '35.15748116', 'lng': '129.0561774', 'addr': '부산진구 부전동 576-1', 'insYear': '', 'dataDay': '2023-02-03'}
{'stationNum': '06030', 'stationLoc': '롯데백화점동래점.명륜역', 'lat': '35.21276314', 'lng': '129.0781263', 'addr': '동래구 온천1동 474-25', 'insYear': '', 'dataDay': '2023-02-03'}
{'stationNum': '06046', 'stationLoc': '롯데백화점동래점', 'lat': '35.2101971', 'lng': '129.0778307', 'addr': '동래구 온천2동 503-46', 'insYear': '', 'dataDay': '2023-02-03'}




### OpenAPI로 가져온 데이터 지도 표시

```python
stop_str = '<h4>' + item['stationLoc'] + '</h4>'+ item['stationNum'] + '<br>' + item['addr']
iframe = folium.IFrame(stop_str)
```
- 문제점
    - 딕셔너리 구조하고 문자열 포맷팅 f'{}와 호환안됨
    - 구식방법인 문자열 결합방식으로 해결해야함.


In [59]:
import folium

if len(station_data) > 0:   # 정류소 중 제일 첫번째 인덱스 정류소 위경도를 중심으로
    center_lat = station_data[0]['lat']
    center_lng = station_data[0]['lng']

m = folium.Map(location=[center_lat, center_lng], zoom_start = 13)

# 전체 정류소 위치값 마커 표시
for  item in station_data:  # station_data : 딕셔너리 # item: 리스트
    stop_str = '<h4>' + item['stationLoc'] + '</h4>'+ item['stationNum'] + '<br>' + item['addr']
    iframe = folium.IFrame(stop_str)
    popup = folium.Popup(iframe, min_width = 200, max_width=200) # 팝업 사이즈 지정
    folium.Marker(location=[item['lat'], item['lng']], popup=popup,
                icon=folium.Icon(icon='pushpin')).add_to(m)

m


### BeautifulSoup(version 4)

웹크롤링을 편하게 해주는 도구(라이브러리)

``` shell
pip install beautifulsoup4
```

In [2]:
!pip install beautifulsoup4




[notice] A new release of pip available: 22.3.1 -> 23.0
[notice] To update, run: python.exe -m pip install --upgrade pip


#### 모듈 import

```python
from bs4 import BeautifulSoup
```

In [57]:
from bs4 import BeautifulSoup
import requests

url = 'https://kin.naver.com/search/list.naver?query=%EC%A0%9C%EC%9E%84%EC%8A%A4+%EC%9B%B9+%EB%A7%9D%EC%9B%90%EA%B2%BD'

response = requests.get(url)


if response.status_code == 200: # webpage OK
    html = response.text
    # soup = response.text
    soup = BeautifulSoup(html, 'html.parser') # BeautifulSoup 더 보기 좋게 나옴
    # print(soup)

    # title = soup.select_one('#s_content > div.section > ul > li:nth-child(1) > dl > dt > a')
    # print(title)
    ul = soup.select_one('ul.basic1')
    titles = ul.select('li > dl > dt > a')
    for title in titles :
       print(title.get_text())
else:
    print(f'Error : {response.status_code}')


제임스웹 우주망원경 질문이요
최고고도 부탁드립니다. 제임스웹 망원경이
제임스 웹 망원경 우주사진 원본 어디서... 
제임스 웹 망원경 촬영 원리
제임스 웹 망원경
제임스 웹 우주망원경이 찍은 첫 사진은... 
제임스 웹 망원경의 종류 알려주세요
제임스 웹 우주망원경
제임스웹 망원경
제임스 웹 우주 망원경 제작 기간이
