## 데이터 수집에 도움이 되는 사이트

- **국가 통계포털**
    - https://kosis.kr
    - 통계청에서 관리하는 공공데이터 포털로 다양한 카테고리의 국가 통계데이터를 제공한다.
- **공공데이터 포털**
    - https://www.data.go.kr
    - 행정 안전부에서 제공하는 정부 데이터 포털
- **Kaggle**
    - https://kaggle.com
    - 데이터과학 관련 경진대회 플랫폼
    - 다양한 데이터들을 제공한다.
- **구글 데이터셋 서치**
    - https://datasetsearch.research.google.com
    - 구글에서 제공하는 데이터셋 검색 사이트
    - 키워드를 이용해 다양한 데이터셋을 검색하고 다운로드 받을 수 있다.
- **AI Hub**
    - https://aihub.or.kr
    - 국내외 기관/기업에서 추진한 지능정보산업 인프라 조성사업에서 공개한 AI 학습용 데이터셋들을 제공한다.
- **Roboflow Universe**
    - https://universe.roboflow.com/
    - Roboflow 라는 인공지능 회사에서 운영하는 데이터 저장소 사이트로 컴퓨터비전 관련 데이터셋을 주로 제공한다.
- 기타
    - **지자체**: 서울시 열린 데이터광장, 경기 데이터 드림
    - **금융관련**: 한국거래소, 금융통계정보시스템등
    - **영화관련**: 영화진흥위원회
    - **대중교통**: 국가교통데이터베이스, 교통카드 빅데이터 통합정보시스템등    
    - **관광관련**: 한국 관광 데이터랩등
    - **날씨정보**: 기상청 기상자료 개방포털, 네이버 날씨

## [크롬개발자 도구](https://developers.google.com/web/tools/chrome-devtools/)

- 크롬 개발자 도구는 웹 개발 및 디버깅을 위한 강력한 도구로 크롬 웹브라우저에 내장되어 있다.
    - `F12` 나 팝업 메뉴에서 `검사`를 선택한다.
    - 엣지 브라우저도 같은 개발자 도구를 제공한다.
- 웹 페이지의 HTML, CSS, JavaScript 코드를 검사하고 수정할 수 있으며, 네트워크 요청 응답 내용 분석, 성능 분석, 콘솔 로그 등 다양한 기능을 제공한다.
- 주요 기능
    - **요소 검사:** 웹 페이지의 특정 요소를 선택하여 HTML 구조, CSS 스타일, selector 등을 확인한다.
    - **콘솔:** JavaScript 코드를 실행할 수 있고 Javascript 실행시 발생한 오류 메시지 등을 확인할 수 있다.
    - **소스:** 웹 페이지의 JavaScript 코드를 확인할 수있고 디버깅을 위한 중단점(break point)를 설정하고 디버깅할 수 있다.
    - **네트워크:** 웹 페이지를 요청할 때 발생하는 요청 및 응답 데이터를 분석하고 성능을 측정할 수 있다.
    - **성능:** 웹 페이지의 로딩 시간, 렌더링 성능에 걸린 시간등을 분석할 수 있다.
    - **애플리케이션:** 쿠키, 로컬 스토리지, 세션 스토리지 등 클라이언트 저장 데이터 확인 할 수 있다.
- 개발자 도구는 크롤링 시 필수적인 도구이며, 수집할 페이지를 분석하는데 사용된다.

# BeautifulSoup
- Markup 언어 parsing 라이브러리
    - HTML이나 XML 문서 내에서 원하는 정보를 가져오기 위한 파이썬 라이브러리.
- https://www.crummy.com/software/BeautifulSoup/
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- 설치
    - beautifulsoup4 설치
        - pip install beautifulsoup4
    - lxml 설치(html/xml parser)
        - pip install lxml 

In [None]:
%pip install  beautifulsoup4  lxml

## 코딩 패턴
1. 조회할 HTML내용을 전달하여 BeautifulSoup 객체 생성 
1. BeautifulSoup객체의 메소드들을 이용해 문서내에서 필요한 정보 조회
    - 태그이름과 태그 속성으로 조회
    - css selector를 이용해 조회
    - . 표기법을 이용한 탐색(Tree 구조 순서대로 탐색)

## BeautifulSoup 객체 생성
- BeautifulSoup(html str [, 파서])
    - 매개변수
        1. 정보를 조회할 html을 string으로 전달
        2. 파서
            - html.parser(기본파서)
            - lxml : 매우 빠르다. html, xml 파싱 가능(xml 파싱은 lxml만 가능)
                - 사용시 install 필요 
                - `pip install lxml`
                - install 후 커널 restart 시킨다.

In [None]:
from bs4 import BeautifulSoup

with open("example.html", "rt", encoding='utf-8') as fr:
    html_doc = fr.read()
    
print(html_doc[:50])

In [None]:
# 정보를 추출할 웹문서의 내용을 str으로 전달.
soup = BeautifulSoup(html_doc, "lxml")

In [None]:
print(soup.prettify())

## 문서내에서 원하는 정보 검색

### Tag 객체
- 하나의 태그(element)에 대한 정보를 다루는 객체.
    - BeautifulSoup 조회 메소드들의 **조회결과의 반환타입.**
    - 조회 함수들이 찾은 Element가 하나일 경우 **Tag 객체를, 여러개일 경우 Tag 객체들을 담은 List(ResultSet)**를 반환한다.
    - Tag 객체는 찾은 정보를 제공하는 메소드와 Attribute를 가지고 있다. 또 찾은 Tag가 하위 element를 가질 경우 찾을 수 있는 조회 메소드를 제공한다.
- 주요 속성/메소드
    - **태그의 속성값 조회**
        - `Tag객체.get('속성명')`
        - `Tag객체['속성명']`
        - ex) `tag.get('href')` 또는 `tag['href']`
    - **태그내 text값 조회**
        - `Tag객체.get_text()`
        - `Tag객체.text`
        - ex) tag.get_text() 또는 tag.text
    - **contents 속성**
        - 조회한 태그의 모든 자식 요소들을 리스트로 반환
        - ex) `child_list = tag.contents`

## 조회 함수
- **태그의 이름으로 조회**
    - `find_all()`
    - `find()`
- **css selector를 이용해 조회**
    - `select(), select_one()`
- **`.` 표기법(dot notation)**
    - dom tree 구조의 계층 순서대로 조회
    - 위의 두방식으로 찾은 tag를 기준으로 그 주위의 element 들을 찾을 때 사용

### 태그의 이름으로 조회
- **find_all**(name=태그명, attrs={속성명:속성값, ..})
   - 이름의 모든 태그 element들을 리스트에 담아 반환.
   - 여러 이름의 태그를 조회할 경우 List에 태그명들을 묶어서 전달한다.
   - 태그의 attribute 조건으로만 조회할 경우 name을 생략한다. 
- **find**(name=태그명, attrs={속성명:속성값})
    - 이름의 태그중 첫번째 태그 element를 반환.

In [3]:
from bs4 import BeautifulSoup

with open("example.html", "rt", encoding="utf-8") as fr:
    html_doc = fr.read()

soup = BeautifulSoup(html_doc, "lxml")

In [4]:
result = soup.find_all("div")   # 문서안에 있는 모든 div 요소(element)를 리스트로 반환.


In [5]:
type(result)

bs4.element.ResultSet

In [9]:
print(len(result))  # 조회 결과 개수
result

9


[<a href="https://grandpark.seoul.go.kr/main/ko.do">서울 대공원</a>,
 <a href="https://www.everland.com/web/everland/favorite/zootopia/index.html">에버랜드</a>,
 <a href="https://www.coexaqua.com">코엑스아쿠아리움</a>,
 <a href="http://www.naver.com">네이버</a>,
 <a href="http://www.naver.com">다음</a>,
 <a href="http://www.naver.com">구글</a>,
 <a href="http://www.naver.com">구글2</a>,
 <a href="http://www.naver.com">구글3</a>,
 <a href="http://www.naver.com">구글4</a>]

In [None]:
tag1 = result[0]
print("content:", tag1.text, tag1.get_text())
print("class속성값:", tag1.get("class"), tag1['class'])

content: 
사자
3마리
 
사자
3마리

class속성값: ['animal_info'] ['animal_info']


In [None]:
result = soup.find("div")  # 조회결과 1개만(첫번째 것) 반환.
print(type(result))
print("-"*50)
print(result)

In [None]:
# 태그의 content와 attribute 조회

print("content text:", result.text)
print("content text:", result.get_text())
print("attribue의 value:", result.get("class"))
print("attribue의 value:", result["class"])

In [None]:
# 태그의 모든 자식 요소들 조회
result.contents

In [10]:
from pprint import pprint

result = soup.find_all("a")  # 태그 이름
result = soup.find_all(["a", "span"])  #한번에 여러이름의 태그드을 조회.
result = soup.find_all("div", attrs={"class":"name"}) # 태그이름 + 속성
result = soup.find_all("div", attrs={"class":"animal_info", "id":"animal1"}) # 속성 조건이 여러개
result = soup.find_all("a", attrs={"href":"https://www.coexaqua.com"})

import re
result = soup.find_all("a", attrs={"href":re.compile(r"\.html$")}) # 정규표현식-.com으로 끝나는.

pprint(result)

[<a href="https://www.everland.com/web/everland/favorite/zootopia/index.html">에버랜드</a>]


In [None]:
result = soup.find_all("a")

result_list = []
for tag in result:
    print(tag.text, tag['href'])
    result_list.append([tag.text, tag['href']]) # list[text, href]


In [None]:
result_list

### CSS Selector를 이용해 조회
- **select(selector='css셀렉터')**
    - css 셀렉터와 일치하는 tag들을 반환한다.
- **select_one(selector='css셀렉터')**
    - css 셀렉터와 일치하는 tag를 반환한다.
    - 일치하는 것이 여러개일 경우 첫번째 것 하나만 반환한다.

In [11]:
from bs4 import BeautifulSoup

with open("example.html", "rt", encoding="utf-8") as fr:
    html_doc = fr.read()

soup = BeautifulSoup(html_doc, "lxml")


In [17]:
# css selector를 이용한 조회

result = soup.select("a")         #  태그이름(a)  
result = soup.select("a, span, img") # 태그이름(여러개)
result = soup.select("ul a")    # ul의 자손인 a태그 찾는다.
result = soup.select("ul > a")  # ul의 자식인 a태그 찾기. ul 바로 밑에가 a 태그.

# result = soup.select_one("#animal1")       # *#animal1   # 모든 태그중 id=animal1
# result = soup.select_one("a#animal1")      # a#animal1   # a태그 중에서 id=animal1

# result = soup.select("ul + div")                 # ul의 다음 형제 태그중 div
result = soup.select("body > div:nth-child(3)")  # body의 3번째 자식 div. div중에서가 아님

result = soup.select("a[href]")                        # href 속성이 있는 a 태그들
# result = soup.select("a[href='http://www.naver.com']") # href='http://www.naver.com' 속성을 가진 a 그그
# result = soup.select('a[href$=".do"]')                 # $=  href 속성값이 .do로 끝나는 a태그들
# result = soup.select('a[href^="https"]')               # =^  href 속성값이 https로 시작하는 a태그

pprint(result)

[<a href="https://grandpark.seoul.go.kr/main/ko.do">서울 대공원</a>,
 <a href="https://www.everland.com/web/everland/favorite/zootopia/index.html">에버랜드</a>,
 <a href="https://www.coexaqua.com">코엑스아쿠아리움</a>,
 <a href="http://www.naver.com">네이버</a>,
 <a href="http://www.naver.com">다음</a>,
 <a href="http://www.naver.com">구글</a>,
 <a href="http://www.naver.com">구글2</a>,
 <a href="http://www.naver.com">구글3</a>,
 <a href="http://www.naver.com">구글4</a>]


In [3]:
import pymysql
import os
from datetime import datetime
import pandas as pd
import geopandas as gpd

# 셀렉트 쿼리
sql = "SELECT * FROM (SELECT * FROM charging_station WHERE objt_id IN (SELECT min(c1.objt_id) FROM charging_station c1 INNER JOIN charging_station c2 USING(x,y) group by x, y)) as c3 JOIN (SELECT parkinglot_id, count(objt_id) as 'charger_count' FROM elecar_parking.charging_station GROUP BY parkinglot_id) as c4 USING(parkinglot_id)" 
with pymysql.connect(host="192.168.0.37", port=3306, user='project1', password='1111', db='elecar_parking') as conn:
    with conn.cursor() as cursor:
        result = cursor.execute(sql)
        print("조회행수:", result)
        resultset = cursor.fetchall()

# csv 저장
if __name__ == "__main__":
    result = resultset
    # print(result)

    # 저장할 디렉토리를 생성
    save_dir = "daum_news_list"
    os.makedirs(save_dir, exist_ok=True)  # dir 생성

    # # 저장할 파일명 - 특정 기간마다 크롤링 수행할 경우 실행 날짜/시간을 이용해서 만들어 준다.
    d = datetime.now().strftime("%Y-%m-%d-%H-%M-%S")
    # print(d)
    file_path = f"{save_dir}/{d}.csv"
    # # DataFrame 생성
    result_df = pd.DataFrame(result, columns=['parkinglot_id', 'OBJT_ID', 'CHGER_ID', 'STAT_NM', 'CHGER_TY', 'USE_TM', 'ADRES', 'RN_ADRES', 'CTPRVN_CD', 'SGG_CD', 'EMD_CD', 'BUSI_NM', 'TELNO', 'X', 'Y', 'charger_count'])
    # # csv 파일로 저장.
    result_df.to_csv(file_path, index=False)

states = gpd.read_file(file_path)
states.head()

조회행수: 8


UnicodeDecodeError: 'cp949' codec can't decode byte 0xec in position 0: illegal multibyte sequence

In [None]:
for tag in result:
    if tag.name == "a":
        print(tag.text, tag['href'], tag.name)  # tag객체.name : 태그 이름.