# 2. 크롤링(crawling) 이해 및 기본

## 2.1. 크롤링(crawling) 이란?
- Web상에 존재하는 Contents를 수집하는 작업 (프로그래밍으로 자동화 가능)
    1. HTML 페이지를 가져와서, HTML/CSS등을 파싱하고, 필요한 데이터만 추출하는 기법
    2. Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서, 받은 데이터 중 필요한 데이터만 추출하는 기법
    3. Selenium등 브라우저를 프로그래밍으로 조작해서, 필요한 데이터만 추출하는 기법

## 2.2. BeautifulSoup 라이브러리를 활용한 초간단 예제
- HTML의 태그를 파싱해서 필요한 데이터만 추출하는 함수를 제공하는 라이브러리
- BeautifulSoup 라이브러리 페이지
- 설치 방법
    - pip install bs4

In [1]:
import requests
from bs4 import BeautifulSoup

# 1) reqeusts 라이브러리를 활용한 HTML 페이지 요청
# 1-1) res 객체에 HTML 데이터가 저장되고, res.content로 데이터를 추출할 수 있음
res = requests.get('http://v.media.daum.net/v/20170615203441266')

# print(res.content)

# 2) HTML 페이지 파싱 BeautifulSoup(HTML데이터, 파싱방법)
soup = BeautifulSoup(res.content, 'html.parser')

# 3) 필요한 데이터 검색
title = soup.find('title')

# 4) 필요한 데이터 추출
print(title.get_text())

잔금대출에도 DTI 규제 적용 검토


## 2.3. BeautifulSoup 라이브러리 활용 다양한 예제
- find() 와 find_all() 메서드 사용법 이해하기
- find() : 가장 먼저 검색되는 태그 반환
- find_all() : 전체 태그 반환

In [2]:
from bs4 import BeautifulSoup

html = """
<html>
    <body>
        <h1 id='title'>[1]크롤링이란?</h1>;
        <p class='cssstyle'>웹페이지에서 필요한 데이터를 추출하는 것</p>
        <p id='body' align='center'>파이썬을 중신으로 다양한 웹 크롤링 기술 발달</p>
    </body>
</html>
"""

soup = BeautifulSoup(html, "html.parser")

# 태그로 검색 방법
title_data = soup.find('h1')

print(title_data)
print(title_data.string)
print(title_data.get_text())

<h1 id="title">[1]크롤링이란?</h1>
[1]크롤링이란?
[1]크롤링이란?


In [3]:
# 가장 먼저 검색되는 태그를 반환
paragraph_data = soup.find('p')

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>
웹페이지에서 필요한 데이터를 추출하는 것
웹페이지에서 필요한 데이터를 추출하는 것


In [4]:
# 태그에 있는 id로 검색 (javascript 예를 상기!)
title_data = soup.find(id='title')

print(title_data)
print(title_data.string)
print(title_data.get_text())

<h1 id="title">[1]크롤링이란?</h1>
[1]크롤링이란?
[1]크롤링이란?


In [5]:
# HTML 태그와 CSS class를 활용해서 필요한 데이터를 추출하는 방법1
paragraph_data = soup.find('p', class_='cssstyle')

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>
웹페이지에서 필요한 데이터를 추출하는 것
웹페이지에서 필요한 데이터를 추출하는 것


In [6]:
# HTML 태그와 CSS class를 활용해서 필요한 데이터를 추출하는 방법2
paragraph_data = soup.find('p', 'cssstyle')

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>
웹페이지에서 필요한 데이터를 추출하는 것
웹페이지에서 필요한 데이터를 추출하는 것


In [7]:
# HTML 태그와 태그에 있는 속성:속성값을 활용해서 필요한 데이터를 추출하는 방법
paragraph_data = soup.find('p', attrs = {'align': 'center'})

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p align="center" id="body">파이썬을 중신으로 다양한 웹 크롤링 기술 발달</p>
파이썬을 중신으로 다양한 웹 크롤링 기술 발달
파이썬을 중신으로 다양한 웹 크롤링 기술 발달


In [8]:
# find_all() : 관련된 모든 데이터를 리스트 형태로 추출하는 함수
paragraph_data = soup.find_all('p')

print(paragraph_data)
print(paragraph_data[0].get_text())
print(paragraph_data[1].get_text())

for data in paragraph_data:
    print(data.get_text())

[<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>, <p align="center" id="body">파이썬을 중신으로 다양한 웹 크롤링 기술 발달</p>]
웹페이지에서 필요한 데이터를 추출하는 것
파이썬을 중신으로 다양한 웹 크롤링 기술 발달
웹페이지에서 필요한 데이터를 추출하는 것
파이썬을 중신으로 다양한 웹 크롤링 기술 발달


## 2.4. BeautifulSoup 라이브러리 활용 string 검색 예제
- 태그가 아닌 문자열 자체로 검색
- 문자열, 정규표현식 등등으로 검색 가능
    - 문자열 검색의 경우 한 태그내의 문자열과 exact matching인 것만 추출
    - 이것이 의도한 경우가 아니라면 정규표현식 사용

In [9]:
import re
res = requests.get('http://v.media.daum.net/v/20170518153405933')
soup = BeautifulSoup(res.content, 'html.parser')

print(soup.find_all(string='오대석'))
print(soup.find_all(string=['[이주의해시태그-#네이버-클로바]쑥쑥 크는 네이버 AI', '오대석']))
print(soup.find_all(string='AI'))
print(soup.find_all(string=re.compile('AI'))[0])

['오대석']
['[이주의해시태그-#네이버-클로바]쑥쑥 크는 네이버 AI', '[이주의해시태그-#네이버-클로바]쑥쑥 크는 네이버 AI', '오대석']
[]
[이주의해시태그-#네이버-클로바]쑥쑥 크는 네이버 AI


## 연습문제

In [10]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://media.daum.net/digital/')
soup = BeautifulSoup(res.content, 'html.parser')

title_data = soup.find_all(class_='link_txt')

for data in title_data:
    print(data.get_text().strip())

中게임 판치는데..5년 간 '판호' 고작 33건 발급
5년 간 '판호' 고작 33건 발급..2017년 이후 '0'
"中게임 판치는데, 통계도 없는 韓정부"
"'아이폰12' 첫 날 판매량, 아이폰11 2배 넘었다"
"아이폰12 프로 판매량, 예상치 웃돌 것"
김봉진의 '승부수'..배달의민족, 내달 日 진출
배달의민족, 다음달 일본 진출..서비스명은 '푸드네코'
이충원 과기부 국제협력총괄담당관, OECD 디지털경제정책위 부의장 연임
이충원 담당관, OECD 디지털경제정책위원회 부의장직 연임
기름 속 작은 물방울도 박자를 맞춘다
울산과기원, 미세 기름관 내 물방울 형성 동기화 현상 최초 발견
아이폰12, 코로나 뚫고 첫날 사전주문량 200만대.. 아이폰11 넘었다
"스마트워치야? 손난로야?"..'터진' 애플워치SE, 국내서 발열·폭발 논란
"공공 부문, CISO 등 보안 전담조직 마련돼야"
"20만원에 아이 판매" 논란..당근마켓 "AI 모니터링 강화"
정부가 만든 中企 전용 오프라인 매장 72%가 폐점
도미노피자, 경찰의 날 맞아 경찰공무원에 '반값 피자' 행사
우리 몸속 고대 바이러스 흔적이 코로나19 퇴치법 알려줄까?
부부는 닮지 않는다..닮은 사람끼리 만날 뿐
뚜껑형이냐, 스탠드형이냐..냉장고 대신 김치냉장고?
"스마트워치야? 손난로야?"..'터진' 애플워치SE, 국내서 발열·폭발 논란
"'아이폰12' 첫 날 판매량, 아이폰11 2배 넘었다"
18년전 미국에 팔려가려던 하이닉스, '메모리의 아버지' 인수하다
땅 기름지게 하는 지렁이가 미세플라스틱 토양오염 가속화시킨다
땅 기름지게 하는 지렁이가 미세플라스틱 토양오염 가속화시킨다
"아이폰12 선주문 첫날 판매량, 아이폰11 뛰어넘어"
비닐봉지의 역설..종이봉투와 생분해 플라스틱의 불편한 진실
"'아이폰12' 첫 날 판매량, 아이폰11 2배 넘었다"
"그 알량한 돈때문에"..300명 정리해고 여행박사 사장의 마지막 편지
'1억 마세라티' 모는 운전자, 어떻게 공공임대주택에 입주했나
"이젠 미세먼지 때문에 KF 마

In [11]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://finance.naver.com/sise/sise_quant.nhn')
soup = BeautifulSoup(res.content, 'html.parser')

stock_name = soup.find_all('a', class_='tltle')

for name in stock_name:
    print(name.get_text(), end=' ')

KODEX 200선물인버스2X KEC 한솔홈데코 KODEX 코스닥150선물인버스 KODEX 레버리지 성창기업지주 KODEX 인버스 KODEX 코스닥150 레버리지 윌비스 한국전자홀딩스 삼성전자 태림포장 신성이엔지 CJ씨푸드 대창 KR모터스 신한 레버리지 WTI원유 선물 ETN(H) KODEX 코스닥 150 대한전선 SK하이닉스 삼부토건 우진 이아이디 현대차 KODEX 200 콤텍시스템 동양 동양물산 TIGER 200선물인버스2X 까뮤이앤씨 오리엔트바이오 엘브이엠씨홀딩스 KC코트렐 두산중공업 기아차 금호에이치티 한화솔루션 현대글로비스 대영포장 남성 대우건설 부산주공 한국전력 보락 진양산업 진원생명과학 한화생명 남선알미늄 SK증권 써니전자 HMM KODEX 단기채권PLUS 흥국화재우 신한지주 세화아이엠씨 수산중공업 삼성 레버리지 WTI원유 선물 ETN 유니온머티리얼 디피씨 삼성 인버스 2X WTI원유 선물 ETN 진흥기업우B 두산퓨얼셀 현대약품 세우글로벌 에이프로젠제약 KODEX WTI원유선물(H) SG세계물산 에이프로젠 KIC YG PLUS TIGER 코스닥150선물인버스 인지컨트롤스 두산인프라코어 TIGER 200 현대제철 쌍용차 비티원 한창 미래에셋 레버리지 원유선물혼합 ETN(H) 삼성전자우 쌍방울 신성통상 빅히트 마니커 서울식품 기업은행 삼성중공업 알루코 KB금융 TIGER 200선물레버리지 아시아나항공 KBSTAR 단기통안채 대우부품 TRUE 인버스 2X 나스닥 100 ETN AJ네트웍스 한솔로지스틱스 우리금융지주 미래아이앤지 GS건설 LG디스플레이 영진약품 

# 3. Open API(Rest API)를 활용한 크롤링

## 3.1. Open API(Rest API)란?
- API: Application Programming Interface의 약자로, 특정 프로그램을 만들기 위해 제공되는 모듈(함수 등)을 의미
- Open API: 공개 API라고도 불리우며, 누구나 사용할 수 있도록 공개된 API (주로 Rest API 기술을 많이 사용함)
- Rest API: Representational State Transfer API의 약자로, HTTP프로토콜을 통해 서버 제공 기능을 사용할 수 있는 함수를 의미
    - 일반적으로 XML, JSON의 형태로 응답을 전달(원하는 데이터 추출이 수월)

## 3.2. JSON 이란?
- JavaScript Object Notation 줄임말
- JSON은 서버와 클라이언트 또는 컴퓨터/프로그램 사이에 데이터를 주고 받을 때 사용하는 데이터 포멧
- 키와 값을 괄호와 세미콜론과 같이 간단한 기호로 구성하여 표현할 수 있고, 언어나 운영체제에 구애받지 않기 때문에 많이 사용됨
- 특히 웹/앱 환경에서 Rest API를 사용하여, 서버와 클라이언트 사이에 데이터를 주고 받을때 많이 사용
- JSON 포멧 예
    { "id":"01", "language": "Java", "edition": "third", "author": "Herbert Schildt" }

## 3.3. 네이버 검색 Open API를 이용한 크롤링 초간단 실습
- 네이버와 같은 주요 포털 사이트에서도 Open API를 제공함 (네이버 Developers 사이트 링크: https://developers.naver.com/main/)
- 네이버 Developers 사이트 가입 후,
- Application -> 애플리케이션 등록(API 이용신청) 에서 다음과 같이 입력하여, 검색 API 사용 신청

## 3.4. urllib 라이브러리를 활용한 크롤링 코드
- 인터넷에 다양한 예제들이 urllib 또는 urllib2를 사용한 예제들이 많으므로, 익혀둘 필요가 있음

In [12]:
import urllib.request
import json

In [13]:
client_key = "aZmPQWV4GqO1n5H738tR"
client_secret = "TqnlftTGFP"

# 한글 등 non-ASCII text를 URL에 넣을 수 있도록 "%" followed by hexadecimal digits로 변경
# URL은 ASCII 인코딩셋만 지원하기 때문임
encText = urllib.parse.quote_plus("스마트폰")
print("스마트폰 --- (인코딩) ---> " + encText + "\n")

naver_url = "https://openapi.naver.com/v1/search/news.json?query=" + encText

# urllib.request.Request()는 HTTP Header 변경시에 사용함
# 네이버에서도 다음 HTTP Header 키를 변경해야하기 때문에 사용함
# HTTP Header 변경이 필요없다면, 바로 urllib.request.urlopen()함수만 사용해도 됨
request = urllib.request.Request(naver_url)
request.add_header("X-Naver-Client-Id", client_key)
request.add_header("X-Naver-Client-Secret", client_secret)

# urllib.request.urlopen 메서드로 크롤링할 웹페이지를 가져옴
response = urllib.request.urlopen(request)

# getcode() 메서드로 HTTP 응답 상태 코드를 가져올 수 있음
rescode = response.getcode()

# HTTP 요청 응답이 정상적일 경우, 해당 HTML 데이터를 수신하였기 때문에 필요한 데이터 추출이 가능함.
# HTTP 요청에 대한 정상응답일 경우, HTTP 응답 상태 코드 값이 200이 된다.
if (rescode == 200):
    # response.read() 메서드로 수신된 HTML 데이터를 가져올 수 있음
    response_body = response.read()
    # 네이버 Open API를 통해서 수신된 데이터가 JSON 포멧이기 때문에,
    # JSON 포멧 데이터를 파싱해서 사전데이터로 만들어주는 json 라이브러리를 사용
    data = json.loads(response_body)
    # json.loads() 메서드를 사용해서 data에 수신된 데이터를 사전 데이터로 분석해서 자동으로 만들어줌
    print(data['items'][0]['title'])
    print(data['items'][0]['description'])
else:
    print("Error code:", rescode)

스마트폰 --- (인코딩) ---> %EC%8A%A4%EB%A7%88%ED%8A%B8%ED%8F%B0

[종합] SKT '점프 스튜디오' 글로벌화…&quot;AR·VR로 '밈'중심에 선다&quot;
입체적인 비대면 회의를 원하는 이용자라면 누구나 버추얼 밋업 모임을 주관하고 지인을 초대할 수 있다. 이르면 이달 중 점프 VR 앱에서 무료로 이용할 수 있고 별도 VR 기기 없이 <b>스마트폰</b>, PC 만으로도 가능하다.


## 3.5. requests 라이브러리를 활용한 크롤링 코드(간결함, 권장)
- requests 라이브러리를 사용해서 Open API(Rest API)를 통해 데이터를 바로 가져올 수 있음

In [14]:
import requests

client_key = "aZmPQWV4GqO1n5H738tR"
client_secret = "TqnlftTGFP"
# 별도 quote_plus() 메서드 등 처리할 필요 없음. request 객체가 알아서 해줌

naver_url = 'https://openapi.naver.com/v1/search/news.json?query=스마트폰'

header_params = {"X-Naver-Client-Id":client_key, "X-Naver-Client-Secret":client_secret}
# headers=headers_params 는 header 변경시에만 필요하고, 그렇지 않으면,
# requests.get(원하는 URL)만 해도 됨
response = requests.get(naver_url, headers = header_params)
# 별도 json.loads() 라이브러리 메서드를 사용하지 않아도, requests 라이브러리에 있는
# json() 메서드로 간단히 처리 가능함

#print(response.json())
#print(response.text)

# HTTP 응답 코드는 status_code에 저장됨
if (response.status_code == 200):
    data = response.json()
    print(data['items'][0]['title'])
    print(data['items'][0]['description'])
else:
    print("Error Code:", response.status_code)

[종합] SKT '점프 스튜디오' 글로벌화…&quot;AR·VR로 '밈'중심에 선다&quot;
입체적인 비대면 회의를 원하는 이용자라면 누구나 버추얼 밋업 모임을 주관하고 지인을 초대할 수 있다. 이르면 이달 중 점프 VR 앱에서 무료로 이용할 수 있고 별도 VR 기기 없이 <b>스마트폰</b>, PC 만으로도 가능하다.


## 연습문제

In [18]:
import requests

client_key = "aZmPQWV4GqO1n5H738tR"
client_secret = "TqnlftTGFP"

naver_url = 'https://openapi.naver.com/v1/search/news.json?query=부동산'

header_params = {"X-Naver-Client-Id":client_key, "X-Naver-Client-Secret":client_secret}

response = requests.get(naver_url, headers = header_params)

if (response.status_code == 200):
    data = response.json()
    print(data['items'][0]['title'])
    print(data['items'][0]['description'])
else:
    print("Error Code:", response.status_code)

한국감정원, 청년 창업 지원 앞장 선다
오늘경제 한국감정원(원장 김학규)은 국토교통부(장관 김현미)와 함께 <b>부동산</b> 분야의 일자리 창출 및 청년창업 활성화를 위한 <b>부동산</b>서비스산업 창업교육을 지원한다고 20일 밝혔다. <b>부동산</b>서비스산업 창업교육은 <b>부동산</b>... 


# 4. CSS Selector를 사용한 크롤링
- CSS 선택 문법을 이용하여 태그 검색
- select 함수 사용

In [20]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://news.v.daum.net/v/20201020114157960')
soup = BeautifulSoup(res.content, 'html.parser')

In [23]:
# 태그 검색
print(soup.find('title'))

# select 함수는 리스트 형태로 전체 반환
title = soup.select('title')
print(title)

<title>SK하이닉스 10조 베팅으로 낸드도 2위로..최태원 또 '통 큰 승부수'</title>
[<title>SK하이닉스 10조 베팅으로 낸드도 2위로..최태원 또 '통 큰 승부수'</title>]


In [24]:
print(title[0].get_text())

SK하이닉스 10조 베팅으로 낸드도 2위로..최태원 또 '통 큰 승부수'


In [26]:
# 띄어쓰기가 있다면 하위 태그를 검색
title = soup.select('html head title')[0]
print(title.get_text())

SK하이닉스 10조 베팅으로 낸드도 2위로..최태원 또 '통 큰 승부수'


In [27]:
# 띄어쓰기가 있다면 하위 태그를 검색
# 이 때, 바로 직계의 자식이 아니어도 관계없음
title = soup.select('html title')[0]
print(title.get_text())

SK하이닉스 10조 베팅으로 낸드도 2위로..최태원 또 '통 큰 승부수'


In [28]:
# > 를 사용하는 경우 바로 직계의 자식만 검색
# 바로 아래 자식이 아니기 때문에 에러 발생
title = soup.select('html > title')[0]
print(title.get_text())

IndexError: list index out of range

In [32]:
# 바로 아래의 자식을 검색
title = soup.select('head > title')[0]
print(title.get_text())

SK하이닉스 10조 베팅으로 낸드도 2위로..최태원 또 '통 큰 승부수'


In [35]:
# .은 태그의 클래스를 검색
# class가 article_view인 태그 탐색
body = soup.select('.article_view')[0]
print(type(body), len(body))
for p in body.find_all('p'):
    print(p.get_text())

<class 'bs4.element.Tag'> 3
 

 [서울=뉴시스] 고은결 기자 = SK하이닉스의 인텔 낸드 사업 부문 인수는 D램 반도체와 함께 메모리 반도체 시장의 양대 축으로 꼽히는 낸드플래시의 경쟁력 강화를 위한 최태원 SK그룹 회장의 과감한 베팅으로 해석된다. SK하이닉스는 현재 D램 부문에서는 세계 2위지만, 낸드 부문에서는 4~5위에 그쳐왔다.
SK하이닉스는 인텔의 낸드 사업 부문 전체를 10조3104억원에 인수하는 내용의 양도 양수 계약을 체결했다고 20일 밝혔다. 이는 지난 2016년 삼성전자가 하만을 인수했을 때 쓴 80억달러(약 9조원)를 뛰어넘는 국내 M&A(인수합병) 사상 최대 규모다. 
인수 대상은 인텔의 SSD 사업 부문과 낸드 단품 및 웨이퍼 비즈니스, 중국 다롄 생산시설을 포함한 낸드 사업 부문 전체다. 다만 옵테인 사업부는 포함되지 않는다. 
SK하이닉스는 인텔의 솔루션 기술 및 생산 능력을 접목해 기업용 SSD 등 고부가가치 중심의 3D 낸드 솔루션 포트폴리오를 구축한다는 방침이다. SK하이닉스는 지난 2018년 CTF(Charge Trap Flash) 기반 96단 4D 낸드, 지난해 128단 4D 낸드플래시를 세계 최초로 개발한 기술력을 보유하고 있다.
재계에선 이번 M&A를 두고 최태원 SK그룹 회장이 2012년 SK하이닉스 인수, 2018년 도시바 메모리 지분 인수에 이어 또 한 번 통 큰 '승부수'를 던졌다는 평이 나온다.
SK그룹은 그동안 SK하이닉스를 비롯해 SK머티리얼즈, SK실트론 등을 인수해 반도체 수직 계열화를 완성하는 효과를 봤다. 여기에 2018년에는 도시바 메모리를 인수했고, 이번에 인텔 낸드 사업까지 인수하며 경쟁력 강화에 속도를 내게 됐다.
낸드 시장에 후발주자로 뛰어든 SK하이닉스는 세계 시장에서 줄곧 4~5위권에 머물렀다. 시장조사업체 옴디아에 따르면 2020년 2분기에 낸드 시장 점유율 인텔은 11.5%로 4위, SK하이닉스는 11.4%로 5위로 조사됐다. 같은 기간 SSD 시장에서 인텔의

In [36]:
# div 태그 중 class가 article_view인 태그 탐색
body = soup.select('div .article_view')[0]
print(type(body), len(body))
for p in body.find_all('p'):
    print(p.get_text())

<class 'bs4.element.Tag'> 3
 

 [서울=뉴시스] 고은결 기자 = SK하이닉스의 인텔 낸드 사업 부문 인수는 D램 반도체와 함께 메모리 반도체 시장의 양대 축으로 꼽히는 낸드플래시의 경쟁력 강화를 위한 최태원 SK그룹 회장의 과감한 베팅으로 해석된다. SK하이닉스는 현재 D램 부문에서는 세계 2위지만, 낸드 부문에서는 4~5위에 그쳐왔다.
SK하이닉스는 인텔의 낸드 사업 부문 전체를 10조3104억원에 인수하는 내용의 양도 양수 계약을 체결했다고 20일 밝혔다. 이는 지난 2016년 삼성전자가 하만을 인수했을 때 쓴 80억달러(약 9조원)를 뛰어넘는 국내 M&A(인수합병) 사상 최대 규모다. 
인수 대상은 인텔의 SSD 사업 부문과 낸드 단품 및 웨이퍼 비즈니스, 중국 다롄 생산시설을 포함한 낸드 사업 부문 전체다. 다만 옵테인 사업부는 포함되지 않는다. 
SK하이닉스는 인텔의 솔루션 기술 및 생산 능력을 접목해 기업용 SSD 등 고부가가치 중심의 3D 낸드 솔루션 포트폴리오를 구축한다는 방침이다. SK하이닉스는 지난 2018년 CTF(Charge Trap Flash) 기반 96단 4D 낸드, 지난해 128단 4D 낸드플래시를 세계 최초로 개발한 기술력을 보유하고 있다.
재계에선 이번 M&A를 두고 최태원 SK그룹 회장이 2012년 SK하이닉스 인수, 2018년 도시바 메모리 지분 인수에 이어 또 한 번 통 큰 '승부수'를 던졌다는 평이 나온다.
SK그룹은 그동안 SK하이닉스를 비롯해 SK머티리얼즈, SK실트론 등을 인수해 반도체 수직 계열화를 완성하는 효과를 봤다. 여기에 2018년에는 도시바 메모리를 인수했고, 이번에 인텔 낸드 사업까지 인수하며 경쟁력 강화에 속도를 내게 됐다.
낸드 시장에 후발주자로 뛰어든 SK하이닉스는 세계 시장에서 줄곧 4~5위권에 머물렀다. 시장조사업체 옴디아에 따르면 2020년 2분기에 낸드 시장 점유율 인텔은 11.5%로 4위, SK하이닉스는 11.4%로 5위로 조사됐다. 같은 기간 SSD 시장에서 인텔의

In [37]:
# div 태그 중 id가 harmonyContainer인 태그 탐색
container = soup.select('#harmonyContainer')
print(container)

[<div class="article_view" data-translation-body="true" id="harmonyContainer">
<section dmcf-sid="ANIrQYUk2C">
<p dmcf-pid="A9evUb1LOJ" dmcf-ptype="general"><br/> </p>
<figure class="figure_frm origin_fig" dmcf-pid="A4zh7bO18F" dmcf-ptype="figure">
<p class="link_figure"><img alt="[서울=뉴시스] 최태원 SK 회장" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202010/20/newsis/20201020114157469ztoc.jpg" data-org-width="640" dmcf-mid="AiRdExxHlm" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202010/20/newsis/20201020114157469ztoc.jpg" width="658"/></p>
<figcaption class="txt_caption default_figure">
            [서울=뉴시스] 최태원 SK 회장
           </figcaption>
</figure>
<p dmcf-pid="AmxcixFI3k" dmcf-ptype="general"><br/> [서울=뉴시스] 고은결 기자 = SK하이닉스의 인텔 낸드 사업 부문 인수는 D램 반도체와 함께 메모리 반도체 시장의 양대 축으로 꼽히는 낸드플래시의 경쟁력 강화를 위한 최태원 SK그룹 회장의 과감한 베팅으로 해석된다. SK하이닉스는 현재 D램 부문에서는 세계 2위지만, 낸드 부문에서는 4~5위에 그쳐왔다.</p>
<p dmcf-pid="ApXAfVUrgp" d

In [46]:
# div 태그 중 id가 mArticle인 태그의 하위 태그 중 id가 harmonyContainer인 태그 검색
title = soup.select('div#mArticle #harmonyContainer')
print(title)

[<div class="article_view" data-translation-body="true" id="harmonyContainer">
<section dmcf-sid="ANIrQYUk2C">
<p dmcf-pid="A9evUb1LOJ" dmcf-ptype="general"><br/> </p>
<figure class="figure_frm origin_fig" dmcf-pid="A4zh7bO18F" dmcf-ptype="figure">
<p class="link_figure"><img alt="[서울=뉴시스] 최태원 SK 회장" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202010/20/newsis/20201020114157469ztoc.jpg" data-org-width="640" dmcf-mid="AiRdExxHlm" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202010/20/newsis/20201020114157469ztoc.jpg" width="658"/></p>
<figcaption class="txt_caption default_figure">
            [서울=뉴시스] 최태원 SK 회장
           </figcaption>
</figure>
<p dmcf-pid="AmxcixFI3k" dmcf-ptype="general"><br/> [서울=뉴시스] 고은결 기자 = SK하이닉스의 인텔 낸드 사업 부문 인수는 D램 반도체와 함께 메모리 반도체 시장의 양대 축으로 꼽히는 낸드플래시의 경쟁력 강화를 위한 최태원 SK그룹 회장의 과감한 베팅으로 해석된다. SK하이닉스는 현재 D램 부문에서는 세계 2위지만, 낸드 부문에서는 4~5위에 그쳐왔다.</p>
<p dmcf-pid="ApXAfVUrgp" d

In [47]:
import re

res = requests.get('http://media.daum.net/economic/')

soup = BeautifulSoup(res.content, 'html.parser')

# a 태그이면서 href 속성을 갖는 경우 탐색, 리스트 타입으로 links 변수에 저장됨
links = soup.select('a[href]')

for link in links:
    # print(link)
    # print(link['href'])
    if re.search('http://\w+', link['href']):
        print(link['href'])

http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=서울특별시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=수원시 권선구날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=인천광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=대구광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=대전광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=광주광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=부산광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=울산광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=울릉군날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=춘천시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=강릉시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=백령면날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=청주시 상당구날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=전주시 완산구날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=목포시날씨

## CSS Selector 활용 팁
1. 네이버 부동산 매매 아파트 이름과 가격만 찾아보기
    - CSS Selector 를 활용하는 팁: Chrome F12(WINDOW) or Alt + Command + i(MAC) --> Copy Selector 참고
    - Copy Selector 시 일부 태그에 붙는 :nth-child(#) 은 동일한 태그로 리스트가 있을 경우, 리스트 중 특정한 값만 가리킴 . 전체 리스트를 가져오는 경우에는 :nth-child(#) 은 삭제할 필요가 있음

In [48]:
import re
import requests
from bs4 import BeautifulSoup

res = requests.get('http://land.naver.com/article/divisionInfo.nhn?rletTypeCd=A01&tradeTypeCd=A1&hscpTypeCd=A01%3AA03%3AA04&cortarNo=1168000000&articleOrderCode=&cpId=&minPrc=&maxPrc=&minWrrnt=&maxWrrnt=&minLease=&maxLease=&minSpc=&maxSpc=&subDist=&mviDate=&hsehCnt=&rltrId=&mnex=&siteOrderCode=&cmplYn=')

soup = BeautifulSoup(res.content, 'html.parser')

# a 태그이면서 href 속성 값이 특정한 값을 갖는 경우 탐색
link_title = soup.select("#depth4Tab0Content > div > table > tbody > tr > td.align_l.name > div > a.sale_title")
link_price = soup.select("#depth4Tab0Content > div > table > tbody > tr > td.num.align_r > div > strong")

for num in range(len(link_price)):
    print(link_title[num].get_text(), link_price[num].get_text())

In [66]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://daum.net/')
soup = BeautifulSoup(res.content, 'html.parser')

areas = soup.select('li.hide span.txt_part')
area_list = []
for area in areas:
    area_list.append(area.get_text())

temps = soup.select('li.hide span.txt_temper')
dic = {}
for num in range(len(area_list)):
    dic[area_list[num]] = temps[num].get_text() + '도'

for area, temp in dic.items():
    print("{0} : {1}".format(area, temp))

경기도 : 19도
인천시 : 19도
대구시 : 20도
대전시 : 20도
광주시 : 21도
부산시 : 22도
울산시 : 20도
경상북도 : 18도
강원도 : 22도
충청북도 : 19도
전라북도 : 21도
전라남도 : 19도
제주자치도 : 21도
경상남도 : 22도
