# Tutorial 7. Web Crawling
- **GOAL**: scrapping news data from Naver News Sports
- url: https://sports.news.naver.com/wfootball/news/index?isphoto=N

### 1. Open Selenium webdriver browser
This will open a new browser. **Don't close it** until the crawling process is completed!

In [1]:
from selenium import webdriver

# locate the driver in the current directory (containing this notebook file)!
driver = webdriver.Chrome('chromedriver.exe') # windows
# driver = webdriver.Chrome('chromedriver') # mac

driver.implicitly_wait(3) # waiting 3 seconds

In [2]:
# access to target url
driver.get('https://sports.news.naver.com/wfootball/news/index?isphoto=N') 

### 2. Find element(s) by css selector
- The css selector value can be obtained by Chrome inspection tool (Ctrl + Shift + I).
1. Copy the css selector value of the targeting element
2. Get the elements (what is the difference between the two code lines below?

In [3]:
driver.find_element_by_css_selector('#_newsList > ul > li > div > a > span')

<selenium.webdriver.remote.webelement.WebElement (session="af8ec48f4d14d1d8bc3b9f442d314185", element="da69d0d5-c2e5-48ff-8b99-382a4f5679e2")>

In [4]:
driver.find_elements_by_css_selector('#_newsList > ul > li > div > a > span')

[<selenium.webdriver.remote.webelement.WebElement (session="af8ec48f4d14d1d8bc3b9f442d314185", element="da69d0d5-c2e5-48ff-8b99-382a4f5679e2")>,
 <selenium.webdriver.remote.webelement.WebElement (session="af8ec48f4d14d1d8bc3b9f442d314185", element="384cb8da-7766-484f-a21b-55b9900b1381")>,
 <selenium.webdriver.remote.webelement.WebElement (session="af8ec48f4d14d1d8bc3b9f442d314185", element="637f54f5-57ea-4366-9f43-2479a8bbc018")>,
 <selenium.webdriver.remote.webelement.WebElement (session="af8ec48f4d14d1d8bc3b9f442d314185", element="aae3b404-8428-4947-9b6b-0db8f58ca2d9")>,
 <selenium.webdriver.remote.webelement.WebElement (session="af8ec48f4d14d1d8bc3b9f442d314185", element="9edf0fa2-7e5f-4fc7-bdf1-407193fe981b")>,
 <selenium.webdriver.remote.webelement.WebElement (session="af8ec48f4d14d1d8bc3b9f442d314185", element="1bab5eff-c256-4edd-9898-1d835ae31067")>,
 <selenium.webdriver.remote.webelement.WebElement (session="af8ec48f4d14d1d8bc3b9f442d314185", element="8f6a6605-f147-4d0f-a7b7-df

### 3. Scrapping data
1. Since the news webpage contains multiple news items (css selector value: `#_newsList > ul > li`), we will use `for` loop.
2. For each item, we can get attribute values like news title, news page url, or datetime.
3. The attribute values will be accumulated in lists.

In [5]:
# news items (objects)
elements = driver.find_elements_by_css_selector('#_newsList > ul > li')

# news attribute lists
title_list = []
url_list = []
desc_list = []
img_list = []
pub_list = []
dt_list = []

for x in elements:
    # title
    title = x.find_element_by_css_selector('div > a > span').text
    # short description
    desc = x.find_element_by_css_selector('div > p').text
    # page url
    url = x.find_element_by_css_selector('a').get_attribute("href")
    # image url
    img = x.find_element_by_css_selector('a > img').get_attribute("src")
    # publisher
    pub = x.find_element_by_css_selector('div > div > span.press').text
    # datetime
    dt = x.find_element_by_css_selector('div > div > span.time').text
    # print
    print(title)
    print(desc)
    print(url)
    print(img)
    print(pub, dt)
    print()
    # append news item values to the attribute lists
    title_list.append(title)
    url_list.append(url)
    desc_list.append(desc)
    img_list.append(img)
    pub_list.append(pub)
    dt_list.append(dt)

'레알 이적설' 손흥민, 이번엔 '리버풀행 가능성'까지 거론
손흥민이 레알 마드리드에 이어 리버풀과도 연결됐다. 위르겐 클롭 감독과 여러 차례 엮였던 만큼 새로운 가능성이 피어올랐다.글로벌 매체 '포포투'는 26일(한...
https://sports.news.naver.com/wfootball/news/read?oid=413&aid=0000148932
https://imgnews.pstatic.net/image/origin/413/2022/10/26/148932.jpg?type=w140
인터풋볼 2022.10.26 22:53

"이렇게 들면 되나?" 박지성, 피카츄 돈까스 '상탈짤' 재연폭소(침착맨)
유튜브채널 ‘침착맨’ 출처 | 유튜브[스포츠서울 | 박효실기자] 한국 축구의 전설 박지성이 ‘침착맨’의 꾐에 빠져 피카츄 돈까스를 들고 짤을 재연해 폭소를 ...
https://sports.news.naver.com/wfootball/news/read?oid=468&aid=0000894633
https://imgnews.pstatic.net/image/origin/468/2022/10/26/894633.jpg?type=w140
스포츠서울 2022.10.26 22:50

SON에게 “이 바보야!” 외친 토트넘 선수...이유는?
[골닷컴] 김동호 기자 = 손흥민은 토트넘 훈련장에서 분위기 메이커이다.토트넘의 많은 선수들이 손흥민을 좋아하고 따른다. 백업 골키퍼 프레이저 포스터도 예외...
https://sports.news.naver.com/wfootball/news/read?oid=216&aid=0000124578
https://imgnews.pstatic.net/image/origin/216/2022/10/26/124578.jpg?type=w140
골닷컴 2022.10.26 22:48

[오피셜] 텐 하흐 공식발표 "호날두 맨유 복귀…모든 건 끝났다"
▲ 호날두[스포티비뉴스=박대성 기자] 에릭 텐 하흐 감독이 크리스티아누 호날두(37)가 팀 훈련에 돌아왔고, 유로

Don't forget to scrap the entire news text data!
- You can get it by iteratively access to `url_list` containing news page url values.
- The css selector value can be obtained by Chrome inspection tool (Ctrl + Shift + I).

In [6]:
text_list = [] # main text will be collected

for url in url_list:
    driver.get(url)
    newstext = driver.find_element_by_css_selector('#newsEndContents').text
    text_list.append(newstext)

### 4. Save data in CSV format
We will use Pandas dataframe.

In [7]:
import pandas as pd

# dataframe can be made using multiple lists having same length
df = pd.DataFrame({'title': title_list, 
                   'url': url_list, 
                   'short_desc': desc_list, 
                   'text': text_list,
                   'img': img_list, 
                   'publisher': pub_list,
                   'datetime': dt_list,
                  })
df

Unnamed: 0,title,url,short_desc,text,img,publisher,datetime
0,"'레알 이적설' 손흥민, 이번엔 '리버풀행 가능성'까지 거론",https://sports.news.naver.com/wfootball/news/r...,손흥민이 레알 마드리드에 이어 리버풀과도 연결됐다. 위르겐 클롭 감독과 여러 차례 ...,손흥민이 레알 마드리드에 이어 리버풀과도 연결됐다. 위르겐 클롭 감독과 여러 차례 ...,https://imgnews.pstatic.net/image/origin/413/2...,인터풋볼,2022.10.26 22:53
1,"""이렇게 들면 되나?"" 박지성, 피카츄 돈까스 '상탈짤' 재연폭소(침착맨)",https://sports.news.naver.com/wfootball/news/r...,유튜브채널 ‘침착맨’ 출처 | 유튜브[스포츠서울 | 박효실기자] 한국 축구의 전설 ...,유튜브채널 ‘침착맨’ 출처 | 유튜브\n\n[스포츠서울 | 박효실기자] 한국 축구의...,https://imgnews.pstatic.net/image/origin/468/2...,스포츠서울,2022.10.26 22:50
2,SON에게 “이 바보야!” 외친 토트넘 선수...이유는?,https://sports.news.naver.com/wfootball/news/r...,[골닷컴] 김동호 기자 = 손흥민은 토트넘 훈련장에서 분위기 메이커이다.토트넘의 많...,[골닷컴] 김동호 기자 = 손흥민은 토트넘 훈련장에서 분위기 메이커이다.\n\n토트...,https://imgnews.pstatic.net/image/origin/216/2...,골닷컴,2022.10.26 22:48
3,"[오피셜] 텐 하흐 공식발표 ""호날두 맨유 복귀…모든 건 끝났다""",https://sports.news.naver.com/wfootball/news/r...,▲ 호날두[스포티비뉴스=박대성 기자] 에릭 텐 하흐 감독이 크리스티아누 호날두(37...,▲ 호날두\n\n\n[스포티비뉴스=박대성 기자] 에릭 텐 하흐 감독이 크리스티아누 ...,https://imgnews.pstatic.net/image/origin/477/2...,스포티비뉴스,2022.10.26 22:44
4,"텐 하흐의 교통정리, ""호날두 1군 합류, 바란 부상 이탈, 매과이어 복귀""",https://sports.news.naver.com/wfootball/news/r...,[포포투=김희준]맨체스터 유나이티드의 에릭 텐 하흐 감독이 현재 선수단의 문제들에 ...,[포포투=김희준]\n\n맨체스터 유나이티드의 에릭 텐 하흐 감독이 현재 선수단의 문...,https://imgnews.pstatic.net/image/origin/411/2...,포포투,2022.10.26 22:41
5,“호날두 입 다물어야...맨유에 없는 게 더 나아” 무단 퇴근 지적,https://sports.news.naver.com/wfootball/news/r...,[스포탈코리아] 반진혁 기자= 크리스티아누 호날두가 입을 다물었어야 했다는 지적이다...,[스포탈코리아] 반진혁 기자= 크리스티아누 호날두가 입을 다물었어야 했다는 지적이다...,https://imgnews.pstatic.net/image/origin/139/2...,스포탈코리아,2022.10.26 22:40
6,"호날두, 유벤투스 시절 부당 급여 수령으로 검찰 조사",https://sports.news.naver.com/wfootball/news/r...,[골닷컴] 김동호 기자 = 크리스티아누 호날두를 비롯한 유벤투스 선수들이 2020년...,[골닷컴] 김동호 기자 = 크리스티아누 호날두를 비롯한 유벤투스 선수들이 2020년...,https://imgnews.pstatic.net/image/origin/216/2...,골닷컴,2022.10.26 22:34
7,"이강인 '인기 폭발'... ""21세 재능"" 라리가·EPL 클럽들이 원한다",https://sports.news.naver.com/wfootball/news/r...,이강인(오른쪽). /사진=AFPBBNews=뉴스1대한민국의 미친 재능 이강인(21·...,이강인(오른쪽). /사진=AFPBBNews=뉴스1\n대한민국의 미친 재능 이강인(2...,https://imgnews.pstatic.net/image/origin/108/2...,스타뉴스,2022.10.26 22:33
8,"콘테가 극찬했던 옛 제자, 토트넘으로?…""영입 경쟁 참전""",https://sports.news.naver.com/wfootball/news/r...,▲ 테미 에이브러햄.[스포티비뉴스=김성연 기자] 팀의 핵심 공격수가 여전히 불확실한...,▲ 테미 에이브러햄.\n\n\n[스포티비뉴스=김성연 기자] 팀의 핵심 공격수가 여전...,https://imgnews.pstatic.net/image/origin/477/2...,스포티비뉴스,2022.10.26 22:21
9,"‘1도움’ 이재성, 분데스리가 주간 베스트 11 선정",https://sports.news.naver.com/wfootball/news/r...,[골닷컴] 김동호 기자 = 이재성이 분데스리가 11라운드 베스트 11에 선정됐다.이...,[골닷컴] 김동호 기자 = 이재성이 분데스리가 11라운드 베스트 11에 선정됐다.\...,https://imgnews.pstatic.net/image/origin/216/2...,골닷컴,2022.10.26 22:17


Save the dataframe into a CSV (comma-separated values) file.

Here, we will use `\t` (tab) instead of `,` (comma) since the news title or text may contain commas.

In [8]:
df.to_csv('news.csv', # filename
          sep='\t', # values separated by tab
          index=False, # exclude index column
          encoding='utf-8') # utf-8 encoding is widely used and makes us comfortable!

You can load data using `pd.read_csv()`.

In [9]:
pd.read_csv('news.csv', sep='\t')

Unnamed: 0,title,url,short_desc,text,img,publisher,datetime
0,"'레알 이적설' 손흥민, 이번엔 '리버풀행 가능성'까지 거론",https://sports.news.naver.com/wfootball/news/r...,손흥민이 레알 마드리드에 이어 리버풀과도 연결됐다. 위르겐 클롭 감독과 여러 차례 ...,손흥민이 레알 마드리드에 이어 리버풀과도 연결됐다. 위르겐 클롭 감독과 여러 차례 ...,https://imgnews.pstatic.net/image/origin/413/2...,인터풋볼,2022.10.26 22:53
1,"""이렇게 들면 되나?"" 박지성, 피카츄 돈까스 '상탈짤' 재연폭소(침착맨)",https://sports.news.naver.com/wfootball/news/r...,유튜브채널 ‘침착맨’ 출처 | 유튜브[스포츠서울 | 박효실기자] 한국 축구의 전설 ...,유튜브채널 ‘침착맨’ 출처 | 유튜브\n\n[스포츠서울 | 박효실기자] 한국 축구의...,https://imgnews.pstatic.net/image/origin/468/2...,스포츠서울,2022.10.26 22:50
2,SON에게 “이 바보야!” 외친 토트넘 선수...이유는?,https://sports.news.naver.com/wfootball/news/r...,[골닷컴] 김동호 기자 = 손흥민은 토트넘 훈련장에서 분위기 메이커이다.토트넘의 많...,[골닷컴] 김동호 기자 = 손흥민은 토트넘 훈련장에서 분위기 메이커이다.\n\n토트...,https://imgnews.pstatic.net/image/origin/216/2...,골닷컴,2022.10.26 22:48
3,"[오피셜] 텐 하흐 공식발표 ""호날두 맨유 복귀…모든 건 끝났다""",https://sports.news.naver.com/wfootball/news/r...,▲ 호날두[스포티비뉴스=박대성 기자] 에릭 텐 하흐 감독이 크리스티아누 호날두(37...,▲ 호날두\n\n\n[스포티비뉴스=박대성 기자] 에릭 텐 하흐 감독이 크리스티아누 ...,https://imgnews.pstatic.net/image/origin/477/2...,스포티비뉴스,2022.10.26 22:44
4,"텐 하흐의 교통정리, ""호날두 1군 합류, 바란 부상 이탈, 매과이어 복귀""",https://sports.news.naver.com/wfootball/news/r...,[포포투=김희준]맨체스터 유나이티드의 에릭 텐 하흐 감독이 현재 선수단의 문제들에 ...,[포포투=김희준]\n\n맨체스터 유나이티드의 에릭 텐 하흐 감독이 현재 선수단의 문...,https://imgnews.pstatic.net/image/origin/411/2...,포포투,2022.10.26 22:41
5,“호날두 입 다물어야...맨유에 없는 게 더 나아” 무단 퇴근 지적,https://sports.news.naver.com/wfootball/news/r...,[스포탈코리아] 반진혁 기자= 크리스티아누 호날두가 입을 다물었어야 했다는 지적이다...,[스포탈코리아] 반진혁 기자= 크리스티아누 호날두가 입을 다물었어야 했다는 지적이다...,https://imgnews.pstatic.net/image/origin/139/2...,스포탈코리아,2022.10.26 22:40
6,"호날두, 유벤투스 시절 부당 급여 수령으로 검찰 조사",https://sports.news.naver.com/wfootball/news/r...,[골닷컴] 김동호 기자 = 크리스티아누 호날두를 비롯한 유벤투스 선수들이 2020년...,[골닷컴] 김동호 기자 = 크리스티아누 호날두를 비롯한 유벤투스 선수들이 2020년...,https://imgnews.pstatic.net/image/origin/216/2...,골닷컴,2022.10.26 22:34
7,"이강인 '인기 폭발'... ""21세 재능"" 라리가·EPL 클럽들이 원한다",https://sports.news.naver.com/wfootball/news/r...,이강인(오른쪽). /사진=AFPBBNews=뉴스1대한민국의 미친 재능 이강인(21·...,이강인(오른쪽). /사진=AFPBBNews=뉴스1\n대한민국의 미친 재능 이강인(2...,https://imgnews.pstatic.net/image/origin/108/2...,스타뉴스,2022.10.26 22:33
8,"콘테가 극찬했던 옛 제자, 토트넘으로?…""영입 경쟁 참전""",https://sports.news.naver.com/wfootball/news/r...,▲ 테미 에이브러햄.[스포티비뉴스=김성연 기자] 팀의 핵심 공격수가 여전히 불확실한...,▲ 테미 에이브러햄.\n\n\n[스포티비뉴스=김성연 기자] 팀의 핵심 공격수가 여전...,https://imgnews.pstatic.net/image/origin/477/2...,스포티비뉴스,2022.10.26 22:21
9,"‘1도움’ 이재성, 분데스리가 주간 베스트 11 선정",https://sports.news.naver.com/wfootball/news/r...,[골닷컴] 김동호 기자 = 이재성이 분데스리가 11라운드 베스트 11에 선정됐다.이...,[골닷컴] 김동호 기자 = 이재성이 분데스리가 11라운드 베스트 11에 선정됐다.\...,https://imgnews.pstatic.net/image/origin/216/2...,골닷컴,2022.10.26 22:17


If you think your crawling process is completed, you can close the selenium browser!