# Tutorial 7. Web Crawling
- **GOAL**: scrapping news data from Naver News Sports
- url: https://sports.news.naver.com/wfootball/news/index?isphoto=N

### 0. Chrome Webdriver
Before starting this tutorial, please prepare [Chrome webdriver](https://chromedriver.chromium.org/downloads) corresponding to your Chrome browser version!

Locate the driver file in the current directory containing this notebook file!
- Windows: `./chromedriver.exe`
- MacOS: `./chromedirver`


### 1. Open Selenium browser using Chrome webdriver
This will open a new browser. **Don't close it** until the crawling process is completed!

In [1]:
from selenium import webdriver

# run the one of the code lines below according to your OS type
driver = webdriver.Chrome('./chromedriver') # mac
# driver = webdriver.Chrome('./chromedriver.exe') # windows

driver.implicitly_wait(3) # waiting 3 seconds

In [2]:
# access to target url
driver.get('https://sports.news.naver.com/wfootball/news/index?isphoto=N') 

### 2. Find element(s) by css selector
- The css selector value can be obtained by Chrome inspection tool (Ctrl + Shift + I).
1. Copy the css selector value of the targeting element
2. Get the elements (what is the difference between the two code lines below?

In [3]:
driver.find_element("css selector", "#_newsList > ul > li > div > a > span")

<selenium.webdriver.remote.webelement.WebElement (session="aac7657c4616d38dbbdc5ea8f45d2990", element="a1c36ec8-2fd3-47b8-932e-8e4a4eb5a802")>

In [4]:
driver.find_elements("css selector", "#_newsList > ul > li > div > a > span")

[<selenium.webdriver.remote.webelement.WebElement (session="aac7657c4616d38dbbdc5ea8f45d2990", element="a1c36ec8-2fd3-47b8-932e-8e4a4eb5a802")>,
 <selenium.webdriver.remote.webelement.WebElement (session="aac7657c4616d38dbbdc5ea8f45d2990", element="71d4183b-7c7a-44f7-b5c7-75930ec9934a")>,
 <selenium.webdriver.remote.webelement.WebElement (session="aac7657c4616d38dbbdc5ea8f45d2990", element="e958b385-bbb1-4c58-ab1c-97bf484a9999")>,
 <selenium.webdriver.remote.webelement.WebElement (session="aac7657c4616d38dbbdc5ea8f45d2990", element="8ea1c553-e3fd-4e3e-b258-220e85de972d")>,
 <selenium.webdriver.remote.webelement.WebElement (session="aac7657c4616d38dbbdc5ea8f45d2990", element="73bae0b8-80eb-46df-a0a5-2180169a9033")>,
 <selenium.webdriver.remote.webelement.WebElement (session="aac7657c4616d38dbbdc5ea8f45d2990", element="b1df44cc-0da0-40f1-965c-e2f8f004f3d2")>,
 <selenium.webdriver.remote.webelement.WebElement (session="aac7657c4616d38dbbdc5ea8f45d2990", element="de165f69-f98b-496f-a7a7-09

### 3. Scrapping data
1. Since the news webpage contains multiple news items (css selector value: `#_newsList > ul > li`), we will use `for` loop.
2. For each item, we can get attribute values like news title, news page url, or datetime.
3. The attribute values will be accumulated in lists.

In [5]:
# news items (objects)
elements = driver.find_elements("css selector", '#_newsList > ul > li')

# news attribute lists
title_list = []
url_list = []
desc_list = []
img_list = []
pub_list = []
dt_list = []

for x in elements:
    # title
    title = x.find_element("css selector", 'div > a > span').text
    # short description
    desc = x.find_element("css selector", 'div > p').text
    # page url
    url = x.find_element("css selector", 'a').get_attribute("href")
    # image url
    img = x.find_element("css selector", 'a > img').get_attribute("src")
    # publisher
    pub = x.find_element("css selector", 'div > div > span.press').text
    # datetime
    dt = x.find_element("css selector", 'div > div > span.time').text
    # print
    print(title)
    print(desc)
    print(url)
    print(img)
    print(pub, dt)
    print()
    # append news item values to the attribute lists
    title_list.append(title)
    url_list.append(url)
    desc_list.append(desc)
    img_list.append(img)
    pub_list.append(pub)
    dt_list.append(dt)

'유로파 갈 팀이 뭐?' 비웃음 폭발... 슈퍼리그 12팀 중 5팀, 챔스 탈락
2022~2023시즌 유럽축구연맹(UEFA) 챔피언스리그 탈락이 확정된 5팀./사진=풋볼조 공식 SNS 갈무리꼴이 우습게 됐다. 최고의 팀, 최고의 선수가 ...
https://sports.news.naver.com/wfootball/news/read?oid=108&aid=0003100199
https://imgnews.pstatic.net/image/origin/108/2022/10/27/3100199.jpg?type=w140
스타뉴스 2022.10.27 20:04

'황의조, 황인범, 정우영 총출동' 코리안 리거들의 유로파리그 맞대결
[OSEN=서정환 기자] 코리안 리거들이 꿈의 무대에서 맞대결을 펼친다. SC 프라이부르크(이하 프라이부르크)의 정우영과 올림피아코스의 ‘황-황듀오’ 황의조...
https://sports.news.naver.com/wfootball/news/read?oid=109&aid=0004728687
https://imgnews.pstatic.net/image/origin/109/2022/10/27/4728687.jpg?type=w140
OSEN 2022.10.27 20:03

'공격 너무 답답해'..."토트넘, 창의적인 MF 영입 필요"
[포포투=이규학]토트넘 훗스퍼에 가장 필요한 포지션은 창의성을 가진 공격형 미드필더다.영국 '풋볼 인사이더'는 27일(한국시간) "안토니오 콘테 감독의 시스...
https://sports.news.naver.com/wfootball/news/read?oid=411&aid=0000017613
https://imgnews.pstatic.net/image/origin/411/2022/10/27/17613.jpg?type=w140
포포투 2022.10.27 20:01

전 EPL 심판 , “케인 극장골, 취소되지 말았어야 돼”
[스포탈코리아] 박주성 기자= 해리 케인의 극장골 취소를 두고 다양한 이야기가 나오고 있다. 토트넘 

Here, we still need to scrap the news main body text located on the another webpage.
- You can get it by iteratively access to `url_list` containing news page url values.
- The css selector value can be obtained by Chrome inspection tool (Ctrl + Shift + I).

In [6]:
text_list = [] # main text will be collected

for url in url_list:
    driver.get(url)
    newstext = driver.find_element("css selector", '#newsEndContents').text
    text_list.append(newstext)

### 4. Save data in CSV format
We will use Pandas dataframe.

In [7]:
import pandas as pd

# dataframe can be made using multiple lists having same length
df = pd.DataFrame({'title': title_list, 
                   'url': url_list, 
                   'short_desc': desc_list, 
                   'text': text_list,
                   'img': img_list, 
                   'publisher': pub_list,
                   'datetime': dt_list,
                  })
df

Unnamed: 0,title,url,short_desc,text,img,publisher,datetime
0,"'유로파 갈 팀이 뭐?' 비웃음 폭발... 슈퍼리그 12팀 중 5팀, 챔스 탈락",https://sports.news.naver.com/wfootball/news/r...,2022~2023시즌 유럽축구연맹(UEFA) 챔피언스리그 탈락이 확정된 5팀./사진...,2022~2023시즌 유럽축구연맹(UEFA) 챔피언스리그 탈락이 확정된 5팀./사진...,https://imgnews.pstatic.net/image/origin/108/2...,스타뉴스,2022.10.27 20:04
1,"'황의조, 황인범, 정우영 총출동' 코리안 리거들의 유로파리그 맞대결",https://sports.news.naver.com/wfootball/news/r...,[OSEN=서정환 기자] 코리안 리거들이 꿈의 무대에서 맞대결을 펼친다. SC 프라...,[OSEN=서정환 기자] 코리안 리거들이 꿈의 무대에서 맞대결을 펼친다. \n\nS...,https://imgnews.pstatic.net/image/origin/109/2...,OSEN,2022.10.27 20:03
2,"'공격 너무 답답해'...""토트넘, 창의적인 MF 영입 필요""",https://sports.news.naver.com/wfootball/news/r...,[포포투=이규학]토트넘 훗스퍼에 가장 필요한 포지션은 창의성을 가진 공격형 미드필더...,[포포투=이규학]\n\n토트넘 훗스퍼에 가장 필요한 포지션은 창의성을 가진 공격형 ...,https://imgnews.pstatic.net/image/origin/411/2...,포포투,2022.10.27 20:01
3,"전 EPL 심판 , “케인 극장골, 취소되지 말았어야 돼”",https://sports.news.naver.com/wfootball/news/r...,[스포탈코리아] 박주성 기자= 해리 케인의 극장골 취소를 두고 다양한 이야기가 나오...,[스포탈코리아] 박주성 기자= 해리 케인의 극장골 취소를 두고 다양한 이야기가 나오...,https://imgnews.pstatic.net/image/origin/139/2...,스포탈코리아,2022.10.27 19:53
4,"콘테, UCL 최종전 지휘 불가...'16강 진출 어떡하나'",https://sports.news.naver.com/wfootball/news/r...,안토니오 콘테 감독이 조별리그 6차전에서 터치라인에 설 수 없다.토트넘 훗스퍼는 2...,안토니오 콘테 감독이 조별리그 6차전에서 터치라인에 설 수 없다.\n\n토트넘 훗스...,https://imgnews.pstatic.net/image/origin/413/2...,인터풋볼,2022.10.27 19:46
5,"벵거가 말하는 '메날두'의 차이 ""호날두는 운동선수, 메시는 예술가""",https://sports.news.naver.com/wfootball/news/r...,"<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>[스포츠조선 박찬준 기자]""호날두...","<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>\n[스포츠조선 박찬준 기자]""호...",https://imgnews.pstatic.net/image/origin/076/2...,스포츠조선,2022.10.27 19:42
6,토트넘 16강 초비상…콘테 마르세유전 '출입 금지',https://sports.news.naver.com/wfootball/news/r...,▲ 안토니오 콘테 토트넘 홋스퍼 감독.[스포티비뉴스=김건일 기자] 잉글랜드 프리미어...,▲ 안토니오 콘테 토트넘 홋스퍼 감독.\n\n\n[스포티비뉴스=김건일 기자] 잉글랜...,https://imgnews.pstatic.net/image/origin/477/2...,스포티비뉴스,2022.10.27 19:26
7,"'유로파리그' 코리안 더비?… 정우영 vs '황·황듀오', 출전명단 포함",https://sports.news.naver.com/wfootball/news/r...,SC프라이부르크의 '작은' 정우영과 '황·황 듀오' 황의조와 황인범이 유로파리그에 ...,SC프라이부르크의 '작은' 정우영과 '황·황 듀오' 황의조와 황인범이 유로파리그에 ...,https://imgnews.pstatic.net/image/origin/417/2...,머니S,2022.10.27 19:24
8,"랑닉 말 들었다면…”맨유, 홀란-디아스-은쿤쿠 영입 거절”",https://sports.news.naver.com/wfootball/news/r...,[스포탈코리아] 박주성 기자= 랄프 랑닉 감독의 말을 들었다면 어땠을까.독일 언론 ...,[스포탈코리아] 박주성 기자= 랄프 랑닉 감독의 말을 들었다면 어땠을까.\n\n독일...,https://imgnews.pstatic.net/image/origin/139/2...,스포탈코리아,2022.10.27 19:22
9,"'제발 이런 것 좀 하지마…' 에메르송, 어이없는 노룩패스→공 헌납",https://sports.news.naver.com/wfootball/news/r...,사진=BT 스포츠[포포투=김환]에메르송 로얄이 어이없는 노룩패스를 선보였다.토트넘 ...,사진=BT 스포츠\n\n\n[포포투=김환]\n\n에메르송 로얄이 어이없는 노룩패스를...,https://imgnews.pstatic.net/image/origin/411/2...,포포투,2022.10.27 19:21


Save the dataframe into a CSV (comma-separated values) file.

- Here, we will use `\t` (tab) instead of `,` (comma) since the news title or text may contain commas.
(When we read csv file, we parse each row using comma, i.e., all rows must contain the same number of commas.)

In [25]:
df.to_csv('news.csv', # filename
          sep='\t', # values separated by tab
          index=False, # exclude index column
          encoding='utf-8') # utf-8 encoding is widely used and makes us comfortable!

You can load data using `pd.read_csv()`.

In [26]:
pd.read_csv('news.csv', sep='\t')

Unnamed: 0,title,url,short_desc,text,img,publisher,datetime
0,토트넘 16강 초비상…콘테 마르세유전 '출입 금지',https://sports.news.naver.com/wfootball/news/r...,▲ 안토니오 콘테 토트넘 홋스퍼 감독.[스포티비뉴스=김건일 기자] 잉글랜드 프리미어...,▲ 안토니오 콘테 토트넘 홋스퍼 감독.\n\n\n[스포티비뉴스=김건일 기자] 잉글랜...,https://imgnews.pstatic.net/image/origin/477/2...,스포티비뉴스,2022.10.27 19:26
1,"'유로파리그' 코리안 더비?… 정우영 vs '황·황듀오', 출전명단 포함",https://sports.news.naver.com/wfootball/news/r...,SC프라이부르크의 '작은' 정우영과 '황·황 듀오' 황의조와 황인범이 유로파리그에 ...,SC프라이부르크의 '작은' 정우영과 '황·황 듀오' 황의조와 황인범이 유로파리그에 ...,https://imgnews.pstatic.net/image/origin/417/2...,머니S,2022.10.27 19:24
2,"랑닉 말 들었다면…”맨유, 홀란-디아스-은쿤쿠 영입 거절”",https://sports.news.naver.com/wfootball/news/r...,[스포탈코리아] 박주성 기자= 랄프 랑닉 감독의 말을 들었다면 어땠을까.독일 언론 ...,[스포탈코리아] 박주성 기자= 랄프 랑닉 감독의 말을 들었다면 어땠을까.\n\n독일...,https://imgnews.pstatic.net/image/origin/139/2...,스포탈코리아,2022.10.27 19:22
3,"'제발 이런 것 좀 하지마…' 에메르송, 어이없는 노룩패스→공 헌납",https://sports.news.naver.com/wfootball/news/r...,사진=BT 스포츠[포포투=김환]에메르송 로얄이 어이없는 노룩패스를 선보였다.토트넘 ...,사진=BT 스포츠\n\n\n[포포투=김환]\n\n에메르송 로얄이 어이없는 노룩패스를...,https://imgnews.pstatic.net/image/origin/411/2...,포포투,2022.10.27 19:21
4,"“토트넘, 손흥민 팔아야 한다면 해외리그로…PSG, 레알 영입 경쟁”",https://sports.news.naver.com/wfootball/news/r...,[사진] ⓒGettyimages(무단전재 및 재배포 금지)[OSEN=서정환 기자] ...,[사진] ⓒGettyimages(무단전재 및 재배포 금지)\n\n\n[OSEN=서정...,https://imgnews.pstatic.net/image/origin/109/2...,OSEN,2022.10.27 19:12
5,"뉴캐슬, '첼시-레알 관심' 기마랑이스에게 '주급 20만 파운드' 보상",https://sports.news.naver.com/wfootball/news/r...,뉴캐슬 유나이티드가 '핵심 미드필더' 브루노 기마랑이스에게 재계약을 건넨다.영국 '...,뉴캐슬 유나이티드가 '핵심 미드필더' 브루노 기마랑이스에게 재계약을 건넨다.\n\n...,https://imgnews.pstatic.net/image/origin/413/2...,인터풋볼,2022.10.27 19:11
6,"""여름 도박이 절대적 재앙 불러""…UCL 탈락으로 궁지 몰렸다",https://sports.news.naver.com/wfootball/news/r...,"(베스트 일레븐)FC 바르셀로나가 지난여름 이적시장에서 거액의 투자를 했으나, UC...",(베스트 일레븐)\n\nFC 바르셀로나가 지난여름 이적시장에서 거액의 투자를 했으나...,https://imgnews.pstatic.net/image/origin/343/2...,베스트일레븐,2022.10.27 19:06
7,"VAR에 분노 폭발한 콘테 향해…스포르팅 감독은 대만족 ""공정해""",https://sports.news.naver.com/wfootball/news/r...,▲ 스포르팅CP전에서 퇴장 당한 안토니오 콘테 토트넘 홋스퍼 감독(왼쪽) ⓒ연합뉴스...,▲ 스포르팅CP전에서 퇴장 당한 안토니오 콘테 토트넘 홋스퍼 감독(왼쪽) ⓒ연합뉴스...,https://imgnews.pstatic.net/image/origin/477/2...,스포티비뉴스,2022.10.27 19:01
8,"'뻔뻔(?)한' 호날두...""언제나처럼 헌신할 것""",https://sports.news.naver.com/wfootball/news/r...,(엑스포츠뉴스 나승우 기자) 토트넘전 무단 조기 퇴근으로 물의를 빚었던 맨체스터 유...,(엑스포츠뉴스 나승우 기자) 토트넘전 무단 조기 퇴근으로 물의를 빚었던 맨체스터 유...,https://imgnews.pstatic.net/image/origin/311/2...,엑스포츠뉴스,2022.10.27 19:01
9,"콘테 대폭발 ""정말 화가 난다…VAR 판정은 우리에게 큰 피해를 줬다""",https://sports.news.naver.com/wfootball/news/r...,"[마이데일리 = 김건호 기자]안토니오 콘테(53, 토트넘) 감독이 VAR 판정에 분...","[마이데일리 = 김건호 기자]안토니오 콘테(53, 토트넘) 감독이 VAR 판정에 분...",https://imgnews.pstatic.net/image/origin/117/2...,마이데일리,2022.10.27 18:46


If you think your crawling process is completed, you can close the selenium browser!

#### 