# Tutorial 6. Web Crawling
- **GOAL**: scrapping news data from Naver News Sports
- url: https://sports.news.naver.com/wfootball/news/index?isphoto=N

### 0. Chrome Webdriver
Before starting this tutorial, please prepare [Chrome webdriver](https://chromedriver.chromium.org/downloads) corresponding to your Chrome browser version!

Locate the driver file in the current directory containing this notebook file!
- Windows: `./chromedriver.exe`
- MacOS: `./chromedirver`


### 1. Open Selenium browser using Chrome webdriver
This will open a new browser. **Don't close it** until the crawling process is completed!

In [11]:
from selenium import webdriver

# run the one of the code lines below according to your OS type
# driver = webdriver.Chrome('./chromedriver') # mac
driver = webdriver.Chrome() # windows

driver.implicitly_wait(3) # waiting 3 seconds

In [12]:
# access to target url
driver.get('https://sports.news.naver.com/wfootball/news/index?isphoto=N') 

### 2. Find element(s) by css selector
- The css selector value can be obtained by Chrome inspection tool (Ctrl + Shift + I).
1. Copy the css selector value of the targeting element
2. Get the elements (what is the difference between the two code lines below?

In [13]:
# driver.find_element("css selector", "#_newsList > ul > li > div > a > span")

driver.find_element("css selector", "#_newsList > ul > li > div > a > span")

<selenium.webdriver.remote.webelement.WebElement (session="bc1f3027f8ddd1b206a9bd3178e55933", element="077BD4C05413B6F8B85A8DF9A79F0830_element_669")>

In [14]:
driver.find_elements("css selector", "#_newsList > ul > li > div > a > span")

[<selenium.webdriver.remote.webelement.WebElement (session="bc1f3027f8ddd1b206a9bd3178e55933", element="077BD4C05413B6F8B85A8DF9A79F0830_element_669")>,
 <selenium.webdriver.remote.webelement.WebElement (session="bc1f3027f8ddd1b206a9bd3178e55933", element="077BD4C05413B6F8B85A8DF9A79F0830_element_681")>,
 <selenium.webdriver.remote.webelement.WebElement (session="bc1f3027f8ddd1b206a9bd3178e55933", element="077BD4C05413B6F8B85A8DF9A79F0830_element_693")>,
 <selenium.webdriver.remote.webelement.WebElement (session="bc1f3027f8ddd1b206a9bd3178e55933", element="077BD4C05413B6F8B85A8DF9A79F0830_element_705")>,
 <selenium.webdriver.remote.webelement.WebElement (session="bc1f3027f8ddd1b206a9bd3178e55933", element="077BD4C05413B6F8B85A8DF9A79F0830_element_717")>,
 <selenium.webdriver.remote.webelement.WebElement (session="bc1f3027f8ddd1b206a9bd3178e55933", element="077BD4C05413B6F8B85A8DF9A79F0830_element_729")>,
 <selenium.webdriver.remote.webelement.WebElement (session="bc1f3027f8ddd1b206a9bd

### 3. Scrapping data
1. Since the news webpage contains multiple news items (css selector value: `#_newsList > ul > li`), we will use `for` loop.
2. For each item, we can get attribute values like news title, news page url, or datetime.
3. The attribute values will be accumulated in lists.

In [15]:
# news items (objects)
elements = driver.find_elements("css selector", '#_newsList > ul > li')

# news attribute lists
title_list = []
url_list = []
desc_list = []
img_list = []
pub_list = []
dt_list = []

for x in elements:
    # title
    title = x.find_element("css selector", 'div > a > span').text
    # short description
    desc = x.find_element("css selector", 'div > p').text
    # page url
    url = x.find_element("css selector", 'a').get_attribute("href")
    # image url
    img = x.find_element("css selector", 'a > img').get_attribute("src")
    # publisher
    pub = x.find_element("css selector", 'div > div > span.press').text
    # datetime
    dt = x.find_element("css selector", 'div > div > span.time').text
    # print
    print(title)
    print(desc)
    print(url)
    print(img)
    print(pub, dt)
    print()
    # append news item values to the attribute lists
    title_list.append(title)
    url_list.append(url)
    desc_list.append(desc)
    img_list.append(img)
    pub_list.append(pub)
    dt_list.append(dt)

“스위스 군용칼처럼 날카로운 한국선수 이강인” 리그1 홈페이지도 이강인 집중조명
[사진] ⓒGettyimages(무단전재 및 재배포 금지)[OSEN=서정환 기자] 이강인(22, PSG)의 대활약이 프랑스에서 인정을 받고 있다.PSG는 8...
https://sports.news.naver.com/wfootball/news/read?oid=109&aid=0004961859
https://imgnews.pstatic.net/image/origin/109/2023/11/08/4961859.jpg?type=w140
OSEN 2023.11.08 16:45

김민재와 뮌헨, UCL 16강 조기 진출 확정할까...뮌헨 vs 갈라타사라이 9일(목) 새벽 SPOTV ON-SPOTV NOW 생중계
▲ 바이에른 뮌헨과 갈라타사라이의 맞대결▲ 김민재▲ 마우로 이카르디■ 케인-김민재 활약에 힘입은 뮌헨, 조별리그 무패 1위 질주 16강 청신호… 9일 새벽 ...
https://sports.news.naver.com/wfootball/news/read?oid=477&aid=0000459298
https://imgnews.pstatic.net/image/origin/477/2023/11/08/459298.jpg?type=w140
스포티비뉴스 2023.11.08 16:45

'샤흐타르에 충격 패' 차비 바르사 감독, "신체적, 전술적 문제보다 정신적 문제...내 임무다"
[사진] ⓒGettyimages(무단전재 및 재배포 금지)[OSEN=정승우 기자] "지난 2년을 뒤돌아볼 때 전술적으로 최악의 경기를 펼쳤다."FC 바르셀로...
https://sports.news.naver.com/wfootball/news/read?oid=109&aid=0004961854
https://imgnews.pstatic.net/image/origin/109/2023/11/08/4961854.jpg?type=w140
OSEN 2023.11.08 16:44

쉴 틈 없는 김민재, 뮌헨 'UCL 16강행' 앞장설

Here, we still need to scrap the news main body text located on the another webpage.
- You can get it by iteratively access to `url_list` containing news page url values.
- The css selector value can be obtained by Chrome inspection tool (Ctrl + Shift + I).

In [16]:
text_list = [] # main text will be collected

for url in url_list:
    driver.get(url)
    newstext = driver.find_element("css selector", '#newsEndContents').text
    text_list.append(newstext)

### 4. Save data in CSV format
We will use Pandas dataframe.

In [17]:
import pandas as pd

# dataframe can be made using multiple lists having same length
df = pd.DataFrame({'title': title_list, 
                   'url': url_list, 
                   'short_desc': desc_list, 
                   'text': text_list,
                   'img': img_list, 
                   'publisher': pub_list,
                   'datetime': dt_list,
                  })
df

Unnamed: 0,title,url,short_desc,text,img,publisher,datetime
0,“스위스 군용칼처럼 날카로운 한국선수 이강인” 리그1 홈페이지도 이강인 집중조명,https://sports.news.naver.com/wfootball/news/r...,[사진] ⓒGettyimages(무단전재 및 재배포 금지)[OSEN=서정환 기자] ...,[사진] ⓒGettyimages(무단전재 및 재배포 금지)\n\n\n[OSEN=서정...,https://imgnews.pstatic.net/image/origin/109/2...,OSEN,2023.11.08 16:45
1,"김민재와 뮌헨, UCL 16강 조기 진출 확정할까...뮌헨 vs 갈라타사라이 9일(...",https://sports.news.naver.com/wfootball/news/r...,▲ 바이에른 뮌헨과 갈라타사라이의 맞대결▲ 김민재▲ 마우로 이카르디■ 케인-김민재 ...,▲ 바이에른 뮌헨과 갈라타사라이의 맞대결\n▲ 김민재\n▲ 마우로 이카르디\n\n\...,https://imgnews.pstatic.net/image/origin/477/2...,스포티비뉴스,2023.11.08 16:45
2,"'샤흐타르에 충격 패' 차비 바르사 감독, ""신체적, 전술적 문제보다 정신적 문제....",https://sports.news.naver.com/wfootball/news/r...,[사진] ⓒGettyimages(무단전재 및 재배포 금지)[OSEN=정승우 기자] ...,[사진] ⓒGettyimages(무단전재 및 재배포 금지)\n\n\n[OSEN=정승...,https://imgnews.pstatic.net/image/origin/109/2...,OSEN,2023.11.08 16:44
3,"쉴 틈 없는 김민재, 뮌헨 'UCL 16강행' 앞장설까...갈라타사라이전 출격 준비",https://sports.news.naver.com/wfootball/news/r...,(베스트 일레븐)김민재가 바이에른 뮌헨의 16강행에 힘을 보탤 채비를 마쳤다. 독일...,(베스트 일레븐)\n\n김민재가 바이에른 뮌헨의 16강행에 힘을 보탤 채비를 마쳤다...,https://imgnews.pstatic.net/image/origin/343/2...,베스트일레븐,2023.11.08 16:42
4,맨시티 마법사와 맨유 센터백 합류? 이게 유럽 무대가 아니면 뭐야? ‘거인의 유혹 ...,https://sports.news.naver.com/wfootball/news/r...,"[스포탈코리아] 반진혁 기자= 유럽이 아니지만, 유럽이 맞다.축구 콘텐츠 제작소 ‘...","[스포탈코리아] 반진혁 기자= 유럽이 아니지만, 유럽이 맞다.\n\n축구 콘텐츠 제...",https://imgnews.pstatic.net/image/origin/139/2...,스포탈코리아,2023.11.08 16:38
5,'이강인 출전=100% 승리' 12연승 기록 깨졌다...AC밀란전 골대샷→1-2 역전패,https://sports.news.naver.com/wfootball/news/r...,[마이데일리 = 이현호 기자] 올 시즌 이강인(22·PSG)이 출전한 경기에서 첫 ...,[마이데일리 = 이현호 기자] 올 시즌 이강인(22·PSG)이 출전한 경기에서 첫 ...,https://imgnews.pstatic.net/image/origin/117/2...,마이데일리,2023.11.08 16:35
6,"페페, 챔스 사상 첫 40대 득점자 되다…""어머니 생일 선물 드려 기뻐, 은퇴 머지...",https://sports.news.naver.com/wfootball/news/r...,(엑스포츠뉴스 이태승 기자) 만 40세 나이에 유럽 축구 최정상 무대에서 뛰고 있는...,(엑스포츠뉴스 이태승 기자) 만 40세 나이에 유럽 축구 최정상 무대에서 뛰고 있는...,https://imgnews.pstatic.net/image/origin/311/2...,엑스포츠뉴스,2023.11.08 16:31
7,"""맨시티 만났으면 1-10 대패 당했을 거야""...9명인데 수비라인 올린 토트넘 향...",https://sports.news.naver.com/wfootball/news/r...,사진=ESPN두 명이 퇴장을 당하고 주축 두 명이 부상을 입은 벼랑 끝 상황에도 자...,사진=ESPN\n\n\n두 명이 퇴장을 당하고 주축 두 명이 부상을 입은 벼랑 끝 ...,https://imgnews.pstatic.net/image/origin/413/2...,인터풋볼,2023.11.08 16:31
8,"""손흥민 인종차별자 3년간 경기 관람 금지 대환영"" EPL 사무국도 반겼다",https://sports.news.naver.com/wfootball/news/r...,"[사진]SNS[OSEN=강필주 기자] 손흥민(31, 토트넘)에 대한 인종차별적 행위...","[사진]SNS\n[OSEN=강필주 기자] 손흥민(31, 토트넘)에 대한 인종차별적 ...",https://imgnews.pstatic.net/image/origin/109/2...,OSEN,2023.11.08 16:23
9,"김민재 영입한 단장, 토트넘에서 레이더 가동…첼시전 직관",https://sports.news.naver.com/wfootball/news/r...,[포포투=김환]유벤투스가 피에르-에밀 호이비에르를 원하고 있다.영국 '텔레그래프'는...,[포포투=김환]\n\n유벤투스가 피에르-에밀 호이비에르를 원하고 있다.\n\n영국 ...,https://imgnews.pstatic.net/image/origin/411/2...,포포투,2023.11.08 16:21


Save the dataframe into a CSV (comma-separated values) file.

- Here, we will use `\t` (tab) instead of `,` (comma) since the news title or text may contain commas.
(When we read csv file, we parse each row using comma, i.e., all rows must contain the same number of commas.)

In [25]:
df.to_csv('news.csv', # filename
          sep='\t', # values separated by tab
          index=False, # exclude index column
          encoding='utf-8') # utf-8 encoding is widely used and makes us comfortable!

You can load data using `pd.read_csv()`.

In [26]:
pd.read_csv('news.csv', sep='\t')

Unnamed: 0,title,url,short_desc,text,img,publisher,datetime
0,토트넘 16강 초비상…콘테 마르세유전 '출입 금지',https://sports.news.naver.com/wfootball/news/r...,▲ 안토니오 콘테 토트넘 홋스퍼 감독.[스포티비뉴스=김건일 기자] 잉글랜드 프리미어...,▲ 안토니오 콘테 토트넘 홋스퍼 감독.\n\n\n[스포티비뉴스=김건일 기자] 잉글랜...,https://imgnews.pstatic.net/image/origin/477/2...,스포티비뉴스,2022.10.27 19:26
1,"'유로파리그' 코리안 더비?… 정우영 vs '황·황듀오', 출전명단 포함",https://sports.news.naver.com/wfootball/news/r...,SC프라이부르크의 '작은' 정우영과 '황·황 듀오' 황의조와 황인범이 유로파리그에 ...,SC프라이부르크의 '작은' 정우영과 '황·황 듀오' 황의조와 황인범이 유로파리그에 ...,https://imgnews.pstatic.net/image/origin/417/2...,머니S,2022.10.27 19:24
2,"랑닉 말 들었다면…”맨유, 홀란-디아스-은쿤쿠 영입 거절”",https://sports.news.naver.com/wfootball/news/r...,[스포탈코리아] 박주성 기자= 랄프 랑닉 감독의 말을 들었다면 어땠을까.독일 언론 ...,[스포탈코리아] 박주성 기자= 랄프 랑닉 감독의 말을 들었다면 어땠을까.\n\n독일...,https://imgnews.pstatic.net/image/origin/139/2...,스포탈코리아,2022.10.27 19:22
3,"'제발 이런 것 좀 하지마…' 에메르송, 어이없는 노룩패스→공 헌납",https://sports.news.naver.com/wfootball/news/r...,사진=BT 스포츠[포포투=김환]에메르송 로얄이 어이없는 노룩패스를 선보였다.토트넘 ...,사진=BT 스포츠\n\n\n[포포투=김환]\n\n에메르송 로얄이 어이없는 노룩패스를...,https://imgnews.pstatic.net/image/origin/411/2...,포포투,2022.10.27 19:21
4,"“토트넘, 손흥민 팔아야 한다면 해외리그로…PSG, 레알 영입 경쟁”",https://sports.news.naver.com/wfootball/news/r...,[사진] ⓒGettyimages(무단전재 및 재배포 금지)[OSEN=서정환 기자] ...,[사진] ⓒGettyimages(무단전재 및 재배포 금지)\n\n\n[OSEN=서정...,https://imgnews.pstatic.net/image/origin/109/2...,OSEN,2022.10.27 19:12
5,"뉴캐슬, '첼시-레알 관심' 기마랑이스에게 '주급 20만 파운드' 보상",https://sports.news.naver.com/wfootball/news/r...,뉴캐슬 유나이티드가 '핵심 미드필더' 브루노 기마랑이스에게 재계약을 건넨다.영국 '...,뉴캐슬 유나이티드가 '핵심 미드필더' 브루노 기마랑이스에게 재계약을 건넨다.\n\n...,https://imgnews.pstatic.net/image/origin/413/2...,인터풋볼,2022.10.27 19:11
6,"""여름 도박이 절대적 재앙 불러""…UCL 탈락으로 궁지 몰렸다",https://sports.news.naver.com/wfootball/news/r...,"(베스트 일레븐)FC 바르셀로나가 지난여름 이적시장에서 거액의 투자를 했으나, UC...",(베스트 일레븐)\n\nFC 바르셀로나가 지난여름 이적시장에서 거액의 투자를 했으나...,https://imgnews.pstatic.net/image/origin/343/2...,베스트일레븐,2022.10.27 19:06
7,"VAR에 분노 폭발한 콘테 향해…스포르팅 감독은 대만족 ""공정해""",https://sports.news.naver.com/wfootball/news/r...,▲ 스포르팅CP전에서 퇴장 당한 안토니오 콘테 토트넘 홋스퍼 감독(왼쪽) ⓒ연합뉴스...,▲ 스포르팅CP전에서 퇴장 당한 안토니오 콘테 토트넘 홋스퍼 감독(왼쪽) ⓒ연합뉴스...,https://imgnews.pstatic.net/image/origin/477/2...,스포티비뉴스,2022.10.27 19:01
8,"'뻔뻔(?)한' 호날두...""언제나처럼 헌신할 것""",https://sports.news.naver.com/wfootball/news/r...,(엑스포츠뉴스 나승우 기자) 토트넘전 무단 조기 퇴근으로 물의를 빚었던 맨체스터 유...,(엑스포츠뉴스 나승우 기자) 토트넘전 무단 조기 퇴근으로 물의를 빚었던 맨체스터 유...,https://imgnews.pstatic.net/image/origin/311/2...,엑스포츠뉴스,2022.10.27 19:01
9,"콘테 대폭발 ""정말 화가 난다…VAR 판정은 우리에게 큰 피해를 줬다""",https://sports.news.naver.com/wfootball/news/r...,"[마이데일리 = 김건호 기자]안토니오 콘테(53, 토트넘) 감독이 VAR 판정에 분...","[마이데일리 = 김건호 기자]안토니오 콘테(53, 토트넘) 감독이 VAR 판정에 분...",https://imgnews.pstatic.net/image/origin/117/2...,마이데일리,2022.10.27 18:46


If you think your crawling process is completed, you can close the selenium browser!

#### 