# North Korean News

Scrape the North Korean news agency http://kcna.kp

Save a CSV called `nk-news.csv`. This file should include:

* The **article headline**
* The value of **`onclick`** (they don't have normal links)
* The **article ID** (for example, the article ID for `fn_showArticle("AR0125885", "", "NT00", "L")` is `AR0125885`

The last part is easiest using pandas. Be sure you don't save the index!

* _**Tip:** If you're using requests+BeautifulSoup, you can always look at response.text to see if the page looks like what you think it looks like_
* _**Tip:** Check your URL to make sure it is what you think it should be!_
* _**Tip:** Does it look different if you scrape with BeautifulSoup compared to if you scrape it with Selenium?_
* _**Tip:** For the last part, how do you pull out part of a string from a longer string?_
* _**Tip:** `expand=False` is helpful if you want to assign a single new column when extracting_
* _**Tip:** `(` and `)` mean something special in regular expressions, so you have to say "no really seriously I mean `(`" by using `\(` instead_
* _**Tip:** if your `.*` is taking up too much stuff, you can try `.*?` instead, which instead of "take as much as possible" it means "take only as much as needed"_

In [1]:
import requests
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import Select
from selenium.webdriver.support.ui import WebDriverWait
from bs4 import BeautifulSoup
import re



In [2]:
url = "http://kcna.kp/kcna.user.home.retrieveHomeInfoList.kcmsf"
raw_html = requests.get(url).content
soup_doc = BeautifulSoup(raw_html, "html.parser")

In [3]:
titles = soup_doc.find_all(class_ = "titlebet")

In [4]:
articles = []

for title in titles:
    #print(title)
    onclick = title['onclick']
    #print(title['onclick'])
    art_id = re.findall(r'fn_showArticle\("(\w+)",',onclick)[0]
    #print(art_id)
    #print("~*~*~*~")
    
    articles.append({'title': title.text.strip(), 
                     'onclick': onclick,
                    'article_id': art_id})
    
articles
    

[{'title': '경애하는 최고령도자 김정은동지께서 라오스인민혁명당 중앙위원회 총비서인 라오스인민민주주의공화국 주석에게 축전을 보내시였다',
  'onclick': 'fn_showArticle("AR0140322", "", "NT00", "L")',
  'article_id': 'AR0140322'},
 {'title': '조선로동당 중앙위원회 제7기 제21차 정치국 확대회의 진행',
  'onclick': 'fn_showArticle("AR0140253", "", "NT00", "L")',
  'article_id': 'AR0140253'},
 {'title': '경애하는 최고령도자 김정은동지께서 수리아대통령에게 축전을 보내시였다',
  'onclick': 'fn_showArticle("AR0139989", "", "NT00", "L")',
  'article_id': 'AR0139989'},
 {'title': '조선로동당 중앙위원회 제7기 제20차 정치국 확대회의 진행',
  'onclick': 'fn_showArticle("AR0139950", "", "NT00", "L")',
  'article_id': 'AR0139950'},
 {'title': '경애하는 최고령도자 김정은동지께서  《총련분회대표자대회-2020》(새 전성기 3차대회) 참가자들에게 축하문을 보내시였다',
  'onclick': 'fn_showArticle("AR0139645", "", "NT00", "L")',
  'article_id': 'AR0139645'},
 {'title': '경애하는 최고령도자 김정은동지께서 고 라명희동지의 령전에 화환을 보내시였다',
  'onclick': 'fn_showArticle("AR0139638", "", "NT00", "L")',
  'article_id': 'AR0139638'},
 {'title': '선진적인 치료방법 도입',
  'onclick': 'fn_showArticle("AR0140355", "", "NT41", "L")',
  

In [5]:
df = pd.DataFrame(articles)
df


Unnamed: 0,title,onclick,article_id
0,경애하는 최고령도자 김정은동지께서 라오스인민혁명당 중앙위원회 총비서인 라오스인민민주...,"fn_showArticle(""AR0140322"", """", ""NT00"", ""L"")",AR0140322
1,조선로동당 중앙위원회 제7기 제21차 정치국 확대회의 진행,"fn_showArticle(""AR0140253"", """", ""NT00"", ""L"")",AR0140253
2,경애하는 최고령도자 김정은동지께서 수리아대통령에게 축전을 보내시였다,"fn_showArticle(""AR0139989"", """", ""NT00"", ""L"")",AR0139989
3,조선로동당 중앙위원회 제7기 제20차 정치국 확대회의 진행,"fn_showArticle(""AR0139950"", """", ""NT00"", ""L"")",AR0139950
4,경애하는 최고령도자 김정은동지께서 《총련분회대표자대회-2020》(새 전성기 3차대...,"fn_showArticle(""AR0139645"", """", ""NT00"", ""L"")",AR0139645
...,...,...,...
111,수확고가 높은 벼종자육종에 전력을 집중,"fn_showArticle(""AR0139626"", """", ""NT09"", ""L"")",AR0139626
112,소독사업에서 빈틈이 없도록,"fn_showArticle(""AR0140173"", """", ""NT10"", ""L"")",AR0140173
113,사소한 빈틈도 없이,"fn_showArticle(""AR0140341"", """", ""NT10"", ""L"")",AR0140341
114,방역사업의 강도를 높여,"fn_showArticle(""AR0140316"", """", ""NT10"", ""L"")",AR0140316


In [6]:
df.to_csv('nk_news_scrape.csv', index=False)