# North Korean News

Scrape the North Korean news agency http://kcna.kp

Save a CSV called `nk-news.csv`. This file should include:

* The **article headline**
* The value of **`onclick`** (they don't have normal links)
* The **article ID** (for example, the article ID for `fn_showArticle("AR0125885", "", "NT00", "L")` is `AR0125885`

The last part is easiest using pandas. Be sure you don't save the index!

* _**Tip:** If you're using requests+BeautifulSoup, you can always look at response.text to see if the page looks like what you think it looks like_
* _**Tip:** Check your URL to make sure it is what you think it should be!_
* _**Tip:** Does it look different if you scrape with BeautifulSoup compared to if you scrape it with Selenium?_
* _**Tip:** For the last part, how do you pull out part of a string from a longer string?_
* _**Tip:** `expand=False` is helpful if you want to assign a single new column when extracting_
* _**Tip:** `(` and `)` mean something special in regular expressions, so you have to say "no really seriously I mean `(`" by using `\(` instead_
* _**Tip:** if your `.*` is taking up too much stuff, you can try `.*?` instead, which instead of "take as much as possible" it means "take only as much as needed"_

### Imports

In [1]:
import requests
from bs4 import BeautifulSoup

from selenium import webdriver
driver = webdriver.Chrome()
driver.get("http://kcna.kp")

### Get heds

In [145]:
first_left_list = []
first_heds_left = driver.find_elements_by_class_name('harticle15_subtitle')
for item in first_heds_left:
    first_left_list.append(item.text.strip())
    
first_left_list

['경애하는 최고령도자 김정은동지께서 라오스인민혁명당 중앙위원회 총비서인 라오스인민민주주의공화국 주석에게 축전을 보내시였다',
 '조선로동당 중앙위원회 제7기 제21차 정치국 확대회의 진행',
 '경애하는 최고령도자 김정은동지께서 수리아대통령에게 축전을 보내시였다']

In [172]:
first_right_list = []

first_heds_right = driver.find_elements_by_class_name('harticle3_subtitle')
for item in first_heds_right:
    first_right_list.append(item.text.strip())
first_right_list

['조선로동당 중앙위원회 제7기 제20차 정치국 확대회의 진행',
 '경애하는 최고령도자 김정은동지께서 《총련분회대표자대회-2020》(새 전성기 3차대회) 참가자들에게 축하문을 보내시였다',
 '경애하는 최고령도자 김정은동지께서 고 라명희동지의 령전에 화환을 보내시였다']

In [182]:
second_heds_left = driver.find_element_by_class_name('sub_wrap2')
second_heds_left2 = second_heds_left.find_elements_by_class_name('sub_title2')
second_left_list = []

for item in second_heds_left2:
    second_left_list.append(item.text.strip())
    
second_left_list

['선진적인 치료방법 도입',
 '청년대학생들 《코드쉐프》경연에서 6련승 쟁취',
 '순천세멘트련합기업소에서 년간 인민경제계획 초과완수',
 '력사유적유물자료들을 집대성한 귀중한 재보',
 '국가적인 보호를 받는 장애자들',
 '재일조선학교차별책동을 규탄하는 집회 일본에서 진행',
 '김덕훈동지 라오스수상에게 축전',
 '평양의 이름난 유적 부벽루',
 '사소한 빈틈도 없이',
 '위대한 백두령장의 준마행군길따라',
 '우리 인민이 기억하는 올림픽금메달수상자들(11)--세계를 놀래운 《검은말》-엄윤철',
 '방직공업의 어머니공장-김정숙평양방직공장',
 '지난 1년간 1 900여개의 단체에 8만 4 000여명이 백두산지구 혁명전적지를 답사',
 '주체109(2020)년 12월 3일 신문개관',
 '《로동신문》 전체 인민의 애국적열정의 분출이자 우리 조국의 진군속도이라고 강조',
 '농업과학기술인재들을 키워내는 김제원해주농업대학']

In [187]:
second_heds_right = driver.find_elements_by_class_name('sub_wrap2')[1]
second_heds_right2 = second_heds_right.find_elements_by_class_name('sub_title2')
second_right_list = []

for item in second_heds_right2:
    second_right_list.append(item.text.strip())
    
second_right_list

['묘향산의 력사유적들에 대한 단청과 룡문대굴개건보수 진행',
 '온실남새생산성과 계속 확대',
 '현대외과학의 기초로 되는 치료법들을 창안한 의학자',
 '방역사업의 강도를 높여',
 '바둑을 발전시키기 위한 노력',
 '우리 나라의 지질력사를 보여주는 모란봉규화목',
 '민족료리의 걸작품-신선로',
 '410년전에 편찬된 의학고전-《동의보감》',
 '인민경제 여러 부문,단위에서 11월전투목표 완수',
 '각급 비상방역부문에서 초특급비상방역조치 실시',
 '각급 경제지도기관들은 당의 경제정책집행을 위한 작전과 지휘를 책임적으로 해나가자',
 '《로동신문》 우리 인민의 불타는 충성심과 투쟁열은 80일전투의 힘있는 추동력이라고 강조',
 '주체109(2020)년 12월 2일 신문개관',
 '우주과학기술토론회-2020 진행']

In [205]:
third_list = []
third_heds = driver.find_elements_by_class_name('first5')[0]
third_heds2 = third_heds.find_elements_by_tag_name('a')
for item in third_heds2:
    third_list.append(item.text.strip())
    
third_list

['김덕훈동지 라오스수상에게 축전',
 '우리 나라 외무상 수리아 외무 및 이주민상에게 축전',
 '경애하는 최고령도자 김정은동지께 수리아대통령이 답전을 보내여왔다',
 '우리 나라 외무상 레바논 외무 및 이주민상에게 축전',
 '우리 나라 특명전권대사가 남아프리카대통령에게 신임장을 봉정',
 '우리 나라 외무상 팔레스티나국가 외무 및 이주민상에게 축전',
 '우리 나라 외무상 에티오피아 부수상 겸 외무상에게 축전',
 '우리 나라 외무상 앙골라 대외관계상에게 축전']

In [207]:
fourth_list = []
fourth_heds = driver.find_elements_by_class_name('sub_title1')
for item in fourth_heds:
     fourth_list.append(item.text.strip())
fourth_list

['아시아에서 1 700만명이상이 신형코로나비루스에 감염',
 '아프리카에서 악성전염병 만연',
 '세계적으로 감염자 6 479만 7 800여명,사망자 149만 8 100여명',
 '의연 심각한 문제로 되고있는 에이즈피해',
 '소말리아에서 열대성폭풍피해 확대',
 '여러 나라에서 방역조치 강구',
 '유럽에서의 대류행전염병전파상황',
 '아메리카지역에서 신형코로나비루스감염자와 사망자 증가',
 '인도네시아와 아르헨띠나에서 화산,지진',
 '캄보쟈와 수단에서 범죄반대투쟁']

In [210]:
fifth_list = []
fifth_heds = driver.find_elements_by_class_name('harticle14')[0]
fifth_heds2 = fifth_heds.find_elements_by_tag_name('a')
for item in fifth_heds2:
     #full_heds_list.append(item.text.strip())
    fifth_list.append(item.text.strip())
fifth_list

['남조선당국에 경고한다--조선중앙통신사 보도',
 '조선인강제련행피해자,유가족협회 대변인담화',
 '조선로동당 중앙위원회 제7기 제6차전원회의 결정서--조선로동당 제8차대회를 소집할데 대하여',
 '조선일본군성노예 및 강제련행피해자문제대책위원회 대변인성명',
 '조선민주주의인민공화국 국무위원회 정령발표',
 '조선로동당 중앙위원회 제7기 제16차 정치국회의 공보',
 '',
 '조선민주주의인민공화국 외무성 대변인대답']

In [211]:
all_heds = first_left_list + first_right_list + second_left_list + second_right_list + third_list + fourth_list + fifth_list


In [215]:
len(all_heds)

62

### Get on-clicks

In [None]:
hleft_article
hright_sidebar sidebar_spacing // or id=sidebar_content

find_element_by_tag_name('a').get_attribute('href')

In [None]:
# first_heds_left
# first_heds_right
# second_heds_left2
# second_heds_right2
# third_heds2
# fourth_heds
# fifth_heds2

In [239]:
first_left_on_clicks = []
for item in first_heds_left:
    first_left_on_clicks.append(item.find_element_by_tag_name('a').get_attribute('onclick'))
first_left_on_clicks

['fn_showArticle("AR0140322", "", "NT00", "L")',
 'fn_showArticle("AR0140253", "", "NT00", "L")',
 'fn_showArticle("AR0139989", "", "NT00", "L")']

In [221]:
first_right_on_clicks = []
for item in first_heds_right:
    first_right_on_clicks.append(item.find_element_by_tag_name('a').get_attribute('onclick'))

In [220]:
second_left_on_clicks = []
for item in second_heds_left2:
    second_left_on_clicks.append(item.find_element_by_tag_name('a').get_attribute('onclick'))

In [219]:
second_right_on_clicks = []
for item in second_heds_right2:
    second_right_on_clicks.append(item.find_element_by_tag_name('a').get_attribute('onclick'))

In [235]:
third_on_clicks = []
for item in third_heds2:
    third_on_clicks.append(item.get_attribute('onclick'))

In [234]:
fourth_on_clicks = []
for item in fourth_heds:
    fourth_on_clicks.append(item.find_element_by_tag_name('a').get_attribute('onclick'))

In [237]:
fifth_on_clicks = []
for item in fifth_heds2:
    fifth_on_clicks.append(item.get_attribute('onclick'))

### Get article IDs

In [76]:
import re

In [None]:
article ID

In [None]:
first_left_on_clicks
first_right_on_clicks
second_left_on_clicks
second_right_on_clicks
third_on_clicks
fourth_on_clicks
fifth_on_clicks

In [249]:
first_left_id_list = []
first_id = r"\(\"(\w{2}\d{6})"
for item in first_left_on_clicks:
    first_left_id_list.append(re.findall(first_id,item))
    
# each one is its own list, so I'm taking it out and putting each into one master list
actual_first_left_id_list = []
for item in first_left_id_list:
    for thing in item:
        actual_first_left_id_list.append(thing)
actual_first_left_id_list

['AR014032', 'AR014025', 'AR013998']

In [251]:
first_right_id_list = []
first_id = r"\(\"(\w{2}\d{6})"
for item in first_right_on_clicks:
    first_right_id_list.append(re.findall(first_id,item))
    
# each one is its own list, so I'm taking it out and putting each into one master list
actual_first_right_id_list = []
for item in first_right_id_list:
    for thing in item:
        actual_first_right_id_list.append(thing)

In [254]:
second_left_id_list = []
first_id = r"\(\"(\w{2}\d{6})"
for item in second_left_on_clicks:
    second_left_id_list.append(re.findall(first_id,item))
    
# each one is its own list, so I'm taking it out and putting each into one master list
actual_second_left_id_list = []
for item in second_left_id_list:
    for thing in item:
        actual_second_left_id_list.append(thing)

In [257]:
second_right_id_list = []
first_id = r"\(\"(\w{2}\d{6})"
for item in second_right_on_clicks:
    second_right_id_list.append(re.findall(first_id,item))
    
# each one is its own list, so I'm taking it out and putting each into one master list
actual_second_right_id_list = []
for item in second_right_id_list:
    for thing in item:
        actual_second_right_id_list.append(thing)

In [260]:
third_id_list = []
first_id = r"\(\"(\w{2}\d{6})"
for item in third_on_clicks:
    third_id_list.append(re.findall(first_id,item))
    
# each one is its own list, so I'm taking it out and putting each into one master list
actual_third_id_list = []
for item in third_id_list:
    for thing in item:
        actual_third_id_list.append(thing)

In [262]:
fourth_id_list = []
first_id = r"\(\"(\w{2}\d{6})"
for item in fourth_on_clicks:
    fourth_id_list.append(re.findall(first_id,item))
    
# each one is its own list, so I'm taking it out and putting each into one master list
actual_fourth_id_list = []
for item in fourth_id_list:
    for thing in item:
        actual_fourth_id_list.append(thing)

In [263]:
fifth_id_list = []
first_id = r"\(\"(\w{2}\d{6})"
for item in fifth_on_clicks:
    fifth_id_list.append(re.findall(first_id,item))
    
# each one is its own list, so I'm taking it out and putting each into one master list
actual_fifth_id_list = []
for item in fifth_id_list:
    for thing in item:
        actual_fifth_id_list.append(thing)

['AR013877',
 'AR013801',
 'AR013794',
 'AR013782',
 'AR013779',
 'AR013779',
 'AR013779',
 'AR013727']

### Putting it all together

In [268]:
# first_left_on_clicks
# first_right_on_clicks
# second_left_on_clicks
# second_right_on_clicks
# third_on_clicks
# fourth_on_clicks
# fifth_on_clicks

In [269]:
# actual_first_left_id_list
# actual_first_right_id_list
# actual_second_left_id_list
# actual_second_right_id_list
# actual_third_id_list
# actual_fourth_id_list
# actual_fifth_id_list

In [270]:
# first_left_list
# first_right_list
# second_left_list
# second_right_list
# third_list
# fourth_list
# fifth_list

In [281]:
import pandas as pd



In [310]:
# all_heds
on_click_list = first_left_on_clicks + first_right_on_clicks + second_left_on_clicks + second_right_on_clicks + third_on_clicks + fourth_on_clicks + fifth_on_clicks

In [311]:
all_id_list = actual_first_left_id_list + actual_first_right_id_list + actual_second_left_id_list + actual_second_right_id_list + actual_third_id_list + actual_fourth_id_list + actual_fifth_id_list

In [312]:
df = pd.DataFrame(
    {'hed': all_heds,
     'on_click': on_click_list,
     'article_id': all_id_list
    })

In [313]:
df

Unnamed: 0,hed,on_click,article_id
0,경애하는 최고령도자 김정은동지께서 라오스인민혁명당 중앙위원회 총비서인 라오스인민민주...,"fn_showArticle(""AR0140322"", """", ""NT00"", ""L"")",AR014032
1,조선로동당 중앙위원회 제7기 제21차 정치국 확대회의 진행,"fn_showArticle(""AR0140253"", """", ""NT00"", ""L"")",AR014025
2,경애하는 최고령도자 김정은동지께서 수리아대통령에게 축전을 보내시였다,"fn_showArticle(""AR0139989"", """", ""NT00"", ""L"")",AR013998
3,조선로동당 중앙위원회 제7기 제20차 정치국 확대회의 진행,"fn_showArticle(""AR0139950"", """", ""NT00"", ""L"")",AR013995
4,경애하는 최고령도자 김정은동지께서 《총련분회대표자대회-2020》(새 전성기 3차대회...,"fn_showArticle(""AR0139645"", """", ""NT00"", ""L"")",AR013964
...,...,...,...
57,조선일본군성노예 및 강제련행피해자문제대책위원회 대변인성명,"fn_showArticle(""AR0137825"", """", ""NT17"", ""L"")",AR013782
58,조선민주주의인민공화국 국무위원회 정령발표,"fn_showArticle(""AR0137794"", """", ""NT17"", ""L"")",AR013779
59,조선로동당 중앙위원회 제7기 제16차 정치국회의 공보,"fn_showArticle(""AR0137795"", """", ""NT17"", ""L"")",AR013779
60,,"fn_showArticle(""AR0137795"", """", ""NT17"", ""I"")",AR013779


In [314]:
df.to_csv('nk-news.csv', index=False)