# North Korean News

Scrape the North Korean news agency http://kcna.kp

Save a CSV called `nk-news.csv`. This file should include:

* The **article headline**
* The value of **`onclick`** (they don't have normal links)
* The **article ID** (for example, the article ID for `fn_showArticle("AR0125885", "", "NT00", "L")` is `AR0125885`

The last part is easiest using pandas. Be sure you don't save the index!

* _**Tip:** If you're using requests+BeautifulSoup, you can always look at response.text to see if the page looks like what you think it looks like_
* _**Tip:** Check your URL to make sure it is what you think it should be!_
* _**Tip:** Does it look different if you scrape with BeautifulSoup compared to if you scrape it with Selenium?_
* _**Tip:** For the last part, how do you pull out part of a string from a longer string?_
* _**Tip:** `expand=False` is helpful if you want to assign a single new column when extracting_
* _**Tip:** `(` and `)` mean something special in regular expressions, so you have to say "no really seriously I mean `(`" by using `\(` instead_
* _**Tip:** if your `.*` is taking up too much stuff, you can try `.*?` instead, which instead of "take as much as possible" it means "take only as much as needed"_

In [1]:
import pandas as pd
import requests
import time 
from bs4 import BeautifulSoup



In [2]:
my_url = "http://kcna.kp/kcna.user.home.retrieveHomeInfoList.kcmsf"
raw_html = requests.get(my_url).content
soup_doc = BeautifulSoup(raw_html, "html.parser")

In [3]:
print(soup_doc)


<html>
<head>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<script language="javascript">
	var globalContextPath = "";
	var jsLangCode = "kor";
	var flashPlayer = "/download/FlashPlayer10.zip";
	var gYearStr = "주체";
</script>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<link href="/sys/css/homepage.css" rel="stylesheet" type="text/css"/>
<link href="/sys/css/homecss.css" rel="stylesheet" type="text/css"/>
<link href="/sys/css/calendar.css" rel="stylesheet" type="text/css"/>
<link href="/sys/css/special.css" rel="stylesheet" type="text/css"/>
<style>
	body {
			
		font-family: 돋음, 굴림, 청봉, Arial, Helvetica, sans-serif;;		
	
}
</style>
<!--[if IE]> 
	<link href="/sys/css/homepage_ie.css" rel="stylesheet" type="text/css"/>
<![endif]-->
<!--[if IE 6]> 
	<link href="/sys/css/homepage_ie6.css" rel="stylesheet" type="text/css"/>
<![endif]-->
<script language="javascript" src="

### h3 and h4 are the two tags that contain article headlines. 

In [4]:
items = soup_doc.find_all('a', class_='titlebet') 
news = []

for item in items: 
    headlines = item.text.strip()
    click = item['onclick']
     
    news.append({
        'Headline' : headlines, 
        'Onclick' : click
    })
print(news)


[{'Headline': '경애하는 최고령도자 김정은동지께서 라오스인민혁명당 중앙위원회 총비서인 라오스인민민주주의공화국 주석에게 축전을 보내시였다', 'Onclick': 'fn_showArticle("AR0140322", "", "NT00", "L")'}, {'Headline': '조선로동당 중앙위원회 제7기 제21차 정치국 확대회의 진행', 'Onclick': 'fn_showArticle("AR0140253", "", "NT00", "L")'}, {'Headline': '경애하는 최고령도자 김정은동지께서 수리아대통령에게 축전을 보내시였다', 'Onclick': 'fn_showArticle("AR0139989", "", "NT00", "L")'}, {'Headline': '조선로동당 중앙위원회 제7기 제20차 정치국 확대회의 진행', 'Onclick': 'fn_showArticle("AR0139950", "", "NT00", "L")'}, {'Headline': '경애하는 최고령도자 김정은동지께서  《총련분회대표자대회-2020》(새 전성기 3차대회) 참가자들에게 축하문을 보내시였다', 'Onclick': 'fn_showArticle("AR0139645", "", "NT00", "L")'}, {'Headline': '경애하는 최고령도자 김정은동지께서 고 라명희동지의 령전에 화환을 보내시였다', 'Onclick': 'fn_showArticle("AR0139638", "", "NT00", "L")'}, {'Headline': '신미리애국렬사릉에 렬사들의 유해 새로 안치', 'Onclick': 'fn_showArticle("AR0140380", "", "NT41", "L")'}, {'Headline': '대중봉사장소에 대한 소독사업 강화', 'Onclick': 'fn_showArticle("AR0140379", "", "NT41", "L")'}, {'Headline': '회령지방의 유명한 특산물', 'Onclick': 'fn_showArticle("AR0140373"

In [5]:
df = pd.DataFrame(news)
df.head()

Unnamed: 0,Headline,Onclick
0,경애하는 최고령도자 김정은동지께서 라오스인민혁명당 중앙위원회 총비서인 라오스인민민주...,"fn_showArticle(""AR0140322"", """", ""NT00"", ""L"")"
1,조선로동당 중앙위원회 제7기 제21차 정치국 확대회의 진행,"fn_showArticle(""AR0140253"", """", ""NT00"", ""L"")"
2,경애하는 최고령도자 김정은동지께서 수리아대통령에게 축전을 보내시였다,"fn_showArticle(""AR0139989"", """", ""NT00"", ""L"")"
3,조선로동당 중앙위원회 제7기 제20차 정치국 확대회의 진행,"fn_showArticle(""AR0139950"", """", ""NT00"", ""L"")"
4,경애하는 최고령도자 김정은동지께서 《총련분회대표자대회-2020》(새 전성기 3차대...,"fn_showArticle(""AR0139645"", """", ""NT00"", ""L"")"


In [6]:
df.reset_index(drop=True, inplace=True)

In [7]:
df['Article_ID'] = df['Onclick'].str.contains(r"fn_showArticle\(\"(\w+)\",*?", na=False)

for article in df['Article_ID']:
     df['Article_ID'] = df['Onclick'].str.extract(r"fn_showArticle\(\"(\w+)\",*?", expand=False)[0]

df.head()

  return func(self, *args, **kwargs)


Unnamed: 0,Headline,Onclick,Article_ID
0,경애하는 최고령도자 김정은동지께서 라오스인민혁명당 중앙위원회 총비서인 라오스인민민주...,"fn_showArticle(""AR0140322"", """", ""NT00"", ""L"")",AR0140322
1,조선로동당 중앙위원회 제7기 제21차 정치국 확대회의 진행,"fn_showArticle(""AR0140253"", """", ""NT00"", ""L"")",AR0140322
2,경애하는 최고령도자 김정은동지께서 수리아대통령에게 축전을 보내시였다,"fn_showArticle(""AR0139989"", """", ""NT00"", ""L"")",AR0140322
3,조선로동당 중앙위원회 제7기 제20차 정치국 확대회의 진행,"fn_showArticle(""AR0139950"", """", ""NT00"", ""L"")",AR0140322
4,경애하는 최고령도자 김정은동지께서 《총련분회대표자대회-2020》(새 전성기 3차대...,"fn_showArticle(""AR0139645"", """", ""NT00"", ""L"")",AR0140322


In [8]:
df.to_csv('nk-news.csv', index = False)