# North Korean News

Scrape the North Korean news agency http://kcna.kp

Save a CSV called `nk-news.csv`. This file should include:

* The **article headline**
* The value of **`onclick`** (they don't have normal links)
* The **article ID** (for example, the article ID for `fn_showArticle("AR0125885", "", "NT00", "L")` is `AR0125885`

The last part is easiest using pandas. Be sure you don't save the index!

* _**Tip:** If you're using requests+BeautifulSoup, you can always look at response.text to see if the page looks like what you think it looks like_
* _**Tip:** Check your URL to make sure it is what you think it should be!_
* _**Tip:** Does it look different if you scrape with BeautifulSoup compared to if you scrape it with Selenium?_
* _**Tip:** For the last part, how do you pull out part of a string from a longer string?_
* _**Tip:** `expand=False` is helpful if you want to assign a single new column when extracting_
* _**Tip:** `(` and `)` mean something special in regular expressions, so you have to say "no really seriously I mean `(`" by using `\(` instead_
* _**Tip:** if your `.*` is taking up too much stuff, you can try `.*?` instead, which instead of "take as much as possible" it means "take only as much as needed"_

In [2]:
import requests
import pandas as pd
from bs4 import BeautifulSoup

In [3]:
response = requests.get("http://kcna.kp/kcna.user.home.retrieveHomeInfoList.kcmsf")
doc = BeautifulSoup(response.text)

In [4]:
doc.prettify()

'<html>\n <head>\n  <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\n  <script language="javascript">\n   var globalContextPath = "";\r\n\tvar jsLangCode = "kor";\r\n\tvar flashPlayer = "/download/FlashPlayer10.zip";\r\n\tvar gYearStr = "주체";\n  </script>\n  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>\n  <link href="/sys/css/homepage.css" rel="stylesheet" type="text/css"/>\n  <link href="/sys/css/homecss.css" rel="stylesheet" type="text/css"/>\n  <link href="/sys/css/calendar.css" rel="stylesheet" type="text/css"/>\n  <link href="/sys/css/special.css" rel="stylesheet" type="text/css"/>\n  <style>\n   body {\r\n\t\t\t\r\n\t\tfont-family: 돋음, 굴림, 청봉, Arial, Helvetica, sans-serif;;\t\t\r\n\t\r\n}\n  </style>\n  <!--[if IE]> \r\n\t<link href="/sys/css/homepage_ie.css" rel="stylesheet" type="text/css"/>\r\n<![endif]-->\n  <!--[if IE 6]> \r\n\t<link href="/sys/css/homepage_ie6.css" rel="stylesh

In [5]:
articles = doc.find_all("a", class_="titlebet")

headlines = [article.text for article in articles]
headlines

['김정은동지께서 김대중 전 대통령의 부인 리희호녀사의 유가족들에게 조의문을 보내시였다',
 '경애하는 최고령도자 김정은동지께서 김대중 전 대통령의 부인 리희호녀사의 유가족들에게 조의문과 조화를 보내시였다',
 '김정은동지께서 로씨야대통령에게 축전을 보내시였다',
 '경애하는 최고령도자 김정은동지께서 조선인민군 제2기 제7차 군인가족예술소조경연에서 당선된 군부대들의 군인가족예술소조원들과 기념사진을 찍으시였다',
 '김정은동지께서 꾸바공산당 중앙위원회 제1비서에게 축전을 보내시였다',
 '대집단체조와 예술공연 《인민의 나라》 개막',
 '조선반도와 세계의 평화를 위해서는 조미공동성명이 리행되여야 한다고 인도네시아정당,단체 주장',
 '김일성주석회고 스웨리예위원회 결성',
 '로씨야단체들 6.12조미공동성명채택 1돐에 즈음하여 성명 발표',
 '김정일동지의 로작을 로씨야의 인터네트홈페지가 게재',
 '민주꽁고단체 6.15북남공동선언발표 19돐에 즈음하여 뷸레찐 발행',
 '2019년 아시아축구련맹컵경기대회 9조(동아시아지역)경기소식',
 '원격교육을 강화',
 '로씨야정교회대표단 귀국',
 '김일성동지와 김정일동지의 동상에 근로자들과 청소년학생들,인민군장병들 꽃바구니 진정',
 '조선기자동맹대표단 중국을 방문하기 위해 출발',
 '주체성과 민족성이 강한 조선의 사회주의',
 '사회주의위업을 승리에로 향도하는 조선로동당',
 '조선로동당을 참다운 어머니당으로 건설하신 위대한 령도자',
 '소원을 성취 못한 기자--어머님과 일화',
 '남조선각계 북남선언리행을 위한 통일운동 활발히 전개',
 '남조선신문 《자한당》의 로동악법조작책동을 규탄',
 '중조친선을 계승하여 시대의 새로운 장을 계속 아로새기자',
 '주체108(2019)년 6월 19일 신문개관',
 '《로동신문》 대조선적대시정책에 매여달리는 일본을 규탄',
 '김정일동지의 주체의 당건설령도업적을 길이 빛내여나가자고  《로동신문》 강조',
 '《로동신문》 사상사업은 사회주의위업수행에서 중핵적인 사업이라고 강조'

In [6]:
onclicks = [article["onclick"]for article in articles]
onclicks

['fn_showArticle("AR0126135", "", "NT00", "L")',
 'fn_showArticle("AR0126133", "", "NT00", "L")',
 'fn_showArticle("AR0126098", "", "NT00", "L")',
 'fn_showArticle("AR0125885", "", "NT00", "L")',
 'fn_showArticle("AR0125876", "", "NT00", "L")',
 'fn_showArticle("AR0125856", "", "NT00", "L")',
 'fn_showArticle("AR0126358", "", "NT41", "L")',
 'fn_showArticle("AR0126357", "", "NT41", "L")',
 'fn_showArticle("AR0126356", "", "NT41", "L")',
 'fn_showArticle("AR0126355", "", "NT41", "L")',
 'fn_showArticle("AR0126354", "", "NT41", "L")',
 'fn_showArticle("AR0126353", "", "NT41", "L")',
 'fn_showArticle("AR0126352", "", "NT41", "L")',
 'fn_showArticle("AR0126351", "", "NT41", "L")',
 'fn_showArticle("AR0126350", "", "NT41", "L")',
 'fn_showArticle("AR0126349", "", "NT41", "L")',
 'fn_showArticle("AR0126339", "", "NT41", "L")',
 'fn_showArticle("AR0126338", "", "NT41", "L")',
 'fn_showArticle("AR0126335", "", "NT41", "L")',
 'fn_showArticle("AR0126334", "", "NT41", "L")',
 'fn_showArticle("AR

In [7]:
identity = [article["onclick"][16:25] for article in articles]
identity


['AR0126135',
 'AR0126133',
 'AR0126098',
 'AR0125885',
 'AR0125876',
 'AR0125856',
 'AR0126358',
 'AR0126357',
 'AR0126356',
 'AR0126355',
 'AR0126354',
 'AR0126353',
 'AR0126352',
 'AR0126351',
 'AR0126350',
 'AR0126349',
 'AR0126339',
 'AR0126338',
 'AR0126335',
 'AR0126334',
 'AR0126331',
 'AR0126330',
 'AR0126327',
 'AR0126325',
 'AR0126324',
 'AR0126322',
 'AR0126321',
 'AR0126320',
 'AR0126319',
 'AR0126317',
 'AR0126316',
 'AR0126315',
 'AR0126318',
 'AR0126314',
 'AR0126313',
 'AR0126312',
 'AR0126233',
 'AR0126228',
 'AR0125916',
 'AR0125556',
 'AR0125472',
 'AR0125350',
 'AR0125232',
 'AR0126358',
 'AR0126357',
 'AR0126356',
 'AR0126355',
 'AR0126354',
 'AR0126351',
 'AR0126349',
 'AR0126319',
 'AR0126358',
 'AR0126357',
 'AR0126355',
 'AR0126353',
 'AR0126347',
 'AR0126345',
 'AR0126356',
 'AR0126354',
 'AR0126348',
 'AR0126346',
 'AR0126344',
 'AR0126228',
 'AR0125916',
 'AR0125883',
 'AR0125700',
 'AR0125556',
 'AR0125350',
 'AR0124794',
 'AR0126327',
 'AR0126325',
 'AR01

In [8]:
my_list=[]

for article in articles:
    info = {}
    info['headlines'] = article.text
    info['onclicks'] = article.attrs['onclick']
    info['identity'] = article.attrs['onclick'][16:25]
    print(info)
    my_list.append(info)

print(my_list)

{'headlines': '김정은동지께서 김대중 전 대통령의 부인 리희호녀사의 유가족들에게 조의문을 보내시였다', 'onclicks': 'fn_showArticle("AR0126135", "", "NT00", "L")', 'identity': 'AR0126135'}
{'headlines': '경애하는 최고령도자 김정은동지께서 김대중 전 대통령의 부인 리희호녀사의 유가족들에게 조의문과 조화를 보내시였다', 'onclicks': 'fn_showArticle("AR0126133", "", "NT00", "L")', 'identity': 'AR0126133'}
{'headlines': '김정은동지께서 로씨야대통령에게 축전을 보내시였다', 'onclicks': 'fn_showArticle("AR0126098", "", "NT00", "L")', 'identity': 'AR0126098'}
{'headlines': '경애하는 최고령도자 김정은동지께서 조선인민군 제2기 제7차 군인가족예술소조경연에서 당선된 군부대들의 군인가족예술소조원들과 기념사진을 찍으시였다', 'onclicks': 'fn_showArticle("AR0125885", "", "NT00", "L")', 'identity': 'AR0125885'}
{'headlines': '김정은동지께서 꾸바공산당 중앙위원회 제1비서에게 축전을 보내시였다', 'onclicks': 'fn_showArticle("AR0125876", "", "NT00", "L")', 'identity': 'AR0125876'}
{'headlines': '대집단체조와 예술공연 《인민의 나라》 개막', 'onclicks': 'fn_showArticle("AR0125856", "", "NT00", "L")', 'identity': 'AR0125856'}
{'headlines': '조선반도와 세계의 평화를 위해서는 조미공동성명이 리행되여야 한다고 인도네시아정당,단체 주장', 'onclicks': 'fn_showArticle("AR0126358", ""

In [9]:
df = pd.DataFrame(my_list)

In [10]:
df

Unnamed: 0,headlines,identity,onclicks
0,김정은동지께서 김대중 전 대통령의 부인 리희호녀사의 유가족들에게 조의문을 보내시였다,AR0126135,"fn_showArticle(""AR0126135"", """", ""NT00"", ""L"")"
1,경애하는 최고령도자 김정은동지께서 김대중 전 대통령의 부인 리희호녀사의 유가족들에게...,AR0126133,"fn_showArticle(""AR0126133"", """", ""NT00"", ""L"")"
2,김정은동지께서 로씨야대통령에게 축전을 보내시였다,AR0126098,"fn_showArticle(""AR0126098"", """", ""NT00"", ""L"")"
3,경애하는 최고령도자 김정은동지께서 조선인민군 제2기 제7차 군인가족예술소조경연에서 ...,AR0125885,"fn_showArticle(""AR0125885"", """", ""NT00"", ""L"")"
4,김정은동지께서 꾸바공산당 중앙위원회 제1비서에게 축전을 보내시였다,AR0125876,"fn_showArticle(""AR0125876"", """", ""NT00"", ""L"")"
5,대집단체조와 예술공연 《인민의 나라》 개막,AR0125856,"fn_showArticle(""AR0125856"", """", ""NT00"", ""L"")"
6,"조선반도와 세계의 평화를 위해서는 조미공동성명이 리행되여야 한다고 인도네시아정당,단...",AR0126358,"fn_showArticle(""AR0126358"", """", ""NT41"", ""L"")"
7,김일성주석회고 스웨리예위원회 결성,AR0126357,"fn_showArticle(""AR0126357"", """", ""NT41"", ""L"")"
8,로씨야단체들 6.12조미공동성명채택 1돐에 즈음하여 성명 발표,AR0126356,"fn_showArticle(""AR0126356"", """", ""NT41"", ""L"")"
9,김정일동지의 로작을 로씨야의 인터네트홈페지가 게재,AR0126355,"fn_showArticle(""AR0126355"", """", ""NT41"", ""L"")"


In [11]:
df.to_csv('Users\corina\Documents\north_korea.csv', index=False)