# North Korean News

Scrape the North Korean news agency http://kcna.kp

Save a CSV called `nk-news.csv`. This file should include:

* The **article headline**
* The value of **`onclick`** (they don't have normal links)
* The **article ID** (for example, the article ID for `fn_showArticle("AR0125885", "", "NT00", "L")` is `AR0125885`

The last part is easiest using pandas. Be sure you don't save the index!

* _**Tip:** If you're using requests+BeautifulSoup, you can always look at response.text to see if the page looks like what you think it looks like_
* _**Tip:** Check your URL to make sure it is what you think it should be!_
* _**Tip:** Does it look different if you scrape with BeautifulSoup compared to if you scrape it with Selenium?_
* _**Tip:** For the last part, how do you pull out part of a string from a longer string?_
* _**Tip:** `expand=False` is helpful if you want to assign a single new column when extracting_
* _**Tip:** `(` and `)` mean something special in regular expressions, so you have to say "no really seriously I mean `(`" by using `\(` instead_
* _**Tip:** if your `.*` is taking up too much stuff, you can try `.*?` instead, which instead of "take as much as possible" it means "take only as much as needed"_

In [17]:
import pandas as pd
import requests
import re
import matplotlib
import numpy as np
import matplotlib.pyplot as plt
from bs4 import BeautifulSoup

%matplotlib inline

In [11]:
my_url= 'http://kcna.kp/kcna.user.home.retrieveHomeInfoList.kcmsf'
raw_html = requests.get(my_url)

In [10]:
# soup_doc = BeautifulSoup(raw_html, 'html.parser')
# print(soup_doc.text)

In [12]:
doc = BeautifulSoup(raw_html.text)

In [21]:
headlines = doc.find_all(class_='titlebet')

In [22]:
print(headlines)

[<a class="titlebet" href="#this" onclick='fn_showArticle("AR0126135", "", "NT00", "L")'><nobr><strong><font style="font-size:10pt;">김정은</font></strong></nobr>동지께서 김대중 전 대통령의 부인 리희호녀사의 유가족들에게 조의문을 보내시였다</a>, <a class="titlebet" href="#this" onclick='fn_showArticle("AR0126133", "", "NT00", "L")'>경애하는 최고령도자 <nobr><strong><font style="font-size:10pt;">김정은</font></strong></nobr>동지께서 김대중 전 대통령의 부인 리희호녀사의 유가족들에게 조의문과 조화를 보내시였다</a>, <a class="titlebet" href="#this" onclick='fn_showArticle("AR0126098", "", "NT00", "L")'><nobr><strong><font style="font-size:10pt;">김정은</font></strong></nobr>동지께서 로씨야대통령에게 축전을 보내시였다</a>, <a class="titlebet" href="#this" onclick='fn_showArticle("AR0125885", "", "NT00", "L")'>경애하는 최고령도자 <nobr><strong><font style="font-size:10pt;">김정은</font></strong></nobr>동지께서 조선인민군 제2기 제7차 군인가족예술소조경연에서 당선된 군부대들의 군인가족예술소조원들과 기념사진을 찍으시였다</a>, <a class="titlebet" href="#this" onclick='fn_showArticle("AR0125876", "", "NT00", "L")'><nobr><strong><font style="font-size:10pt;">김정은</font><

In [24]:
rows=[]
for head in headlines:
    row = {}
    try:   
        row['article']=(head.text)
    except:
        continue
    row['onclick']=(head["onclick"])
    row['article_id']=(head["onclick"][16:25])
    rows.append(row)

In [25]:
print(rows)

[{'article': '김정은동지께서 김대중 전 대통령의 부인 리희호녀사의 유가족들에게 조의문을 보내시였다', 'onclick': 'fn_showArticle("AR0126135", "", "NT00", "L")', 'article_id': 'AR0126135'}, {'article': '경애하는 최고령도자 김정은동지께서 김대중 전 대통령의 부인 리희호녀사의 유가족들에게 조의문과 조화를 보내시였다', 'onclick': 'fn_showArticle("AR0126133", "", "NT00", "L")', 'article_id': 'AR0126133'}, {'article': '김정은동지께서 로씨야대통령에게 축전을 보내시였다', 'onclick': 'fn_showArticle("AR0126098", "", "NT00", "L")', 'article_id': 'AR0126098'}, {'article': '경애하는 최고령도자 김정은동지께서 조선인민군 제2기 제7차 군인가족예술소조경연에서 당선된 군부대들의 군인가족예술소조원들과 기념사진을 찍으시였다', 'onclick': 'fn_showArticle("AR0125885", "", "NT00", "L")', 'article_id': 'AR0125885'}, {'article': '김정은동지께서 꾸바공산당 중앙위원회 제1비서에게 축전을 보내시였다', 'onclick': 'fn_showArticle("AR0125876", "", "NT00", "L")', 'article_id': 'AR0125876'}, {'article': '대집단체조와 예술공연 《인민의 나라》 개막', 'onclick': 'fn_showArticle("AR0125856", "", "NT00", "L")', 'article_id': 'AR0125856'}, {'article': '중앙미술전시회 개막', 'onclick': 'fn_showArticle("AR0126318", "", "NT41", "L")', 'article_id': 'AR0126318'

In [27]:
df = pd.DataFrame(rows)

In [29]:
df.to_csv('nk-news.csv',index=False)