# 뉴스 데이터 탐색

이 예에서는 애플사와 관련된 뉴스 기사 데이터를 탐색해보겠다.

뉴스에는 사람들의 이야기, 생각, 행동에 관하여 많은 가치 있는 정보가 들어있다. 사람들은 뉴스 기사를 분석하여 [주식 시장을 예측](http://people.kth.se/~gyozo/docs/financial-prediction.pdf)하기도 하고, 뉴스를 분석하여 관련 있는 뉴스들을 자동으로 [요약하기](http://dl.acm.org/citation.cfm?id=1289212)도 하며, 트위터의 감성을 [분석하기도](http://dl.acm.org/citation.cfm?id=1487024)한다. 
또한 작가에 대한 정치적인 성향을 [분석](https://pdfs.semanticscholar.org/3b46/d2a5ac4d26ce7f62c724663b6ee282471764.pdf)하기도 하며 관련된 뉴스나 분석을 [찾기도](http://www.aaai.org/Papers/Symposia/Spring/2006/SS-06-03/SS06-03-016.pdf)한다.

이번 예제에서는 구글의 [경제 뉴스](https://www.google.com/finance/market_news) 데이터를 수집하여 [애플](http://www.apple.com/) 사에 대한 정보를 얻는 프로그램을 작성하겠다. 이 예에서 사용할 주요 라이브러리는 [Requests](http://docs.python-requests.org/en/master/), [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) 그리고 [Newspaper](http://newspaper.readthedocs.io/en/latest/)이며 이들은 아래와 같은 명령문으로 설치할 수 있다.

 `pip3 install requests`, 
 `pip3 install bs4`,
 `pip3 install newspaper3k`.

뉴스 데이터 수집 프로그램에서 소개한 load_news() 함수를 사용하여 데이터를 로드하겠다.

In [25]:
from data.load_news import load_news
articles = load_news(overwrite=False)

위의 article 객체에는 뉴스 기사 들이 포함되어 있다

In [26]:
print(articles)

[<newspaper.article.Article object at 0x10f850ac8>, <newspaper.article.Article object at 0x10f86b7f0>, <newspaper.article.Article object at 0x10f86be80>, <newspaper.article.Article object at 0x10f86b9e8>, <newspaper.article.Article object at 0x113907550>, <newspaper.article.Article object at 0x113907e48>, <newspaper.article.Article object at 0x113a123c8>, <newspaper.article.Article object at 0x113a12a90>, <newspaper.article.Article object at 0x113a12278>, <newspaper.article.Article object at 0x113925a20>, <newspaper.article.Article object at 0x113925b38>, <newspaper.article.Article object at 0x113907c88>, <newspaper.article.Article object at 0x113a0c7b8>, <newspaper.article.Article object at 0x113a0c7f0>, <newspaper.article.Article object at 0x113a19cc0>, <newspaper.article.Article object at 0x113a19dd8>, <newspaper.article.Article object at 0x113a20710>, <newspaper.article.Article object at 0x113a20198>, <newspaper.article.Article object at 0x113a0b630>, <newspaper.article.Article obj

뉴스 기사를 포함하는 [문서](http://newspaper.readthedocs.io/en/latest/index.html) 형식을 참고하고 이제 객체의 항목들을 분석해보겠다.

In [27]:
print(dir(articles[0]))

['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', 'additional_data', 'article_html', 'authors', 'build', 'build_resource_path', 'canonical_link', 'clean_doc', 'clean_top_node', 'config', 'doc', 'download', 'extractor', 'fetch_images', 'get_parse_candidate', 'get_resource_path', 'has_top_image', 'html', 'images', 'imgs', 'is_downloaded', 'is_media_news', 'is_parsed', 'is_valid_body', 'is_valid_url', 'keywords', 'link_hash', 'meta_data', 'meta_description', 'meta_favicon', 'meta_img', 'meta_keywords', 'meta_lang', 'movies', 'nlp', 'parse', 'publish_date', 'release_resources', 'set_article_html', 'set_authors', 'set_canonical_link', 'set_html', 'set_imgs', 'set_keywords', 'set_meta_data', 'set_meta_description', 'set_me

파이선 코드 스타일 [가이드](https://www.python.org/dev/peps/pep-0008/#descriptive-naming-styles)를 참고하면 "_" 두개로 시작하고 끝나는 키워드는 파이선 프로그래밍 언어가 사용하는 키워드이다. 이러한 형식의 키워드는 그대로 두어야 한다.

뉴스 데이터 수집 프로그램에서 설명한 것과 같이 "download"와 "parse"를 호출하겠다. 항목의 내용을 변경할 필요가 없으므로 "set"으로 시작하는 메소드는 무시하겠다. 남아있는 항목과 메소드 중에 중요한 내용은 다음과 같다: "authors", "keywords", "meta_data", "meta_description", "meta_keywords", "publish_date", "nlp", "summary", "tags", "text", "title".

이제 "meta_data" 항목을 살펴보겠다.

In [50]:
article = articles[0]
print(article.meta_data)

defaultdict(<class 'dict'>, {'og': {'type': 'article', 'site_name': 'The Motley Fool', 'description': "The tech titan's reported 100 million OLED display order could mean that the company is preparing for a surge in iPhone sales in its next fiscal year.", 'image': 'https://g.foolcdn.com/image/?url=http%3A%2F%2Fg.foolcdn.com%2Feditorial%2Fimages%2F420044%2Fiphone7plus-jetblk-34br-leanforward_pr-print.jpg&h=630&w=1200&op=resize', 'title': 'Apple Inc. Might Be Preparing for Blowout iPhone Sales in Fiscal 2018 --  The Motley Fool', 'url': 'http://www.fool.com/investing/2016/11/21/apple-inc-might-be-preparing-for-blowout-iphone-sa.aspx'}, 'viewport': 'width=device-width, initial-scale=1.0, maximum-scale=1.0', 'pitch': 6115, 'publish_time': '14:55', 'headline': 'Apple Inc. Might Be Preparing for Blowout iPhone Sales in Fiscal 2018', 'infotrackSnippetVersion': '2.0.0', 'article_type': 'article', 'article': {'section': 'investing', 'published_time': '14:55', 'tag': 'usmf-technology-and-telecom

위의 실행 결과를 보면 사전형식의 많은 데이터가 보이는 것을 알 수 있다. 이를 좀 더 자세히 살펴보겠다.

In [54]:
print(article.meta_data.keys())

dict_keys(['og', 'viewport', 'pitch', 'publish_time', 'headline', 'infotrackSnippetVersion', 'article_type', 'article', 'bureau', 'uqs', 'STORY_UID', 'fb', 'gsa_date', 'date', 'promo', 'title', 'msvalidate.01', 'tags', 'tickers', 'author', 'twitter', 'ResponsiveALP', 'description'])


In [55]:
print(article.meta_data['title'])
print(article.meta_data['headline'])
print(article.meta_data['date'])
print(article.meta_data['publish_time'])
print(article.meta_data['tags'])
print(article.meta_data['author'])
print(article.meta_data['description'])
print(article.meta_data['promo'])

{}
Apple Inc. Might Be Preparing for Blowout iPhone Sales in Fiscal 2018
2016-11-21T19:55:00Z
14:55
MSN,Default Partners,Yahoo News
Ashraf Eassa
The tech titan's reported 100 million OLED display order could mean that the company is preparing for a surge in iPhone sales in its next fiscal year.
The tech titan's reported 100 million OLED display order could mean that the company is preparing for a surge in iPhone sales in its next fiscal year.


실행 결과는 아래와 같았다.

---
{}  
Apple Inc. Might Be Preparing for Blowout iPhone Sales in Fiscal 2018  
2016-11-21T19:55:00Z  
14:55  
MSN,Default Partners,Yahoo News  
Ashraf Eassa  
The tech titan's reported 100 million OLED display order could mean that the company is preparing for a surge in iPhone sales in its next fiscal year.  
The tech titan's reported 100 million OLED display order could mean that the company is preparing for a surge in iPhone sales in its next fiscal year.

---

위의 실행결과를 보면, 뉴스 객체의 주요 내용인 "authors", "publish_date", "title" 등을 포함하고 있는 것을 알 수 있다. 이제 meta_data를 뉴스객체의 주요 항목과 비교해보자. 

In [57]:
print(article.authors)
print(article.publish_date)
print(article.title)

['Ashraf Eassa', 'Ashraf Eassa Is A Technology Specialist With The Motley Fool. He Writes Mostly About Technology Stocks', 'But Is Especially Interested In Anything Related To Chips -- The Semiconductor Kind', 'That Is. He Can Be Reached At Tmfchipfool Gmail.Com. Follow Him On Twitter']
2016-11-21 00:00:00
Apple Inc. Might Be Preparing for Blowout iPhone Sales in Fiscal 2018 -- The Motley Fool


실행 결과는 아래와 같았다. (실행시점에 따라 다르게 보일 수 있다.)

---
['Ashraf Eassa', 'Ashraf Eassa Is A Technology Specialist With The Motley Fool. He Writes Mostly About Technology Stocks', 'But Is Especially Interested In Anything Related To Chips -- The Semiconductor Kind', 'That Is. He Can Be Reached At Tmfchipfool Gmail.Com. Follow Him On Twitter']  
2016-11-21 00:00:00  
Apple Inc. Might Be Preparing for Blowout iPhone Sales in Fiscal 2018 -- The Motley Fool  

---

위의 내용을 보면 메타데이터의 meta_data['author'] 나 meta_data['publish_time']를 이용하는 것이 .authors 나 .publish_date를 이용하는 것보다 편리한 것을 알 수 있다. 한편 article.title를 이용하면 meta_data['title'] 보다 제목을 잘 표현했다. meta_data['headline']도 유용한 결과를 얻는다. 

이제 다른 유용한 메타 데이타 항목들을 살펴보겠다.

In [60]:
print(article.meta_data['meta_description'])
print(article.meta_data['meta_keywords'])

{}
{}


위의 실행결과를 보면, 결과이 빈 사전형식인 것을 알 수 있다. 이를 보면 meta_description 나 meta_keywords 가 항상 의미 있는 정보를 포함하지는 않는 것을 알 수 있다.

"keywords" 나 "tags" 항목은 어떤지 알아보고 article.meta_data['tags'] 내용과 어떻게 다른지 살펴보겠다.

In [62]:
print(article.meta_data['tags'])
print(article.keywords)
print(article.tags)

MSN,Default Partners,Yahoo News
['motley', 'fool', 'blowout', 'apple', 'sales', 'plus', 'oled', 'models', 'fiscal', 'preparing', 'curved', 'million', '100', 'displays', 'iphone', '2018']
set()


실행 결과는 아래와 같았다. (실행시점에 따라 다르게 보일 수 있다.)

---
MSN,Default Partners,Yahoo News  
['motley', 'fool', 'blowout', 'apple', 'sales', 'plus', 'oled', 'models', 'fiscal', 'preparing', 'curved', 'million', '100', 'displays', 'iphone', '2018']  
set()  

---

키워드는 유용해보이지만 meta_data['tags']은 article.tags에 잘 반영된 것으로 보이지는 않는다. 이제 자동으로 수집된 "summary" 속성을 해당 meta_data 부분과 비교해보겠다.

In [65]:
print(article.summary)
print("==========")
print(article.meta_data['description'])

This included iPhone 6, iPhone 6 Plus, iPhone 6s, iPhone 6s Plus, iPhone SE, and an initial batch of iPhone 7 and iPhone 7 Plus sales.
That's still 75 million iPhone models, or more than 35% of the total iPhone units that Apple shipped in fiscal year 2016.
Some perspectiveIn fiscal year 2016, Apple shipped just shy of 212 million iPhone models.
How many curved OLED iPhone models is Apple planning to sell?
Let's assume Bloomberg's sources are good and Apple has ordered 100 million curved OLED displays in support of its iPhone build plans for fiscal year 2018.
The tech titan's reported 100 million OLED display order could mean that the company is preparing for a surge in iPhone sales in its next fiscal year.


실행 결과는 아래와 같았다. (실행시점에 따라 다르게 보일 수 있다.)

---

This included iPhone 6, iPhone 6 Plus, iPhone 6s, iPhone 6s Plus, iPhone SE, and an initial batch of iPhone 7 and iPhone 7 Plus sales.  
That's still 75 million iPhone models, or more than 35% of the total iPhone units that Apple shipped in fiscal year 2016.  
Some perspectiveIn fiscal year 2016, Apple shipped just shy of 212 million iPhone models.  
How many curved OLED iPhone models is Apple planning to sell?  
Let's assume Bloomberg's sources are good and Apple has ordered 100 million curved OLED displays in support of its iPhone build plans for fiscal year 2018.  

==========  
The tech titan's reported 100 million OLED display order could mean that the company is preparing for a surge in iPhone sales in its next fiscal year.

---

이를 보면 "summary" 은 가장 중요한 부분을 나타내는 것으로 보인다. 그러나 아직 표현이 완성되지 않은 부분이 있고 타이핑 오류 등도 보인다. 

지금까지의 작업은 하나의 뉴스 기사에 대한 분석이었다. 새로운 뉴스 기사에 대해서는 다른 결과를 보일 것이다. 이제 다른 뉴스 기사에 대해서 어떤 결과가 나오는지 비교해보겠다.

In [69]:
article = articles[-1]
print(article.meta_data.keys())


print(article.meta_data['title'])
print(article.meta_data['headline'])
print(article.meta_data['date'])
print(article.meta_data['publish_time'])
print(article.meta_data['tags'])
print(article.meta_data['author'])
print(article.meta_data['description'])
print(article.meta_data['promo'])

dict_keys(['og', 'fb', 'news_keywords', 'viewport', 'author', 'title', 'promo', 'generator', 'pubdate', 'yandex-verification', 'robots', 'keywords', 'google-site-verification', 'twitter', 'headline', 'description', 'publish_time', 'article', 'tags', 'date'])
{}
{}
{}
{}
{}
{}
Apple (AAPL) is showing a more resilient chart than it has for some time, and analysts are beginning to feel optimistic about Apple stock.
{}


실행결과는 아래와 같았다. (실행시점에 따라 다르게 보일 수 있다.)
---

dict_keys(['og', 'fb', 'news_keywords', 'viewport', 'author', 'title', 'promo', 'generator', 'pubdate', 'yandex-verification', 'robots', 'keywords', 'google-site-verification', 'twitter', 'headline', 'description', 'publish_time', 'article', 'tags', 'date'])  
{}  
{}  
{}  
{}  
{}  
{}  
Apple (AAPL) is showing a more resilient chart than it has for some time, and analysts are beginning to feel optimistic about Apple stock.  
{}  

---

이를 보면 첫번째 기사의 메타데이터가 두번째 기사에서는 사용되지 않은 것을 알 수 있다. 이제 각 기사에서의 메타데이터 키워드 수를 세어보고 어떤 것이 자주 발생하는 지를 살펴보겠다.

In [70]:
keys = []
for article in articles:
    keys += list(article.meta_data.keys())
    
from collections import Counter
counter = Counter(keys)
print(counter)

Counter({'og': 24, 'description': 24, 'twitter': 23, 'fb': 21, 'viewport': 21, 'article': 17, 'news_keywords': 14, 'robots': 14, 'generator': 12, 'keywords': 11, 'author': 10, 'google-site-verification': 7, 'msapplication-TileImage': 5, 'promo': 5, 'msapplication-square150x150logo': 5, 'msapplication-square310x310logo': 5, 'publish_time': 5, 'msapplication-wide310x150logo': 5, 'tags': 5, 'headline': 5, 'date': 5, 'msvalidate.01': 5, 'msapplication-square70x70logo': 5, 'dc.language': 4, 'dcterms.modified': 4, 'bureau': 4, 'dcterms.created': 4, 'dc.format': 4, 'ResponsiveALP': 4, 'prism.aggregationType': 4, 'dc.source': 4, 'prism.section': 4, 'uqs': 4, 'dc.date': 4, 'tickers': 4, 'dcterms.abstract': 4, 'dc.description': 4, 'article_type': 4, 'dc.publisher': 4, 'yandex-verification': 4, 'dc.title': 4, 'vr': 4, 'classification': 4, 'prism.channel': 4, 'pitch': 4, 'classification-isa': 4, 'dc.identifier': 4, 'pubdate': 4, 'infotrackSnippetVersion': 4, 'pagetype': 4, 'STORY_UID': 4, 'dc.type

실행결과는 아래와 같았다 (실행시점에 따라 다르게 보일 수 있다.)

---

Counter({'og': 24, 'description': 24, 'twitter': 23, 'fb': 21, 'viewport': 21, 'article': 17, 'news_keywords': 14, 'robots': 14, 'generator': 12, 'keywords': 11, 'author': 10, 'google-site-verification': 7, 'msapplication-TileImage': 5, 'promo': 5, 'msapplication-square150x150logo': 5, 'msapplication-square310x310logo': 5, 'publish_time': 5, 'msapplication-wide310x150logo': 5, 'tags': 5, 'headline': 5, 'date': 5, 'msvalidate.01': 5, 'msapplication-square70x70logo': 5, 'dc.language': 4, 'dcterms.modified': 4, 'bureau': 4, 'dcterms.created': 4, 'dc.format': 4, 'ResponsiveALP': 4, 'prism.aggregationType': 4, 'dc.source': 4, 'prism.section': 4, 'uqs': 4, 'dc.date': 4, 'tickers': 4, 'dcterms.abstract': 4, 'dc.description': 4, 'article_type': 4, 'dc.publisher': 4, 'yandex-verification': 4, 'dc.title': 4, 'vr': 4, 'classification': 4, 'prism.channel': 4, 'pitch': 4, 'classification-isa': 4, 'dc.identifier': 4, 'pubdate': 4, 'infotrackSnippetVersion': 4, 'pagetype': 4, 'STORY_UID': 4, 'dc.type': 4, 'gsa_date': 4, 'application-name': 3, 'msapplication-window': 3, 'msapplication-TileColor': 3, 'apple-mobile-web-app-capable': 3, 'msapplication-tooltip': 3, 'apple-mobile-web-app-status-bar-style': 3, 'msapplication-task': 3, 'ticker': 2, 'p': 2, 'contentType': 2, '_thumbnail_id': 2, 'language': 2, 'title': 2, 'earnify-site-verification': 2, 'parsely-section': 1, 'parsely-post-id': 1, 'article.access': 1, 'page.content.source': 1, '_wpas_done_all': 1, 'article.section': 1, 'dcterms.rights': 1, 'position': 1, 'testkeys': 1, 'parsely-title': 1, 'cx_shield': 1, 'distribution': 1, 'bt': 1, 'msapplication-config': 1, 'parsely-image-url': 1, 'parsely-link': 1, 'theme-color': 1, 'page.content.type': 1, 'page.content.format': 1, 'user.type': 1, 'page.site.product': 1, 'parsely-author': 1, 'article.origheadline': 1, 'article.created': 1, 'parsely-type': 1, 'Rating': 1, 'msapplication-notification': 1, 'article.id': 1, 'page.section': 1, 'article.summary': 1, 'article.headline': 1, 'page.region': 1, 'dj.asn': 1, 'sailthru.image.full': 1, 'shareaholic': 1, 'user.exp': 1, 'article.type': 1, 'meta_description': 1, 'page.site': 1, 'parsely-tags': 1, 'cXenseParse': 1, 'verify-v1': 1, 'meta_keywords': 1, 'parsely-pub-date': 1, 'article.template': 1, 'article.updated': 1, 'sailthru.image.thumb': 1, 'article.page': 1, 'article.published': 1, 'referrer': 1, 'dcterms.audience': 1})

---

자주 발생하는 특별한 키워드는 많지 않았다. 다행히 "description"는 대부분 나타났으며 "news_keywords", "keywords", 그리고 "author"는 전체의 반 정도의 횟수로 나타났다. "publish_time", "tags", "headline"과 "date"는 전체의 1/5 정도에 나타났다.

이제 기사의 속성이 잘 나타나는지 살펴보겠다. 

In [72]:
authors = []
publish_dates = []
titles = []

for article in articles:
    authors += list(article.authors)
    publish_dates.append(article.publish_date)
    titles.append(article.title)
    
counter = Counter(authors)
print(counter)

print(len(publish_dates))
print(publish_dates)

print(len(titles))
print(titles)

Counter({'Brad Moon': 3, 'But Is Especially Interested In Anything Related To Chips -- The Semiconductor Kind': 2, 'Is A Cfa Charterholder.': 2, 'Evan Is A Senior Technology Specialist At The Motley Fool. He Was Previously A Senior Trading Specialist At A Major Discount Broker': 2, 'Worked Briefly At Tesla Motors. Evan Graduated The University Of Texas At Austin': 2, 'Ashraf Eassa Is A Technology Specialist With The Motley Fool. He Writes Mostly About Technology Stocks': 2, 'That Is. He Can Be Reached At Tmfchipfool Gmail.Com. Follow Him On Twitter': 2, 'Ashraf Eassa': 2, 'Evan Niu': 2, 'Tara John': 1, 'Lewis Painter': 1, 'Douglas A. Mcintyre': 1, 'Jing Pan': 1, 'Stephen Karmazyn': 1, 'Aman Jain': 1, 'Tripp Mickle': 1, 'Nov': 1, 'Anthony Mirhaydari': 1, 'Mark Gurman': 1, 'Eva Dou': 1, 'B.Sc': 1, 'About The Author': 1, 'More Stories Mark Gurman': 1, 'Adrian Mccoy': 1, 'Yoni Heisler': 1, 'Published': 1})
24
[datetime.datetime(2016, 11, 21, 0, 0), datetime.datetime(2016, 11, 21, 9, 40, 43

위를 보면 publish_date는 항상 의미있는 날짜 시간 정보를 포함하고; title는 제목을 나타내며; authors는 저자의 이름을 대부분 나타내지만 가끔은 이름이 아닌 설명을 포함하기도 했다.

키워드는 어떤지 살펴보겠다.

In [74]:
for article in articles:
    print(article.keywords)

['motley', 'fool', 'blowout', 'apple', 'sales', 'plus', 'oled', 'models', 'fiscal', 'preparing', 'curved', 'million', '100', 'displays', 'iphone', '2018']
['free', 'batteries', 'replace', 'apple', 'devices', 'defect', 'shut', '6s', 'small', 'iphone', 'unexpectedly', 'number']
['devices', 'replace', 'apple', 'batteries', 'week', 'spontaneously', 'faulty', 'shut', 'unexpectedly', '6s', 'battery', 'shutting', 'iphone', 'worldwide', 'free']
['uerkwitz', 'apple', 'issues', 'aapl', 'value', 'prediction', '10year', 'grim', 'analysts', 'stock', 'iphone', 'analyst', 'share', 'smartphone']
['newsletter', 'router', 'apple', 'technology', 'markets', 'wireless', 'products', 'development', 'routers', 'business', 'receive', 'abandons']
['router', 'apple', 'reportedly', 'product', 'products', 'axed', 'routers', 'division', 'updated', 'apples', 'extreme', 'airport']
['apple', 'issues', 'affected', 'touch', 'aapl', 'plus', 'disease', 'repair', '6s', 'battery', 'phones', 'iphone', 'puts', 'sword']
['incs

대체로 의미 있는 키워드가 나타난 것으로 보인다. 이제 끝으로 요약 정보는 어떤지 살펴보겠다.

In [77]:
for article in articles:
    print(article.summary)
    print("\n\n\n")

This included iPhone 6, iPhone 6 Plus, iPhone 6s, iPhone 6s Plus, iPhone SE, and an initial batch of iPhone 7 and iPhone 7 Plus sales.
That's still 75 million iPhone models, or more than 35% of the total iPhone units that Apple shipped in fiscal year 2016.
Some perspectiveIn fiscal year 2016, Apple shipped just shy of 212 million iPhone models.
How many curved OLED iPhone models is Apple planning to sell?
Let's assume Bloomberg's sources are good and Apple has ordered 100 million curved OLED displays in support of its iPhone build plans for fiscal year 2018.




“Apple has determined that a very small number of iPhone 6s devices may unexpectedly shut down” Apple said in a statement.
Apple is offering a free battery replacements on some of its iPhone 6s models after discovering a defect that causes the phones to randomly shut down.
The company said Sunday that it has started the free repair program to address the fault in a “small number” of its 6s devices.
Apple said the defect only af

요약 정보를 보면 상당히 자세한 요약을 보여주고 있다. 기사의 주요 내용인 (title, summary, publish_date, authors)이 대부분 포함되어 있는 것을 알 수 있고 일부 메타데이터 (description, news_keywords, keywords, author, tags, headline, date)들도 여기서 확인할 수 있다.

지금까지의 데이터 탐색외에 많을 것을 분석해볼 수 있는데, 기사의 다른 속성들을 살펴볼 수 있을 것이다. 기사가 만들어진 배경의 어떤 특징(feature) 값들이 있는지, 키워드들이 포함되어 있는지를 살펴볼 수 있으며 기사에 포함된 이미지도 찾아볼 수 있다. 여러 관련된 기사들에 걸쳐서 어떤 메타 데이터가 들어 있는지를 보고 공통된 특징을 볼 수 도 있고, 수집된 기사에 대해서 자연어 처리를 할 수 있는 준비를 할 수도 있다.

이제 더 많은 질문을 통해서 더 많은 탐색이 가능하며 이를 통해 데이터를 더 잘 이해하고 상세한 분석을 위해서 어떤 작업이 더 필요한지를 이해할 수 있을 것이다.