Skip to content

Commit

Permalink
#6 細かい部分を修正
Browse files Browse the repository at this point in the history
  • Loading branch information
Akira-Taniguchi committed May 20, 2016
1 parent 4127732 commit 0365dee
Showing 1 changed file with 15 additions and 8 deletions.
23 changes: 15 additions & 8 deletions source/5_scraping.rst
Original file line number Diff line number Diff line change
Expand Up @@ -7,6 +7,7 @@
そもそもスクレイピングとは
=====================
ウェブサイトから情報を抽出する、コンピュータソフトウェア技術のことをいいます。

Pythonを使って実行することができますので、これを機に習得してみましょう。


Expand All @@ -20,15 +21,15 @@ Pythonを使って実行することができますので、これを機に習

目的
=====================
#. スクレイピングでpypiの新着パッケージ情報を取得して見ましょう
#. スクレイピングでpypiの新着パッケージ情報を取得してみましょう
#. 取得した情報をjsonで保存して見ましょう


用語説明
=====================
* pipとは:Pythonで書かれたパッケージソフトウェアをインストール・管理するためのパッケージ管理システムです。
* pypiとは:Python公式のパッケージリポジトリです。pipコマンドを実行して、リポジトリに配置されているパッケージを取得することができます。
* jsonとは:データを記述する書式です。
* pip:Pythonで書かれたパッケージソフトウェアをインストール・管理するためのパッケージ管理システムです。
* pypi:Python公式のパッケージリポジトリです。pipコマンドを実行して、リポジトリに配置されているパッケージを取得することができます。
* json:データを記述する書式です。


実際のコード
Expand Down Expand Up @@ -80,16 +81,19 @@ Pythonを使って実行することができますので、これを機に習
コードの説明
=====================
* 「#! /usr/bin/env python」って何?
  Pythonを簡単に実行するためのおまじないのようなものです。詳しくはShebang(シェバン)といいます。
Pythonを簡単に実行するためのおまじないのようなものです。
詳しくはShebang(シェバン)といいます。

* 「# -*- coding: utf-8 -*-」って何?
  このソースががUTF-8で書かれていることを示します。エディター(Emacs)等で開く際に参照されます。
このソースががUTF-8で書かれていることを示します。
エディター(Emacs)等で開く際に参照されます。

* 「sys.exit」って何?
  明示的にプログラムを終了させるコードになります。
明示的にプログラムを終了させるコードになります。

* 「[1:]」って何?
  配列から値を取得する際の記述方法のうちのひとつです。この場合だと、配列の2番目以降の情報をすべて取得することができます。
配列から値を取得する際の記述方法のうちのひとつです。
この場合だと、配列の2番目以降の情報をすべて取得することができます。

* 「BeautifulSoup」って何?
  HTMLを解析するライブラリになります。
Expand All @@ -105,13 +109,16 @@ Pythonを使って実行することができますので、これを機に習
simple.py --output output.json

実行したら、output.jsonが作成されていますので、中身を参照してみてください。

pypiの情報がまとめて保存されていることがわかります。


まとめ
==========
本節では、Pythonでスクレイピングをする方法を解説しました。

自動化することにより、作業を効率化することができます。

目的に応じて処理を記述していきましょう。


Expand Down

0 comments on commit 0365dee

Please sign in to comment.