# データの取得

多くの作業の上、データ取得、整理、変換に費やされる時間が多いです。
大抵の場合、データ取得の時間は有益な時間の使い方とは言えない。
望ましい形式に変換する方法をここでは扱います。

## stdinとstdout

コマンドラインから実行したのであれば、sys.stdin, stdoutを通じてデータをプログラムに渡せます。
以下のスクリプトは、テキストファイルを読み込み正規表現と一致した行を出力します

In [6]:
# egrep.py
import sys, re

regex= sys.argv[1]
for line in sys.stdin:
    if re.search(regex, line):
        sys.stdout.write(line)


In [9]:
# テキスト行数カウント
import sys

count=0
for line in sys.stdin:
    count += 1
    
print count

0


In [15]:
# 単語の出現回数を数え、頻出するもの表示
import sys
from collections import Counter

try:
    num_words = int(sys.argv[1])
except:
    print "usage: most_common_words.py num words"
    sys.exit(1)

counter = Counter(word.lower() for line in sys.stdin for word in line.strip().split() if word)

for word, count in counter.most_common(num_words):
    sys.stdout.write(str(count))
    sys.stdout.write("\t")
    sys.stdout.write(word)
    sys.stdout.write("\n")

usage: most_common_words.py num words


SystemExit: 1

## テキストファイルの基礎
テキストファイルを使うには、openをつかってfileオブジェクトを作成するが最適のステップ

In [None]:
# r はread-onlyを意味する
file_for_reading = open('reading_file.txt', 'r')

# w はwriteを表す
file_for_writing = open('writing_file.txt', 'w')

# a はappend
file_for_appending = open('appending_file.txt', 'a')

# ファイルを使い終わったらクローズ
file_for_writind.close()

#以下はエラーになるが気にしない

In [21]:
# クローズするのを忘れるので。withを利用し自動的にクローズしたほうが良い

filename = ''
with open(filename, 'r') as f:
    data = function_tah_gets_data_from(f)


IOError: [Errno 22] invalid mode ('r') or filename: ''

In [31]:
# ファイル全体を読み込む場合
stats_with_hash = 0

input = 'aaaaa'
with open('input_file', 'r') as f:
    for line in f:
        if re.match('^#', line):# 先頭に#の有無を検査
            starts_with_hash += 1

# 上記の方法では、改行文字で終端されている。何か処理を行うのであれば、改行などを取り除きたい。
with open('input_file', encoding='utf-8') as f:
    for line in f:
        line = line.strip().split()
        print(line)

IOError: [Errno 2] No such file or directory: 'input_file'

## 区切り文字のファイル読み込み

カンマ区切りやタブ区切り
カンマやタブや改行を含むフィールドが出てく取ると混乱します。独自の構文解析は誤りの元。
scvモジュールか、pandasライブラリを利用しましょう。

In [60]:
# csvを読み込む

import csv

# タブ区切り
with open('dilimited_stock_prices.txt', 'rb') as f:
    reader = csv.reader(f, delimiter='\t')
    l = []
    for row in reader:
        #data = row[0]
        #symbol = row[1]
        #closing_price = float(row[2])
        l.append(row)

print(l)    

# ヘッダー付きの場合には、
# reader = csv.reader(f, delimiter='\t')を
# reader = csv.DicRreader(f, delimiter='\t')

[['6/19/2014', 'MSFT', '1.232'], ['6/19/2014', 'FB', '1.1']]


In [62]:
# ファイル出力
today_price = {'APPL':90.91, 'MSFT':21.68, 'FB':64.5}
print(today_price.items())
with open('comma_dilimited_stock_prices.txt', 'wb') as f:
    writer = csv.writer(f, delimiter='\t')
    for stock, price in today_price.items():
        writer.writerow([stock, price])
        


[('FB', 64.5), ('APPL', 90.91), ('MSFT', 21.68)]


## webスクレイピング
htmlから情報をデータ取り出すために、Beautiful soupライブラリを使いましょう。
pythonの組み込みライブラリより優秀なHTTPリクエストライブラリとしてrequestsライブラリをインストールしましょう
parserとしてhtml5libも入れておきましょう。

In [74]:
from bs4 import BeautifulSoup
import requests
html = requests.get("http://www.yahoo.co.jp").text
soup = BeautifulSoup(html,'html5lib')
print(soup)

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html><head>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta content="text/css" http-equiv="content-style-type"/>
<meta content="text/javascript" http-equiv="content-script-type"/>
<meta content="日本最大級のポータルサイト。検索、オークション、ニュース、メール、コミュニティ、ショッピング、など80以上のサービスを展開。あなたの生活をより豊かにする「ライフ・エンジン」を目指していきます。" name="description"/>
<meta content="noodp" name="robots"/>
<meta content="fsLMOiigp5fIpCDMEVodQnQC7jIY1K3UXW5QkQcBmVs" name="google-site-verification"/>
<link href="https://www.yahoo.co.jp/" rel="canonical"/>
<link href="https://m.yahoo.co.jp/" media="only screen and (max-width: 640px)" rel="alternate"/>
<link href="android-app://jp.co.yahoo.android.yjtop/yahoojapan/home/top" rel="alternate"/>
<title>Yahoo! JAPAN</title>
<style type="text/css"><!--
body{word-break:break-all;font:12px/1.22 "Osaka","ＭＳ Ｐゴシック",Arial,sans-serif;*font-size:small;*font:x-small;}
table{font-si

In [84]:
# タイトル
first_paragraph = soup.find('title')
first_area = soup.find('area')
print(first_paragraph)
print(first_area)

soup.area.get('href')

<title>Yahoo! JAPAN</title>
<area alt="トラベル" coords="0,1,45,58" href="https://travel.yahoo.co.jp/?sc_e=ytmh" shape="rect"></area>


u'https://travel.yahoo.co.jp/?sc_e=ytmh'

### オライリーの書籍を読み込んでみる

In [86]:
url = "http://shop.oreilly.com/"
soup = BeautifulSoup(requests.get(url).text, 'html5lib')

print(soup)

<!DOCTYPE html>
<html lang="en"><head>
    <!-- Google Tag Manager -->
    <script>
    (function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start': new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0], j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src= 'https://www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f); })(window,document,'script','dataLayer','GTM-5P4V6Z');
    </script>
    <!-- End Google Tag Manager -->

    <!-- Start Visual Website Optimizer Asynchronous Code -->
    <script type="text/javascript">
    var _vwo_code=(function(){
    var account_id=27087,
    settings_tolerance=2000,
    library_tolerance=1500,
    use_existing_jquery=false,
    // DO NOT EDIT BELOW THIS LINE
    f=false,d=document;return{use_existing_jquery:function(){return use_existing_jquery;},library_tolerance:function(){return library_tolerance;},finish:function(){if(!f){f=true;var a=d.getElementById('_vis_opt_path_hides');if(a)a.parentNode.

## python 日付のparser
pythonには、優れた日付パーサーがない。dateutil.parser.parseが良い
pip install python-dateutil

In [90]:
import dateutil.parser

print dateutil.parser.parse('2010/6/30 23:15:22')
print dateutil.parser.parse('2010-06-30')
print dateutil.parser.parse('20100630')
print dateutil.parser.parse('Mon, 27 Oct 2008 21:24:07 +0900 (JST)')

2010-06-30 23:15:22
2010-06-30 00:00:00
2010-06-30 00:00:00
2008-10-27 21:24:07+09:00


  elif res.tzname and res.tzname in time.tzname:
