# settings

In [None]:
import os
import re
import pandas as pd

In [None]:
# pandas の最大表示列数を設定 (max_rows で表示行数の設定も可能)
pd.set_option('display.max_columns', 30)

In [None]:
os.getcwd()

In [None]:
# 請求書の場所を指定
bill_dir = r"D:\documents\tax\h29\Bill_2017"

In [None]:
def getEncode(filepath):
    '''
    テキストファイルの文字コードを確認する関数
    デコードエラーが出なくなるまで順番に試す
    試す順番で結果が変わる可能性がある
    getEncode(r'filepath')
    '''
    encs = "iso-2022-jp euc-jp sjis utf-8".split()
    for enc in encs:
        with open(filepath, encoding=enc) as fr:
            try:
                fr = fr.read()
            except UnicodeDecodeError:
                continue
        return enc

In [None]:
getEncode(r"D:\documents\tax\h29\Bill_2017\jcb\201802meisai.csv")

# JCB

In [None]:
card = 'jcb'

In [None]:
bills = os.listdir('{0}\{1}'.format(bill_dir, card))
bills

In [None]:
jcb = pd.DataFrame()
for x in bills:
    jcb = jcb.append(pd.read_csv('{0}\{1}\{2}'.format(bill_dir, card, x)
                     , skiprows=5, encoding='Shift-JIS'))
display(jcb)

In [None]:
jcb.columns

In [None]:
jcb.groupby('カテゴリ').count()

In [None]:
jcb.groupby('支払区分').count()

In [None]:
jcb.groupby('摘要').count()

In [None]:
jcb['コード'] = ""
jcb['カード'] = 'JCB'

In [None]:
jcb = jcb[jcb['ご利用日'].str.contains('2017')]
display(jcb)

In [None]:
jcb = jcb[['ご利用日', 'コード', 'ご利用金額(￥)', 'ご利用先など', 'カード']]
display(jcb)

In [None]:
jcb.columns = ['日付', 'コード', '金額', '備考', 'カード']
display(jcb)

In [None]:
jcb = jcb.sort_values(['備考', '日付']).reset_index(drop=True)
display(jcb)

In [None]:
jcb['日付'] = jcb['日付'].str.replace(' ', "")
display(jcb)

In [None]:
jcb.to_csv('{0}\{1}.csv'.format(bill_dir, card), index=False, encoding=('Shift-JIS'))

# rakuten

In [None]:
card = 'rakuten'

In [None]:
bills = os.listdir('{0}\{1}'.format(bill_dir, card))
bills

In [None]:
rakuten = pd.DataFrame()
for x in bills:
    rakuten = rakuten.append(pd.read_csv('{0}\{1}\{2}'.format(bill_dir, card, x)
                             , encoding='Shift-JIS'))
display(rakuten)

In [None]:
rakuten.columns

In [None]:
rakuten.groupby('利用者').count()

In [None]:
rakuten.groupby('支払方法').count()

In [None]:
rakuten['コード'] = ""
rakuten['カード'] = '楽天'

In [None]:
rakuten = rakuten[~rakuten['利用日'].isnull()]
display(rakuten)

In [None]:
rakuten = rakuten[rakuten['利用日'].str.contains('17.')]
display(rakuten)

In [None]:
rakuten = rakuten[['利用日', 'コード', '利用金額', '利用店名・商品名', 'カード']]
display(rakuten)

In [None]:
rakuten.columns = ['日付', 'コード', '金額', '備考', 'カード']
display(rakuten)

In [None]:
rakuten = rakuten.sort_values(['備考', '日付']).reset_index(drop=True)
display(rakuten)

In [None]:
rakuten['日付'] = rakuten['日付'].str.replace('.', '/')
display(rakuten)

In [None]:
rakuten['日付'] = rakuten['日付'].str.replace('17/', '2017/')
display(rakuten)

In [None]:
rakuten.to_csv('{0}\{1}.csv'.format(bill_dir, card), index=False, encoding=('Shift-JIS'))

# view

In [None]:
card = 'view'

In [None]:
bills = os.listdir('{0}\{1}'.format(bill_dir, card))
bills

In [None]:
view = pd.DataFrame()
for x in bills:
    view = view.append(pd.read_csv('{0}\{1}\{2}'.format(bill_dir, card, x)
                       , skiprows=5, encoding='Shift-JIS'))
display(view)

In [None]:
view.columns

In [None]:
view.groupby('ご利用箇所').count()

In [None]:
view.groupby('払戻額').count()

In [None]:
view.groupby('支払区分（回数）').count()

In [None]:
view['コード'] = ""
view['カード'] = 'view'

In [None]:
view = view[~view['ご利用箇所'].isnull()]
display(view)

In [None]:
view = view[view['ご利用年月日'].str.contains('2017/')]
display(view)

In [None]:
view = view[['ご利用年月日', 'コード', 'ご利用額', 'ご利用箇所', 'カード']]
display(view)

In [None]:
view.columns = ['日付', 'コード', '金額', '備考', 'カード']
display(view)

In [None]:
view = view.sort_values(['日付']).reset_index(drop=True)
display(view)

In [None]:
view.to_csv('{0}\{1}.csv'.format(bill_dir, card), index=False, encoding=('Shift-JIS'))

# nicos

In [None]:
card = 'nicos'

In [None]:
bills = os.listdir('{0}\{1}'.format(bill_dir, card))
bills

In [None]:
nicos = pd.DataFrame()
for x in bills:
    nicos = nicos.append(pd.read_csv('{0}\{1}\{2}'.format(bill_dir, card, x)
                         , encoding='Shift-JIS'))
display(nicos)

In [None]:
nicos.columns

In [None]:
nicos.groupby('支払回数').count()

In [None]:
nicos['コード'] = ""
nicos['カード'] = 'nicos'

In [None]:
nicos = nicos[~nicos['ご利用日'].isnull()]
display(nicos)

In [None]:
nicos = nicos[nicos['ご利用日'].str.match(r'\d+-\d+-\d+')]
display(nicos)

In [None]:
nicos = nicos[nicos['ご利用日'].str.contains('2017-')]
display(nicos)

In [None]:
nicos = nicos[['ご利用日', 'コード', 'ご利用金額（円）', 'ご利用先／商品内容など', 'カード']]
display(nicos)

In [None]:
nicos.columns = ['日付', 'コード', '金額', '備考', 'カード']
display(nicos)

In [None]:
nicos = nicos.sort_values(['備考', '日付']).reset_index(drop=True)
display(nicos)

In [None]:
nicos['日付'] = nicos['日付'].str.replace('-', '/')
display(nicos)

In [None]:
nicos.to_csv('{0}\{1}.csv'.format(bill_dir, card), index=False, encoding=('Shift-JIS'))

# amazon

未完成。購入履歴の一覧を取得したかったが、サイトの構造的になかなか難しい。

In [None]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.select import Select

In [None]:
import sys
import time

In [None]:
AMAZON_EMAIL = input('email=')
AMAZON_PASSWORD = input('password=')

In [None]:
# ChromeのWebDriverオブジェクトを作成する
driver = webdriver.Chrome()

In [None]:
# Amazonの注文履歴画面(ログイン画面)を開く
driver.get('https://www.amazon.co.jp/gp/css/order-history')
print('Waiting for contents to be loaded...', file=sys.stderr)
time.sleep(2)  # 2秒間待つ

In [None]:
# タイトルに'Amazonサインイン'が含まれていることを確認する
assert 'Amazonサインイン' in driver.title

In [None]:
input_element = driver.find_element_by_name('email')
input_element.send_keys(AMAZON_EMAIL)
input_element.send_keys(Keys.RETURN)
print('Waiting for contents to be loaded...', file=sys.stderr)
time.sleep(2)  # 2秒間待つ

In [None]:
input_element = driver.find_element_by_name('password')
input_element.send_keys(AMAZON_PASSWORD)
input_element.send_keys(Keys.RETURN)
print('Waiting for contents to be loaded...', file=sys.stderr)
time.sleep(2)  # 2秒間待つ

In [None]:
# タイトルに'注文履歴'が含まれていることを確認する
assert '注文履歴' in driver.title

In [None]:
#要素をid番号から取得する(idが001のセレクトタグ)
element = driver.find_element_by_id("orderFilter")
#指定するテキストを設定する
text = "2017年"
#セレクトタグの要素を指定してSelectクラスのインスタンスを作成
select = Select(element)
#セレクトタグのオプションをテキストを指定して選択する
select.select_by_visible_text(text)

In [None]:
# ソースコードを取得する
print(driver.page_source)

In [None]:
element = driver.find_element_by_id("ordersContainer")
print(element.text)

In [None]:
order = driver.find_elements_by_class_name("order")
for detail in order:
    print(detail.text)
    print('\n- - - - -\n')

In [None]:
order = driver.find_elements_by_class_name("order")

In [None]:
info = order[5].find_element_by_css_selector(".order-info")
info.text

In [None]:
detail = order[5].find_element_by_css_selector(".a-grid-top")
arow = detail.find_elements_by_css_selector(".a-row")
for x in arow:
    print(x.text)
    print('tag_name: {0}'.format(x.tag_name))
    print('\n')

In [None]:
# ページャーをたどる。
while True:
    assert '注文履歴' in browser.parsed.title.string # 注文履歴画面が表示されていることを確認する。

    print_order_history() # 注文履歴を表示する。

    link_to_next = browser.get_link('次へ') #「次へ」というテキストを持つリンクを取得する。
    if not link_to_next:
        break #「次へ」のリンクがない場合はループを抜けて終了する。

    print('Following link to next page...', file=sys.stderr)
    browser.follow_link(link_to_next) # 次へ」というリンクをたどる。

        

In [None]:
def print_order_history():
    """
    現在のページのすべての注文履歴を表示する
    """
    for line_item in driver.find_elements_by_class_name("order-info"):
        order = {} # 注文の情報を格納するためのdict
        # ページ内のすべての注文履歴について反復する。ブラウザーの開発者ツールでclass属性の値を確認できる
        # 注文の情報のすべての列について反復する
        for column in line_item.find_elements_by_class_name("a-column"):
            try:
                label_element = column.find_element_by_class_name('label')
                value_element = column.find_element_by_class_name('value')
            except:
                continue
            # ラベルと値がない列は無視する。
            if label_element and value_element:
                label = label_element.text
                value = value_element.text
                order[label] = value
        print(order['注文日'], order['合計']) # 注文の情報を表示する。
        print(order)

In [None]:
print_order_history()

In [None]:
# スクリーンショットを撮る
driver.save_screenshot('search_results.png')

In [None]:
driver.quit()

In [None]:
# ページャーをたどる。
while True:
    assert '注文履歴' in browser.parsed.title.string # 注文履歴画面が表示されていることを確認する。

    print_order_history() # 注文履歴を表示する。

    link_to_next = browser.get_link('次へ') #「次へ」というテキストを持つリンクを取得する。
    if not link_to_next:
        break #「次へ」のリンクがない場合はループを抜けて終了する。

    print('Following link to next page...', file=sys.stderr)
    browser.follow_link(link_to_next) # 次へ」というリンクをたどる。

        

In [None]:
def print_order_history():
    """
    現在のページのすべての注文履歴を表示する
    """
    for line_item in browser.select('.order-info'):
        order = {} # 注文の情報を格納するためのdict
        # ページ内のすべての注文履歴について反復する。ブラウザーの開発者ツールでclass属性の値を確認できる
        # 注文の情報のすべての列について反復する
        for column in line_item.select('.a-column'):
            label_element = column.select_one('.label')
            value_element = column.select_one('.value')
            # ラベルと値がない列は無視する。
            if label_element and value_element:
                label = label_element.get_text().strip()
                value = value_element.get_text().strip()
                order[label] = value
        print(order['注文日'], order['合計']) # 注文の情報を表示する。
        