# 第13回　コンピュータリテラシ発展

## 問題点と目標

### 問題点
- ファイルとフォルダの管理ルールが不適切
- 請求書のファイル名が不規則かつ，ファイルが分散している

### 目標
- 請求書は「請求書_会社名+様+YYYY年MM月」に統一
- お客様の会社ごとにフォルダを作成
- 請求書以外のファイルは移動操作を行わない

## データの準備

これから行う分析のためにデータを準備します
[Moodle](https://moodle2023.shonan-it.ac.jp/mod/resource/view.php?id=56158)もしくは，[GitHub](https://github.com/shimizu-sit/2023-SIT-SCfCL/blob/main/13th-Lecture/before.zip)にある「before.zip」をダウンロードして解凍してください．  
作業場所に「organize_data」フォルダを作成してそこの「before」フォルダをアップロードしてください．  
「organize_data」の中に「before」フォルダがあり，その中に「佐藤」と「田中」フォルダがあります．

## ライブラリ等のインポート

必要なライブラリを事前にインポートしておきます．

今回使用するライブラリは `shutil`, `glob`, `re`, `os`, `openpyxl` です．

In [1]:
import os, re, shutil, glob

import openpyxl

## フォルダパスの設定

パスが長くなるのでフォルダパスを設定します．

In [4]:
org_path = '/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/'

## 作業用フォルダにすべてのファイルをコピーする

In [5]:
try:
  shutil.copytree(org_path + 'before', org_path + 'after')
except FileExistsError as e:
  print('すでにafterフォルダが存在します')

## すべてのファイルを取得する

In [9]:
files = glob.glob(org_path + 'after/**', recursive=True)

files

['/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/',
 '/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/佐藤',
 '/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/佐藤/タスク管理.xlsx',
 '/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/佐藤/請求書_202002_DEF商事様.xlsx',
 '/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/田中',
 '/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/田中/ABCホールディングス_2020年2月.xlsx',
 '/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/田中/ABCホールディングス_2020年3月.xlsx',
 '/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/田中/DEF商事_202001.xlsx']

## 取得したファイルが請求書ファイルかどうか判別する

### 拡張子が「.xlsx」かどうかを確認

In [14]:
def check_excel_file(file):
  if '.xlsx' in file:
    return True
  else:
    return False

for file in files:
  if check_excel_file(file):
    print('「' + file + '」はExcelです．')
  else:
    print('「' + file + '」はExcelではないです．')

「/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/」はExcelではないです．
「/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/佐藤」はExcelではないです．
「/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/佐藤/タスク管理.xlsx」はExcelです．
「/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/佐藤/請求書_202002_DEF商事様.xlsx」はExcelです．
「/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/田中」はExcelではないです．
「/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/田中/ABCホールディングス_2020年2月.xlsx」はExcelです．
「/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/田中/ABCホールディングス_2020年3月.xlsx」はExcelです．
「/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/田中/DEF商事_202001.xlsx」はExcelです．


### シート名が「請求書」かどうかを確認

In [16]:
invoice_sheet_name = '請求書'

def check_invoice_excel_file(wb):
  if invoice_sheet_name in wb.sheetnames:
    return True
  else:
    return False

for file in files:
  if check_excel_file(file):
    wb = openpyxl.load_workbook(file)
    if check_invoice_excel_file(wb):
      print('「' + file + '」は請求書です．')
    else:
      print('「' + file + '」は請求書ではないです．')
  else:
    print('「' + file + '」はExcelではないです．')


「/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/」はExcelではないです．
「/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/佐藤」はExcelではないです．
「/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/佐藤/タスク管理.xlsx」は請求書ではないです．
「/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/佐藤/請求書_202002_DEF商事様.xlsx」は請求書です．
「/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/田中」はExcelではないです．
「/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/田中/ABCホールディングス_2020年2月.xlsx」は請求書です．
「/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/田中/ABCホールディングス_2020年3月.xlsx」は請求書です．
「/content/drive/MyDrive/SIT_2023/SCfCL/organize_data/after/田中/DEF商事_202001.xlsx」は請求書です．


  warn(msg)
  warn("""Cannot parse header or footer so it will be ignored""")
  warn(msg)


## 新しいファイル名とフォルダ名を取得する

### 会社名を取得する

In [20]:
corporate_name_cell = 'B2'

def get_invoice_corporate_name(wb):
  name = wb[invoice_sheet_name][corporate_name_cell].value
  return name

for file in files:
  if check_excel_file(file):
    wb = openpyxl.load_workbook(file)
    if check_invoice_excel_file(wb):
      name = get_invoice_corporate_name(wb)
      print(name)

株式会社DEF商事
株式会社ABCホールディングス
株式会社ABCホールディングス
株式会社DEF商事


### 請求書の発行年月を取得する

In [18]:
invoice_created_date_cell = 'B5'

def get_invoice_created_date(wb):
  # 値「日付YYYY/MM」が取り出される
  value = wb[invoice_sheet_name][invoice_created_date_cell].value

  # 請求書の日付「YYYY/MM」を取得する正規表現を準備
  invoice_created_date_regex = re.compile(r'\d\d\d\d/\d\d')
  invoice_created_date_match = invoice_created_date_regex.search(value)

  # 文字列YYYY/MMが取り出される
  date = invoice_created_date_match.group()
  return date

for file in files:
  if check_excel_file(file):
    wb = openpyxl.load_workbook(file)
    if check_invoice_excel_file(wb):
      date = get_invoice_created_date(wb)
      print(date)

2020/02
2020/02
2020/03
2020/01


  warn(msg)
  warn("""Cannot parse header or footer so it will be ignored""")
  warn(msg)


### 請求書ファイル名をフォーマット通りの形にする

In [21]:
def get_new_invoice_file_name(wb):
  invoice_corporate_name = get_invoice_corporate_name(wb)
  invoice_created_date = get_invoice_created_date(wb)
  #文字列YYYY/MMをYYYY年MM月に変換する
  formatted_date='{0}年{1}月'.format(invoice_created_date[0:4],invoice_created_date[5:7])
  #ファイル名を生成:例「請求書_株式会社A様_2020年6月」
  file_name='請求書_{0}様_{1}'.format(invoice_corporate_name,formatted_date)
  file_name_with_ext=file_name+'.xlsx'
  return file_name_with_ext,invoice_corporate_name

for file in files:
  if check_excel_file(file):
    wb = openpyxl.load_workbook(file)
    if check_invoice_excel_file(wb):
      new_file_name,new_dir_name=get_new_invoice_file_name(wb)
      print(new_file_name, new_dir_name)

請求書_株式会社DEF商事様_2020年02月.xlsx 株式会社DEF商事
請求書_株式会社ABCホールディングス様_2020年02月.xlsx 株式会社ABCホールディングス
請求書_株式会社ABCホールディングス様_2020年03月.xlsx 株式会社ABCホールディングス
請求書_株式会社DEF商事様_2020年01月.xlsx 株式会社DEF商事


## 新しいフォルダを作成する

In [23]:
import os

def make_new_invoice_dir(invoice_corporate_name):
  dir_path = org_path + 'after/' + invoice_corporate_name
  os.makedirs(dir_path,exist_ok=True)
  return dir_path

for file in files:
  if check_excel_file(file):
    wb = openpyxl.load_workbook(file)
    if check_invoice_excel_file(wb):
      new_file_name,new_dir_name=get_new_invoice_file_name(wb)
      new_dir_path = make_new_invoice_dir(new_dir_name)

new_dir = os.listdir(org_path + 'after/')
new_dir

  warn(msg)
  warn("""Cannot parse header or footer so it will be ignored""")
  warn(msg)


['佐藤', '田中', '株式会社DEF商事', '株式会社ABCホールディングス']

## ファイル名変更とフォルダ移動を行う

In [30]:
for file in files:
  if check_excel_file(file):
    wb = openpyxl.load_workbook(file)
    if check_invoice_excel_file(wb):
      new_file_name,new_dir_name=get_new_invoice_file_name(wb)
      new_dir_path = make_new_invoice_dir(new_dir_name)
      shutil.move(file, new_dir_path+'/'+new_file_name)