# 5.2 文字列操作

- 文章から特定の情報を抽出したり加工したりすることが簡単にできる
- 正規表現と呼ばれる表現方法をマスターすることでより発展的な文字列検索を行うことも可能になる

## 準備
教科書に従い「text_search」フォルダを作成してその中に，「file.txt」という名前のテキストファイルを生成する．
中身は次に示す内容である．
```
東京タワーの郵便番号は105-0011で、東京スカイツリーの郵便番号は131-0045です。
```
今回はこのテキストファイルを使って文字列操作を練習する．

教科書ではすでに用意されているファイルを利用するが，前回の復習にもなるのでプログラムでフォルダとファイル作成を行う．
作業場所はGoogle Driveに作成した授業用フォルダとする．

In [None]:
# 作業場所に「text_search」フォルダを作成する
os.makedirs('/content/drive/MyDrive/SIT_2023/SCfCL/text_search', exist_ok=True)

# 「text_search」フォルダに「file.txt」ファイルを作成して文章を入力する
with open('/content/drive/MyDrive/SIT_2023/SCfCL/text_search/file.txt', 'x') as f:
  f.write('東京タワーの郵便番号は105-0011で、東京スカイツリーの郵便番号は131-0045です。')

## ライブラリなどのインポート
必要なライブラリなどをインポートする

In [1]:
import os, re

## 文字列検索

- 文字列検索をつかて「タワー」という文字列の有無と開始位置を検索
- 文字列がふくまれるかどうかを判定 ： in演算子
- 文字列の開始位置を判定 ： find()メソッド


In [2]:
file_path = '/content/drive/MyDrive/SIT_2023/SCfCL/text_search/file.txt'

with open(file_path) as f:
  text = f.read()

if 'タワー' in text:
  fd = text.find('タワー')
  print('タワーという文字列が' + str(fd +1) + '字目に含まれています')
else:
  print('タワーという文字列は含まれていません')

タワーという文字列が3字目に含まれています


## 正規表現を使って文字列を検索する

- reモジュール
- findall()関数
- compile()関数

In [3]:
import re

file_path = '/content/drive/MyDrive/SIT_2023/SCfCL/text_search/file.txt'

with open(file_path, encoding='UTF-8') as f:
  postal_code_list = re.findall(r'\d\d\d-\d\d\d\d', f.read())

print(postal_code_list)

['105-0011', '131-0045']


In [4]:
import os, re

file_path = '/content/drive/MyDrive/SIT_2023/SCfCL/text_search/file.txt'

postal_code_regex = re.compile(r'\d\d\d-\d\d\d\d')

with open(file_path, encoding='UTF-8') as f:
  postal_code_list = postal_code_regex.findall(f.read())

  print(postal_code_list)

['105-0011', '131-0045']


In [6]:
import re

file_path = '/content/drive/MyDrive/SIT_2023/SCfCL/text_search/file.txt'

with open(file_path, encoding='UTF-8') as f:
  print(re.search(r'\d\d\d-\d\d\d\d', f.read()))

<re.Match object; span=(11, 19), match='105-0011'>


In [5]:
import re

file_path = '/content/drive/MyDrive/SIT_2023/SCfCL/text_search/file.txt'

postal_code_regex = re.compile(r'\d\d\d-\d\d\d\d')

with open(file_path, encoding='UTF-8') as f:
  postal_code_match = postal_code_regex.search(f.read())

  if postal_code_match:
    print(postal_code_match)
    print(postal_code_match.group())
    print(postal_code_match.start())
    print(postal_code_match.end())
    print(postal_code_match.span())

<re.Match object; span=(11, 19), match='105-0011'>
105-0011
11
19
(11, 19)


In [7]:
import re

file_path = '/content/drive/MyDrive/SIT_2023/SCfCL/text_search/file.txt'

with open(file_path, encoding='UTF-8') as f:
  text_mod = re.sub('東京', 'Tokyo', f.read())
  print(text_mod)

Tokyoタワーの郵便番号は105-0011で、Tokyoスカイツリーの郵便番号は131-0045です。


In [16]:
import os, csv

path = '/content/drive/MyDrive/SIT_2023/SCfCL/CSV/'

os.makedirs(path, exist_ok=True)

with open(path + 'sample.csv', 'x', newline='') as f:
  w = csv.writer(f, delimiter=',')
  w.writerow(['1', '2', '3'])
  w.writerow(['4', '5', '6'])

In [18]:
import csv

file_path = '/content/drive/MyDrive/SIT_2023/SCfCL/CSV/sample.csv'
with open(file_path, 'r', newline='') as f:
  r = csv.reader(f)
  for row in r:
    print(row)

['1', '2', '3']
['4', '5', '6']


In [22]:
import pandas as pd

path = '/content/drive/MyDrive/SIT_2023/SCfCL/CSV/'

df = pd.read_csv(path + 'sample.csv', header=None)
df.loc[0] = ['10', '20', '30']
df.to_csv(path +'sample2.csv', index=False, header=None)