## テキスト処理

- 文字列操作について

- 文字列リテラルの書き方
  - ''
  - ""
  - ''''''
  - """"""
- エスケープシーケンス
  - \\ \を出力
  - \' 'を出力
  - \" "を出力
  - \n 行送(LF)を出力
  - \r 復帰(CR)を出力
  - \t タブ(TAB)を出力


In [None]:
print("こんにちは\r今日はいい天気ですね\n")
print("こんにちは\n今日はいい天気ですね")

# r(raw)はエスケープを無効にする
print(r"こんにちは\n今日はいい天気ですね")

今日はいい天気ですね

こんにちは
今日はいい天気ですね
こんにちは\n今日はいい天気ですね


In [9]:
# 複数文字列リテラルにスペースを挟むことで一つの文字列として扱うことができる
"こんにちは" "さようなら"

'こんにちはさようなら'

In [11]:
# 複数の文字列をまとめる
# fmt: off
(
    "1行が長い文字列を"
    "このように複数行に渡って"
    "書くこともできます"
)
# fmt: on

'1行が長い文字列をこのように複数行に渡って書くこともできます'

In [12]:
# 文字列以外のオブジェクトを文字列に変換する
from uuid import uuid4

value = uuid4()
value

UUID('58474f01-c053-4012-b894-2e32d27291d5')

In [13]:
str(value)

'58474f01-c053-4012-b894-2e32d27291d5'

### 文字列のチェックメソッド

- isalnum() アルファベット数値文字の場合 True
- isalpha() 文字の場合(非 ASCII 文字列でも数字記号でなければ) True
- isdecimal() 10 進数の場合 True
- isdigit() 数字文字の場合 True

....などなど

[文字列メソッド](https://docs.python.org/ja/3.13/library/stdtypes.html#string-methods)


In [1]:
print("123abc".isalnum(), "123abc!".isalnum())
print("abc".isalpha(), "abc1".isalpha())
print("4095".isdecimal(), "fff".isdecimal())
print("10".isdigit(), "fff".isdigit())

True False
True False
True False
True False


### 文字列変換

- upper()
- lower()
- capitalize()
- title()

...などなど


In [20]:
print("hello".upper())
print("WORLD".lower())
print("we are the world".capitalize())
print("hello world".title())
print("I hava a Pen, I have a Apple, oh ApplePen".replace("Apple", "PineApple"))

print("123".zfill(5))
print("hello".removeprefix("he"))
print("hello".removesuffix("llo"))

HELLO
world
We are the world
Hello World
I hava a Pen, I have a PineApple, oh PineApplePen
00123
llo
he


### その他のメソッド

- fine() 引数の値が見つかった位置を返す
- split() 引数の値で分割する
- join() 引数の値で文字列を結合する
- startwith() 接頭辞を調べる
- endowith() 接尾辞を調べる
- encode() 第一引数の形式に変換、第二引数で変換対応を記載

...などなど


In [30]:
from os import replace


print("あいうえお".find("え"))
print("あ い う え お".split(" "))
print("/".join(["あ", "い", "う", "え", "お"]))
print("Hello".startswith("H"))
print("World".endswith("d"))
print("I like 🍜".encode("ascii", "replace"))

3
['あ', 'い', 'う', 'え', 'お']
あ/い/う/え/お
True
True
b'I like ?'


### 文字列定数

- string.ascii_lowercase
- string.ascii_uppercase
- string.ascii_letters
- string.digits
- string.hexdigits
- string.oxtdigits
- string.punctuation
- string.whitespace
- string.printable


In [33]:
import string

print(string.ascii_lowercase)
print(string.ascii_uppercase)
print(string.ascii_letters)
print(string.digits)
print(string.hexdigits)
print(string.octdigits)
print(string.punctuation)
print(string.whitespace)
print(string.printable)

abcdefghijklmnopqrstuvwxyz
ABCDEFGHIJKLMNOPQRSTUVWXYZ
abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
0123456789
0123456789abcdefABCDEF
01234567
!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
 	

0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~ 	



### よくある使い方


In [35]:
s = "Python"
print("P" in s)
print("p" in s)

True
False


### フォーマット・文字列リテラル

- 文字列リテラルに指揮を埋め込む


In [4]:
# f-stringの書き方
value = "晴れ"
print(f"今日の天気は{value}です")
a = 1
b = 2
print(f"a + b = {a + b}")
value = "python"
print(f"The Zen of {value.capitalize()}")

今日の天気は晴れです
a + b = 3
The Zen of Python


In [5]:
# =をつけた出力
user_name = "Taro Tanaka"
user_age = 30

print(f"{user_name=}, {user_age=}")

user_name='Taro Tanaka', user_age=30


In [19]:
# 指定した幅で左、中央、右揃えが可能
value = "Hello World"
print(f"|{value:<30}|")
print(f"|{value:^30}|")
print(f"|{value:>30}|")

# 指定した文字で幅を埋める
print(f"|{value:-<30}|")
print(f"|{value:-^30}|")
print(f"|{value:->30}|")

# 各種進数変換を行う
number = 1000
print(f"{number:b}")  # 2進数
print(f"{number:o}")  # 8進数
print(f"{number:d}")  # 10進数
print(f"{number:x}")  # 16進数小文字
print(f"{number:X}")  # 16進数大文字

# 固定小数点を文字列にする
import math

print(f"{math.pi:f}")
print(type(f"{math.pi:f}"))

# 百分率で表示
print(f"{math.pi:%}")

# 数値を3桁ごとに区切る
million = 1000000
print(f"{million:,}")

# 表示する桁数を指定する(この場合は、5文字まで小数点以下2位まで)
print(f"|{math.pi:5.2f}|")

# 日付のフォーマット
from datetime import datetime

print(f"{datetime.now():%Y-%m-%d}")

|Hello World                   |
|         Hello World          |
|                   Hello World|
|Hello World-------------------|
|---------Hello World----------|
|-------------------Hello World|
1111101000
1750
1000
3e8
3E8
3.141593
<class 'str'>
314.159265%
1,000,000
| 3.14|
2025-04-29


In [31]:
# 少し前のf-string
a = 1
b = 10
print("{1} * {0} = {2}".format(a, b, a * b))
print("{a} * {b} = {c}".format(a=a, b=b, c=a * b))
print("{} * {} = {}".format(a, b, a * b))

print("|{:-<30}|".format("Hellow World"))


# %演算子を使用した埋め込み
print("Hello %s!" % "World")
print("1 + 3 = %d" % 4)
print("My name is %(name)s, %(age)s years old" % {"name": "Taro", "age": 30})

10 * 1 = 10
1 * 10 = 10
1 * 10 = 10
|Hellow World------------------|
Hello World!
1 + 3 = 4
My name is Taro, 30 years old


## 正規表現を扱う re


In [36]:
import re

# 「.」は任意の一文字に一致するという表記
print(re.search("a.c", "abcde"))
print(re.match("a.c", "abcde"))
print(re.search(".c", "abcde"))
print(re.match(".c", "abcde"))

<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(1, 3), match='bc'>
None


In [48]:
# 正規表現早見表：https://www-creators.com/tool/regex-checker

# フラグの使用
# A、ASCII \w, \sなどのマッチング処理をUnicodeではなく、ASCII文字のみを使用する
# I、IGNORECASE 大文字小文字を意識せずマッチする
# M、MULITILINE 複数行のテキストを指定した際に^と$が各行の先頭と末尾にマッチする
# S、DOTALL '.'を改行を含む任意の文字とマッチさせる(通常はマッチさせない)

# 全ての半角英数字とアンダースコア
# https://www.flake8rules.com/rules/W605.html
print(re.search(r"\w", "あいうえおABC"))

# ASCIIのみ
print(re.search(r"\w", "あいうえおABC", flags=re.A))

# 大文字小文字を意識しない
print(re.search("[abc]+", "ABC"))
print(re.search("[abc]+", "ABC", flags=re.I))

# 改行を含むマッチ
print(re.search("a.c", "a\nc"))
print(re.search("a.c", "a\nc", flags=re.S))

# 複数フラグの設置
print(re.search("a.c", "A\nC", re.I | re.S))

<re.Match object; span=(0, 1), match='あ'>
<re.Match object; span=(5, 6), match='A'>
None
<re.Match object; span=(0, 3), match='ABC'>
None
<re.Match object; span=(0, 3), match='a\nc'>
<re.Match object; span=(0, 3), match='A\nC'>


In [84]:
# 正規表現オブジェクト compile
pattern = re.compile("[a-n]+")
print(pattern.search("python"))
print(pattern.match("python"))
print(pattern.fullmatch("eggs"))
print(pattern.fullmatch("egg"))

tell_pattern = re.compile("[-+()]")
print(tell_pattern.split("080-1234-5678"))
print(tell_pattern.split("(0120)828-828"))
print(tell_pattern.split("+81-08-1235-5678"))
print(tell_pattern.sub("", "+81-08-1235-5678"))  # 記号パターンの削除


# @以降の文字をスペース以外で全てマッチさせ、それを@gmail.comへ変換させる
email_pattern = re.compile("@[^ ]*")
emails = "XXX@ YYY@yahoo.co.jp ZZZ@xxx.org"
print(email_pattern.sub("@gmail.com", emails, count=2))


re_numbers = re.compile(r"\d+")
print(re_numbers.findall("080-1234-5678"))
i = re_numbers.finditer("080-1234-5678")
print(type(i))
for m in i:
    print(m)

<re.Match object; span=(3, 4), match='h'>
None
None
<re.Match object; span=(0, 3), match='egg'>
['080', '1234', '5678']
['', '0120', '828', '828']
['', '81', '08', '1235', '5678']
810812355678
XXX@gmail.com YYY@gmail.com ZZZ@xxx.org
['080', '1234', '5678']
<class 'callable_iterator'>
<re.Match object; span=(0, 3), match='080'>
<re.Match object; span=(4, 8), match='1234'>
<re.Match object; span=(9, 13), match='5678'>


In [102]:
# マッチオブジェクト
m = re.match(r"(\d+)-(\d+)-(\d+)", "080-1234-5678")
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group(1, 2, 3))
print(m[0])
print(dir(m))

# 名前付きグループ
name_pattern = re.compile(r"(?P<last>\w+) (?P<first>\w+)")
name = name_pattern.match("鈴木 一郎")
print(name.group("last"))
print(name.group("first"))
print(name[1])
print(name.groups())

080-1234-5678
080
1234
5678
('080', '1234', '5678')
080-1234-5678
['__class__', '__class_getitem__', '__copy__', '__deepcopy__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'end', 'endpos', 'expand', 'group', 'groupdict', 'groups', 'lastgroup', 'lastindex', 'pos', 're', 'regs', 'span', 'start', 'string']
鈴木
一郎
鈴木
('鈴木', '一郎')


## Unicode データベース

- [参考：snippets/snippets_unicodedata.ipynb](https://github.com/akagikouzanh/python-snippets-hub/blob/master/snippets/snippets_unicodedata.ipynb)
