In [2]:
import cv2
import pytesseract

def extract_text_from_image(image_path, lang='eng'):
    """
    画像からテキストを抽出する関数

    :param image_path: 画像ファイルのパス
    :param lang: 抽出するテキストの言語 (デフォルトは英語 'eng')
    :return: 抽出されたテキスト
    """
    # 画像の読み込み
    image = cv2.imread(image_path)

    # 画像をグレースケールに変換
    gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

    # 画像をぼかし処理
    blurred = cv2.GaussianBlur(gray, (5, 5), 0)

    # 画像からテキストを抽出
    text = pytesseract.image_to_string(blurred, lang=lang)

    return text

# 画像ファイルのパス
image_path = 'pyocr_test_2.png'

# 抽出するテキストの言語を指定してテキストを抽出
text = extract_text_from_image(image_path, lang='eng')
print('抽出されたテキスト (英語):')
print(text)

text = extract_text_from_image(image_path, lang='jpn')
print('抽出されたテキスト (日本語):')
print(text)


抽出されたテキスト (英語):
Bae EXFHOlOSS
INHER BAB IM ITY

A GIAB ROME: | C434 SF SARA HOO LE
(ECHO, BOQCSNTHEv eis. SHAG AIRE T
RRETHOCT, BA SB RHO, PEwIhOFs4
6 FEORBINT, AOR DEAT SNK
F-OAK, SLL OBB EOE T, FEA, ALT
SROP' BROMLEY, EEAMOIMIIE TELS lA,
UFAIPNIBS HY URS EDO, HODS OBNED

Sh 8 mete nitthna sr =-— @ -AZAstazren Wena sn...

抽出されたテキスト (日本語):
百敷や 志き軒瑞のいしのぶにも
なほ余りある落なりけり

月日は百人氏の過補にして行き9 ふ年るまた区人なり。 船の上
に生涯をめべ、伺のとらへて老いを迎ふる者け日々放にして
旅をすみるとす。 坪人る多く放に死せるあり。 予るハブれの年より
る、、方肢の風に読はれて、漂治の思ひやまず、沸22にさす>へ去
年の衝、江上の破屋にくもの菓をかひて、 やや年も基れ、要立て
る電の空に白河の関超えんと、そぞろ神の物につきて心をくるはせ、
道宜利の紹きにあひて取るものにつぁる、ず、 ももひきの破れをつ

ーーh 入る2をとをイイ村ムラ ーー要」に倒オスネテアトロ あい作のみ月まい

