In [20]:
import fitz  # PyMuPDF

def pdf_to_images(pdf_path, image_folder):
    with fitz.open(pdf_path) as pdf_document:
        for page_num in range(len(pdf_document)):
            page = pdf_document[page_num]
            pixmap = page.get_pixmap()
            image_path = f"{image_folder}/page_{page_num + 1}.png"
            pixmap.save(image_path)  # Use pixmap.save() for PNG format

In [21]:
pdf_path = 'matome_n3.pdf'
image_folder = 'matome_n3/'
pdf_to_images(pdf_path, image_folder)

In [48]:
from pathlib import Path
import google.generativeai as genai

genai.configure(api_key="YOUR-APIKEY")

# Set up the model
generation_config = {
  "temperature": 0.8,
  "top_p": 1,
  "top_k": 32,
  "max_output_tokens": 4096,
}

model = genai.GenerativeModel(model_name="gemini-pro-vision",
                              generation_config=generation_config)
book = {}

for i in range(13,106): 
    # Validate that an image is present
    if not (img := Path(f"matome_n3/page_{i}.png")).exists():
        continue

    image_parts = [
      {
        "mime_type": "image/png",
        "data": Path(f"matome_n3/page_{i}.png").read_bytes()
      },
    ]

    prompt_parts = [
      image_parts[0],
      "input: Extract the words in Japanese and the definitions. The format as follows: | Japanese_word | hiragana | Translation in English ",
      "input: if you find the word れんしゅう, please ignore everything after that.",
      "output: |台所 |（だいどころ) | Kitchen"
    ]

    response = model.generate_content(prompt_parts)
    print(response.text)
    book[f"{i}"] = response.text

 | 電子レンジ |（でんしレンジ） | microwave oven |
| ガスコンロ |（ガスコンロ） | gas range |
| ガスコンロ |（ガスコンロ） | gas range |
| ワイングラス |（ワイングラス） | wine glass |
| お茶碗 |（おちゃわん） | tea cup |
| コーヒーカップ |（コーヒーカップ） | coffee cup |
| 冷蔵庫 |（れいぞうこ） | refrigerator |
| 温蔵庫 |（おんぞうこ） | warming drawer |
| 電気ポット |（でんきポット） | electric pot |
| 炊飯器 |（すいはんき） | rice cooker |
| リビング |（リビング） | Living room |
| 窓ガラス |（まどガラス） | window glass |
| 天井 |（てんじょう） | ceiling |
| 戸 |（と） | door |
| 押入れ |（おしいれ） | closet |
| エアコン |（エアコン） | air conditioner |
| コード |（コード） | cord |
| カーペット |（カーペット） | carpet |
 | エアコンのリモコン | （エアコンの　リモコン） | remote control for an air conditioner
| 電源を入れる | （でんげんを　いれる） | plug in
| じゅうたんを掃除く | （じゅうたんを　そうじする） | vacuum the floor
| 冷蔵庫 | （れいぞうこ） | refrigerator
| あたためている | （あたためている） | be well-conditioned
| クーラー | （クーラー） | cooler
| 冷たい | （つめたい） | cold
| 日がさして入っている | （ひが　さして　はいっている） | have good exposure to the sun
| 勉強机 | （べんきょうづくえ） | desk
| 日陰がさす | （ひかげがさす） | have poor exposure to the sun
| スイッチ | （スイッチ） | switch
| 切る | （きる） | tur

 | 旅行 | りょこう | travel
| 荷物 | にもの | baggage
| つめる | つめる | to pack
| 二泊三日 | にはくみっか | two nights and three days
| 温泉に行く | おんせんにいく | to go to a hot spring
| 楽しむ | たのしむ | to enjoy
| 思い出に残す | おもいでにのこす | to make memories
| 費用 | ひよう | cost
| かかる | かかる | to cost
| 予算 | よさん | budget
| 超える | こえる | to exceed
| 計画 | けいかく | plan
| 立てる | たてる | to make a plan
| 下調べ | したしらべ | research
| する | する | to do
| ホテル | ホテル | hotel
| 予約 | よやく | reservation
| する | する | to make a reservation
| 値段 | ねだん | price
| 高い | たかい | expensive
| 安い | やすい | cheap
| 朝食 | ちょうしょく | breakfast
| 込み | こみ | included
| 別 | べつ | separate
| 考える | かんがえる | to think
| 予算オーバー | よさんオーバー | over budget
| 困る | こまる | to be困る |困った | こまった | troubled
| どうしよう | どうしよう | what should I do
| 悩む | なやむ | to worry
| 考える | かんがえる | to think
| 方法 | ほうほう | way
| 見つける | みつける | to find
| 節約 | せつやく | to save money
| する | する | to do
| 交通費 | こうつうひ | transportation費
| かかる | かかる | to cost
| 高速バス | こうそくバス | highway bus
| 乗る | のる | to ride
| 新幹線 | しんかんせん | bullet trai

 | 着替える |きがえる | change one's clothes |
| ひんぬう |ひんぬう | be soaked |
| マフラーを巻く |まふらーをまく | wrap a muffler around the neck |
| 手袋をはめる |てぶくろをはめる | put on gloves |
| 鍵をかける |かぎをかける | lock a door |
| スペアキー |すぺあきー | spare clothes |
| おとなしい人 |おとなしいひと | a quiet person |
| にぎやか |にぎやか | lively, noisy |
| ほんとう |ほんとう | truth |
| 早く |はやく | early |
| ねむい |ねむい | sleepy |
| かいもの |かいもの | shopping |
| じてんしゃ |じてんしゃ | bicycle |
| ほん |ほん | book |
| えんぴつ |えんぴつ | pencil |
|けしゴム |けしゴム | eraser |
| かみ |かみ | paper |
| ノート |ノート | notebook |
| せんせい |せんせい | teacher |
| ともだち |ともだち | friend |
| おかあさん |おかあさん | mother |
| おとうさん |おとうさん | father |
| いもうと |いもうと | younger sister |
| おにいさん |おにいさん | older brother |
| いぬ |いぬ | dog |
| ねこ |ねこ | cat |
| うし |うし | cow |
|うま |うま | horse |
| ひつじ |ひつじ | sheep |
| ぶた |ぶた | pig |
| とり |とり | bird |
| さかな |さかな | fish |
| むし |むし | insect |
| くも |くも | spider |
| はち |はち | bee |
| あり |あり | ant |
| みみず |みみず | earthworm |
| 木 |き | tree |
| はな |はな | flower |
| くさ |くさ | grass |
| いし |いし | stone |


 | 印刷 |（いんさつ） | print |
| 明日 |（あした） | tomorrow |
| 明後日 |（あさって） | the day after tomorrow |
| 明々後日 |（あさあさって） | two days from tomorrow |
| 一昨日 |（おととい） | the day before yesterday |
| 一昨々日 |（おとととい） | two days before yesterday |
| 来週 |（らいしゅう） | next week |
| 先週 |（せんしゅう） | last week |
| 今週 |（こんしゅう） | this week |
| 先月 |（せんげつ） | last month |
| 今月 |（こんげつ） | this month |
| 来月 |（らいげつ） | next month |
| 先日 |（せんじつ） | a few days ago |
| 最近 |（さいきん） | recently |
| まもなく |（まもなく） | soon |
| もうすぐ |（もうすぐ） | soon |
| すこし |（すこし） | a little |
| ちょっと |（ちょっと） | a little bit |
| 少しばかり |（すこしばかり） | a little bit |
| 少しだけ |（すこしだけ） | a little bit |
| いくらか |（いくらか） | some, several, a little |
| 十分 |（じゅうぶん） | enough |
| 十分すぎるほど |（じゅうぶんすぎるほど） | more than enough |
 |えんぴつをけずる | えんぴつをけずります | sharpen a pencil |
|ものさしで測る | ものさしではかります | measure something with a ruler |
|たし算をする | たしざんをします | sum up |
|ひき算をする | ひきざんをします | subtract |
|同じ学年 | おなじがくねん | in the same grade |
|転校生 | てんこうせい | a student who transfers to a new school |
|けがを

 | 家族 | かぞく | family |
| 親戚 | しんせき | relatives |
| 夫婦 | ふうふ | married couple |
| 息子 | むすこ | son |
| 娘 | むすめ | daughter |
| 長男 | ちょうなん | eldest son |
| 次男 | じなん | second son |
| 三男 | さんなん | third son |
| 長女 | ちょうじょ | eldest daughter |
| 次女 | じじょ | second daughter |
| 三女 | さんじょ | third daughter |
| 末っ子 | まっこ | youngest child |
| おじいさん | おじいさん | grandfather |
| おばあさん | おばあさん | grandmother |
| 父 | ちち | father |
| 母 |はは | mother |
| 兄 | あに | elder brother |
| 姉 | あね | elder sister |
| 弟 | おとうと | younger brother |
| 妹 | いもうと | younger sister |
| 祖父 | そふ | paternal grandfather |
| 祖母 | そこ | paternal grandmother |
| 外祖父 | がいそふ | maternal grandfather |
| 外祖母 | がいそぼ | maternal grandmother |
| 義父 | ぎふ | father-in-law |
| 義母 | ぎぼ | mother-in-law |
| 嫁 | よめ | daughter-in-law |
| 婿 | むこ | son-in-law |
| 孫 | まご | grandchild |
| ひ孫 | ひまご | great-grandchild |
| 親戚 | しんせき | relatives |
| 従兄弟 | いとこ | cousin |
| 叔父 | おじ | uncle |
| 叔母 | おば | aunt |
| 甥 | おい | nephew |
| 姪 | めい | niece |
| 兄弟 | きょうだい | bro

 | Japanese_word | hiragana | Translation in English |
|---|---|---|
| かんじ | かんじ | Chinese character |
| がんばる | がんばる | to do one's best, to persevere |
| きのう | きのう | yesterday |
| きょう | きょう | today |
| あした | あした | tomorrow |
| にちようび | にちようび | Sunday |
| げつようび | げつようび | Monday |
| かようび | かようび | Tuesday |
| すいようび | すいようび | Wednesday |
| もくようび | もくようび | Thursday |
| きんようび | きんようび | Friday |
| どようび | どようび | Saturday |
| ねんがっぴょう | ねんがっぴょう | New Year's card |
| おめでとうございます | おめでとうございます | Happy New Year |
| 今年もよろしくおねがいします | 今年もよろしくおねがいします | Please continue to take care of me this year as well. |
| はがき | はがき | postcard |
| 切手 | きって | stamp |
| 手紙 | てがみ | letter |
| メール | メール | email |
| 電話 | でんわ | telephone |
| かける | かける | to call |
| うける | うける | to receive |
| でんわばんごう | でんわばんごう | telephone number |
| 住所 | じゅうしょ | address |
| 名前 | なまえ | name |
| 生年月日 | せいねんがっぴ | date of birth |
| 電話番号 | でんわばんごう | telephone number |
| 住所 | じゅうしょ | address |
| メールアドレス | メールアドレス | email address |
| 血液型 | けつえきがた | 

 | 鍵がかかっている | かぎがかかっている | locked |
| 診察にかかる | しんさつにかかる | to see a doctor |
| 気にかかる | きにかかる | to be concerned about |
| ボタンを押す | ボタンをおす | to push a button |
| CDをかける | シーディーをかける | to play a CD |
| 布をかける | ぬのをかける | to put a cloth on |
| 声をからす | こえをからす | to lose one's voice |
| 歯をみがく | はをみがく | to brush one's teeth |
| 手紙を書く | てがみをかく | to write a letter |
| 勉強する | べんきょうする | to study |
| 料理をする | りょうりをする | to cook |
| 掃除をする | そうじをする | to clean |
| 洗濯をする | せんたくをする | to do laundry |
| 買い物をする | かいものをする | to go shopping |
| 旅行する | りょこうする | to travel |
| 電話をかける | でんわをかける | to make a phone call |
| メールを送る | メールをおくる | to send an email |
| インターネットをする | インターネットをする | to use the internet |
| テレビを見る | テレビをみる | to watch TV |
| 映画を見る | えいがをみる | to watch a movie |
| 本を読む | ほんをよむ | to read a book |
| 新聞を読む | しんぶんをよむ | to read a newspaper |
| 雑誌を読む | ざっしをよむ | to read a magazine |
| 漫画を読む | まんがをよむ | to read a manga |
| ゲームをする | ゲームをする | to play a game |
| 散歩をする | さんぽをする | to take a walk |
| ジョギングをする | ジョギングをす

In [99]:
start_index = 0
end_index = -1

# Get the keys within the specified range
keys_to_iterate = list(book.keys())[start_index:end_index]

# Iterate over the specified range of keys
for key in keys_to_iterate:
    print(f'Key: {key}, Value: {book[key]}')

Key: 13, Value:  | 電子レンジ |（でんしレンジ） | microwave oven |
| ガスコンロ |（ガスコンロ） | gas range |
| ガスコンロ |（ガスコンロ） | gas range |
| ワイングラス |（ワイングラス） | wine glass |
| お茶碗 |（おちゃわん） | tea cup |
| コーヒーカップ |（コーヒーカップ） | coffee cup |
| 冷蔵庫 |（れいぞうこ） | refrigerator |
| 温蔵庫 |（おんぞうこ） | warming drawer |
| 電気ポット |（でんきポット） | electric pot |
| 炊飯器 |（すいはんき） | rice cooker |
| リビング |（リビング） | Living room |
| 窓ガラス |（まどガラス） | window glass |
| 天井 |（てんじょう） | ceiling |
| 戸 |（と） | door |
| 押入れ |（おしいれ） | closet |
| エアコン |（エアコン） | air conditioner |
| コード |（コード） | cord |
| カーペット |（カーペット） | carpet |
Key: 14, Value:  | エアコンのリモコン | （エアコンの　リモコン） | remote control for an air conditioner
| 電源を入れる | （でんげんを　いれる） | plug in
| じゅうたんを掃除く | （じゅうたんを　そうじする） | vacuum the floor
| 冷蔵庫 | （れいぞうこ） | refrigerator
| あたためている | （あたためている） | be well-conditioned
| クーラー | （クーラー） | cooler
| 冷たい | （つめたい） | cold
| 日がさして入っている | （ひが　さして　はいっている） | have good exposure to the sun
| 勉強机 | （べんきょうづくえ） | desk
| 日陰がさす | （ひかげがさす） | have poor exposure to the sun
| スイッチ | （

In [7]:
from docx import Document

# Read data from the txt file
file_path = 'book.txt'  # Replace with the actual path to your txt file

with open(file_path, 'r', encoding='utf-8') as file:
    lines = file.readlines()

# Delete the first character of each line
lines = [line[1:].strip() for line in lines]

# Process the data
table_data = [line.split('|') for line in lines if '|' in line]

# Create a new Word document
doc = Document()

# Add a table to the document
table = doc.add_table(rows=1, cols=3)

# Add header row
header_row = table.rows[0]
header_row.cells[0].text = 'Japanese'
header_row.cells[1].text = 'Reading'
header_row.cells[2].text = 'English'

# Add data to the table
for data_row in table_data:
    row_cells = table.add_row().cells
    for i in range(3):
        row_cells[i].text = data_row[i].strip()

# Save the document
doc.save('vocab.docx')
