In [109]:
from datetime import datetime, timedelta
import re

def parse_embedded_minute_timetable_text(text):
    lines = text.strip().splitlines()
    current_hour = None
    times = []

    for line in lines:
        # 制御文字や中点・ゼロ幅スペースなどを除去
        line = re.sub(r"[・●•｡･　\u200b\u3000\u2028\u2029]", "", line)
        line = re.sub(r"[^\x20-\x7E]", "", line).strip()

        # 行頭に時刻があれば更新
        hour_match = re.match(r"^(\d{1,2})", line)
        if hour_match:
            current_hour = hour_match.group(1).zfill(2)

        # 行末の分を抽出（数字2桁が末尾）
        minute_match = re.search(r"(\d{1,2})$", line)
        if minute_match and current_hour:
            minute = minute_match.group(1).zfill(2)
            try:
                if current_hour == "24":
                    dt = datetime.strptime(f"00:{minute}", "%H:%M") + timedelta(days=1)
                else:
                    dt = datetime.strptime(f"{current_hour}:{minute}", "%H:%M")
                times.append(dt.time())
            except ValueError:
                continue

    return times

In [110]:
text_総武線各停_三鷹 = clean_raw_timetable_text("""
04	[普通]三 55
05	[普通]三 16
		[普通]三 31
		[普通]三 42
		[普通]三 53
06	[普通]三 03
		[普通]三 12
		[普通]中 19
		[普通]三 27
		[普通]中 34
		[普通]中 40
		[普通]三 45
		[普通]中 51
		[普通]三 55
		[普通]三 59
07	[普通]三 04
		[あず]松 07
		[富回]河 07
		[普通]三 10
		[普通]三 13
		[普通]中 17
		[普通]三 20
		[普通]三 23
		[普通]三 25
		[普通]三 28
		[普通]三 31
		[普通]中 34
		[普通]三 36
		[普通]中 39
		[普通]三 41
		[普通]中 44
		[普通]三 46
		[普通]三 49
		[普通]中 52
		[普通]三 54
		[普通]三 57
		[普通]三 59
08	[普通]三 02
		[普通]中 04
		[普通]三 07
		[普通]三 09
		[普通]中 12
		[普通]三 14
		[普通]三 17
		[普通]中 19
		[普通]中 22
		[普通]三 24
		[普通]三 27
		[普通]中 29
		[普通]三 32
		[普通]中 34
		[普通]三 37
		[普通]中 40
		[普通]三 44
		[普通]中 47
		[普通]三 51
		[普通]三 55
		[普通]中 59
09	[普通]三 03
		[普通]中 07
		[普通]三 12
		[普通]三 16
		[普通]中 20
		[普通]三 24
		[普通]中 28
		[普通]三 32
		[普通]三 36
		[普通]中 40
		[普通]中 45
		[普通]三 49
		[普通]三 53
		[普通]中 58
10	[普通]中 03
		[普通]三 08
		[普通]中 14
		[普通]中 20
		[普通]三 26
		[普通]中 32
		[普通]中 39
		[普通]三 44
		[普通]中 48
		[普通]三 53
		[普通]中 57
11	[普通]中 04
		[普通]三 09
		[普通]中 14
		[普通]中 20
		[普通]三 25
		[普通]中 30
		[普通]中 36
		[普通]三 41
		[普通]中 47
		[普通]三 53
		[普通]中 58
12	[普通]中 04
		[普通]三 09
		[普通]中 15
		[普通]中 20
		[普通]三 26
		[普通]中 31
		[普通]中 37
		[普通]三 42
		[普通]中 48
		[普通]三 53
		[普通]中 59
13	[普通]中 04
		[普通]三 11
		[普通]中 15
		[普通]中 21
		[普通]三 26
		[普通]中 32
		[普通]中 37
		[普通]三 42
		[普通]中 48
		[普通]三 54
		[普通]中 59
14	[普通]中 05
		[普通]三 10
		[普通]中 16
		[普通]中 21
		[普通]三 26
		[普通]中 32
		[普通]三 38
		[普通]中 43
		[普通]中 48
		[普通]三 54
15	[普通]中 00
		[普通]中 05
		[普通]三 10
		[普通]中 16
		[普通]中 21
		[普通]三 26
		[普通]中 31
		[普通]三 37
		[普通]中 42
		[普通]三 47
		[普通]中 52
		[普通]三 58
16	[普通]中 03
		[普通]三 09
		[普通]三 15
		[普通]中 20
		[普通]三 26
		[普通]三 32
		[普通]三 37
		[普通]中 43
		[普通]三 47
		[普通]中 52
		[普通]三 56
17	[普通]三 01
		[普通]中 07
		[普通]三 12
		[普通]三 17
		[普通]中 22
		[普通]三 27
		[普通]中 32
		[普通]三 37
		[普通]三 41
		[普通]中 45
		[普通]三 49
		[普通]三 54
		[普通]中 58
18	[普通]中 02
		[普通]三 06
		[普通]中 10
		[普通]三 13
		[普通]三 17
		[普通]中 21
		[普通]三 25
		[普通]中 30
		[普通]三 34
		[普通]中 39
		[普通]三 44
		[普通]中 48
		[普通]三 52
		[普通]三 56
19	[普通]三 00
		[普通]中 04
		[普通]三 08
		[普通]三 12
		[普通]中 16
		[普通]三 20
		[普通]中 24
		[普通]三 29
		[普通]中 34
		[普通]三 39
		[普通]三 44
		[普通]三 49
		[普通]中 54
		[普通]三 59
20	[普通]中 04
		[普通]三 09
		[普通]中 13
		[普通]三 17
		[普通]中 21
		[普通]三 26
		[普通]三 30
		[普通]三 34
		[普通]中 39
		[普通]三 44
		[普通]三 49
		[普通]中 54
21	[普通]三 00
		[普通]中 05
		[普通]三 11
		[普通]中 16
		[普通]三 22
		[普通]中 28
		[普通]三 35
		[普通]三 42
		[普通]三 49
		[普通]中 56
22	[普通]三 03
		[普通]中 09
		[普通]三 16
		[普通]中 23
		[普通]三 29
		[普通]三 36
		[普通]三 43
		[普通]中 49
		[普通]三 56
23	[普通]中 03
		[普通]三 10
		[普通]中 18
		[普通]三 26
		[普通]三 33
		[普通]三 40
		[普通]三 48
		[普通]中 55
00	[普通]三 02
		[普通]三 09
		[普通]中 19
		[普通]中 27""")

In [111]:
text_総武線各停_千葉 = clean_raw_timetable_text("""
04	[普通]千 38
05	[普通]千 01
		[普通]千 27
		[普通]千 37
		[普通]千 45
		[普通]千 56
06	[普通]千 05
		[普通]千 16
		[普通]千 27
		[普通]千 36
		[普通]千 43
		[普通]千 52
07	[普通]千 00
		[普通]千 07
		[普通]西 12
		[普通]千 17
		[普通]西 21
		[普通]千 25
		[普通]西 28
		[普通]千 31
		[普通]西 36
		[普通]千 39
		[普通]西 43
		[普通]千 47
		[普通]西 51
		[普通]千 55
		[普通]西 59
08	[普通]千 04
		[普通]西 08
		[普通]千 12
		[普通]西 16
		[普通]千 21
		[普通]西 25
		[普通]千 29
		[普通]西 32
		[普通]津 36
		[普通]千 39
		[普通]西 43
		[普通]津 46
		[普通]千 50
		[普通]西 53
		[普通]千 57
09	[普通]津 00
		[普通]千 03
		[普通]津 06
		[普通]千 09
		[普通]津 12
		[普通]千 16
		[普通]津 19
		[普通]千 22
		[普通]津 27
		[普通]千 31
		[普通]津 35
		[普通]千 40
		[普通]津 44
		[普通]千 49
		[普通]津 54
		[普通]千 58
10	[普通]津 03
		[普通]千 07
		[普通]津 12
		[普通]千 16
		[普通]津 21
		[普通]千 25
		[普通]津 30
		[普通]千 35
		[普通]津 39
		[普通]千 44
		[普通]津 49
		[普通]千 55
11	[普通]津 00
		[普通]千 06
		[普通]津 12
		[普通]千 17
		[普通]津 23
		[普通]千 28
		[普通]津 34
		[普通]千 39
		[普通]津 45
		[普通]千 50
		[普通]津 56
12	[普通]千 01
		[普通]津 07
		[普通]千 13
		[普通]津 19
		[普通]千 23
		[普通]津 29
		[普通]千 34
		[普通]津 39
		[普通]千 45
		[普通]津 50
		[普通]千 56
13	[普通]津 01
		[普通]千 07
		[普通]津 12
		[普通]千 18
		[普通]津 23
		[普通]千 29
		[普通]津 34
		[普通]千 40
		[普通]津 45
		[普通]千 51
		[普通]津 56
14	[普通]千 01
		[普通]津 07
		[普通]千 12
		[普通]津 17
		[普通]千 23
		[普通]津 30
		[普通]千 34
		[普通]津 40
		[普通]千 45
		[普通]津 51
		[普通]千 57
15	[普通]津 02
		[普通]千 08
		[普通]千 14
		[普通]津 21
		[普通]千 26
		[普通]津 31
		[普通]千 37
		[普通]千 42
		[普通]津 47
		[普通]千 52
		[普通]津 57
16	[普通]千 02
		[普通]津 07
		[普通]千 12
		[普通]津 17
		[普通]千 23
		[普通]津 28
		[普通]千 33
		[普通]千 38
		[普通]千 42
		[普通]津 47
		[普通]千 51
		[普通]津 56
17	[普通]千 01
		[普通]津 06
		[普通]千 11
		[普通]西 15
		[普通]千 20
		[普通]千 24
		[普通]西 29
		[普通]千 33
		[普通]千 37
		[普通]千 42
		[普通]西 45
		[普通]千 49
		[普通]津 52
		[普通]西 56
		[普通]千 59
18	[普通]津 02
		[普通]津 06
		[普通]千 09
		[普通]西 13
		[普通]千 16
		[普通]千 19
		[普通]津 23
		[普通]西 26
		[普通]千 29
		[普通]津 32
		[普通]西 35
		[普通]千 38
		[普通]千 41
		[普通]津 43
		[普通]西 47
		[普通]千 50
		[普通]千 54
		[普通]西 57
19	[普通]千 01
		[普通]津 04
		[普通]千 09
		[普通]千 14
		[普通]千 18
		[普通]津 23
		[普通]千 27
		[普通]津 31
		[普通]千 35
		[普通]津 40
		[普通]千 44
		[普通]津 49
		[普通]千 53
		[普通]千 58
20	[普通]津 03
		[普通]千 09
		[普通]千 14
		[普通]津 20
		[普通]千 25
		[普通]千 31
		[普通]津 34
		[普通]千 38
		[普通]千 42
		[普通]津 46
		[普通]千 51
		[普通]津 55
21	[普通]千 00
		[普通]津 04
		[普通]千 09
		[普通]津 14
		[普通]千 19
		[普通]津 24
		[普通]千 29
		[普通]千 34
		[普通]千 40
		[普通]津 44
		[普通]千 50
		[普通]津 55
22	[普通]千 00
		[普通]津 06
		[普通]千 12
		[普通]津 18
		[普通]千 25
		[普通]千 31
		[普通]津 38
		[普通]千 43
		[普通]千 50
		[普通]津 57
23	[普通]千 04
		[普通]津 10
		[普通]千 18
		[普通]津 26
		[普通]千 34
		[普通]津 40
		[普通]津 48
		[普通]千 55
00	[普通]津 01
		[普通]津 08
		[普通]千 15
		[普通]津 21
		[普通]津 28
		[普通]津 34
""")

In [112]:
text_伊勢崎線区間急行_浅草 = clean_raw_timetable_text("""
""")

In [113]:
text_伊勢崎線区間急行_伊勢崎 = clean_raw_timetable_text("""
""")

In [None]:
text_半蔵門線_渋谷 = clean_raw_timetable_text("""
""")

In [None]:
text_半蔵門線_押上 = clean_raw_timetable_text("""
""")

In [None]:
text_新宿線_新宿 = clean_raw_timetable_text("""
""")

In [None]:
text_新宿線_本八幡 = clean_raw_timetable_text("""
""")

In [None]:
text_大江戸線_両国_春日 = clean_raw_timetable_text("""
""")

In [None]:
text_大江戸線_大門_六本木 = clean_raw_timetable_text("""
""")

In [None]:
text_浅草線快特停車駅_押上 = clean_raw_timetable_text("""
""")

In [None]:
text_浅草線快特停車駅_西馬込 = clean_raw_timetable_text("""
""")

In [None]:
text_浅草線各停駅_押上 = clean_raw_timetable_text("""
""")

In [None]:
text_浅草線各停駅_西馬込 = clean_raw_timetable_text("""
""")

In [None]:
text_亀戸線_曳舟 = clean_raw_timetable_text("""
""")

In [None]:
text_亀戸線_亀戸 = clean_raw_timetable_text("""
""")

In [None]:
text_押上線_西馬込 = clean_raw_timetable_text("""
""")

In [None]:
text_押上線_成田空港 = clean_raw_timetable_text("""
""")

In [None]:
text_京成本線_京成上野 = clean_raw_timetable_text("""
""")

In [None]:
text_京成本線_成田空港 = clean_raw_timetable_text("""
""")

In [None]:
text_総武快速線_千葉 = clean_raw_timetable_text("""
""")

In [None]:
text_総武快速線_東京 = clean_raw_timetable_text("""
""")

In [None]:
text_伊勢崎線急行_曳舟 = clean_raw_timetable_text("""
""")

In [None]:
text_伊勢崎線準急_浅草 = clean_raw_timetable_text("""
""")

In [None]:
text_伊勢崎線準急_伊勢崎 = clean_raw_timetable_text("""
""")

In [None]:
text_伊勢崎線準急_押上 = clean_raw_timetable_text("""
""")

In [None]:
text_日比谷線_北千住 = clean_raw_timetable_text("""
""")

In [None]:
text_日比谷線_中目黒 = clean_raw_timetable_text("""
""")

In [None]:
text_銀座線_浅草 = clean_raw_timetable_text("""
""")

In [None]:
text_銀座線_渋谷 = clean_raw_timetable_text("""
""")

In [None]:
text_常磐新線_つくば = clean_raw_timetable_text("""
""")

In [None]:
text_常磐新線_秋葉原 = clean_raw_timetable_text("""
""")

In [114]:
# --- 関数定義：時刻表処理と集計 ---
from datetime import datetime, timedelta
import pandas as pd

def parse_starred_time_text(text):
    lines = text.strip().splitlines()
    current_hour = None
    times = []
    for line in lines:
        line = line.strip()
        if not line:
            continue
        if line.startswith("*"):
            part = ''.join(filter(str.isdigit, line))
            if current_hour and part:
                times.append(f"{current_hour}:{part.zfill(2)}")
        elif line.isdigit():
            current_hour = line.zfill(2)
    return [datetime.strptime(t, "%H:%M").time() for t in times]

def make_time_bins(start="04:00", end="23:59"):
    bins, labels = [], []
    start_dt = datetime.strptime(start, "%H:%M")
    end_dt = datetime.strptime(end, "%H:%M")
    while start_dt < end_dt:
        bin_start = start_dt.time()
        bin_end = (start_dt + timedelta(minutes=14)).time()
        label = f"{bin_start.strftime('%H:%M')}-{bin_end.strftime('%H:%M')}"
        bins.append((bin_start, bin_end))
        labels.append(label)
        start_dt += timedelta(minutes=15)
    return bins, labels

def count_by_time_bins(time_list, bins, labels):
    count_dict = {label: 0 for label in labels}
    for t in time_list:
        for (bin_start, bin_end), label in zip(bins, labels):
            if bin_start <= t <= bin_end:
                count_dict[label] += 1
                break
    return count_dict

def make_frequency_df(direction_dict, route, station):
    bins, labels = make_time_bins()
    data_rows = []
    for dest, text in direction_dict.items():
        parsed_times = parse_starred_time_text(text)
        counts = count_by_time_bins(parsed_times, bins, labels)
        data_rows.append(list(counts.values()))
    index = pd.MultiIndex.from_product([[route], [station], list(direction_dict.keys())],
                                       names=["路線", "基準駅", "行き先"])
    df = pd.DataFrame(data_rows, index=index, columns=labels)
    return df

In [115]:
all_data = {
     ("総武線（各停）", "錦糸町"): {
         "三鷹": text_総武線各停_三鷹,
         "千葉": text_総武線各停_千葉,
     },
#     ("伊勢崎線（区間急行）", "鐘ヶ淵"): {
#         "浅草": text_伊勢崎線区間急行_浅草,
#         "伊勢崎": text_伊勢崎線区間急行_伊勢崎,
#     },
#     ("半蔵門線", "錦糸町"): {
#         "渋谷": text_半蔵門線_渋谷,
#         "押上": text_半蔵門線_押上,
#     },
#     ("新宿線", "菊川"): {
#         "新宿": text_新宿線_新宿,
#         "本八幡": text_新宿線_本八幡,
#     },
#     ("大江戸線", "清澄白河"): {
#         "両国・春日": text_大江戸線_両国_春日,
#         "大門・六本木": text_大江戸線_大門六本木,
#     },
#     ("浅草線（快特停車駅）", "浅草"): {
#         "押上": text_浅草線快特停車駅_押上,
#         "西馬込": text_浅草線快特停車駅_西馬込,
#     },
#     ("浅草線（各停駅）", "蔵前"): {
#         "押上": text_浅草線各停駅_押上,
#         "西馬込": text_浅草線各停駅_西馬込,
#     },
#     ("亀戸線", "東あずま"): {
#         "曳舟": text_亀戸線_曳舟,
#         "亀戸": text_亀戸線_亀戸,
#     },
#     ("押上線", "八広"): {
#         "西馬込": text_押上線_西馬込,
#         "成田空港": text_押上線_成田空港,
#     },
#     ("京成本線", "京成関屋"): {
#         "京成上野": text_京成本線_京成上野,
#         "成田空港": text_京成本線_成田空港,
#     },
#     ("総武快速線", "錦糸町"): {
#         "千葉": text_総武快速線_千葉,
#         "東京": text_総武快速線_東京,
#     },
#     ("伊勢崎線（急行）", "押上"): {
#         "曳舟": text_伊勢崎線急行_曳舟,
#     },
#     ("伊勢崎線（準急）", "曳舟"): {
#         "浅草": text_伊勢崎線準急_浅草,
#         "伊勢崎": text_伊勢崎線準急_伊勢崎,
#         "押上": text_伊勢崎線準急_押上,
#     },
#     ("日比谷線", "人形町"): {
#         "北千住": text_日比谷線_北千住,
#         "中目黒": text_日比谷線_中目黒,
#     },
#     ("銀座線", "田原町"): {
#         "浅草": text_銀座線_浅草,
#         "渋谷": text_銀座線_渋谷,
#     },
#     ("常磐新線", "浅草"): {
#         "つくば": text_常磐新線_つくば,
#         "秋葉原": text_常磐新線_秋葉原,
#     },
 }

In [116]:
# --- 各組み合わせごとに DataFrame を生成し、まとめて結合 ---
all_dfs = []
for (route, station), direction_dict in all_data.items():
    df = make_frequency_df(direction_dict, route=route, station=station)
    all_dfs.append(df)

# --- 結合して最終的な DataFrame を作成 ---
final_df = pd.concat(all_dfs)

In [117]:
# --- Excelファイルとして保存 ---
final_df.to_csv("train_all.csv")

In [118]:
print(parse_embedded_minute_timetable_text("""
04	[普通]三 55
05	[普通]三 16
		[普通]三 31
		[普通]三 42
		[普通]三 53
"""))

[datetime.time(16, 16)]
