In [1]:
from typing import List, Tuple
import pandas as pd

In [2]:
from pathlib import Path
def read_inventories(filename:str):
    assert Path(filename).exists()
    def lines(filename):
        with open(filename, encoding="utf8") as f:
            for line in f:
                line = line.strip()
                if line:
                    yield line

    for l in lines(filename):
        yield l

from IPython.display import display, HTML
inventories = sorted([l for l in read_inventories("elnevezesek.txt")])

display(HTML("<h2>Inventories</h2>"))
print(", ".join(inventories))

Adattár, Afrika gyűjtemény, Amerika gyűjtemény, Bútor gyűjtemény, Egyház gyűjtemény, Egyházi gyűjtemény, Európa gyűjtemény, Földművelés, Gyűjtögetés gyűjtemény, Hagyomány, Halászat gyűjtemény, Hangszer, Hangszer Népzene gyűjtemény, Hangszer gyűjtemény, Hangszer gyűjtemény (Népzene oszt.), Hangszer gyűjtemény (Népzene), Indonézia gyűjtemény, Kerámia gyűjtemény, Kézirat-gyűjtemény, Közlekedés gyűjtemény, Mesterség gyűjtemény, Nyomatgyűjtemény, Népzene (Hangszer) gyűjtemény, Népzene gyűjtemény, Népzene gyűjtemény (Hangszer), Rajz és Nyomat gyűjtemény, Szokás gyűjtemény, Szokás hagyomány, Szokás és játékgyűjtem, Textil gyűjtemény, Textil- és viseletgy., Textilgyűjtemény, Táplálkozás gyűjtemény, Táplálkozás gyűjtemény, fényképgyűjtemény, nyomat gyűjtemény, rajz- és nyomatgyűjtemény, rajzgyűjtemény, Állattartás gyűjtemény, Állattartás-pásztorm., Átány gyűjtemény, Ázsia gyűjtemény, Építkezés gyűjtemény, Óceánia gyűjtemény


In [3]:
df = pd.read_excel("./torzskonyv_clean_dates.xlsx")

In [8]:
import re
patterns = [
    *["\d+?-\d+? {inventory}".format(inventory=inventory) for inventory in inventories],
    *["\d+? {inventory}".format(inventory=inventory) for inventory in inventories],
    *["\d+?\.\d+?\.\d+?\.\d+?-\d+? {inventory}".format(inventory=inventory) for inventory in inventories], #"2021.4.1.1-2", 2021.4.1.1-2 Egyházi gyűjtemény
    *["\d+?\.\d+?\.\d+?-\d+? {inventory}".format(inventory=inventory) for inventory in inventories], 
    *["\d+?\.\d+?\.\d+? {inventory}".format(inventory=inventory) for inventory in inventories],
    
    
    
    "F \d+? Fényképgyűjtemény", # F 71857 Rajzgyűjtemény
    
    "F \d+?-\d+? Fényképgyűjtemény", # F 71611-71644 Fényképgyűjtemény
    "\d+?-\d+? \([F\d\s-]+?\) Fényképgyűjtemény", # 43090-43100 (F4512-F4522) Fényképgyűjtemény
    "\d+?-\d+? \(.+?\) Fényképgyűjt.",
    "\d+? \(F\d+?\) Fényképgyűjtemény",

    "\d+?-\d+? \([R\d\s-]+?\) Rajzgyűjtemény" #"42936-43059 (R10583-R10583) Rajzgyűjtemény
    "\d+? \([R\d\s]+?\) Rajzgyűjtemény" # 97339 (R10530) Rajzgyűjtemény
    "F \d+? Rajzgyűjtemény", # F 71857 Rajzgyűjtemény

    "\d+?-\d+? ([F\d\s-]+?\) Adattár" # 4776-4777 (F 2881-F 2882) Adattár
]

def extract_all_match(text: str, patterns:List[str])->Tuple[List['str'], 'str']:
    if not isinstance(text, str):
        return text
    
    pattern = re.compile( "|".join( ["{}".format(p) for p in patterns] ), re.I )

    matches = [m for m in pattern.finditer(text)]
    if not len(matches):
        return text

    results = []
    leftover = text
    for match in reversed(matches):
        results.append( text[match.start():match.end()] )
        leftover = leftover[0:match.start()] + "[...]" + leftover[match.end():-1]

    return [*[res for res in reversed(results)], leftover]

def test_extraction():
    column = "Leltárcsoport"

    cell = df[column][0]
    results = extract_all_match(cell, patterns)

    assert "2209-2211 Amerika gyűjtemény" in results, results
    assert "2222 Amerika gyűjtemény" in results
    assert "2256-2258 Óceánia gyűjtemény" in results
    assert "4002 Óceánia gyűjtemény" in results
    
    cell = df[column][176]
    results = extract_all_match(cell, patterns)
    assert "10946-10947 Gyűjtögetés gyűjtemény" in results

    cell = df[column][177]
    results = extract_all_match(cell, patterns)
    assert "12818-12843 (F1259-F1274, F5219-F5228) Fényképgyűjtemény" in results

    cell = df[column][11579]
    results = extract_all_match(cell, patterns)
    assert "2019.27.6.1-2 Textil gyűjtemény" in results
    assert "2019.27.5 Amerika gyűjtemény" in results

# test
test_extraction()

# do whole column
inventory_series = df["Leltárcsoport"].apply(lambda cell:extract_all_match(cell, patterns))

# display
for i, cell in enumerate(inventory_series):
    if isinstance(cell, list):
        for entry in cell:
            print(i, entry, "\n")
    

0 2209-2211 Amerika gyűjtemény 

0 2216-2217 Amerika gyűjtemény 

0 2222 Amerika gyűjtemény 

0 2223-2253 Amerika gyűjtemény 

0 2256-2258 Óceánia gyűjtemény 

0 4002 Óceánia gyűjtemény 

0 [...], 2212-2215 Törlés 49/897, [...], [...], [...], 2254-2255 Törlés 49/897, [...],  

1 1-10 Ázsia gyűjtemény 

1 19-84 Ázsia gyűjtemény 

1 86-120 Ázsia gyűjtemény 

1 122-157 Ázsia gyűjtemény 

1 171-191 Ázsia gyűjtemény 

1 197 Ázsia gyűjtemény 

1 198-234 Ázsia gyűjtemény 

1 241-246 Ázsia gyűjtemény 

1 249-262 Ázsia gyűjtemény 

1 264-285 Ázsia gyűjtemény 

1 291-331 Ázsia gyűjtemény 

1 335-383 Ázsia gyűjtemény 

1 492-520 Ázsia gyűjtemény 

1 523-528 Ázsia gyűjtemény 

1 530-535 Ázsia gyűjtemény 

1 537-564 Ázsia gyűjtemény 

1 566-587 Ázsia gyűjtemény 

1 589 Ázsia gyűjtemény 

1 592-596 Ázsia gyűjtemény 

1 597-600 (R11897-R11910) Rajzgyűjtemény 

1 602-604 (R11897-R11910) Rajzgyűjtemény 

1 606-607 (R11897-R11910) Rajzgyűjtemény 

1 608-610 (R11909/1-7) Rajzgyűjtemény 

1 611-612 (R1189