In [1]:
from IPython.display import display, HTML
import pandas as pd
import re

# Explore inventories and explode obvious entries

## Read database with clean dates

In [2]:
df = pd.read_excel("./torzskonyv_clean_dates.xlsx")

display(HTML("<h2>Sheet with cleaned year</h2>"))
display(df)

Unnamed: 0.1,Unnamed: 0,Összes darab,Törzskönyvi szám,Megszerzés ideje,Leltárcsoport,year
0,0,48.0,1874/0001,1874,"2209-2211 Amerika gyűjtemény, 2212-2215 Törlés...",1874.0
1,1,1456.0,1874/0002,1874,"1-10 Ázsia gyűjtemény, 19-84 Ázsia gyűjtemény,...",1874.0
2,2,283.0,1874/0003,1874,"11-18 Ázsia gyűjtemény, 158-169 Ázsia gyűjtemé...",1874.0
3,3,45.0,1874/0004,1874,"235-240 Ázsia gyűjtemény, 332-334 Ázsia gyűjte...",1874.0
4,4,1.0,1874/0005,1874,170 Ázsia gyűjtemény,1874.0
...,...,...,...,...,...,...
11766,11766,59.0,2021/0014,,"2021.20.1-44 Ázsia gyűjtemény, 2021.21.1-2 Eur...",
11767,11767,1.0,2021/0015,2005,2021.23.1 Bútor gyűjtemény,2005.0
11768,11768,2.0,2021/0016,2021-03-05 00:00:00,??? Halászat gyűjtemény,2021.0
11769,11769,3.0,2021/0017,,??? Bútor gyűjtemény,


## Read inventory names from text file

In [3]:
from pathlib import Path
def read_inventories(filename:str):
    assert Path(filename).exists()
    def lines(filename):
        with open(filename, encoding="utf8") as f:
            for line in f:
                line = line.strip()
                if line:
                    yield line

    for l in lines(filename):
        yield l

from IPython.display import display, HTML
inventories = sorted([l for l in read_inventories("elnevezesek.txt")])

display(HTML("<h2>Inventories</h2>"))
print(", ".join(inventories))

Adattár, Afrika gyűjtemény, Amerika gyűjtemény, Bútor gyűjtemény, Egyház gyűjtemény, Egyházi gyűjtemény, Európa gyűjtemény, Földművelés, Gyűjtögetés gyűjtemény, Hagyomány, Halászat gyűjtemény, Hangszer, Hangszer Népzene gyűjtemény, Hangszer gyűjtemény, Hangszer gyűjtemény (Népzene oszt.), Hangszer gyűjtemény (Népzene), Indonézia gyűjtemény, Kerámia gyűjtemény, Kézirat-gyűjtemény, Közlekedés gyűjtemény, Mesterség gyűjtemény, Nyomatgyűjtemény, Népzene (Hangszer) gyűjtemény, Népzene gyűjtemény, Népzene gyűjtemény (Hangszer), Rajz és Nyomat gyűjtemény, Szokás gyűjtemény, Szokás hagyomány, Szokás és játékgyűjtem, Textil gyűjtemény, Textil- és viseletgy., Textilgyűjtemény, Táplálkozás gyűjtemény, Táplálkozás gyűjtemény, fényképgyűjtemény, nyomat gyűjtemény, rajz- és nyomatgyűjtemény, rajzgyűjtemény, Állattartás gyűjtemény, Állattartás-pásztorm., Átány gyűjtemény, Ázsia gyűjtemény, Építkezés gyűjtemény, Óceánia gyűjtemény


## Generate regexp Patterns for each inventory

In [4]:
patterns = [
    *["\d+?-\d+? {inventory}".format(inventory=inventory) for inventory in inventories],
    *["\d+? {inventory}".format(inventory=inventory) for inventory in inventories],
    *["\d+?\.\d+?\.\d+?\.\d+?-\d+? {inventory}".format(inventory=inventory) for inventory in inventories], #"2021.4.1.1-2", 2021.4.1.1-2 Egyházi gyűjtemény
    *["\d+?\.\d+?\.\d+?-\d+? {inventory}".format(inventory=inventory) for inventory in inventories], 
    *["\d+?\.\d+?\.\d+? {inventory}".format(inventory=inventory) for inventory in inventories],
    
    "F \d+? Fényképgyűjtemény", # F 71857 Rajzgyűjtemény
    "F \d+?-\d+? Fényképgyűjtemény", # F 71611-71644 Fényképgyűjtemény
    "\d+?-\d+? \(.+?\) Fényképgyűjtemény",
    "\d+?-\d+? \(.+?\) Fényképgyűjt.",
    "\d+? \(F\d+?\) Fényképgyűjtemény",

    "\d+?-\d+? \(.+?\) Rajzgyűjtemény", 
    "\d+? \(.+?\) Rajzgyűjtemény" # 97339 (R10530) Rajzgyűjtemény
    "F \d+? Rajzgyűjtemény", # F 71857 Rajzgyűjtemény

    "\d+?-\d+? \(.+?\) Adattár" # 4776-4777 (F 2881-F 2882) Adattár
]

# show
display(HTML("<h2>Patterns</h2>"))
print("\n".join(patterns[:10])+"\n...")

\d+?-\d+? Adattár
\d+?-\d+? Afrika gyűjtemény
\d+?-\d+? Amerika gyűjtemény
\d+?-\d+? Bútor gyűjtemény
\d+?-\d+? Egyház gyűjtemény
\d+?-\d+? Egyházi gyűjtemény
\d+?-\d+? Európa gyűjtemény
\d+?-\d+? Földművelés
\d+?-\d+? Gyűjtögetés gyűjtemény
\d+?-\d+? Hagyomány
...


## Extract all matches from Inventory column by patterns

In [5]:
from typing import List, Tuple

def extract_all_match(text: str, patterns:List[str])->Tuple[List['str'], 'str']:
    if not isinstance(text, str):
        return text
    
    pattern = re.compile( "|".join( ["{}".format(p) for p in patterns] ), re.I )

    matches = [m for m in pattern.finditer(text)]
    if not len(matches):
        return text

    results = []
    leftover = text
    for match in reversed(matches):
        results.append( text[match.start():match.end()] )
        leftover = leftover[0:match.start()] + "[...]" + leftover[match.end():-1]

    return [*[res for res in reversed(results)], leftover]
    
def last_item(lst: list):
    if isinstance(lst, list) and len(lst)>0:
        return lst[-1]
    else:
        return lst

def test_extraction():
    column = "Leltárcsoport"

    cell = df[column][0]
    results = extract_all_match(cell, patterns)

    assert "2209-2211 Amerika gyűjtemény" in results, results
    assert "2222 Amerika gyűjtemény" in results
    assert "2256-2258 Óceánia gyűjtemény" in results
    assert "4002 Óceánia gyűjtemény" in results
    
    cell = df[column][176]
    results = extract_all_match(cell, patterns)
    assert "10946-10947 Gyűjtögetés gyűjtemény" in results

    cell = df[column][177]
    results = extract_all_match(cell, patterns)
    assert "12818-12843 (F1259-F1274, F5219-F5228) Fényképgyűjtemény" in results

    cell = df[column][11579]
    results = extract_all_match(cell, patterns)
    assert "2019.27.6.1-2 Textil gyűjtemény" in results
    assert "2019.27.5 Amerika gyűjtemény" in results

test_extraction()

# do whole column
inventory_series = df["Leltárcsoport"].apply(lambda cell:extract_all_match(cell, patterns))

In [6]:
# explode inventories
df2 = df.copy()
df2['inventory'] = inventory_series
df2 = df2[['year', 'inventory']].explode(column='inventory')

df2

Unnamed: 0,year,inventory
0,1874.0,2209-2211 Amerika gyűjtemény
0,1874.0,2216-2217 Amerika gyűjtemény
0,1874.0,2222 Amerika gyűjtemény
0,1874.0,2223-2253 Amerika gyűjtemény
0,1874.0,2256-2258 Óceánia gyűjtemény
...,...,...
11767,2005.0,2021.23.1 Bútor gyűjtemény
11767,2005.0,[...]
11768,2021.0,??? Halászat gyűjtemény
11769,,??? Bútor gyűjtemény



# Mark cleaned inventory rows

In [9]:
def is_exact_match(text: str, patterns:List[str])->List[bool]:
    if not isinstance(text, str):
        return False
    pattern = re.compile( "|".join( ["^{}$".format(p) for p in patterns] ), re.I )
    matches = [m for m in pattern.findall(text)]
    return len(matches)>0

df2['ok'] = df2['inventory'].apply(lambda cell: is_exact_match(cell, patterns))

print("parsed: {:.0f}%, {} from {}".format(sum(df2['ok'])/len(df2)*100, sum(df2['ok']), len(df2)))

parsed: 70%, 27007 from 38778


In [10]:
df2.to_excel("./torzskonyv_explode.xlsx")

In [11]:
import re
cell = "7061-7064 (F492-F495) Fényképgyűjtemény, 7068 Európa gyűjtemény, 8960 Ázsiai textil gyűjtemény, 8961-8962 Ázsia?, 8963-8965 Ázsia gyűjtemény, 8966 Ázsia?, 8967-8974 (F905-F912) Fényképgyűjtemény"

re.findall("\d+-\d+ \(.+?\) Fényképgyűjtemény", cell)

['7061-7064 (F492-F495) Fényképgyűjtemény',
 '8967-8974 (F905-F912) Fényképgyűjtemény']

In [21]:
cell = "9358-9359 Mesterség gyűjtemény"
p = re.compile("(\d+)-(\d+) (Mesterség gyűjtemény)")
match = p.match(cell)

int(match.groups()[1]) - int(match.groups()[0]) + 1

2

In [41]:
cell = "11135-11235 (F1119-F1219, F5199-F5202, F184007-F184010, F5204, F5205, F5207-F5197) Fényképgyűjtemény"
pattern = re.compile("(F\d+-F\d+)")
match = pattern.findall(cell)

print(match)

['F1119-F1219', 'F5199-F5202', 'F184007-F184010', 'F5207-F5197']
