импорты

In [227]:
import pandas as pd
import numpy as np
import camelot
import os
import re
import json
import gc
import time
import shutil
import pathlib




## Тут мы написали функции препроцессинга

In [None]:
def preprocessor(table: pd.DataFrame) -> dict[str, pd.DataFrame]:
    """
    Preprocess table
    """
    table_name = table.iloc[0]
    table_columns = table.iloc[1]
    table.columns = table_columns
    table.columns.name = None
    table = table.drop(index=[0, 1])
    table = table.reset_index(drop=True)
    return {str(table_name): pd.DataFrame(table)}

In [229]:
RE_DATE = re.compile(r"\b\d{1,2}[./-]\d{1,2}[./-]\d{2,4}\b")
RE_LONG_CODE = re.compile(r"\b(?:\d{1,4}\.){2,}\d{1,4}\b") 
RE_YEAR = re.compile(r"\b(19|20)\d{2}\b")
RE_TRAIL_DOTNUM = re.compile(r"(?<=\s)[\.\-]\d{1,3}\b")    
RE_PERCENT_TAIL = re.compile(r"\d+\s?%.*$")                
RE_MULTI_SPACE = re.compile(r"\s+")
RE_SP_BEFORE_PUNCT = re.compile(r"\s+([,.;:])")
RE_PUNCT_DUP = re.compile(r"[,.]{2,}")

TAILKEYS = r"(суха[яй]|мелк|помол|сечк|ток\d*|гранул|экструд|смесь|мешан|энпкх|энанпкх|энапкх|эн|энк)"
RE_TAIL_AFTER_COMMA = re.compile(rf",\s*.*?(?=($|\b))", re.IGNORECASE)
RE_TAILKEYS_AFTER_COMMA = re.compile(rf",\s*(?={TAILKEYS})[^\n]*", re.IGNORECASE)

In [230]:
def clean_ingredient(s: str) -> str:
    """
    Clear ingredients with regulat expressions
    """
    if not isinstance(s, str):
        s = "" if pd.isna(s) else str(s)

    s = s.replace("\n", " ").strip()

    s = re.sub(r"\bкомбиком\b", "комбикорм", s, flags=re.IGNORECASE)

    masks = {}
    # оставляем комбикормы номера
    def _mask(match):
        key = f"__MASKNO_{len(masks)}__"
        masks[key] = match.group(0)
        return key
    s = re.sub(r"№\s*\d+", _mask, s) 

    s = RE_DATE.sub("", s)
    s = RE_LONG_CODE.sub("", s)
    s = RE_YEAR.sub("", s)
    s = RE_TRAIL_DOTNUM.sub("", s)

    s = RE_PERCENT_TAIL.sub("", s)

    s = RE_TAILKEYS_AFTER_COMMA.sub("", s)

    s = s.replace("/", " ")

    s = RE_SP_BEFORE_PUNCT.sub(r"\1", s)
    s = RE_PUNCT_DUP.sub(lambda m: m.group(0)[0], s)
    s = RE_MULTI_SPACE.sub(" ", s).strip(" ,.;:")

    for key, val in masks.items():
        s = s.replace(key, val)

    s = s.rstrip(".,;: ").strip()

    return s

## Наши культуры и ингридиенты

In [222]:
with open('../data/cultures.json', 'r') as f:
    cultures = json.load(f)
cultures = pd.DataFrame.from_dict(cultures)

In [223]:
cultures = cultures.drop(columns=['code', 'name_en'])

In [226]:
cultures.head()

Unnamed: 0,name_ru,type
0,Сенаж,feed_form
1,Силос,feed_form
2,Сено,feed_form
3,Солома,feed_form
4,Концентраты,feed_form


## Тут мы начинаем парсить таблички с ингридиентами

In [None]:
def main(list_ingredients):
    """
    Parsing tables
    """
    path = pathlib.Path('../data')
    dirs = [x for x in path.iterdir() if x.is_dir()]
        
    for d in dirs:
        files =  [x for x in d.iterdir() if x.suffix == '.pdf']
        for f in files:
            try:
                tables = camelot.read_pdf(
                    f,
                    pages='all',
                    flavor='lattice'
                )
                data = tables[0]
                data_preproc = preprocessor(data)
                data_preproc[str(f)]['Ингридиенты'] = data_preproc[str(f)]['Ингридиенты'].map(clean_ingredient)


                list_ingredients[f] = data_preproc
                
            except Exception as e:
                print(f"Ошибка при обработке файла {f}: {e}")
                time.sleep(0.5)  
                continue
    
    print("Обработка завершена успешно!")

#dic of pairs <name: table>
list_ingredients = {}
main(list_ingredients)



Ошибка при обработке файла ../data/ЭНА/Рацион Д1 ЖК Озерки 24.04.2024 ЭНАЮ.pdf: list index out of range
Обработка завершена успешно!


In [220]:
b = list_ingredients[pathlib.PosixPath('../data/ЭНА/Рацион МТФ Щучье 26.06.2025_ЭНАПБ.pdf')]

In [231]:
data = preprocessor(b.df)
data['Ингредиенты'] = data['Ингредиенты'].map(clean_ingredient)
data

Unnamed: 0,Ингредиенты,СВ %,ГП кг,СВ кг,% ГП,% СВ,₽/Тонна
0,Сено луговое,9470,74,70,181,318,"3 000,00"
1,Сенаж,3470,1066,370,2616,1682,"4 858,00"
2,Силос,3980,1759,700,4316,3182,"3 582,00"
3,Шрот рапсовый,9180,283,260,695,1182,"19 600,00"
4,Кукуруза,8754,286,250,701,1136,"14 570,00"
5,комбикорм №13,9053,608,550,1491,2500,"22 891,25"
