# Download Analysis
Analyze downloaded PDFs from download_status.csv

In [6]:
import pandas as pd
from pathlib import Path
import matplotlib.pyplot as plt

# Load the clean CSV
df = pd.read_csv('download_status_clean.csv', encoding='utf-8')

print(f"Total records: {len(df)}")
print(f"\nColumns: {list(df.columns)}")

del df['file_number']
del df['file_size_mb']
df.head(10)

Total records: 564

Columns: ['tag_short_name', 'filename', 'file_number', 'file_size_mb']


Unnamed: 0,tag_short_name,filename
0,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...
1,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...
2,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...
3,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...
4,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...
5,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...
6,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...
7,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...
8,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...
9,Архитектурно-планировочное задание местно_0d05...,Архитектурно-планировочное задание местно_0d05...


In [7]:
import re

def remove_hash_suffix(tag):
    return re.sub(r'_[a-f0-9]{8}$', '', tag)

df['tag_normalized'] = df['tag_short_name'].apply(remove_hash_suffix)

summary = df.groupby('tag_normalized').agg({
    'filename': 'count',
}).round(2)

summary.columns = ['file_count']
summary = summary.sort_values('file_count', ascending=False)

print("=== Summary by Tag (Top 20) ===")
summary.head(60)

=== Summary by Tag (Top 20) ===


Unnamed: 0_level_0,file_count
tag_normalized,Unnamed: 1_level_1
Разрешение местных исполнительных органов,25
Тестовые файлы ОПЗ,24
"Разрешение на осуществление деятельности,",21
Архитектурно-планировочное задание местно,18
Лицензия генеральной проектной и субпроек,15
Материалы инженерно-геодезических изысканий,15
ИРД.ДефАкт,14
ИРД.ПравоЗемля,13
ПСД.ПП,13
ПСД.ПОС,13


In [8]:
pd.set_option('display.max_rows', None)
print(df['tag_normalized'].value_counts())

tag_normalized
Разрешение местных исполнительных органов                                                                                                                             25
Тестовые файлы ОПЗ                                                                                                                                                    24
Разрешение на осуществление деятельности,                                                                                                                             21
Архитектурно-планировочное задание местно                                                                                                                             18
Лицензия генеральной проектной и субпроек                                                                                                                             15
Материалы инженерно-геодезических изысканий                                                                                                 

In [9]:
from rapidfuzz import fuzz, process
from document_config import get_tag_examples, get_tag_file_type, get_psd_tags, get_ird_tags

def allocate_document_tag(document_name, tag_examples, threshold=60):
    """
    Allocate a document tag based on fuzzy matching with examples.
    
    Parameters:
    - document_name: The name of the document to classify
    - tag_examples: Dictionary mapping tags to example document names
    - threshold: Minimum similarity score (0-100) to consider a match
    
    Returns:
    - Tuple of (tag, confidence_score, matched_example) or (None, 0, None) if no match
    """
    best_match = None
    best_score = 0
    best_tag = None
    best_example = None
    
    document_name_clean = document_name.strip()
    
    for tag, examples in tag_examples.items():
        # First, check if the tag itself matches (for exact or near-exact tag names)
        tag_score = fuzz.partial_ratio(document_name_clean.lower(), tag.lower())
        
        if tag_score > best_score:
            best_score = tag_score
            best_tag = tag
            best_example = f"[TAG: {tag}]"
        
        # Then check against all examples
        for example in examples:
            example_clean = example.strip()
            
            # Use multiple fuzzy matching strategies
            partial_score = fuzz.partial_ratio(document_name_clean.lower(), example_clean.lower())
            token_sort_score = fuzz.token_sort_ratio(document_name_clean.lower(), example_clean.lower())
            token_set_score = fuzz.token_set_ratio(document_name_clean.lower(), example_clean.lower())
            
            # Take the maximum score from all strategies
            max_score = max(partial_score, token_sort_score, token_set_score)
            
            if max_score > best_score:
                best_score = max_score
                best_tag = tag
                best_example = example_clean
    
    if best_score >= threshold:
        return best_tag, best_score, best_example
    else:
        return None, best_score, None

# Load document type configuration
tag_examples = get_tag_examples()

print("=== DOCUMENT TAG CONFIGURATION ===")
print(f"Total tags: {len(tag_examples)}")
print(f"ИРД tags: {len(get_ird_tags())}")
print(f"ПСД tags: {len(get_psd_tags())}")
print(f"\nПСД Tags: {', '.join(get_psd_tags())}")

=== DOCUMENT TAG CONFIGURATION ===
Total tags: 42
ИРД tags: 36
ПСД tags: 6

ПСД Tags: ПП, ЭП, ОПЗ, ПОС, ОВОС, Спецразд


In [None]:
from document_config import get_tag_file_type

results = []

for idx, row in df.iterrows():
    tag_normalized = row['tag_normalized']
    tag, score, example = allocate_document_tag(tag_normalized, tag_examples)
    
    file_type = get_tag_file_type(tag) if tag else None
    
    results.append({
        'document_tag': tag,
        'confidence_score': score,
        'matched_example': example,
        'file_type': file_type
    })

# Add results to dataframe
results_df = pd.DataFrame(results)
df['document_tag'] = results_df['document_tag']
df['tag_confidence'] = results_df['confidence_score']
df['matched_example'] = results_df['matched_example']
df['file_type'] = results_df['file_type']

# Show statistics
print("=== DOCUMENT TAG ALLOCATION RESULTS ===")
print(f"Total documents: {len(df)}")
print(f"Documents with allocated tags: {df['document_tag'].notna().sum()}")
print(f"Documents without tags: {df['document_tag'].isna().sum()}")
print(f"\nAverage confidence score: {df['tag_confidence'].mean():.2f}")
print(f"Min confidence score: {df['tag_confidence'].min():.2f}")
print(f"Max confidence score: {df['tag_confidence'].max():.2f}")

print("\n=== FILE TYPE BREAKDOWN ===")
print(df['file_type'].value_counts())
print(f"\nTotal ИРД files: {(df['file_type'] == 'ИРД').sum()}")
print(f"Total ПСД files: {(df['file_type'] == 'ПСД').sum()}")

print("\n=== TAG DISTRIBUTION ===")
print(df['document_tag'].value_counts())

# Save the updated dataframe
df.to_csv('download_status_with_tags.csv', index=False, encoding='utf-8')
print("\n✓ Saved to download_status_with_tags.csv")

=== DOCUMENT TAG ALLOCATION RESULTS ===
Total documents: 564
Documents with allocated tags: 564
Documents without tags: 0

Average confidence score: 97.86
Min confidence score: 66.67
Max confidence score: 100.00

=== FILE TYPE BREAKDOWN ===
file_type
ИРД    498
ПСД     66
Name: count, dtype: int64

Total ИРД files: 498
Total ПСД files: 66

=== TAG DISTRIBUTION ===
document_tag
Технические условия на подключение           54
Лицензия                                     46
АПЗ                                          34
Авиация                                      31
Отчет Геод                                   31
Письмо о начале строительства                30
ТЗ                                           29
Отчет Геол                                   26
Дополнительная (корректировка/капремонт)     26
ОПЗ                                          24
Письмо Заявка                                23
Правоустанавливающие документы               17
Эскизный проект                             