# Download Analysis
Analyze downloaded PDFs from download_status.csv

In [114]:
import pandas as pd
from pathlib import Path
import matplotlib.pyplot as plt

# Load the clean CSV
df = pd.read_csv('download_status_clean.csv', encoding='utf-8')

print(f"Total records: {len(df)}")
print(f"\nColumns: {list(df.columns)}")
df.head(10)

Total records: 564

Columns: ['tag_short_name', 'filename', 'file_number', 'file_size_mb']


Unnamed: 0,tag_short_name,filename,file_number,file_size_mb
0,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...,1,0.12
1,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...,2,0.36
2,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...,3,0.81
3,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...,4,0.26
4,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...,5,0.11
5,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...,6,0.33
6,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...,7,0.35
7,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...,8,0.4
8,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...,9,1.92
9,Архитектурно-планировочное задание местно_0d05...,Архитектурно-планировочное задание местно_0d05...,1,0.34


In [115]:
import re

def remove_hash_suffix(tag):
    return re.sub(r'_[a-f0-9]{8}$', '', tag)

df['tag_normalized'] = df['tag_short_name'].apply(remove_hash_suffix)

summary = df.groupby('tag_normalized').agg({
    'filename': 'count',
    'file_size_mb': ['sum', 'mean', 'min', 'max']
}).round(2)

summary.columns = ['file_count', 'total_size_mb', 'avg_size_mb', 'min_size_mb', 'max_size_mb']
summary = summary.sort_values('file_count', ascending=False)

print("=== Summary by Tag (Top 20) ===")
summary.head(60)

=== Summary by Tag (Top 20) ===


Unnamed: 0_level_0,file_count,total_size_mb,avg_size_mb,min_size_mb,max_size_mb
tag_normalized,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Разрешение местных исполнительных органов,25,98.11,3.92,0.16,25.84
Тестовые файлы ОПЗ,24,126.58,5.27,0.14,63.06
"Разрешение на осуществление деятельности,",21,26.58,1.27,0.08,7.06
Архитектурно-планировочное задание местно,18,11.01,0.61,0.1,2.55
Лицензия генеральной проектной и субпроек,15,5.88,0.39,0.32,0.6
Материалы инженерно-геодезических изысканий,15,47.72,3.18,0.16,31.71
ИРД.ДефАкт,14,36.58,2.61,0.07,14.65
ИРД.ПравоЗемля,13,28.39,2.18,0.22,9.79
ПСД.ПП,13,16.72,1.29,0.09,4.59
ПСД.ПОС,13,35.08,2.7,0.53,5.95


In [116]:
def classify_file_type(tag):
    tag_upper = tag.upper().strip()
    if tag_upper.startswith('ПСД'):
        return 'ПСД'
    else:
        return 'ИРД'

df['file_type'] = df['tag_normalized'].apply(classify_file_type)

# Show breakdown
print("\n=== FILE TYPE BREAKDOWN ===")
print(df['file_type'].value_counts())
print(f"\nTotal ИРД files: {(df['file_type'] == 'ИРД').sum()}")
print(f"Total ПСД files: {(df['file_type'] == 'ПСД').sum()}")

# Save updated dataframe with file_type column
df.to_csv('download_status_with_types.csv', index=False, encoding='utf-8')
print("\n✓ Saved to download_status_with_types.csv")

# Show some examples
print("\n=== SAMPLE DATA WITH FILE_TYPE ===")
df[['tag_normalized', 'file_type', 'filename']].head(20)

df


=== FILE TYPE BREAKDOWN ===
file_type
ИРД    523
ПСД     41
Name: count, dtype: int64

Total ИРД files: 523
Total ПСД files: 41

✓ Saved to download_status_with_types.csv

=== SAMPLE DATA WITH FILE_TYPE ===


Unnamed: 0,tag_short_name,filename,file_number,file_size_mb,tag_normalized,file_type
0,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...,1,0.12,Архитектурно-планировочное задание местно,ИРД
1,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...,2,0.36,Архитектурно-планировочное задание местно,ИРД
2,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...,3,0.81,Архитектурно-планировочное задание местно,ИРД
3,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...,4,0.26,Архитектурно-планировочное задание местно,ИРД
4,Архитектурно-планировочное задание местно_0b7a...,Архитектурно-планировочное задание местно_0b7a...,5,0.11,Архитектурно-планировочное задание местно,ИРД
...,...,...,...,...,...,...
559,Эскизный проект,Эскизный проект_5.pdf,5,3.80,Эскизный проект,ИРД
560,Эскизный проект,Эскизный проект_6.pdf,6,39.74,Эскизный проект,ИРД
561,Эскизный проект,Эскизный проект_7.pdf,7,0.09,Эскизный проект,ИРД
562,Эскизный проект,Эскизный проект_8.pdf,8,0.06,Эскизный проект,ИРД


In [117]:
pd.set_option('display.max_rows', None)
print(df['tag_normalized'].value_counts())

tag_normalized
Разрешение местных исполнительных органов                                                                                                                             25
Тестовые файлы ОПЗ                                                                                                                                                    24
Разрешение на осуществление деятельности,                                                                                                                             21
Архитектурно-планировочное задание местно                                                                                                                             18
Лицензия генеральной проектной и субпроек                                                                                                                             15
Материалы инженерно-геодезических изысканий                                                                                                 