# Experiment on how to extract structured text from a pdf

For price statistics, there is a specific problem - the COICOP18 categories that are used for the CPI are not easily available in easy readable format in multiple languages. Specifically:
* UNSD makes the [english version available in pdf](https://unstats.un.org/unsd/classifications/unsdclassifications/COICOP_2018_-_pre-edited_white_cover_version_-_2018-12-26.pdf), and so does the [2020 CPI Manual](https://www.imf.org/-/media/Files/Data/CPI/cpi-manual-concepts-and-methods.ashx). 
  * Statistics New Zealand however makes [COICOP18 availible in their Aria tool](https://aria.stats.govt.nz/aria/#ClassificationView:uri=http://stats.govt.nz/cms/ClassificationVersion/hTe8vaVj73ScFSJe)
* The Russian version however is only available in full in the [2020 Russian version of the CPI Manual](https://www.imf.org/-/media/Files/Data/CPI/cpi-manual-concepts-and-methods-russian.ashx).

Hence the task to solve is how to extract this in structured format

-----------------------

## Try the [PyMuPDF](https://pymupdf.readthedocs.io/en/latest/) library

In [33]:
import pymupdf

from multi_column import column_boxes


Download the [Russian version of the CPI manual](https://www.imf.org/-/media/Files/Data/CPI/cpi-manual-concepts-and-methods-russian.ashx) manually and add it to `data/raw/` folder. Pages 437-510 in the pdf are the CPICOM.

In [39]:
# As 437 - 510 are the pages and if we start counting at 0, 436-509
doc = pymupdf.open('../data/bronze/cpi-manual-concepts-and-methods-russian.pdf') # open a document
for i, page in enumerate(doc): # iterate the document pages
#   text = page.get_text("json")
  if i > 435:
    bboxes = column_boxes(page, footer_margin=50, no_image_text=True)
    for rect in bboxes:
        print(page.get_text(clip=rect, sort=True))
    print("-" * 80)

    break

Приложение 3
Классификация 
индивидуального 
потребления по целям 
2018 года (КИПЦ 2018 года)1
Введение
Классификация индивидуального потребления по целям 
(КИПЦ) используется в качестве международной справочной 
классификации расходов домашних хозяйств. КИПЦ обеспе-
чивает систему однородных категорий товаров и услуг, которые 
считаются назначением или целью расходов домашних хозяйств 
на потребление. КИПЦ является неотъемлемой частью системы 
национальных счетов (СНС), но также используется в ряде дру-
гих областей статистики, например, обследовании бюджетов до-
машних хозяйств или индексе потребительских цен.
В настоящем приложении представлены описания и объяс-
нения пересмотра КИПЦ, утвержденного в 2018 году (КИПЦ 
2018  года) на 49-ой сессии Статистической комиссии ООН. 
В КИПЦ 2018 года представлено больше деталей, чем в прош­
лой версии (КИПЦ 1999 года), в связи с потребностью пользо-
вателей в более подробной информации, а также рассмотрен 
ряд других вопросов, которые привели

In [32]:
page.get_text("html")

'<div id="page0" style="width:612.0pt;height:792.0pt">\n<p style="top:747.3pt;left:47.5pt;line-height:12.0pt"><b><span style="font-family:Arial,serif;font-size:12.0pt">418</span></b></p>\n<p style="top:34.4pt;left:47.5pt;line-height:8.0pt"><span style="font-family:Arial,serif;font-size:8.0pt">&#x41f;&#x420;&#x418;&#x41b;&#x41e;&#x416;&#x415;&#x41d;&#x418;&#x415;</span></p>\n<p style="top:55.0pt;left:298.5pt;line-height:12.8pt"><span style="font-family:MinionPro,serif;font-size:12.8pt">&#x2022;&#x9;</span><span style="font-family:MinionPro,serif;font-size:9.8pt"> &#x41d;&#x435;&#x43f;&#x440;&#x438;&#x433;&#x43e;&#x442;&#x43e;&#x432;&#x43b;&#x435;&#x43d;&#x43d;&#x44b;&#x435; &#x43f;&#x435;&#x43b;&#x44c;&#x43c;&#x435;&#x43d;&#x438;, &#x440;&#x430;&#x432;&#x438;&#x43e;&#x43b;&#x438; &#x438; &#x430;&#x43d;&#x430;&#x43b;&#x43e;&#x433;&#x438;&#x447;&#x43d;&#x44b;&#x435; </span></p>\n<p style="top:69.4pt;left:308.5pt;line-height:9.8pt"><span style="font-family:MinionPro,serif;font-size:9.8pt">