# Experiment on how to extract structured text from a pdf

For price statistics, there is a specific problem - the COICOP18 categories that are used for the CPI are not easily available in easy readable format in multiple languages. Specifically:
* UNSD makes the [english version available in pdf](https://unstats.un.org/unsd/classifications/unsdclassifications/COICOP_2018_-_pre-edited_white_cover_version_-_2018-12-26.pdf), and so does the [2020 CPI Manual](https://www.imf.org/-/media/Files/Data/CPI/cpi-manual-concepts-and-methods.ashx). 
  * Statistics New Zealand however makes [COICOP18 availible in their Aria tool](https://aria.stats.govt.nz/aria/#ClassificationView:uri=http://stats.govt.nz/cms/ClassificationVersion/hTe8vaVj73ScFSJe)
* The Russian version however is only available in full in the [2020 Russian version of the CPI Manual](https://www.imf.org/-/media/Files/Data/CPI/cpi-manual-concepts-and-methods-russian.ashx).

Hence the task to solve is how to extract this in structured format

-----------------------

## Try the [PyMuPDF](https://pymupdf.readthedocs.io/en/latest/) library

In [14]:
import pymupdf

In [6]:
# 437 - 510 are the pages and if we start counting at 0, 436-509
doc = pymupdf.open('../data/bronze/cpi-manual-concepts-and-methods-russian.pdf') # open a document
for i, page in enumerate(doc): # iterate the document pages
  text = page.get_text()
  if i > 435:
    print(text)
    break

417
ПРИЛОЖЕНИЕ
том виде. К безалкогольным напиткам относятся напитки, 
которые не содержат алкоголь.
01.1 Продукты питания
Продукты питания, приобретаемые домашним хозяйством 
в основном для потребления или приготовления дома. В их 
состав не входят продукты питания, предоставляемые в рам-
ках услуг общественного питания.
Продукты питания состоят из всех съедобных товаров, 
которые приобретаются и потребляются домашним хозяй-
ством для целей питания. К ним относятся крупы и крупяные 
изделия; мясо; рыба и другие морепродукты; молоко, другие 
молочные продукты и яйца; масла и жиры; фрукты и орехи; 
овощи, корнеплоды, плантаны, бананы и бобовые; сахар, кон-
дитерские изделия и десерты; соль, соусы и приправы, пряно-
сти и кулинарные травы; семена.
Включается:
•	 Продукты, которые нуждаются в приготовлении и даль-
нейшей обработке, а также готовые продукты питания
Не включается:
•	 Услуги по местной доставке продуктов питания и напит-
ков, если оплачиваются отдельно (07.4.9.2)
•	 Корм для

In [8]:
print(text)

417
ПРИЛОЖЕНИЕ
том виде. К безалкогольным напиткам относятся напитки, 
которые не содержат алкоголь.
01.1 Продукты питания
Продукты питания, приобретаемые домашним хозяйством 
в основном для потребления или приготовления дома. В их 
состав не входят продукты питания, предоставляемые в рам-
ках услуг общественного питания.
Продукты питания состоят из всех съедобных товаров, 
которые приобретаются и потребляются домашним хозяй-
ством для целей питания. К ним относятся крупы и крупяные 
изделия; мясо; рыба и другие морепродукты; молоко, другие 
молочные продукты и яйца; масла и жиры; фрукты и орехи; 
овощи, корнеплоды, плантаны, бананы и бобовые; сахар, кон-
дитерские изделия и десерты; соль, соусы и приправы, пряно-
сти и кулинарные травы; семена.
Включается:
•	 Продукты, которые нуждаются в приготовлении и даль-
нейшей обработке, а также готовые продукты питания
Не включается:
•	 Услуги по местной доставке продуктов питания и напит-
ков, если оплачиваются отдельно (07.4.9.2)
•	 Корм для