# Подготовка текстовых датасетов на основе популярных форматов данных

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* https://tabula-py.readthedocs.io/en/latest/getting_started.html
* https://pypdf2.readthedocs.io/en/3.0.0/user/extract-text.html
* https://python-docx.readthedocs.io/en/latest/
* https://theautomatic.net/2019/10/14/how-to-read-word-documents-with-python/
* https://github.com/madmaze/pytesseract

## Задачи для совместного разбора

In [None]:
!pip install PyPDF2



1. Считайте текстовые данные из файла demo/table.pdf

In [None]:
from PyPDF2 import PdfReader

reader = PdfReader("table.pdf")
page = reader.pages[0]
print(page.extract_text())

Example table  
This is an example of a data table. 
Disability 
Category Participants  Ballots 
Completed  Ballots 
Incomplete/  
Terminated  Results  
Accuracy  Time to 
complete 
Blind  5 1 4 34.5%, n=1  1199 sec, n=1  
Low Vision  5 2 3 98.3% n=2  
(97.7%, n=3)  1716 sec, n=3  
(1934 sec, n=2)  
Dexterity  5 4 1 98.3%, n=4  1672.1 sec, n=4  
Mobility  3 3 0 95.4%, n=3  1416 sec, n=3  
 


2. Считайте таблицу из файла demo/table.pdf. Добейтесь корректного представления таблицы.

In [None]:
!pip install tabula.py

In [None]:
import tabula

dfs = tabula.read_pdf('table.pdf', pages='all')
df = dfs[0]
df

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Results
0,,,,Ballots,,
1,Disability,,Ballots,,,
2,,Participants,,Incomplete/,,
3,Category,,Completed,,Accuracy,Time to
4,,,,Terminated,,
5,,,,,,complete
6,Blind,5,1,4,"34.5%, n=1","1199 sec, n=1"
7,Low Vision,5,2,3,98.3% n=2,"1716 sec, n=3"
8,,,,,"(97.7%, n=3)","(1934 sec, n=2)"
9,Dexterity,5,4,1,"98.3%, n=4","1672.1 sec, n=4"


In [None]:
header = df.iloc[:6].fillna(' ').sum(axis=0)
df.columns = header
df.drop(index=range(6))

Unnamed: 0,Disability Category,Participants,Ballots Completed,Ballots Incomplete/ Terminated,Accuracy,Time to complete
6,Blind,5.0,1.0,4.0,"34.5%, n=1","1199 sec, n=1"
7,Low Vision,5.0,2.0,3.0,98.3% n=2,"1716 sec, n=3"
8,,,,,"(97.7%, n=3)","(1934 sec, n=2)"
9,Dexterity,5.0,4.0,1.0,"98.3%, n=4","1672.1 sec, n=4"
10,Mobility,3.0,3.0,0.0,"95.4%, n=3","1416 sec, n=3"


3. Извлеките текст из изображения data/text.jpg. Обработайте полученную строку.

In [None]:
!pip install pytesseract

In [None]:
!sudo apt install tesseract-ocr

In [None]:
!sudo apt install tesseract-ocr-rus

In [None]:
import pytesseract
from PIL import Image

In [None]:
img = Image.open('text.jpg')
pytesseract.image_to_string(img, lang='rus')

'Прочитайте текст, выполните предложенные задания.|[4]\nЗародившись в древности как искусство снабжения и перемещения армий, логистика\n\nвобрала в себя весь опыт и знания поколений — и дополнилась новейшими научными\nразработками, информационными технологиями, современной техникой. Для людей, не\n\nзнакомых со спецификой этой работы, она выглядит слишком элементарно.\nНо на самом деле — это наука, базирующаяся на точном расчете. Она изучает, как лучше\n\nуправлять товарными запасами; складскими мощностями; транспортными, материальными,\nфинансовыми И информационными потоками. Поскольку результат деятельности логистов\n\nэто затраты, то основная цель логистики — минимизация, а вернее оптимизация этих затрат.\nОтделы и компании Службу логистики можно обнаружить внутри любой коммерческой\n\n \n\nорганизации — и она не только обеспечивает движение товарных потоков. Этот отдел, будучи\nсвязан с департаментом продаж, производством, финансовым управлением, управлением У:\nслужбой маркетинга,

## Задачи для самостоятельного решения

In [None]:
!pip install python-docx

In [None]:
!pip install PyPDF2

In [None]:
!pip install tabula-py

In [5]:
import re
from PyPDF2 import PdfReader
from tabula.io import read_pdf
import docx
import pandas as pd
import os

<p class="task" id="1"></p>

1\. Считайте файл `pdf/rpd_tobd_22.pdf`. Извлеките из файла содержание дисциплины (раздел 5.1) в виде словаря, где ключ - это название темы, а значение - содержание темы. Выведите полученный словарь на экран. Выведите на экран количество тем курса.

In [None]:
reader = PdfReader("rpd_tobd_22.pdf")
pages = reader.pages
for page in pages:
  content = re.findall(r"5\.1\. Содержание дисциплины(.+?)5\.3\.", page.extract_text().replace("\n", ""))
  if content:
    pages_true = [int(x.strip()) for x in re.findall(r'\d+[^.]', content[0])]
    break
pages_true

[6, 9]

In [None]:
text = ''
for page in pages[pages_true[0]:pages_true[1] + 2]:
  text += page.extract_text().replace('\n', '')
contents = re.findall(r'5\.1\. Содержание дисциплины (.+?) 5\.2\.', text)[0].strip()
contents

'Тема 1. Библиотека NumPy  и Pandas .  В рамках темы рассматривается технологический стек Python для об-работки и анализа данных, возможности Python как glue language, специ-фика библиотеки NumPy и ее роль в экосистеме Python. Организация мас-сивов в NumPy: хранение данных, создание массивов, прин ципы реализации операций с едиными исходными данными. Универсальные функции и при-менение функций по осям в NumPy. Принцип распространения значений при выполнении операций в NumPy: общий алгоритм и примеры Маскиро-вание и прихотливое индексирование в NumPy.  В рамках темы рассматриваются возможности библиотеки Pandas. Ор-ганизация Pandas DataFrame и организация индексации для DataFrame и Series; применение универсальных функций и работа с пустыми значениями в Pandas . Объединение данных из нескольких Pandas DataFrame: общая ло-гика и примеры. Рассматривается операция GroupBy в Pandas DataFrame и реализация в ней подхода «разбиение, применение и объединение».       7 Тема 2. Профилирование про

In [None]:
res ={}
for item in contents.split('Тема'):
  title = re.findall(r'\d+\. (.+?)\. (.+)', item)
  if title:
    res[title[0][0].strip()] = title[0][1].strip()

res

{'Библиотека NumPy  и Pandas': 'В рамках темы рассматривается технологический стек Python для об-работки и анализа данных, возможности Python как glue language, специ-фика библиотеки NumPy и ее роль в экосистеме Python. Организация мас-сивов в NumPy: хранение данных, создание массивов, прин ципы реализации операций с едиными исходными данными. Универсальные функции и при-менение функций по осям в NumPy. Принцип распространения значений при выполнении операций в NumPy: общий алгоритм и примеры Маскиро-вание и прихотливое индексирование в NumPy.  В рамках темы рассматриваются возможности библиотеки Pandas. Ор-ганизация Pandas DataFrame и организация индексации для DataFrame и Series; применение универсальных функций и работа с пустыми значениями в Pandas . Объединение данных из нескольких Pandas DataFrame: общая ло-гика и примеры. Рассматривается операция GroupBy в Pandas DataFrame и реализация в ней подхода «разбиение, применение и объединение».       7',
 'Профилирование процессов обра

<p class="task" id="2"></p>

2\. Для всех РПД из каталога `pdf` извлеките названия и количество тем курса. Представьте результат в виде `pd.DataFrame`, где в качестве индекса выступает название файла, столбцы называются "Тема 1", "Тема 2" и т.д., а в ячейках содержится название темы (без номера).

In [None]:
files_pdf = os.listdir('pdf')
files_pdf

['rpd_tobd_22.pdf',
 'rpd_tehnobrabotbd_19.pdf',
 'РПД Технологии обработки больших данных (ПИ).pdf',
 'rpd_tehnobrbd_1_20.pdf',
 'file_33.pdf']

In [None]:
res = {}
for file in files_pdf:
  reader = PdfReader(f"pdf/{file}")
  pages = reader.pages
  p = pages[13]
  for page in pages:
    if file == 'rpd_tehnobrbd_1_20.pdf':
      title = re.findall(r"(\d+\. Тема): (.+?) \s", page.extract_text())
      edit_title = []
      if title:
        for i in title:
          edit_title.append(((" ".join(i[0].split('.')[::-1]))\
                             .strip(), i[1]))
      title = edit_title
    else:
      title = re.findall(r"(Тема \d+)\. (.+?)\.", page.extract_text().replace("\n", ""))
    if title:
      for i in title:
        res[i[0]] = res.get(i[0], {})
        res[i[0]][file] = i[1]

In [None]:
pd.DataFrame({k: pd.Series(v) for k, v in res.items()})

Unnamed: 0,Тема 1,Тема 2,Тема 3,Тема 4,Тема 5,Тема 6,Тема 7,Тема 8,Тема 9
file_33.pdf,Библиотека NumPy и Pandas,Использование различ ных форматов файлов в зад...,Взаимодействие c табличными данными в приложен...,Визуализация данных,Работа со строк ами в приложениях обработки да...,Взаимодействие с базой данных в приложениях об...,,,
rpd_tehnobrabotbd_19.pdf,Профилирование процессов обработки данных  П...,Библиотека NumPy  Принцип распространения зн...,Параллельная обработка данных  Специфика сов...,Параллельная обработка данных  Подходы к дек...,Библиотека Dask  Принцип и примеры использов...,,,,
rpd_tehnobrbd_1_20.pdf,Документно -ориентированная СУБД MongoDB,Запросы,Агрегирование,Обновление и удаление,Подключение к приложению,Индексирование и оптимизация запросов,Репликация и сегментирование,Развертывание и администрирование,
rpd_tobd_22.pdf,Библиотека NumPy и Pandas,"Профилирование процессов обработки данных , би...",Использование различных форматов файлов в зада...,Взаимодействие с базой данных и Excel в прило...,Работа со строками в приложениях обработки дан...,Введение в обработку текста на есте ственном я...,Параллельная обработка данных,Библиотека Dask,Обзор проблем обработки больших данных и вычис...
РПД Технологии обработки больших данных (ПИ).pdf,Основ ные принципы работы с большими данными ...,Анализ больших данных,Аналитика в «Больших данных» Анализ данных с ...,Машинное обучение и «Большие данные» Основы м...,,,,,


<p class="task" id="3"></p>

3\. Считайте файл `pdf/rpd_tobd_22.pdf`. Извлеките из раздела 5.3 таблицу с содержанием семинаров и представьте в виде `pd.DataFrame`. Выведите на экран количество строк в полученной таблице и саму таблцу.

In [None]:
dfs = read_pdf('rpd_tobd_22.pdf', pages=[12, 13], multiple_tables=True)

In [None]:
cols = dfs[1].columns

In [None]:
dfs[1].head()

In [None]:
dfs[1][cols[0]].fillna('|')

<p class="task" id="4"></p>

4\. Считайте файл `docx/metodichka_azur_poluitog.docx`. На основе содержимого файла создайте таблицу `pd.DataFrame` со следующими столбцами: "номер упражнение", "текст упражнение", "кол-во рисунков в тексте". Каждый абзац в тексте упражнения должен начинаться с символа "\t". Выведите полученную таблицу на экран.

In [6]:
from docx import Document

In [14]:
doc = Document('metodichka_azur_poluitog.docx')

text = ""
k = False
for p in doc.paragraphs:
  if 'Упражнение' in p.text:
    k = True
    text += p.text
  elif 'Заключение' in p.text:
    k = False
  elif k:
    text += f"\t{p.text}"

text

'Упражнение 1. Создание концентратора событий для ввода\t\tAzure Stream Analytics поддерживает несколько типов ввода, в том числе входные данные от хранилищ BLOB-объектов Azure и входные данные от концентраторов событий Azure. Использование концентраторов событий Azure как правило, более интересно, потому что в мире IoT данные легко передаются концентраторам событий Azure через полевые шлюзы (для устройств, которые не поддерживают IP) или облачные шлюзы (для устройств, поддерживающих IP) И один концентратор событий Azure может обрабатывать миллионы событий в секунду, передаваемых с устройств, разбросанных по всему миру\tВ этом упражнении вы создадите концентратор событий Azure для ввода данных в Azure Stream Analytics и настройки его таким образом, чтобы к ним можно было безопасно и безопасно обращаться с помощью устройств IoT и шлюзов\tПоскольку в настоящее время Azure Portal не имеет полной поддержки концентраторов событий и Stream Analytics, вы будете работать в этой лаборатории с п

In [41]:
res = []
for task in text.split('Упражнение '):
  if task:
    data = re.findall(r"(\d+)[\.:] (.+)", task)[0]
    num_pics = len(re.findall(r"Рис[\.\s?]\d+\.\d+", data[1]))
    res.append([data[0], data[1], num_pics])

In [42]:
pd.DataFrame(res, columns=['номер упражнения', 'текст упражнения', 'кол-во картинок'])

Unnamed: 0,номер упражнения,текст упражнения,кол-во картинок
0,1,Создание концентратора событий для ввода\t\tAz...,9
1,2,Отправка событий в центр событий\t\tПриложения...,7
2,3,Создание задания Stream Analytics\t\tТеперь у ...,14
3,4,Подготовка запросов и тестирование с помощью в...,8
4,5,Создание концентратора событий для вывода\tВоз...,13
5,6,Создание панели управления в реальном времени\...,10
6,7,Анализ потока данных в реальном времени\tПочти...,4


<p class="task" id="5"></p>

5\. В файлах каталога `imgs` лежат 2 типа сканов: уведомления и пояснительные записки. Создайте `pd.DataFrame` с двумя столбцами: название файла и тип документа. Тип документа определите, воспользовавшись средством для распознавания текста и найдя ключевые слова.

In [None]:
import pytesseract
from PIL import Image
import os
import pandas as pd

In [None]:
res = []
for img in os.listdir('imgs'):
  pic = Image.open(f'imgs/{img}')
  key_word = re.findall(r'уведомление', pytesseract.image_to_string(pic, lang='rus').lower())
  if key_word:
    res.append([img, 'уведомление'])
  else:
    res.append([img, 'пояснительная записка'])

In [None]:
pd.DataFrame(res, columns=['File_name', 'File_type'])

Unnamed: 0,File_name,File_type
0,д.png,уведомление
1,в.jpeg,пояснительная записка
2,е.png,уведомление
3,ж.png,уведомление
4,б.jpg,пояснительная записка
5,г.jpg,пояснительная записка


## Обратная связь
- [ ] Хочу получить обратную связь по решению