# Описание
В настоящее время количество выходящих в течение года научных публикаций велико и растёт экспоненциально во многих областях, в связи с чем открывается простор для создания автоматических инструментов, помогающих в поиске и обработке информации. В частности, веб-сервис [PubTrends](https://pubtrends.net/) позволяет взглянуть на множество статей, соответствующих поисковому запросу, как на единое целое, выделяя подразделы научных направлений, динамику их развития и тем самым структурируя результаты выдачи.
В рамках текущего проекта предлагается добавить в список возможностей сервиса извлечение численных показателей, а также визуализацию результатов и возможность фильтрации статей на основе извлеченных значений. Такая функциональность может быть полезна, например, в биомедицинской литературе для поиска статей с большим количеством испытуемых, а в технической - для получения представления о получаемых значений целевой метрики в рамках различных задач.
Для извлечения численных показателей из текста уже существуют инструменты, такие как [grobid-quantities](https://grobid-quantities.readthedocs.io/en/latest/) или [marve](https://arxiv.org/pdf/1710.04312.pdf). Фокус этой практики будет обращен именно на агрегацию информации из множества статей и использование этой информации для фильтрации статей. Первоначально разработка будет вестись в рамках Jupyter Notebook, при успешном выполнении задач планируется интеграция модуля в существующий веб-сервис.

*Почему вам интересен этот проект?*

В моей научной деятельности, которая завязана на эксперименте и моделировании, численные величины часто определяют суть работы. Например, эксперименты при разных температурах (от комнатной до гелиевой) могут кардинально отличаться по используемым методам и применяемым моделям. Такая информация не всегда явно выделяется словесным описанием, и было бы удобно иметь инструмент для её извлечения и классификации работ по некоторым численным показателям. Вопросы к цифрам в публикациях коллег по области возникают достаточно часто в моей работе, поэтому мне было бы крайне интересно принять участие в таком проекте, довести его до реализации и в перспективе пользоваться таким инструментом.


#Задача 1
Задачи

Установить [grobid-quantities](https://grobid-quantities.readthedocs.io/en/latest/)

Скачать CSV файл с информацией о статьях по [ссылке](https://drive.google.com/file/d/1d3NJbq7EInZYl8Q5Pb7YfAwQUVxZ9FdE/view?usp=sharing).
Загрузить данные из CSV. Файл содержит две колонки: PMID (идентификатор статьи в базе Pubmed) и abstract (текст аннотации).

Используя REST API запущенного локально сервиса grobid-quantities, извлечь все численные показатели из аннотаций статей. В рамках этого задания достаточно поддержать только тип значений value (см. [документацию](https://grobid-quantities.readthedocs.io/en/latest/restAPI.html#response-description) grobid-quantities).

Построить гистограмму извлеченных значений, относящихся к слову ‘accuracy’ в текстах аннотаций.

In [None]:
%cd /content/drive/MyDrive/CSC/2022_spring_internship/JB_SHK2
!pip install -r requirements.txt 

In [None]:
import grobid_quantities.quantities 
import pandas as pd
import numpy as np


In [None]:
df = pd.read_csv('2022_JBR_Spring_Internship_Test_Data.csv')


In [None]:
df.abstract[10]

'Highly sophisticated control based on a brain-computer interface (BCI) requires decoding kinematic information from brain signals. The forearm is a region of the upper limb that is often used in everyday life, but intuitive movements within the same limb have rarely been investigated in previous BCI studies. In this study, we focused on various forearm movement decoding from electroencephalography (EEG) signals using a small number of samples. Ten healthy participants took part in an experiment and performed motor execution (ME) and motor imagery (MI) of the intuitive movement tasks (Dataset I). We propose a convolutional neural network using a channel-wise variational autoencoder (CVNet) based on inter-task transfer learning. We approached that training the reconstructed ME-EEG signals together will also achieve more sufficient classification performance with only a small amount of MI-EEG signals. The proposed CVNet was validated on our own Dataset I and a public dataset, BNCI Horizo