In [207]:
# Модуль для получения данных из PubMed и получения списка расстояний между авторами.
from Bio import Entrez,Medline
import Levenshtein as lev
import time

# Класс - структура для хранения данных об авторе
class Author:
    def __init__(self,id,name,coauthors,affiliations,abstract,title):
        self.id=id
        self.name=name
        self.coauthors=coauthors
        self.affiliations=affiliations
        self.abstract=abstract
        self.title=title
        
# Класс для хранения списка пар авторов
class Pair:
        def __init__(self,Author1,Author2):
            self.id1=Author1.id
            self.id2=Author2.id
            self.name1=Author1.name
            self.name2=Author2.name
            self.coauthors1=Author1.coauthors
            self.coauthors2=Author2.coauthors
            self.affiliations1=Author1.affiliations
            self.affiliations2=Author2.affiliations
            self.abstract1=Author1.abstract
            self.abstract2=Author2.abstract
            self.title1=Author1.title
            self.title2=Author2.title
            self.same=2
            
            
# class Author_distance:
               
#     def __init__(self,Pair,distance):
#         # создаем список для хранения пар авторов
#         for i in range(0,len(list_of_authors)):
#             for j in range(0,len(list_of_authors)):
#                 if (i!=j):
#                     id1 = Pair.id1
#                     id2 = Pair.id2
#                     pair_names =distance(Pair.name1,Pair.name2)
#                     pair_coauthors =distance(Pair.coauthors1,Pair.coauthors2)
#                     pair_affiliations =distance(Pair.affiliations1,Pair.affiliations2)
    
    

# Получение данных из PubMed
def obt_data(N, query):
    def search(query):
        Entrez.email='12113@gmail.com'
        handle=Entrez.esearch(db='pubmed',sort = 'revelance', retmax =N,term=query)
        record=Entrez.read(handle)
        idList=record["IdList"]
        handle=Entrez.efetch(db='pubmed', id = idList, retmode='xml')
        results=Entrez.read(handle)
        return results
    
    data=search(query)
    
    # Получение аффилиаций конкретного автора
    def affiliation(data,i,j):
        return '.'.join(data["PubmedArticle"][i]["MedlineCitation"]["Article"]["AuthorList"][j]['AffiliationInfo'][0]['Affiliation'].split(","))


    # Получение абстракта статьи
    def abstract(data,i):
            return ''.join(data["PubmedArticle"][i]["MedlineCitation"]["Article"]['Abstract']['AbstractText'])

    # Получение имени автора
    def name(data,i,j):
            return data["PubmedArticle"][i]["MedlineCitation"]["Article"]["AuthorList"][j]['LastName']+' '+data["PubmedArticle"][i]["MedlineCitation"]["Article"]["AuthorList"][j]['ForeName']+' ' +data["PubmedArticle"][i]["MedlineCitation"]["Article"]["AuthorList"][j]['Initials'] 

    # Получение заголовка статьи
    def article_title(data,i):
        return str(data["PubmedArticle"][i]["MedlineCitation"]["Article"]['ArticleTitle'])

    # Получение соавторов  
    def coauthors(data,i,j):
        coauthors=[]
        author=name(data,i,j)
        for k in range(0,len(data["PubmedArticle"][i]["MedlineCitation"]["Article"]["AuthorList"])):
            coauthors.append(name(data,i,k))
        return ''.join(coauthors)

    # Получение количество авторов статьи
    def numberOfAuthors(data,i):
        return len(data["PubmedArticle"][i]["MedlineCitation"]["Article"]["AuthorList"])

    # Сбор всех данных в список авторов
    author_list=[]
    id=0
    for i in range(0,N):
        for j in range(0,numberOfAuthors(data,i)):
            try:
                author_list.append(Author(id,name(data,i,j),coauthors(data,i,j),affiliation(data,i,j),abstract(data,i),article_title(data,i)))
                id=id+1
            except IndexError:
                pass
            except KeyError:
                pass
    return author_list

def authors_to_pairs(list_of_authors):
    list_of_pairs=[]
    for i in range(0,len(list_of_authors)):
        for j in range(0,len(list_of_authors)):
            list_of_pairs.append(Pair(list_of_authors[i],list_of_authors[j]))
    return list_of_pairs

In [208]:
# Модуль для получения обучающей выборки
from ipywidgets import widgets


# функция для простого отображения виджетов с информацией о данном авторе.
def print_info(pair):
    author_text1=widgets.Textarea(
    value=pair.name1,
    disabled=True
    )
    coauthors_text1=widgets.Textarea(
    value=pair.coauthors1,
    disabled=True
    )
    affiliations_text1=widgets.Textarea(
    value=pair.affiliations1,
    disabled=True
    )
    author_text2=widgets.Textarea(
    value=pair.name2,
    disabled=True
    )
    coauthors_text2=widgets.Textarea(
    value=pair.coauthors2,
    disabled=True
    )
    affiliations_text2=widgets.Textarea(
    value=pair.affiliations2,
    disabled=True
    )
    return author_text1,coauthors_text1,affiliations_text1,author_text2,coauthors_text2,affiliations_text2

# функция закрытия всех переданных виджетов.
def close_widgets(name,coauthors,aff,box):
    name.close()
    coauthors.close()
    aff.close()
    box.close()
    
# функция для вывода графического интерфейса для получения обучающей выборки. Pair- набор пар, i- с какой пары начать.
def training(list_of_pairs,i):
   

    if (list_of_pairs[i].id1==list_of_pairs[i].id2):
        list_of_pairs[i].same=1
        training(list_of_pairs,i+1)
    else:
        # Формируем виджеты для каждого автора
        info=print_info(list_of_pairs[i])


        name=widgets.HBox([info[0],info[3]])
        coauthors=widgets.HBox([info[1],info[4]])
        aff=widgets.HBox([info[2],info[5]])

        # формируем виджеты кнопок
        yes_button= widgets.Button(description="YES")
        no_button= widgets.Button(description="NO")
        cancel_button= widgets.Button(description="Cancel")
        skip_button= widgets.Button(description="Skip")
        box = widgets.HBox([yes_button,no_button,skip_button,cancel_button])

        def on_yes_button_clicked(button):
            list_of_pairs[i].same=1
            close_widgets(name,coauthors,aff,box)
            training(list_of_pairs,i+1)
        yes_button.on_click(on_yes_button_clicked)

        def on_no_button_clicked(button):
            list_of_pairs[i].same=0
            close_widgets(name,coauthors,aff,box)
            training(list_of_pairs,i+1)
        no_button.on_click(on_no_button_clicked)

        def on_cancel_button_clicked(button):
            close_widgets(name,coauthors,aff,box)
            print("Вы остановились на паре номер: "+str(i))
        cancel_button.on_click(on_cancel_button_clicked)

        def on_skip_button_clicked(button):
            list_of_pairs.pop(i)
            close_widgets(name,coauthors,aff,box)
            training(list_of_pairs,i)
        skip_button.on_click(on_skip_button_clicked)

        display(name,coauthors,aff,box)


In [209]:
# Получение данных
list_of_authors=obt_data(20,"miRna")
list_of_pairs=authors_to_pairs(list_of_authors)


In [210]:
#Сборка обучащей выборки
training(list_of_pairs,0)

HBox(children=(Textarea(value='Talepoor Ardakani Maryam M', disabled=True), Textarea(value='Rostamian Delavar …

HBox(children=(Textarea(value='Talepoor Ardakani Maryam MRostamian Delavar Mahsa MBaghi Masoud MNasr-Esfahani …

HBox(children=(Textarea(value='Department of Biology. School of Sciences. University of Isfahan. Isfahan. Iran…

HBox(children=(Button(description='YES', style=ButtonStyle()), Button(description='NO', style=ButtonStyle()), …

HBox(children=(Textarea(value='Talepoor Ardakani Maryam M', disabled=True), Textarea(value='Baghi Masoud M', d…

HBox(children=(Textarea(value='Talepoor Ardakani Maryam MRostamian Delavar Mahsa MBaghi Masoud MNasr-Esfahani …

HBox(children=(Textarea(value='Department of Biology. School of Sciences. University of Isfahan. Isfahan. Iran…

HBox(children=(Button(description='YES', style=ButtonStyle()), Button(description='NO', style=ButtonStyle()), …

HBox(children=(Textarea(value='Talepoor Ardakani Maryam M', disabled=True), Textarea(value='Nasr-Esfahani Moha…

HBox(children=(Textarea(value='Talepoor Ardakani Maryam MRostamian Delavar Mahsa MBaghi Masoud MNasr-Esfahani …

HBox(children=(Textarea(value='Department of Biology. School of Sciences. University of Isfahan. Isfahan. Iran…

HBox(children=(Button(description='YES', style=ButtonStyle()), Button(description='NO', style=ButtonStyle()), …

Вы остановились на паре номер: 2


In [206]:
# Запись коллекция в базы данных

# Строка для создания таблицы
#sql_create_pair="CREATE TABLE pair_of_authors (id INT NOT NULL AUTO_INCREMENT,name1 VARCHAR(255), name2 VARCHAR(255), coauthors1 VARCHAR(255),coauthors2 VARCHAR(255), affiliations1 VARCHAR(255),affiliations2 VARCHAR(255), abstract1 TEXT, abstract2 TEXT, title1 VARCHAR(255),title2 VARCHAR(255), same INT, PRIMARY KEY (id))"
#mycursor.execute(sql_create_pair)

# Добавление размеченых данных в базу данных
import mysql.connector
mydb = mysql.connector.connect(
  host="localhost",
  user="root",
  passwd="root",
    auth_plugin='mysql_native_password',
    database='pudov_test'
)
mycursor = mydb.cursor()

sql_add_data="INSERT INTO pair_of_authors (name1, name2,coauthors1,coauthors2,affiliations1,affiliations2,abstract1, abstract2,title1,title2,same) VALUES (%s, %s,%s,%s,%s,%s,%s,%s,%s,%s,%s)"
for i in training_set:
    val = (list_of_pairs.name1, list_of_pairs.name2, list_of_pairs.coauthors1, list_of_pairs.coauthors2, list_of_pairs.affiliations1,list_of_pairs.affiliations2,list_of_pairs.abstract1,list_of_pairs.abstract2,list_of_pairs.article_title1,list_of_pairs.article_title2,i.same)
    mycursor.execute(sql_add_data, val)


mydb.commit()