### Извлечение текстов википедии из архива

In [1]:
#!pip install wikiextractor

In [1]:
import wikiextractor

In [None]:
# !wget http://dumps.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2

In [1]:
# !python3 -m wikiextractor.WikiExtractor -o ./data/wiki/ --no-templates --processes 8 ./uwiki-latest-pages-articles.xml.bz2

In [2]:
# !python3 -m wikiextractor.extractPage -o ./data/wiki/ --no-templates --processes 8 ./ruwiki-latest-pages-articles.xml.bz2

### Парсинг текстов википедии

In [3]:
import os
import re
import sys
import glob
import gensim
import numpy as np
import pandas as pd
from tqdm import tqdm
from uuid import uuid4
from functools import reduce
from multiprocessing import Pool
from sentence_transformers import SentenceTransformer
import faiss
import nltk
nltk.download('punkt_tab')
from nltk.corpus import stopwords
nltk.download('stopwords')



Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd
  from tqdm.autonotebook import tqdm, trange
2024-10-23 08:30:13.356784: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 AVX512F AVX512_VNNI FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2024-10-23 08:30:13.535994: I tensorflow/core/util/port.cc:104] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round

True

In [42]:
def _remove_non_printed_chars(string):
    reg = re.compile('[^a-zA-Zа-яА-ЯёЁ]')
    return reg.sub(' ', string)

def _remove_stop_words(string,sw=[]):
    return ' '.join([word if word not in sw else '' \
                     for word in string.strip().split(' ')])

def _trim_string(string):
    # remove extra spaces, remove trailing spaces, lower the case 
    return re.sub('\s+',' ',string).strip().lower()
    
def clean_string(string,
                 stop_words_list,
                 min_len=2,
                 max_len=30):

    string = _remove_non_printed_chars(string)
    string = _remove_stop_words(string,stop_words_list)
    string = _trim_string(string)
    # also remove short words, most likely containing addresses / crap / left-overs / etc remaining after removal
    # gensim mostly does the same as above, it is used here for simplicity
    string = ' '.join(gensim.utils.simple_preprocess(string,
                                                     min_len=min_len,
                                                     max_len=max_len))
    return string
    
def remove_html_tags(text):
    """Remove html tags from a string"""
    import re
    clean = re.compile('<.*?>')
    return re.sub(clean, '', text)
    
def remove_special_chars(text,char_list):
    for char in char_list:
        text=text.replace(char,'')
    return text.replace(u'\xa0', u' ')

def splitkeepsep(s, sep):
    cleaned = []
    s = re.split("(%s)" % re.escape(sep), s)
    for _ in s:
        if _!='' and _!=sep:
            cleaned.append(sep+_)
    return cleaned

def extract_url(text):
    pattern = 'http([^"]+)'
    match = re.search(pattern, text)
    if match:
        url = match.group(0)
        return url
    else:
        return ""

model = SentenceTransformer("sentence-transformers/paraphrase-multilingual-mpnet-base-v2")
# Функция для создания векторов
def create_vector(text):
    return model.encode(text, normalize_embeddings=True)
    
def process_wiki_files(wiki_file):
    chars = ['\n']
    global sw

    with open(wiki_file, encoding='utf-8') as f:
        content = f.read()

    articles = splitkeepsep(content,'<doc id=')
    df_texts = pd.DataFrame(columns=['article_uuid','url', 'title', 'article','proc_article','proc_len'])
    emds = []
    
    for article in articles:
        uuid_text = uuid4()
        uuid_embd = uuid4()

        url = extract_url(article)

        article = remove_html_tags(article)

        titleIndex = article.find('\n\n')
        title = article[1:article.find('\n\n')]
        
        article = remove_special_chars(article[titleIndex:], chars)        

        proc_article = clean_string(article,sw)
        proc_len = len(proc_article.split(' '))

        temp_df_texts = pd.DataFrame(
            {'article_uuid': [uuid_text],
             'url': url,
             'title': title,
             'article': article,
             'proc_article':proc_article,
             'proc_len':proc_len
            })
        df_texts = pd.concat([df_texts, temp_df_texts], ignore_index=True)

        emb = create_vector(article)
        emds.append(emb)
    
    return df_texts, np.array(emds)

sw_en = set(stopwords.words('english'))
sw_ru = set(stopwords.words('russian'))
sw = list(sw_ru.union(sw_en))  



In [43]:
df_texts, embds = process_wiki_files("./data/wiki/AA/wiki_00")

In [44]:
df_texts

Unnamed: 0,article_uuid,url,title,article,proc_article,proc_len
0,b6383dcc-931d-442e-b5f3-dab1ba0343a9,https://ru.wikipedia.org/wiki?curid=4,Базовая статья,,,1
1,8fe1a15c-21bd-4993-a901-3e41135ef791,https://ru.wikipedia.org/wiki?curid=7,Литва,"Литва́ ( ), официальное название — Лито́вская ...",литва официальное название лито вская респу бл...,4324
2,4bbf0acb-9f69-49cf-9388-b4792c3189c8,https://ru.wikipedia.org/wiki?curid=9,Россия,"Росси́я, или Росси́йская Федера́ция (сокр. РФ)...",росси росси йская федера ция сокр рф государст...,14331
3,2d04b126-6330-4e24-95a0-d9fbe4fdcf64,https://ru.wikipedia.org/wiki?curid=10,Слоновые,"Слоно́вые, или слоны́ , — семейство класса мле...",слоно вые слоны семейство класса млекопитающих...,1580
4,3bd8db83-32be-43f8-8676-72bcd81ed838,https://ru.wikipedia.org/wiki?curid=11,Мамонты,Ма́монты () — вымерший род млекопитающих отряд...,ма монты вымерший род млекопитающих отряда хоб...,4193
5,7b5973c1-2f60-4d38-9c8a-1d3979395dd4,https://ru.wikipedia.org/wiki?curid=15,Красная книга,Кра́сная кни́га — аннотированный список редких...,кра сная кни га аннотированный список редких н...,806
6,b2f85c5f-8e0a-4a4a-baa6-470406bf6be5,https://ru.wikipedia.org/wiki?curid=16,Соционика,Социо́ника — псевдонаучная концепция типов лич...,социо ника псевдонаучная концепция типов лично...,2121
7,0c1a96c8-20f2-49c1-a274-f4ac373da379,https://ru.wikipedia.org/wiki?curid=18,Школа,"Шко́ла (через , из , от — «досуг») — учебное ...",шко ла досуг учебное заведение получения общег...,1782
8,c26ea9e1-722b-44c3-b4a8-908faf7678bf,https://ru.wikipedia.org/wiki?curid=20,Лингвистика,"Лингви́стика (от «язык»), языкозна́ние, языко...",лингви стика язык языкозна ние языкове дение н...,529
9,ea192340-6def-4b5b-946b-c1ded85a409a,https://ru.wikipedia.org/wiki?curid=21,Социология,Социоло́гия (от и ) ― наука о совместной жизни...,социоло гия наука совместной жизни групп сообщ...,10390


### Сохранение в базы данных извлечённых текстов и их эмбеддингов

In [45]:
index = faiss.IndexFlatL2(embds.shape[1])
index = faiss.IndexIDMap(index)
index.add_with_ids(embds, np.arange(embds.shape[0]))
faiss.write_index(index, './data/data_bases/vectorDB.index')

# index = faiss.read_index('./data/data_bases/vectorDB.index')
# index.add_with_ids(embds, np.arange(index.ntotal, index.ntotal + embds.shape[0]))

In [46]:
index.ntotal

12

In [47]:
# df = pd.read_csv('./data/data_bases/texts.csv')

df_texts.to_csv('./data/data_bases/texts.csv')

In [49]:
D, I = index.search(embds, index.ntotal)
print(I)
print(D)

[[ 0  7  5  6  8  9  2  3 10  4 11  1]
 [ 1  2 10 11  9  8  7  6  4  5  3  0]
 [ 2 10  1 11  9  6  7  8  5  3  4  0]
 [ 3  4  5  6  2  9  1 10  8 11  0  7]
 [ 4  3  5 11  6 10  1  8  9  2  0  7]
 [ 5  8  4 10  3  6  9  2 11  7  0  1]
 [ 6  9  8  7  4 10  5  2  1  3 11  0]
 [ 7  9  8 10  6 11  1  2  5  0  3  4]
 [ 8  9  6  7  5 10  1 11  2  4  3  0]
 [ 9  6  8  7 10  2  1  5 11  3  4  0]
 [10  2  1 11  7  9  8  6  5  4  3  0]
 [11  1 10  2  4  7  8  5  9  6  3  0]]
[[0.         1.6379321  1.6442382  1.7530906  1.7694647  1.7886138
  1.8080661  1.8177005  1.8480195  1.8711685  1.8768388  1.9604853 ]
 [0.         0.85813534 0.9918479  1.0138543  1.4557984  1.484049
  1.5230228  1.5419474  1.6003543  1.6876879  1.6906862  1.9604853 ]
 [0.         0.657748   0.85813534 1.3083986  1.4509708  1.5268611
  1.547735   1.5533986  1.5871501  1.6233325  1.6727228  1.8080661 ]
 [0.         0.49328583 1.5071831  1.6006911  1.6233325  1.6362447
  1.6906862  1.70244    1.7094092  1.7322085  1.8177005  