In [None]:
!pip install scikit-learn
!pip install scipy==1.12
!pip install gensim
#!pip install allennlp
!pip install transformers
!pip install sentence-transformers


# Веторизация

Векторизация текста — это процесс преобразования текстовых данных в числовые представления, которые могут быть использованы алгоритмами машинного обучения и обработки естественного языка. Существуют различные методы векторизации текста, начиная с простых и заканчивая более сложными и мощными моделями. Вот обзор основных методов:

In [2]:
texts = [
    "Кошка сидит на подоконнике и смотрит на улицу.",
    "Дети играют в парке с мячом.",
    "На столе лежат книги и тетради.",
    "Птицы поют в саду утром.",
    "Машина быстро едет по шоссе."
]

## Bag of word

**Описание:** Преобразование текста в вектор фиксированной длины, где каждая позиция соответствует отдельному слову из всего корпуса, а значение — количество вхождений слова в документ.

**Плюсы:**
- Простота реализации.
- Интуитивная интерпретация.

**Минусы:**
- Не учитывает порядок слов.
- Сложность возрастает с увеличением размера корпуса.

In [3]:
from sklearn.feature_extraction.text import CountVectorizer

# Создание BoW модели
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# Показать результат
print("Bag of Words:")
print(vectorizer.get_feature_names_out())
print(X.toarray())


Bag of Words:
['быстро' 'дети' 'едет' 'играют' 'книги' 'кошка' 'лежат' 'машина' 'мячом'
 'на' 'парке' 'по' 'подоконнике' 'поют' 'птицы' 'саду' 'сидит' 'смотрит'
 'столе' 'тетради' 'улицу' 'утром' 'шоссе']
[[0 0 0 0 0 1 0 0 0 2 0 0 1 0 0 0 1 1 0 0 1 0 0]
 [0 1 0 1 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 1 0 1 0 0 1 0 0 0 0 0 0 0 0 1 1 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 1 0]
 [1 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1]]


## TF-IDF

**Описание:** Улучшение BoW, где каждый элемент вектора весится по частоте слова в документе и обратной частоте слова в корпусе.

**Плюсы:**
- Уменьшает влияние часто встречающихся слов (например, «и», «в»).
- Лучше различает значимые слова.

**Минусы:**
- Не учитывает порядок слов.
- Меньше информации о контексте.

In [4]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Создание TF-IDF модели
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(texts)

# Показать результат
print("TF-IDF:")
print(vectorizer.get_feature_names_out())
print(X.toarray())


TF-IDF:
['быстро' 'дети' 'едет' 'играют' 'книги' 'кошка' 'лежат' 'машина' 'мячом'
 'на' 'парке' 'по' 'подоконнике' 'поют' 'птицы' 'саду' 'сидит' 'смотрит'
 'столе' 'тетради' 'улицу' 'утром' 'шоссе']
[[0.         0.         0.         0.         0.         0.36265071
  0.         0.         0.         0.58516862 0.         0.
  0.36265071 0.         0.         0.         0.36265071 0.36265071
  0.         0.         0.36265071 0.         0.        ]
 [0.         0.5        0.         0.5        0.         0.
  0.         0.         0.5        0.         0.5        0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.46369322 0.
  0.46369322 0.         0.         0.37410477 0.         0.
  0.         0.         0.         0.         0.         0.
  0.46369322 0.46369322 0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.
  0.       

# Word Embeddings (Word2Vec)

**Описание:** Преобразование слов в плотные векторы фиксированной длины, обученные на большом корпусе текстов. Вектора схожих по смыслу слов расположены близко друг к другу в векторном пространстве.

**Плюсы:**
- Учитывает семантическую информацию.
- Компактное представление.

**Минусы:**
- Не учитывает полисемию (многозначность слов).
- Статическое представление (каждое слово всегда представлено одним и тем же вектором).


In [5]:
from gensim.models import Word2Vec

# Разбиение текстов на слова
tokenized_texts = [text.split() for text in texts]

# Создание Word2Vec модели
model = Word2Vec(sentences=tokenized_texts, vector_size=100, window=5, min_count=1, workers=4)

# Получение вектора для слова "Кошка"
vector = model.wv['Кошка']
print("Word2Vec:")
print(vector)


Word2Vec:
[-6.9636069e-03 -2.4585116e-03 -8.0229370e-03  7.5005279e-03
  6.1274157e-03  5.2584694e-03  8.3778575e-03 -6.9653272e-04
 -9.3127284e-03  9.1156662e-03 -4.9285362e-03  7.8479899e-03
  5.5338596e-03 -1.0790766e-03 -7.6642158e-03 -1.4598024e-03
  6.2535368e-03 -6.9660828e-03  1.4420962e-03 -7.9518585e-03
  8.7213479e-03 -2.8557885e-03  9.4373021e-03 -5.7080747e-03
 -9.7177243e-03 -8.6279036e-03 -4.0748348e-03  4.7095944e-03
 -2.4193883e-04  9.2235124e-03  3.1092144e-03  3.7477673e-03
  2.9963492e-03  8.1486488e-03 -2.3967146e-03  7.4073388e-03
 -9.5367134e-03  2.9210865e-03 -6.8166968e-04  4.5225740e-04
  6.8430100e-03 -2.8419732e-03 -2.3567795e-03 -1.0047674e-04
 -4.9769162e-04 -3.5749613e-03  6.2444829e-03 -6.5586674e-03
  7.8919996e-03 -9.3460083e-05  2.6088404e-03  3.2231498e-03
 -2.8165340e-04  1.7063022e-03 -3.1406546e-03  4.7564553e-03
  2.4301052e-04 -3.2805956e-03 -8.7145744e-03 -9.9980794e-03
  3.1277776e-04 -5.7468102e-03 -1.1096597e-03 -4.2060935e-03
 -8.6388253e-0

# FastText

**Описание:** Расширение Word2Vec, учитывающее морфологию слов за счет использования n-грамм символов. Это позволяет лучше работать с редкими и нечасто встречающимися словами.

**Плюсы:**
- Учитывает внутреннюю структуру слов.
- Обрабатывает неизвестные слова.

**Минусы:**
- Увеличивает сложность и размер модели.

In [9]:
from gensim.models import FastText

# Пример текстов
texts = [["Кошка", "сидит", "на", "подоконнике"], ["Дети", "играют", "в", "парке"], ["Машина", "едет", "по", "шоссе"]]

# Создание FastText модели
model = FastText(sentences=texts, vector_size=100, window=5, min_count=1, workers=4)

# Получение вектора для слова "Кошка"
vector = model.wv['Кошка']
print("FastText vector for 'Кошка':")
print(vector)

FastText vector for 'Кошка':
[-3.0525922e-04  3.5336034e-03  7.2508253e-04 -1.2815356e-03
 -1.6631660e-03 -7.8654301e-04 -4.4977730e-03  1.0739085e-03
  7.8009005e-05 -4.1312369e-04 -8.3559775e-04 -6.6402521e-05
  1.3927444e-03 -5.2920578e-04 -9.9934143e-05 -3.5590067e-04
  3.3396761e-06 -2.2929015e-03 -1.4277304e-03  1.0141414e-04
 -1.9697933e-03  5.4989534e-04  5.4035580e-04 -2.6456742e-03
  6.4059469e-04  2.1918833e-03 -2.7556324e-03  4.7027759e-04
 -8.4990542e-04 -5.8188400e-04  3.7306064e-04  1.6517009e-04
  1.6612363e-03 -2.1993710e-05 -1.1146673e-03  3.1653314e-04
  2.3638161e-03 -3.8904304e-04  2.3746665e-03 -1.2454481e-03
  6.7963731e-05  4.1478415e-04  2.2588321e-03  4.3581426e-03
  1.1857841e-03  4.6460010e-04 -1.3296860e-03 -9.5804346e-05
  2.7320541e-03  2.1892695e-03 -1.7284085e-03  2.0815746e-03
 -2.5513375e-03  1.7236081e-03 -2.1386971e-03 -5.0960545e-04
 -2.0002373e-03 -1.0356142e-03  1.8930421e-04 -2.0051128e-03
  1.1864470e-03 -8.6721608e-05 -2.1993715e-04  8.5411593

# Transformers (BERT)

**Описание:** Используют механизмы внимания (attention) для создания контекстуально зависимых представлений слов. Эти модели могут быть предварительно обучены на большом корпусе текстов и затем дообучены на конкретных задачах.


**BERT (Bidirectional Encoder Representations from Transformers):**
- **Описание:** Использует двунаправленное обучение, учитывая контекст слова как слева, так и справа.
- **Плюсы:** Отлично справляется с задачами понимания текста.
- **Минусы:** Ресурсоемкий процесс обучения и использования.

**GPT (Generative Pre-trained Transformer):**
- **Описание:** Использует однонаправленное обучение, подходит для генерации текста.
- **Плюсы:** Хорошо генерирует связный текст.
- **Минусы:** Меньше контекстной информации по сравнению с двунаправленными моделями.

In [None]:
from transformers import BertTokenizer, BertModel
import torch

# Пример одного предложения
sentence = texts[0]

# Создание токенайзера и модели
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')
model = BertModel.from_pretrained('bert-base-multilingual-cased')

# Токенизация и получение тензоров
inputs = tokenizer(sentence, return_tensors='pt')
outputs = model(**inputs)

# Получение векторов для каждого токена
last_hidden_states = outputs.last_hidden_state
print("BERT:")
print(last_hidden_states)

# Sentence Embeddings (Sentence-BERT)


**Описание:** Преобразование предложений или текстов в векторы фиксированной длины, учитывая их полное содержание.

**Плюсы:**
- Учитывает семантику всего предложения.
- Подходит для задач сравнения текстов и поиска.

**Минусы:**
- Требует больших объемов данных для обучения.

In [10]:
from sentence_transformers import SentenceTransformer

# Создание модели
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

# Получение векторов
embeddings = model.encode(texts)

# Показать результат
print(embeddings)


[[ 0.39828658 -0.23388262 -0.00871656 ... -0.06895408 -0.02948338
   0.19009201]
 [ 0.22489727  0.0578384   0.03988566 ...  0.1589544   0.03482928
   0.3165689 ]
 [ 0.29827043  0.11546078 -0.04700516 ... -0.01434096 -0.02188937
   0.12155327]]


# Pre-trained Language Models (GPT-3)

In [None]:
import openai

# Установите ваш API ключ
openai.api_key = 'your-api-key'

# Пример текста
text = texts[0]

# Запрос к GPT-3 для получения векторов
response = openai.Embedding.create(input=text, engine="text-embedding-ada-002")
embedding = response['data'][0]['embedding']

# Показать результат
print(embedding)
