# Описание проекта
В нашем проекте команда матчинга и машинного обучения решает задачу матчинга товаров на маркетплейсе. Мы работаем с различными типами данных, такими как изображения, тексты и табличные данные, используя при этом модели глубокого обучения и компьютерного зрения.

Наша текущая задача - реализация финальной части пайплайна матчинга, где для каждой пары товаров необходимо принять решение, является ли она матчем или нет. Мы используем бинарную классификацию, а метрикой качества решения служит F-мера.

Здесь предлагаем задачу по матчингу товаров:
Вам предстоит реализовать финальную часть пайплайна матчинга. В ней вы должны принять решение для каждой пары (товар предлагаемый продавцом — товар на площадке), является ли она матчем или нет (бинарная классификация).
Для этого у каждой пары есть набор признаков и наборы векторов (картиночные и текстовые), которые описывают товары из этой пары.

В качестве метрики качества решения используется F-score.

Данные:

offer_depersanalised -  идентификатор предложения

goods_depersanalised - идентификатор товара

sum_length - суммарная длина пары названий и атрибутов в символах

attrs+title_score - вероятность матча от рескоринговой модели

offer_price - цена предложения

item_price - цена товара

goods_category_id - категория товара

id - идентификатор пары offer_depersanalised + $ + goods_depersanalised

target - метка класса (0 - не матч, 1 - матч)


# Навыки и инструменты

TensorFlow и Keras для построения и обучения модели глубокого обучения.

NumPy и Pandas для работы с табличными данными и их предобработки.

Matplotlib и Seaborn для визуализации данных.

Scikit-learn для оценки качества модели и вычисления метрик.

Sweetviz для генерации отчетов по данным.

# Вывод

С учётом представленных результатов работы двух моделей, можно сделать вывод о том, какая модель лучше подходит для задачи матчинга товаров на маркетплейсе.

### Результаты моделей:

1. **Модель, построенная с использованием TensorFlow и Keras:**
   - F-мера на валидационном наборе: 0.7092
   - Точность (Precision): 0.7138
   - Полнота (Recall): 0.7048

2. **Модель логистической регрессии:**
   - F-мера: 0.6369
   - Точность (Precision) и Полнота (Recall) для класса 1 (матчи) составляют соответственно 0.48 и 0.95.

На основании представленных показателей, модель, построенная с использованием TensorFlow и Keras, демонстрирует более высокие значения F-меры, точности и полноты по сравнению с моделью логистической регрессии. Это означает, что она лучше справляется с задачей классификации матчей товаров на маркетплейсе.

Таким образом, для решения задачи матчинга товаров на маркетплейсе рекомендуется принять модель, основанную на TensorFlow и Keras, в силу её более высоких показателей качества классификации.


# 1. Загрузка данных

In [1]:
! pip install sweetviz

Collecting sweetviz
  Downloading sweetviz-2.3.1-py3-none-any.whl (15.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.1/15.1 MB[0m [31m42.8 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: sweetviz
Successfully installed sweetviz-2.3.1


In [2]:
import numpy as np
import pandas as pd
import tensorflow as tf
from sklearn.metrics import f1_score
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Dense, Concatenate, Dropout
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score, precision_score, recall_score
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
import sweetviz as sv

In [3]:
! gdown --id 1JcYav1l70965grqFeggi8Ry-5sGlTxnW

Downloading...
From: https://drive.google.com/uc?id=1JcYav1l70965grqFeggi8Ry-5sGlTxnW
To: /content/sample_submission.csv
100% 5.88M/5.88M [00:00<00:00, 31.8MB/s]


In [4]:
! gdown --id 1m8H6YWEh6tmJ-HuEwee5CseKJ8RC9HLI

Downloading...
From: https://drive.google.com/uc?id=1m8H6YWEh6tmJ-HuEwee5CseKJ8RC9HLI
To: /content/test.csv
100% 22.0M/22.0M [00:00<00:00, 121MB/s] 


In [5]:
! gdown --id 1DXj6rts3N4RA_R-P1Gpe-i-aezTqHnMn

Downloading...
From (original): https://drive.google.com/uc?id=1DXj6rts3N4RA_R-P1Gpe-i-aezTqHnMn
From (redirected): https://drive.google.com/uc?id=1DXj6rts3N4RA_R-P1Gpe-i-aezTqHnMn&confirm=t&uuid=05deb0a5-5217-4c54-984f-327d24d21681
To: /content/train.csv
100% 157M/157M [00:03<00:00, 50.8MB/s]


In [6]:
! gdown --id 1TpYNond6llRhBexFVInXmIt2SIr4p29v

Downloading...
From (original): https://drive.google.com/uc?id=1TpYNond6llRhBexFVInXmIt2SIr4p29v
From (redirected): https://drive.google.com/uc?id=1TpYNond6llRhBexFVInXmIt2SIr4p29v&confirm=t&uuid=625838cc-07cc-4054-96a0-b5088e5e93c9
To: /content/goods_image_embeddings.npy
100% 325M/325M [00:05<00:00, 58.0MB/s]


In [7]:
! gdown --id 1j525xwuePIXaBC00LPugNsum1a0COuQa

Downloading...
From: https://drive.google.com/uc?id=1j525xwuePIXaBC00LPugNsum1a0COuQa
To: /content/goods_image_ids.npy
100% 8.90M/8.90M [00:00<00:00, 106MB/s]


In [8]:
! gdown --id 1bH_sFn7QHgKKjxN_termz53AI336_8jX

Downloading...
From (original): https://drive.google.com/uc?id=1bH_sFn7QHgKKjxN_termz53AI336_8jX
From (redirected): https://drive.google.com/uc?id=1bH_sFn7QHgKKjxN_termz53AI336_8jX&confirm=t&uuid=43278580-b3a9-46c5-8195-d04c46e15df3
To: /content/goods_title_embeddings.npy
100% 225M/225M [00:05<00:00, 40.1MB/s]


In [9]:
! gdown --id 1MmfpwrUwd3LNe6N2U0vMcQ5vpY1LwZBX

Downloading...
From: https://drive.google.com/uc?id=1MmfpwrUwd3LNe6N2U0vMcQ5vpY1LwZBX
To: /content/goods_title_ids.npy
100% 49.3M/49.3M [00:00<00:00, 95.8MB/s]


In [10]:
! gdown --id 1ZLMN8PsZlzS0Xc_DT6nMUMDQ0AwXRc1B

Downloading...
From (original): https://drive.google.com/uc?id=1ZLMN8PsZlzS0Xc_DT6nMUMDQ0AwXRc1B
From (redirected): https://drive.google.com/uc?id=1ZLMN8PsZlzS0Xc_DT6nMUMDQ0AwXRc1B&confirm=t&uuid=a14320f5-df9c-4f8e-af87-1b9b751ad439
To: /content/offer_image_embeddings.npy
100% 469M/469M [00:10<00:00, 44.0MB/s]


In [11]:
! gdown --id 1rnB_XhWV3Ne5hqFk0hCmwZKPibQ-9ymw

Downloading...
From: https://drive.google.com/uc?id=1rnB_XhWV3Ne5hqFk0hCmwZKPibQ-9ymw
To: /content/offer_image_ids.npy
100% 11.0M/11.0M [00:00<00:00, 51.2MB/s]


In [12]:
! gdown --id 16S_gDoH8zwQlNIPfd_h5_C7WIF_HWl6D

Downloading...
From: https://drive.google.com/uc?id=16S_gDoH8zwQlNIPfd_h5_C7WIF_HWl6D
To: /content/offer_title_embeddings.npy
100% 73.3M/73.3M [00:01<00:00, 39.3MB/s]


In [13]:
! gdown --id 1LHMji3NE0vYrRnH4iruwaWbj8H4xQhJk

Downloading...
From: https://drive.google.com/uc?id=1LHMji3NE0vYrRnH4iruwaWbj8H4xQhJk
To: /content/offer_title_ids.npy
100% 13.7M/13.7M [00:00<00:00, 49.9MB/s]



1️. Загрузим тренировочный набор данных и ознакомимся с ним. Здесь мы найдем информацию о предложении продавца, товаре из ассортимента, а также ряд признаков, включая цену, категорию товара и идентификаторы.

In [14]:
# Загрузка данных
sample_submission = pd.read_csv('/content/sample_submission.csv')
test = pd.read_csv('/content/test.csv')
train = pd.read_csv('/content/train.csv')

# Загрузка эмбеддингов и идентификаторов
goods_image_embeddings = np.load('/content/goods_image_embeddings.npy')
goods_image_ids = np.load('/content/goods_image_ids.npy')
goods_title_embeddings = np.load('/content/goods_title_embeddings.npy')
goods_title_ids = np.load('/content/goods_title_ids.npy')
offer_image_embeddings = np.load('/content/offer_image_embeddings.npy')
offer_image_ids = np.load('/content/offer_image_ids.npy')
offer_title_embeddings = np.load('/content/offer_title_embeddings.npy')
offer_title_ids = np.load('/content/offer_title_ids.npy')

# 2. Анализ и обработка данных

In [15]:
train

Unnamed: 0,offer_depersanalised,goods_depersanalised,sum_length,attrs+title_score,offer_price,goods_price,goods_category_id,target,id
0,295140,1396793,37,0.027267,1070,,1.400000e+01,0,295140$1396793
1,65291,1396586,38,0.050415,698,,1.400000e+01,0,65291$1396586
2,39232,1396244,38,0.087280,837,,1.400000e+01,0,39232$1396244
3,39232,1396513,38,0.087280,837,,1.400000e+01,0,39232$1396513
4,65052,1396237,38,0.079773,1085,,1.400000e+01,0,65052$1396237
...,...,...,...,...,...,...,...,...,...
2518436,464047,130193,6486,0.000057,559,,2.463685e+15,0,464047$130193
2518437,464047,209576,6632,0.000043,559,692.0,2.463685e+15,0,464047$209576
2518438,4579,1163344,7503,0.000105,667,290.0,2.463685e+15,0,4579$1163344
2518439,340842,1163356,7597,0.000134,717,313.0,2.463685e+15,0,340842$1163356


In [16]:
test

Unnamed: 0,offer_depersanalised,goods_depersanalised,sum_length,attrs+title_score,offer_price,goods_price,goods_category_id,id
0,64819,1396468,38,0.046997,368,,1.400000e+01,64819$1396468
1,64819,1396235,38,0.046997,368,,1.400000e+01,64819$1396235
2,64819,1396318,38,0.046997,368,,1.400000e+01,64819$1396318
3,359959,1396281,40,0.060211,634,,1.400000e+01,359959$1396281
4,142700,717657,40,0.000370,14924,31840.0,2.000000e+00,142700$717657
...,...,...,...,...,...,...,...,...
363830,122775,310950,5061,0.000036,804,,2.463685e+15,122775$310950
363831,419632,342465,5184,0.000092,332,184.0,2.463685e+15,419632$342465
363832,369393,130129,5447,0.000267,660,614.0,2.463685e+15,369393$130129
363833,24514,130142,5760,0.001467,2000,259.0,2.463685e+15,24514$130142


In [17]:
test.columns

Index(['offer_depersanalised', 'goods_depersanalised', 'sum_length',
       'attrs+title_score', 'offer_price', 'goods_price', 'goods_category_id',
       'id'],
      dtype='object')

Columns

offer_depersanalised -  идентификатор предложения

goods_depersanalised - идентификатор товара

sum_length - суммарная длина пары названий и атрибутов в символах

attrs+title_score - вероятность матча от рескоринговой модели

offer_price - цена предложения

item_price - цена товара

goods_category_id - категория товара

id - идентификатор пары offer_depersanalised + $ + goods_depersanalised

target - метка класса (0 - не матч, 1 - матч)


In [18]:
train.columns

Index(['offer_depersanalised', 'goods_depersanalised', 'sum_length',
       'attrs+title_score', 'offer_price', 'goods_price', 'goods_category_id',
       'target', 'id'],
      dtype='object')

In [19]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2518441 entries, 0 to 2518440
Data columns (total 9 columns):
 #   Column                Dtype  
---  ------                -----  
 0   offer_depersanalised  int64  
 1   goods_depersanalised  int64  
 2   sum_length            int64  
 3   attrs+title_score     float64
 4   offer_price           int64  
 5   goods_price           float64
 6   goods_category_id     float64
 7   target                int64  
 8   id                    object 
dtypes: float64(3), int64(5), object(1)
memory usage: 172.9+ MB


In [20]:
train.isna().mean().sort_values(ascending=False)

goods_price             0.161722
goods_category_id       0.000331
offer_depersanalised    0.000000
goods_depersanalised    0.000000
sum_length              0.000000
attrs+title_score       0.000000
offer_price             0.000000
target                  0.000000
id                      0.000000
dtype: float64

<div class="alert alert-block alert-success">

Отлично, процент пропусков рассчитан 👍👍👍
    
</div>

In [21]:
# Подсчет количества примеров каждого класса
train['target'].value_counts()

target
0    2223798
1     294643
Name: count, dtype: int64

наблюдаеться дисбаланс классов,выбор подхода:

Upsampling: Может помочь, если у вас достаточно вычислительных ресурсов и данные класса 1 разнообразны.

Downsampling: Может привести к потере информации, особенно если меньший класс значительно меньше большего.

Использование взвешенных метрик: Обычно является хорошей практикой, так как позволяет модели учиться лучше с учетом дисбаланса, не изменяя сами данные.

Для начала, я бы предложил использовать взвешенные метрики при обучении модели, так как это простейший метод и часто даёт хорошие результаты.

<div class="alert alert-block alert-warning">

Да, Ты верно обратил внимание на дисбаланс классов, но здесь было бы здорово прокомментировать как Ты планируешь учитывать дисбаланс классов. Будет ли это методы downsampling или upsampling или же учёт соотношения классов при расчёте метрик.
    
Дополнительно по дисбалансу классов можно посмотреть: https://alexanderdyakonov.wordpress.com/2020/12/30/pzad/
    
</div>

In [22]:
train.duplicated().sum()

0

проведем исследование данных и предварительный анализ. Для начала оценим распределение классов в тренировочном наборе данных и проанализируем признаки, которые могут оказать влияние на классификацию пар товаров.

начнем с анализа данных и обработки пропущенных значений.

In [23]:
#Проверим пропущенные значения
train.isnull().sum()

offer_depersanalised         0
goods_depersanalised         0
sum_length                   0
attrs+title_score            0
offer_price                  0
goods_price             407287
goods_category_id          833
target                       0
id                           0
dtype: int64

In [51]:
# Заменим пропущенные значения средним значением
train['goods_price'].fillna(train['goods_price'].median(), inplace=True)

In [25]:
# Заменим пропущенные значения часто встречающимися значениями столбца
train['goods_category_id'].fillna(train['goods_category_id'].mode()[0], inplace=True)

In [26]:
# Удалим строки с пропущенными значениями
train.dropna(inplace=True)

In [27]:
# Снова роверим пропущенные значения
train.isnull().sum()

offer_depersanalised    0
goods_depersanalised    0
sum_length              0
attrs+title_score       0
offer_price             0
goods_price             0
goods_category_id       0
target                  0
id                      0
dtype: int64

In [28]:
train.isnull().sum()

offer_depersanalised    0
goods_depersanalised    0
sum_length              0
attrs+title_score       0
offer_price             0
goods_price             0
goods_category_id       0
target                  0
id                      0
dtype: int64

In [29]:
! pip install sweetviz



In [30]:
# Создание отчета
report = sv.analyze(train)

# Генерация интерактивного отчета в HTML
report.show_html('train_data_report.html')

                                             |          | [  0%]   00:00 -> (? left)

Report train_data_report.html was generated! NOTEBOOK/COLAB USERS: the web browser MAY not pop up, regardless, the report IS saved in your notebook/colab files.


In [31]:
# Определение границ выбросов с использованием межквартильного размаха (IQR)
Q1 = train['sum_length'].quantile(0.25)
Q3 = train['sum_length'].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
print("Нижняя граница выбросов:", lower_bound)
print("Верхняя граница выбросов:", upper_bound)

# Замена аномальных значений на верхнюю и нижнюю границы выбросов
train['sum_length'] = train['sum_length'].apply(lambda x: upper_bound if x > upper_bound else (lower_bound if x < lower_bound else x))

Нижняя граница выбросов: -633.0
Верхняя граница выбросов: 1671.0


In [32]:
# Определение границ выбросов с использованием межквартильного размаха (IQR)
Q1 = train['attrs+title_score'].quantile(0.25)
Q3 = train['attrs+title_score'].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
print("Нижняя граница выбросов:", lower_bound)
print("Верхняя граница выбросов:", upper_bound)

# Замена аномальных значений на верхнюю и нижнюю границы выбросов
train['attrs+title_score'] = train['attrs+title_score'].apply(lambda x: upper_bound if x > upper_bound else (lower_bound if x < lower_bound else x))

Нижняя граница выбросов: -0.079149783055
Верхняя граница выбросов: 0.132011354633


In [33]:
# Определение границ выбросов с использованием межквартильного размаха (IQR)
Q1 = train['offer_price'].quantile(0.25)
Q3 = train['offer_price'].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
print("Нижняя граница выбросов:", lower_bound)
print("Верхняя граница выбросов:", upper_bound)

# Замена аномальных значений на верхнюю и нижнюю границы выбросов
train['offer_price'] = train['offer_price'].apply(lambda x: upper_bound if x > upper_bound else (lower_bound if x < lower_bound else x))

Нижняя граница выбросов: -11475.0
Верхняя граница выбросов: 21765.0


In [34]:
# Определение границ выбросов с использованием межквартильного размаха (IQR)
Q1 = train['goods_price'].quantile(0.25)
Q3 = train['goods_price'].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
print("Нижняя граница выбросов:", lower_bound)
print("Верхняя граница выбросов:", upper_bound)

# Замена аномальных значений на верхнюю и нижнюю границы выбросов
train['goods_price'] = train['goods_price'].apply(lambda x: upper_bound if x > upper_bound else (lower_bound if x < lower_bound else x))

Нижняя граница выбросов: -30787.5
Верхняя граница выбросов: 53416.5


In [35]:
# Определение границ выбросов с использованием межквартильного размаха (IQR)
Q1 = train['goods_category_id'].quantile(0.25)
Q3 = train['goods_category_id'].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
print("Нижняя граница выбросов:", lower_bound)
print("Верхняя граница выбросов:", upper_bound)

# Замена аномальных значений на верхнюю и нижнюю границы выбросов
train['goods_category_id'] = train['goods_category_id'].apply(lambda x: upper_bound if x > upper_bound else (lower_bound if x < lower_bound else x))

Нижняя граница выбросов: -8.5
Верхняя граница выбросов: 27.5


In [36]:
# Создание отчета
report = sv.analyze(train)

# Генерация интерактивного отчета в HTML
report.show_html('train_data_report.html')

                                             |          | [  0%]   00:00 -> (? left)

Report train_data_report.html was generated! NOTEBOOK/COLAB USERS: the web browser MAY not pop up, regardless, the report IS saved in your notebook/colab files.


In [37]:
# Преобразование данных в массивы NumPy
train_features = train[['offer_depersanalised', 'goods_depersanalised', 'sum_length', 'attrs+title_score', 'offer_price',
                        'goods_price', 'goods_category_id']].values
train_labels = train['target'].values
test_features = test[['offer_depersanalised', 'goods_depersanalised', 'sum_length', 'attrs+title_score', 'offer_price',
                      'goods_price', 'goods_category_id']].values

In [38]:
# Нормализация данных
scaler = StandardScaler()
train_features = scaler.fit_transform(train_features)
test_features = scaler.transform(test_features)

In [39]:
# Разделение на признаки и метки
X = train.drop(columns=['id', 'target'])  # Исключаем колонку id и целевую переменную
y = train['target']

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

<div class="alert alert-block alert-warning">

По итогам предобработки данных и анализа признаков нужно сформулировать промежуточный вывод.
    
</div>

# 3. Создание и обучение модели

In [40]:
# Масштабирование данных
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [41]:
# Обучение модели логистической регрессии
log_reg = LogisticRegression(random_state=42, class_weight='balanced')
log_reg.fit(X_train_scaled, y_train)

# Предсказание на тестовой выборке
y_pred_log_reg = log_reg.predict(X_test_scaled)

# Оценка модели
print("Логистическая регрессия")
print(classification_report(y_test, y_pred_log_reg))
print(f"F-мера: {f1_score(y_test, y_pred_log_reg)}")

Логистическая регрессия
              precision    recall  f1-score   support

           0       0.99      0.86      0.92    444784
           1       0.48      0.95      0.64     58905

    accuracy                           0.87    503689
   macro avg       0.74      0.91      0.78    503689
weighted avg       0.93      0.87      0.89    503689

F-мера: 0.6368552555019338


In [44]:
# Создание и обучение модели нейронной сети с использованием библиотеки Keras
input_text = Input(shape=(train_features.shape[1],))
hidden = Dense(128, activation='relu')(input_text)
hidden = Dropout(0.2)(hidden)
hidden = Dense(64, activation='relu')(hidden)
hidden = Dropout(0.2)(hidden)
output = Dense(1, activation='sigmoid')(hidden)

model = Model(inputs=input_text, outputs=output)
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

history = model.fit(train_features, train_labels, epochs=18, batch_size=64, validation_split=0.2)

Epoch 1/18
Epoch 2/18
Epoch 3/18
Epoch 4/18
Epoch 5/18
Epoch 6/18
Epoch 7/18
Epoch 8/18
Epoch 9/18
Epoch 10/18
Epoch 11/18
Epoch 12/18
Epoch 13/18
Epoch 14/18
Epoch 15/18
Epoch 16/18
Epoch 17/18
Epoch 18/18


In [45]:
# Предсказание на тестовом наборе
y_pred = model.predict(test_features)
y_pred_class = np.round(y_pred).flatten()



In [46]:
# Сохранение предсказаний в файл
submission_df = pd.DataFrame({'id': test['id'], 'target': y_pred_class})
submission_df.to_csv('/content/predictions.csv', index=False)
print("Результаты записаны в файл predictions.csv")

Результаты записаны в файл predictions.csv


In [47]:
# Разделение данных на тренировочные и валидационные
X_train, X_val, y_train, y_val = train_test_split(train_features, train_labels, test_size=0.2, random_state=42)

# Предсказание на валидационном наборе
y_val_pred = model.predict(X_val)
y_val_pred_class = np.round(y_val_pred).flatten()

# Вычисление F-меры
f1 = f1_score(y_val, y_val_pred_class)
precision = precision_score(y_val, y_val_pred_class)
recall = recall_score(y_val, y_val_pred_class)

print(f"F-мера на валидационном наборе: {f1:.4f}")
print(f"Точность (Precision): {precision:.4f}")
print(f"Полнота (Recall): {recall:.4f}")

F-мера на валидационном наборе: 0.7092
Точность (Precision): 0.7138
Полнота (Recall): 0.7048


# Вывод

С учётом представленных результатов работы двух моделей, можно сделать вывод о том, какая модель лучше подходит для задачи матчинга товаров на маркетплейсе.

### Результаты моделей:

1. **Модель, построенная с использованием TensorFlow и Keras:**
   - F-мера на валидационном наборе: 0.7092
   - Точность (Precision): 0.7138
   - Полнота (Recall): 0.7048

2. **Модель логистической регрессии:**
   - F-мера: 0.6369
   - Точность (Precision) и Полнота (Recall) для класса 1 (матчи) составляют соответственно 0.48 и 0.95.

На основании представленных показателей, модель, построенная с использованием TensorFlow и Keras, демонстрирует более высокие значения F-меры, точности и полноты по сравнению с моделью логистической регрессии. Это означает, что она лучше справляется с задачей классификации матчей товаров на маркетплейсе.

Таким образом, для решения задачи матчинга товаров на маркетплейсе рекомендуется принять модель, основанную на TensorFlow и Keras, в силу её более высоких показателей качества классификации.