# Импорт библиотек

In [1]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from catboost import Pool, CatBoostClassifier

# Данные

У признака "location" слишком много пропущенных значений, а признак "id" — это простой серийный номер, поэтому их отбросим. Некоторые текстовые значения (твиты) повторяются — оставим только одно, если все дубликаты имеют одну и ту же цель, удалим все, если у них разные цели, иначе они запутают нашу модель.

Признак "keyword" является категориальным и имеет пропущенные значения. CatBoost может работать с несколькими категориальными признакамми по отдельности, но не одновременно. Кроме того, "keyword" имеет большое количество категорий и использовать One Hot Encoded или дамми переменные бесмыссленно. Поэтому закодируем его с помощью LabelEncoder, рассматривая значения np.nan как отдельную категорию.

In [2]:
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')

In [3]:
train_data.isna().sum()

id             0
keyword       61
location    2533
text           0
target         0
dtype: int64

In [4]:
print(train_data.duplicated(['text', 'target']).sum())
print(train_data.duplicated(['text']).sum())

92
110


In [5]:
train_data = train_data.drop(['id', 'location'], axis=1)
test_data = test_data.drop(['id', 'location'], axis=1)
train_data = train_data.drop_duplicates(["text", "target"])
train_data = train_data.drop(index=train_data[train_data.duplicated('text', keep=False)].index)

In [7]:
encoder = LabelEncoder()
train_data['keyword'] = encoder.fit_transform(train_data['keyword'])
test_data['keyword'] = encoder.transform(test_data['keyword'])

# Модель ML

Чтобы создать модель CatBoost, лучше всего «объединить» признаки. В этом случае это необходимо сделать, потому что один из признаков является категориальным, который может обрабатываться только путем объединения.

In [8]:
"""
Здесь мы создаем объекты Pool из данных тренировочного и тестового наборов для использования с CatBoost.
train_data[['keyword', 'text']] обращается к столбцам 'keyword' и 'text' в тренировочных данных. 
train_data[['target']] обращается к столбцу 'target', который является целевым столбцом для обучения модели.
test_data представляет собой тестовые данные, и мы используем только столбец 'text' в качестве текстовых признаков.
text_features=['text'] указывает, что столбец 'text' должен быть рассмотрен как текстовый признак в Pool. 
Это позволяет CatBoost обрабатывать текстовые данные в качестве особого типа признаков при обучении модели.
"""
train_pool = Pool(train_data[['keyword', 'text']], label=train_data[['target']], text_features=['text'])
test_pool = Pool(test_data, text_features=['text'])

In [9]:
# Параметр verbose=0 используется для отключения вывода прогресса обучения.
clf = CatBoostClassifier(random_state=42)
clf.fit(train_pool, verbose=0)
y_pred = clf.predict(test_pool)

# Предсказание

In [10]:
sample = pd.read_csv('sample_submission.csv')
sample['target'] = y_pred
sample.to_csv('solution.csv', index=False)