In [None]:
import pandas as pd
import re

# Загружаем исходный датасет
try:
    df = pd.read_csv('datajob.csv') # Предположим, ваш файл называется data.csv
except FileNotFoundError:
    print("Ошибка: Файл data.csv не найден!")
    exit()

# 1. Выбираем колонки для поиска
# fillna('') заменяет пустые значения (NaN) на пустые строки
cols_for_search = ['Title', 'Company', 'JobDescription', 'JobRequirment', 'RequiredQual']
for col in cols_for_search:
    df[col] = df[col].fillna('')

# 2. Создаем колонку SearchText
df['SearchText'] = df[cols_for_search].agg(' '.join, axis=1)

# 3. Функция для очистки текста
def clean_text(text):
    text = text.lower()  # Приводим к нижнему регистру
    text = re.sub(r'[\n\r]', ' ', text) # Удаляем переносы строк
    text = re.sub(r'[^\w\s]', '', text) # Удаляем все, что не является буквой, цифрой или пробелом
    text = re.sub(r'\s+', ' ', text).strip() # Удаляем лишние пробелы
    return text

# Применяем очистку к нашей поисковой колонке
df['SearchText'] = df['SearchText'].apply(clean_text)

# Также нужно подготовить данные для вывода пользователю
# Убираем переносы строк, чтобы в боте не было "рваного" текста
df['title'] = df['Title'].fillna('Без названия').str.replace(r'[\n\r]', ' ', regex=True).str.strip()
df['company'] = df['Company'].fillna('Не указана').str.replace(r'[\n\r]', ' ', regex=True).str.strip()
df['location'] = df['Location'].fillna('Не указан').str.replace(r'[\n\r]', ' ', regex=True).str.strip()

# 4. Сохраняем очищенный датафрейм в новый файл
# Выбираем только нужные колонки, чтобы файл был меньше
cleaned_df = df[['title', 'company', 'location', 'SearchText']]
cleaned_df.to_csv('cleaned_jobs.csv', index=False)

print(f"Датасет успешно очищен и сохранен в 'cleaned_jobs.csv'. Обработано {len(cleaned_df)} вакансий.")

Загрузка данных из datajob.csv...
Начинаю очистку данных...
Очистка завершена. Найдено 18973 валидных вакансий.
Сохраняю результат в cleaned_jobs.csv...

Готово! Теперь вы можете использовать файл 'cleaned_jobs.csv' в вашем боте.
Не забудьте убедиться, что код в bot.py использует именно этот файл.
