In [1]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder

In [2]:
# чтение датасета
in_ds = pd.read_excel(r"РЖД train\Выгрузки_интересы+обращения+объёмы перевозок\Интересы.xls")

In [3]:
# столбцы, удаляемые за ненадобностью в обучении
drop_cols = [
    "Дата следующей активности", "Номер", "Ссылка (служебное поле для вывода на экран прочих реквизитов объекта)"
]

# столбцы категорий
cat_cols = [
    "Тема", "Сценарий", "Состояние", "Подразделение", "Следующая активность", "Канал первичного интереса"
]

# столбцы числовых значений
num_cols = [
    "Ожидаемая выручка", "Вероятность сделки, %"
]

# столбцы значений в виде даты
date_cols = [
    "Дата"
]

# столбцы идентификаторов
id_cols = ["ID"]

In [4]:
# удаление некоторых столбцов
in_ds = in_ds.drop(drop_cols, axis=1, errors="ignore")

# замена столбцов категорий столбцом чисел
for col in cat_cols:
    in_ds[col] = in_ds[col].str.lower()
    in_ds[col] = in_ds[col].str.strip()
    
    le = LabelEncoder()
    mean_value = le.fit_transform(in_ds[col].dropna()).mean()
    
    le.fit(in_ds[col].dropna())
    in_ds[col] = in_ds[col].apply(lambda x: le.transform([x])[0] if pd.notna(x) else mean_value)
    in_ds[col] = in_ds[col].astype(np.int64)

# замена неизвестных значений на среднее из всех известных и преобразование в int
for col in num_cols:
    mean_value = in_ds[col].dropna().mean()
    
    in_ds[col] = in_ds[col].apply(lambda x: mean_value if pd.isnull(x) else x)
    in_ds[col] = in_ds[col].astype(np.int64)

# преобразование данных в тип даты и времени
for col in date_cols:   
    in_ds[col] = pd.to_datetime(in_ds[col], format="mixed", dayfirst=True)

# замена неизвестных значений на среднее из всех известных
# mean_difference = (in_ds["Дата следующей активности"] - in_ds["Дата"]).mean()
# for row in range(len(in_ds)):
#     if pd.isnull(in_ds.loc[row, "Дата следующей активности"]):
#         in_ds.loc[row, "Дата следующей активности"] = in_ds.loc[row, "Дата"] + mean_difference

# сохранение итогового датасета
in_ds.to_csv(r"РЖД train Преобразованный\Выгрузки_интересы+обращения+объёмы перевозок\Интересы_Преобразованный.csv")

In [5]:
in_ds

Unnamed: 0,Дата,Тема,Сценарий,Состояние,ID,Подразделение,Ожидаемая выручка,"Вероятность сделки, %",Следующая активность,Канал первичного интереса
0,2023-02-01 07:26:00,2305,0,3,17369,9,221265,58,289,4
1,2023-02-01 07:31:00,1673,0,3,13714,9,221265,58,289,4
2,2023-02-01 07:45:00,2295,0,3,14984,9,221265,58,289,4
3,2023-02-01 08:22:00,1328,0,3,14916,4,221265,58,289,11
4,2023-02-01 08:37:00,2320,0,3,14257,12,221265,58,271,4
...,...,...,...,...,...,...,...,...,...,...
19176,2023-10-31 17:02:00,2263,0,3,2780,8,221265,58,289,4
19177,2023-10-31 17:03:00,1387,0,3,13358,6,221265,58,289,4
19178,2023-10-31 17:08:00,1387,0,3,13359,6,221265,58,289,4
19179,2023-10-31 17:11:00,822,0,3,13360,6,221265,58,289,4


In [7]:
in_ds.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19181 entries, 0 to 19180
Data columns (total 10 columns):
 #   Column                     Non-Null Count  Dtype         
---  ------                     --------------  -----         
 0   Дата                       19181 non-null  datetime64[ns]
 1   Тема                       19181 non-null  int64         
 2   Сценарий                   19181 non-null  int64         
 3   Состояние                  19181 non-null  int64         
 4   ID                         19181 non-null  int64         
 5   Подразделение              19181 non-null  int64         
 6   Ожидаемая выручка          19181 non-null  int64         
 7   Вероятность сделки, %      19181 non-null  int64         
 8   Следующая активность       19181 non-null  int64         
 9   Канал первичного интереса  19181 non-null  int64         
dtypes: datetime64[ns](1), int64(9)
memory usage: 1.5 MB
