# Набор генерируемых данных

В рамках настоящего задания продолжаем тематику нашего сквозного проекта с использованием данных по стоимости и длительности перевозок грузов из одной точки (Гуанджоу, Китай) в другую (Москва, Россия).

#1. Создание файла data_creation.py

data_creation.py - python-скрипт, который создает набор данных о перевозках грузов из одной точки (Гуанджоу, Китай) в другую (Москва, Россия) и обратно.


In [None]:
# Импорт необходимых библиотек
import numpy as np
import pandas as pd
import os

# Добавляем новый столбец - departure_city ("город отправления")
cities = ['Guangzhou', 'Moscow']
departure_city = np.random.choice(cities, size=1000)
np.random.seed(0)

# Добавляем новый столбец - forwarder ("экспедитор")
forwarder = ['Guangzhou_forwarder', 'Moscow_forwarder']
freight_forwarder = np.random.choice(forwarder, size=1000)
np.random.seed(0)

# Создание датасета
data = pd.DataFrame({
    'price': np.abs(np.random.normal(650000, 100000, 1000)),
    'delivery_time': np.abs(np.random.normal(25, 10, 1000)),
    'number_of_transit_nodes': np.abs(np.round(np.random.normal(3, 2, 1000))),
    'departure_city': departure_city,
    'freight_forwarder': freight_forwarder
})

# Добавление случайных пропусков в столбце 'price'
num_missing = 5  # Количество пропусков для добавления
missing_indices = np.random.choice(data.index, size=num_missing, replace=False)
data.loc[missing_indices, 'price'] = np.nan

# Сохранение данных в файл
data.to_csv('datasets_storage/data.csv', index=False)


#2. Создание файла data_preprocessing1.py

data_preprocessing1.py - python-скрипт, который выполняет выбор определенных нами столбцов и сохранение модицифицированного датасета

In [None]:
import pandas as pd


# Загрузка датасета
df = pd.read_csv('datasets_storage/data.csv')

# Выбор необходимых столбцов
df = df[['price', 'delivery_time', 'number_of_transit_nodes','departure_city']]

# Сохранение модифицированного датасета
df.to_csv('datasets_storage/data_prep1.csv', index=False)

#3. Создание файла data_preprocessing2.py

data_preprocessing2.py - python-скрипт, который создает новую версию датасета, в котором пропущенные (NaN) значения в поле 'price' будут заполнены средним значением и осуществляет сохранение модицифицированного датасета

In [None]:
import pandas as pd


# Загрузка датасета
df = pd.read_csv('datasets_storage/data_prep1.csv')

# Заполнение пропущенных значений в поле "price" средним значением
mean_price = df['price'].mean()

# Модификация датасета
df['price'].fillna(mean_price, inplace=True)

# Сохранение модифицированного датасета
df.to_csv('datasets_storage/data_prep2.csv', index=False)

#4. Создание файла data_preprocessing3.py

data_preprocessing3.py - python-скрипт, который создает новую версию датасета, в котором пропущенные (NaN) значения в поле 'price' будут заполнены средним значением и осуществляет сохранение модицифицированного датасета

In [None]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

# Загрузка модифицированного датасета
df = pd.read_csv('datasets_storage/data_prep2.csv')

# Создание нового признака с использованием one-hot-encoding для поля "departure_city"
onehot_encoder = OneHotEncoder(sparse_output=False)  # Явно указываем sparse_output=False
departure_city_ohe = onehot_encoder.fit_transform(df[['departure_city']])
departure_city_ohe_df = pd.DataFrame(departure_city_ohe, columns=onehot_encoder.categories_[0])
df = pd.concat([df, departure_city_ohe_df], axis=1)

# Сохранение датасета с новым признаком
df.to_csv('datasets_storage/data_prep3.csv', index=False)


#5. Создание файла requirements.txt

requirements.txt - файл, содержайщий точные версии всех установленных пакетов, и используемый, чтобы зафиксировать требования окружения.


In [None]:
pandas~=2.0.1
catboost~=1.2
scikit-learn~=1.2.2