In [1]:
# путь до данных на компьютере
path = 'train_data/'

In [2]:
import os
import pandas as pd
import numpy as np
import tqdm
import warnings
warnings.filterwarnings('ignore')

from sklearn.preprocessing import OneHotEncoder
from sklearn.metrics import RocCurveDisplay
import matplotlib.pyplot as plt

In [12]:
def read_parquet_dataset_from_local(path_to_dataset: str, start_from: int = 0,
                                     num_parts_to_read: int = 2, columns=None, verbose=False) -> pd.DataFrame:
    """
    читает num_parts_to_read партиций, преобразовывает их к pd.DataFrame и возвращает
    :param path_to_dataset: путь до директории с партициями
    :param start_from: номер партиции, с которой нужно начать чтение
    :param num_parts_to_read: количество партиций, которые требуется прочитать
    :param columns: список колонок, которые нужно прочитать из партиции
    :return: pd.DataFrame
    """

    res = []
    dataset_paths = sorted([os.path.join(path_to_dataset, filename) for filename in os.listdir(path_to_dataset)
                              if filename.startswith('train')])

    start_from = max(0, start_from)
    chunks = dataset_paths[start_from: start_from + num_parts_to_read]
    if verbose:
        print('Reading chunks:\n')
        for chunk in chunks:
            print(chunk)
    for chunk_path in tqdm.tqdm_notebook(chunks, desc="Reading dataset with pandas"):
        print('chunk_path', chunk_path)
        chunk = pd.read_parquet(chunk_path,columns=columns)
        res.append(chunk)

    return pd.concat(res).reset_index(drop=True)

In [13]:
def prepare_transactions_dataset(path_to_dataset: str, num_parts_to_preprocess_at_once: int = 1, num_parts_total: int=50,
                                 save_to_path=None, verbose: bool=False):
    """
    возвращает готовый pd.DataFrame с признаками, на которых можно учить модель для целевой задачи
    path_to_dataset: str
        путь до датасета с партициями
    num_parts_to_preprocess_at_once: int
        количество партиций, которые будут одновременно держаться и обрабатываться в памяти
    num_parts_total: int
        общее количество партиций, которые нужно обработать
    save_to_path: str
        путь до папки, в которой будет сохранён каждый обработанный блок в .parquet-формате; если None, то не будет сохранён
    verbose: bool
        логирует каждую обрабатываемую часть данных
    """
    preprocessed_frames = []

    for step in tqdm.tqdm_notebook(range(0, num_parts_total, num_parts_to_preprocess_at_once),
                                   desc="Transforming transactions data"):
        transactions_frame = read_parquet_dataset_from_local(path_to_dataset, step, num_parts_to_preprocess_at_once,
                                                             verbose=verbose)


   #здесь должен быть препроцессинг данных
        #выделим фичи для обучения
#         columns_to_encode = transactions_frame.filter(regex='pre_loans\d+|is_zero_loans\d+').columns
        columns_to_encode = transactions_frame.drop(['id', 'rn'], axis=1).columns
        
        #закодируем категории
        ohe = OneHotEncoder(sparse_output=False, max_categories=14, drop='first')
        encoded_frame = ohe.fit_transform(transactions_frame[columns_to_encode])
        
        #объединим закодированные категории с id
        data_preprocessed = pd.concat([transactions_frame['id'], 
                                       pd.DataFrame(encoded_frame, columns=ohe.get_feature_names_out())], axis=1)
        
        #агрегируем по id: суммируем закодированные фичи по каждому клиенту
        data_grouped = data_preprocessed.groupby('id', as_index=False).agg('sum')
        
        
   #записываем подготовленные данные в файл
        if save_to_path:
            block_as_str = str(step)
            if len(block_as_str) == 1:
                block_as_str = '00' + block_as_str
            else:
                block_as_str = '0' + block_as_str
            data_grouped.to_parquet(os.path.join(save_to_path, f'processed_chunk_{block_as_str}.parquet'))

        preprocessed_frames.append(data_grouped)
    
    data = pd.concat(preprocessed_frames).fillna(0.)
    
    #смерджим по id с таргетом
    targets = pd.read_csv('train_target/train_target.csv')
    data = data.merge(targets, how='inner', on='id')
    
    #сохраним обработанный датафрейм
    data.to_parquet('processed_data/data.pq', index=False)
        
    return data

In [15]:
data = prepare_transactions_dataset(path, num_parts_to_preprocess_at_once=1, num_parts_total=12, verbose=True)

Transforming transactions data:   0%|          | 0/12 [00:00<?, ?it/s]

Reading chunks:

train_data/train_data_0.pq


Reading dataset with pandas:   0%|          | 0/1 [00:00<?, ?it/s]

chunk_path train_data/train_data_0.pq
Reading chunks:

train_data/train_data_1.pq


Reading dataset with pandas:   0%|          | 0/1 [00:00<?, ?it/s]

chunk_path train_data/train_data_1.pq
Reading chunks:

train_data/train_data_10.pq


Reading dataset with pandas:   0%|          | 0/1 [00:00<?, ?it/s]

chunk_path train_data/train_data_10.pq
Reading chunks:

train_data/train_data_11.pq


Reading dataset with pandas:   0%|          | 0/1 [00:00<?, ?it/s]

chunk_path train_data/train_data_11.pq
Reading chunks:

train_data/train_data_2.pq


Reading dataset with pandas:   0%|          | 0/1 [00:00<?, ?it/s]

chunk_path train_data/train_data_2.pq
Reading chunks:

train_data/train_data_3.pq


Reading dataset with pandas:   0%|          | 0/1 [00:00<?, ?it/s]

chunk_path train_data/train_data_3.pq
Reading chunks:

train_data/train_data_4.pq


Reading dataset with pandas:   0%|          | 0/1 [00:00<?, ?it/s]

chunk_path train_data/train_data_4.pq
Reading chunks:

train_data/train_data_5.pq


Reading dataset with pandas:   0%|          | 0/1 [00:00<?, ?it/s]

chunk_path train_data/train_data_5.pq
Reading chunks:

train_data/train_data_6.pq


Reading dataset with pandas:   0%|          | 0/1 [00:00<?, ?it/s]

chunk_path train_data/train_data_6.pq
Reading chunks:

train_data/train_data_7.pq


Reading dataset with pandas:   0%|          | 0/1 [00:00<?, ?it/s]

chunk_path train_data/train_data_7.pq
Reading chunks:

train_data/train_data_8.pq


Reading dataset with pandas:   0%|          | 0/1 [00:00<?, ?it/s]

chunk_path train_data/train_data_8.pq
Reading chunks:

train_data/train_data_9.pq


Reading dataset with pandas:   0%|          | 0/1 [00:00<?, ?it/s]

chunk_path train_data/train_data_9.pq


MemoryError: Unable to allocate 7.67 GiB for an array with shape (343, 3000000) and data type float64

In [None]:
class MyDataset(Dataset):
    def __init__(self, X, y):
        self.X = torch.from_numpy(X.astype(np.float32))
        self.y = torch.from_numpy(y.astype(np.float32))
    
    def __getitem__(self, index):
        return self.X[index], self.y[index]
    
    def __len__(self):
        return self.X.shape[0]
    
    
class ClassificationNet(nn.Module):
    def __init__(self):
        super().__init__()
        
        self.hidden1 = nn.Linear(364, 256)
        self.f1 = nn.Sigmoid()
        self.hidden2 = nn.Linear(256, 10)
        self.f2 = nn.Sigmoid()
        self.output = nn.Linear(10, 1)
        self.f3 = nn.Sigmoid()
        
    def forward(self, x):
        x = self.f1(self.hidden1(x))
        x = self.f2(self.hidden2(x))
        x = self.f3(self.output(x))
        
        return x

In [None]:
#выбираем девайс на котором будет обучаться модель
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')

#задаем параметры
num_epochs = 10
batch_size = 1024
learning_rate = 0.0001

#объявляем модель перед загрузкой чанков
model = ClassificationNet()
model.to(device)
print(model)

#объявляем оптимайзер
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

#объявляем списки метрик
loss_test = []
roc_auc_test = []

In [None]:
#загружаем чанк
print(f'Loading data: {chunk_path}')
data = pd.read_parquet('preprocessed_data/data.pq')

#разделяем на трейн и тест
X = data.drop(['id', 'flag'], axis=1).to_numpy()
y = data['flag'].to_numpy()
Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, train_size=0.8, random_state=12, stratify=y)
del data

#считаем веса классов
class_weights = class_weight.compute_class_weight(class_weight='balanced', 
                                                  classes=np.unique(ytrain), 
                                                  y=ytrain)
class_weights = torch.tensor(class_weights, dtype=torch.float)

#объявляем датасет
train_dataset = MyDataset(Xtrain, ytrain)
Xtest_tensor = torch.from_numpy(Xtest.astype(np.float32)).to(device)
ytest_tensor = torch.from_numpy(ytest.astype(np.float32)).to(device)

#объявляем даталоадер
train_dataloader = DataLoader(train_dataset, batch_size=batch_size, shuffle=False)

for epoch in range(num_epochs):
    for X, y in train_dataloader:
        X, y = X.to(device), y.to(device)
        pred = model(X)
        weights = torch.zeros_like(y.unsqueeze(-1))
        weights[y==0] = class_weights[0]
        weights[y==1] = class_weights[1]
        loss = F.binary_cross_entropy(pred, y.unsqueeze(-1), weight=weights)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

    with torch.no_grad():
        weights = torch.zeros_like(ytest_tensor.unsqueeze(-1))
        weights[ytest_tensor==0] = class_weights[0]
        weights[ytest_tensor==1] = class_weights[1]
        loss = F.binary_cross_entropy(model(Xtest_tensor), ytest_tensor.unsqueeze(-1), weight=weights).item()
        fpr, tpr, _ = roc_curve(ytest, model(Xtest_tensor).cpu().detach().numpy().ravel())
        roc_auc = auc(fpr, tpr)
        loss_test.append(loss)
        roc_auc_test.append(roc_auc)
        print(f'epoch {epoch} loss {loss} roc_auc {roc_auc}')

In [None]:
step = np.arange(0, num_epochs)

fig, ax = plt.subplots(figsize=(8,5))
plt.plot(step, np.array(loss_test))

plt.title("Loss")
plt.xlabel("Epochs")
plt.ylabel("Loss")
plt.show();

In [None]:
step = np.arange(0, num_epochs)

fig, ax = plt.subplots(figsize=(8,5))
plt.plot(step, np.array(roc_auc_test))

plt.title("ROC_AUC")
plt.xlabel("Epochs")
plt.ylabel("AUC")
plt.show();

In [None]:
fpr, tpr, thresholds = roc_curve(ytest.to_numpy(), model(Xtest_tensor).cpu().detach().numpy().ravel())
roc_auc = auc(fpr, tpr)
RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc).plot()
plt.show();