# 1. Загрузить необходимые данные к себе и считать (read) их в переменную.
# 2. Понять, у вас задача классификации (бинарной или многоклассовой) или регрессии.
Моя задача относится к регрессии, так как я пытаюсь предсказать медицинские расходы, которые представлены в виде непрерывных числовых значений и они не принимают дискретные значения, представляющие категории или классы.

# 3. Сделать предобработку данных:
Разделить выборку на тренировочную (train) и тестовую (test). Обратите внимание, что обучать скейлеры и определять, какими значениями вы будете заполнять пропуски, вы будете на train выборке, а применять и на train, и на test.
Проверить пропуски в данных. Если они есть, заполнить одной из стратегий, предложенных в ноутбуке для семинара №3. P.S. Для численных и категориальных переменных будут разные стратегии.
Отнормировать численные переменные (StandardScaler, MinMaxScaler).
Закодировать категориальные признаки по одной из стратегий.

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer

path_to_dataset = '/Users/daniil/nn_ml_practice/insurance.csv'
data = pd.read_csv(path_to_dataset, sep=',')

# проверка на наличие пропусков
print(data.isnull().sum())

# разделение данных на признаки и целевую переменную
X = data.drop('charges', axis=1)
y = data['charges']

# разделение на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# определение числовых и категориальных признаков
numeric_features = ['age', 'bmi', 'children']
categorical_features = ['sex', 'smoker', 'region']

# пайплайн для числовых признаков
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),  # Заполнение пропусков средним значением
    ('scaler', StandardScaler())  # Нормализация StandardScaler
])

# пайплайн для категориальных признаков
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),  # заполнение пропусков наиболее частым значением
    ('onehot', OneHotEncoder(handle_unknown='ignore'))  # OneHotEncoder для кодирования категориальных признаков
])

# комбинирование пайплайнов с помощью ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# применение преобразований к тренировочным и тестовым данным
X_train = preprocessor.fit_transform(X_train)
X_test = preprocessor.transform(X_test)

# проверка результирующих массивов
print(X_train.shape)
print(X_test.shape)

По выводу понятно, что пропусков у нас нет, заполнять их не нужно.
Тренировочная выборка содержит 1070 строк и 11 столбцов.
Тестовая выборка содержит 268 строк и 11 столбцов.
Мы нормализовали числовые переменные и закодировали категориальные признаки с помощью ColumnTransformer и Pipeline.

# 4. Оформить данные в виде класса Dataset из библиотеки torch (как мы это делали на семинаре), а затем засунуть в Dataloader (тоже делали на семинаре).

In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
import torch
from torch.utils.data import Dataset, DataLoader

# Загрузка данных
path_to_dataset = '/Users/daniil/nn_ml_practice/insurance.csv'
data = pd.read_csv(path_to_dataset, sep=',')

# Проверка на наличие пропусков
print(data.isnull().sum())

# Разделение данных на признаки и целевую переменную
X = data.drop('charges', axis=1)
y = data['charges']

# Разделение на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Определение числовых и категориальных признаков
numeric_features = ['age', 'bmi', 'children']
categorical_features = ['sex', 'smoker', 'region']

# Пайплайн для числовых признаков
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])

# Пайплайн для категориальных признаков
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Комбинирование пайплайнов с помощью ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Применение преобразований к тренировочным и тестовым данным
X_train = preprocessor.fit_transform(X_train)
X_test = preprocessor.transform(X_test)

# Проверка результирующих массивов
print(X_train.shape)
print(X_test.shape)

# Создание класса Dataset
class InsuranceDataset(Dataset):
    def __init__(self, X, y):
        self.X = torch.tensor(X, dtype=torch.float32)
        self.y = torch.tensor(y.values, dtype=torch.float32)

    def __len__(self):
        return len(self.y)

    def __getitem__(self, idx):
        return self.X[idx], self.y[idx]

# Создание объектов Dataset
train_dataset = InsuranceDataset(X_train, y_train)
test_dataset = InsuranceDataset(X_test, y_test)

# Создание DataLoader
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)

# Проверка загрузки данных
for batch in train_loader:
    X_batch, y_batch = batch
    print(X_batch.shape, y_batch.shape)
    break


ModuleNotFoundError: No module named 'torch'