In [20]:
import pandas as pd
print(f'Версия pandas: {pd.__version__}')

Версия pandas: 2.2.3


In [41]:
pip install scikit-learn

You should consider upgrading via the '/home/dzmitry/.pyenv/versions/3.10.0/bin/python3.10 -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


In [42]:

# ml_module.py
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
def load_data(file_path):      
    """
    Загрузка данных из CSV файла.
    :param file_path: Путь к CSV файлу (например, "data.csv").
    :return: DataFrame с загруженными данными.
    """
    return pd.read_csv(file_path)
                       
def preprocess_data(df, target_column):
    df.columns = df.columns.str.strip()  # Удаление лишних пробелов
    if target_column not in df.columns:
        raise ValueError(f"Столбец '{target_column}' отсутствует в данных. Доступные столбцы: {df.columns.tolist()}")  
    """
    Предобработка данных: разделение на признаки и целевую переменную, масштабирование признаков.
    :param df: DataFrame с данными.
    :param target_column: Имя столбца с целевой переменной.
    :return: Обработанные признаки, целевая переменная, препроцессор.
    """
    X = df.drop(columns=[target_column])
    y = df[target_column]
         
         # Определение числовых и категориальных признаков
    numeric_features = ['Age', 'ID']
    categorical_features = ['Gender', 'Department', 'City']

    # Создание препроцессора
    numeric_transformer = StandardScaler()
    categorical_transformer = OneHotEncoder(drop='first')

    preprocessor = ColumnTransformer(
        transformers=[
            ('num', numeric_transformer, numeric_features),
            ('cat', categorical_transformer, categorical_features)
        ])
   # Применение препроцессора к данным
    X_processed = preprocessor.fit_transform(X)
    return X_processed, y, preprocessor
def train_model(X, y):
    """
    Обучение модели линейной регрессии.
    :param X: Признаки.
    :param y: Целевая переменная.
    :return: Обученная модель.
    """
    model = LinearRegression()
    model.fit(X, y)
    return model
def predict(model, X):
    """
    Предсказание на новых данных.
    :param model: Обученная модель.
    :param X: Признаки.
    :return: Предсказанные значения.
    """
    return model.predict(X)
def evaluate_model(y_true, y_pred):
    """
    Оценка модели с использованием метрик MSE и R^2.
    :param y_true: Истинные значения.
    :param y_pred: Предсказанные значения.
    :return: MSE, R^2.
    """
    mse = mean_squared_error(y_true, y_pred)
    r2 = r2_score(y_true, y_pred)
    return mse, r2


In [44]:
# main.py
import ml_module as ml 
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

# Загрузка данных
file_path = 'Number of Deaths by Risk Factors.csv'  # Замените на путь к вашему CSV файлу
data = ml.load_data(file_path)
print(data.columns)  # Вывод доступных столбцов

# Предобработка данных
target_column = 'Salary'
X, y, preprocessor = ml.preprocess_data(data, target_column)

# Разделение данных на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Обучение модели
model = ml.train_model(X_train, y_train)

# Предсказание на тестовых данных
y_pred = ml.predict(model, X_test)

# Оценка модели
mse, r2 = ml.evaluate_model(y_test, y_pred)
print(f"Среднеквадратичная ошибка: {mse:.2f}")
print(f"Коэффициент детерминации R^2: {r2:.2f}")

# Визуализация истинных и предсказанных значений
def plot_predictions(y_true, y_pred, num_points=50):
    num_points = min(num_points, len(y_true), len(y_pred))
    
    plt.figure(figsize=(10, 6))
    plt.scatter(range(num_points), y_true[:num_points], color='blue', label='Истинные значения')     
    plt.scatter(range(num_points), y_pred[:num_points], color='red', label='Предсказанные значения')
    plt.xlabel('Индекс')
    plt.ylabel('Значение Salary')  
    plt.title(f'Истинные и предсказанные значения Salary (первые {num_points} точек)')
    plt.legend()
    plt.show()
plot_predictions(y_test, y_pred)   

ModuleNotFoundError: No module named 'ml_module'

In [1]:
import pandas as pd

# Пример DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)

# Перезапись файла (если существует — заменяется)
df.to_csv('data.csv', index=False)  # index=False убирает запись индексов