<a href="https://colab.research.google.com/github/GIDMaxymKrasnykov/Maks_Krasnikov_ml_engineering_lab/blob/main/Maks_Krasnikov_ml_engineering_lab3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [64]:
# Встановлення DVC, якщо ще не встановлено
!pip install dvc --quiet

# Ініціалізація git (якщо ще не ініціалізовано)
!git init

# Налаштування імені користувача Git (потрібно один раз)
!git config --global user.email "djeymig1986@gmail.com"
!git config --global user.name "GIDMaxymKrasnykov"

# Ініціалізація DVC (примусово)
!dvc init -f

# Створення каталогу для даних (якщо його нема)
import os
os.makedirs("data", exist_ok=True)

# Створення params.yaml з правильною структурою
params_yaml = """
model:
  learning_rate: 0.01
  epochs: 10
data:
  batch_size: 32
"""
with open("params.yaml", "w") as f:
    f.write(params_yaml)

# Створення прикладного файлу train.py
train_py = """
import yaml
import pickle

# Зчитування параметрів з params.yaml
with open('params.yaml') as f:
    params = yaml.safe_load(f)

lr = params['model']['learning_rate']
epochs = params['model']['epochs']

# Імітація тренування моделі
model = {'learning_rate': lr, 'epochs': epochs, 'weights': [1,2,3]}

# Збереження моделі
with open('model.pkl', 'wb') as f:
    pickle.dump(model, f)
"""

with open("train.py", "w") as f:
    f.write(train_py)

# Створення прикладного файлу evaluate.py
evaluate_py = """
import pickle
import json

# Завантаження моделі
with open('model.pkl', 'rb') as f:
    model = pickle.load(f)

# Імітація обчислення метрик
metrics = {
    'accuracy': 0.85,
    'loss': 0.35
}

# Збереження метрик
with open('metrics.json', 'w') as f:
    json.dump(metrics, f)
"""

with open("evaluate.py", "w") as f:
    f.write(evaluate_py)

# Створимо порожній файл з даними для прикладу
with open("data/raw_data.csv", "w") as f:
    f.write("feature1,feature2,label\n1,2,0\n3,4,1\n")

# Якщо є старі dvc-файли для цього датасету, видаляємо їх (щоб не було конфліктів)
import subprocess
subprocess.run(["dvc", "remove", "-f", "data/raw_data.csv.dvc"], stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)

# Додаємо дані до відстеження DVC
!dvc add data/raw_data.csv

# Додаємо етапи конвеєра
!dvc stage add -n train -d data/raw_data.csv -d train.py -p params.yaml -o model.pkl python train.py
!dvc stage add -n evaluate -d model.pkl -d evaluate.py -p params.yaml -M metrics.json python evaluate.py

# Додаємо всі зміни до git та робимо коміт
!git add .
!git commit -m "Налаштовано DVC pipeline з train та evaluate"

# Запускаємо pipeline
!dvc repro


Reinitialized existing Git repository in /content/.git/
Initialized DVC repository.

You can now commit the changes to git.

[31m+---------------------------------------------------------------------+
[0m[31m|[0m                                                                     [31m|[0m
[31m|[0m        DVC has enabled anonymous aggregate usage analytics.         [31m|[0m
[31m|[0m     Read the analytics documentation (and how to opt-out) here:     [31m|[0m
[31m|[0m             <[36mhttps://dvc.org/doc/user-guide/analytics[39m>              [31m|[0m
[31m|[0m                                                                     [31m|[0m
[31m+---------------------------------------------------------------------+
[0m
[33mWhat's next?[39m
[33m------------[39m
- Check out the documentation: <[36mhttps://dvc.org/doc[39m>
- Get help and share ideas: <[36mhttps://dvc.org/chat[39m>
- Star us on GitHub: <[36mhttps://github.com/iterative/dvc[39m>
[?25l[32m⠋[0m

In [65]:
# Встановлення DVC (якщо ще не встановлено)
!pip install -q dvc

# Ініціалізація git (якщо ще не ініціалізовано)
!git init

# Встановлення імені користувача Git (потрібно лише один раз)
!git config --global user.email "djeymig1986@gmail.com"
!git config --global user.name "GIDMaxymKrasnykov"

# Ініціалізація DVC (примусово)
!dvc init -f

# Створення каталогу для даних
!mkdir -p data

# Створення прикладного файлу params.yaml
with open("params.yaml", "w") as f:
    f.write("""model:
  learning_rate: 0.01
  epochs: 10
data:
  batch_size: 32
""")

# (Припустимо, у тебе вже є файл raw_data.csv в папці data)
# Якщо ні - створи тестовий файл для демонстрації
!echo "id,value\n1,10\n2,20" > data/raw_data.csv

# Додаємо дані до DVC
!dvc add data/raw_data.csv

# Видаляємо старі pipeline-файли, щоб почати чисто
!rm -f dvc.yaml dvc.lock

# Додаємо етапи train і evaluate з --force, з правильними параметрами
!dvc stage add -n train -d data/raw_data.csv -d train.py -p model.learning_rate -p model.epochs -o model.pkl --force python train.py
!dvc stage add -n evaluate -d model.pkl -d evaluate.py -p model.learning_rate -p model.epochs -M metrics.json --force python evaluate.py

# Додаємо все до git і комітимо
!git add .
!git commit -m "Налаштовано DVC pipeline з правильними параметрами та --force"

# Запускаємо pipeline
!dvc repro


Reinitialized existing Git repository in /content/.git/
Initialized DVC repository.

You can now commit the changes to git.

[31m+---------------------------------------------------------------------+
[0m[31m|[0m                                                                     [31m|[0m
[31m|[0m        DVC has enabled anonymous aggregate usage analytics.         [31m|[0m
[31m|[0m     Read the analytics documentation (and how to opt-out) here:     [31m|[0m
[31m|[0m             <[36mhttps://dvc.org/doc/user-guide/analytics[39m>              [31m|[0m
[31m|[0m                                                                     [31m|[0m
[31m+---------------------------------------------------------------------+
[0m
[33mWhat's next?[39m
[33m------------[39m
- Check out the documentation: <[36mhttps://dvc.org/doc[39m>
- Get help and share ideas: <[36mhttps://dvc.org/chat[39m>
- Star us on GitHub: <[36mhttps://github.com/iterative/dvc[39m>
[?25l[32m⠋[0m

**Основний скрипт для тренування — train.py**

In [66]:
import yaml
import pickle

# Завантажуємо параметри з params.yaml
with open("params.yaml") as f:
    params = yaml.safe_load(f)

learning_rate = params['model']['learning_rate']
epochs = params['model']['epochs']

# Імітація тренування моделі (проста модель як словник)
model = {
    'learning_rate': learning_rate,
    'epochs': epochs,
    'weights': [0.1, 0.2, 0.3]  # просто приклад ваг
}

# Зберігаємо "модель" у файл model.pkl
with open("model.pkl", "wb") as f:
    pickle.dump(model, f)

print(f"Модель тренувалася з learning_rate={learning_rate}, epochs={epochs}")
print("model.pkl збережено.")


Модель тренувалася з learning_rate=0.01, epochs=10
model.pkl збережено.


**Скрипт для оцінки моделі — evaluate.py**

In [67]:
import pickle
import json

# Завантажуємо модель
with open("model.pkl", "rb") as f:
    model = pickle.load(f)

# Імітація оцінки: просто рахуємо "метрику" як суму ваг * epochs
metric = sum(model['weights']) * model['epochs']

# Зберігаємо метрику в metrics.json
metrics = {
    "score": metric
}

with open("metrics.json", "w") as f:
    json.dump(metrics, f)

print(f"Оцінка моделі: {metric}")
print("metrics.json збережено.")


Оцінка моделі: 6.000000000000001
metrics.json збережено.
