# Виртуальное окружение и структура аналитического проекта

В этом ноутбуке разберём **с нуля**:

1. Что такое виртуальное окружение и зачем оно нужно
2. Два способа: **venv** (встроенный в Python) и **conda**
3. Как фиксировать зависимости: **requirements.txt** и `pip freeze`
4. Как организовать папки и файлы в аналитическом проекте
5. Пример структуры реального проекта (готовый каркас)

В конце — **3 задания** для закрепления.

---
## 0. Зачем нужны виртуальные окружения?

Виртуальное окружение — это **изолированная папка** со своим Python и своими пакетами. 
Зачем:
- Изоляция версий: разные проекты могут использовать **разные версии** библиотек, и они не конфликтуют.
- Воспроизводимость: можно легко повторить установку командой `pip install -r requirements.txt` или `conda env create -f environment.yml`.
- Чистота системы: не засоряем глобальный Python.

---
## 1. **venv** — стандартное окружение Python

### 1.1. Создание окружения
**Windows / macOS / Linux:**
```bash
python -m venv .venv
```
- Создаст папку `.venv` в текущем каталоге со своим Python и pip.

### 1.2. Активация
- **Windows (PowerShell):**
```powershell
.\.venv\Scripts\Activate.ps1
```
- **Windows (cmd):**
```cmd
.\.venv\Scripts\activate.bat
```
- **macOS / Linux (bash/zsh):**
```bash
source .venv/bin/activate
```
После активации в терминале появится префикс `(venv)` или `( .venv )`.

### 1.3. Установка пакетов
```bash
pip install numpy pandas scikit-learn jupyter
```
Пакеты поставятся **внутрь окружения**.

### 1.4. Подключение окружения к Jupyter (ядро)
```bash
python -m ipykernel install --user --name ml-env --display-name "Python (ml-env)"
```
- После этого ядро появится в списке доступных в Jupyter/Lab.

### 1.5. Деактивация
```bash
deactivate
```

---
## 2. **conda** — окружения и менеджер пакетов

Conda — это менеджер окружений и пакетов (Anaconda/Miniconda/Miniforge). Часто удобен для **научных** пакетов, зависимых от C/Fortran.

### 2.1. Создание и активация окружения conda
```bash
conda create -n ml-env python=3.11
conda activate ml-env
```

### 2.2. Установка пакетов
```bash
conda install numpy pandas scikit-learn jupyter -c conda-forge
```
Можно смешивать с pip:
```bash
pip install xgboost lightgbm catboost
```

### 2.3. Экспорт/импорт окружения в файл YAML
- Экспорт:
```bash
conda env export --no-builds > environment.yml
```
- Создание по YAML:
```bash
conda env create -f environment.yml
```

### 2.4. Ядро Jupyter из conda-окружения
```bash
python -m ipykernel install --user --name ml-env --display-name "Python (ml-env)"
```

---
## 3. **requirements.txt** и `pip freeze`

### 3.1. Создание файла зависимостей
Находясь в **активированном** окружении:
```bash
pip freeze > requirements.txt
```
- `pip freeze` фиксирует **точные версии** всех установленных пакетов.
- Файл `requirements.txt` можно положить в корень проекта и версионировать в Git.

### 3.2. Установка по `requirements.txt`
```bash
pip install -r requirements.txt
```

### 3.3. Советы
- Для библиотек, сильно зависящих от системы (например, `torch`), версию можно указывать руками.
- Для более **управляемых** зависимостей посмотри инструмент `pip-tools` (`pip-compile`), но это уже следующий уровень.

---
## 4. Организация папок и файлов в аналитическом проекте

### 4.1. Минимальная структура (быстрый старт)
```
my_project/
├─ .venv/                 # виртуальное окружение (не коммитить)
├─ data/                  # данные
│  ├─ raw/                # сырые данные (как пришли)
│  ├─ interim/            # промежуточные результаты
│  └─ processed/          # финальные таблицы для моделей/отчётов
├─ notebooks/             # ноутбуки Jupyter
├─ src/                   # исходный код (функции, модули)
├─ models/                # сохранённые модели, артефакты
├─ reports/               # отчёты, презентации
├─ requirements.txt       # зависимости pip
├─ environment.yml        # (опц.) окружение conda
├─ .gitignore             # список исключений для Git
└─ README.md              # описание проекта
```

### 4.2. Рекомендованный `.gitignore`
```
# виртуальные окружения
.venv/
venv/

# кеши Python
__pycache__/
*.py[cod]

# Jupyter
.ipynb_checkpoints/

# данные и модели (по ситуации — можно хранить только примеры/схемы)
data/raw/
data/interim/
models/

# секреты
.env
*.env
```

### 4.3. Где хранить секреты
- Никогда не коммить `пароли`, `ключи`, `доступы`. 
- Клади их в `.env` и загружай через `python-dotenv`.

Пример `.env`:
```
DB_URL=postgresql://user:pass@host:5432/dbname
API_KEY=abcd1234
```

Загрузка в Python:
```python
from dotenv import load_dotenv
import os
load_dotenv()
db_url = os.getenv('DB_URL')
```

---
## 5. Пример структуры «как в реальных проектах»

Это упрощённая адаптация подхода Cookiecutter Data Science:
```
customer_churn/
├─ data/
│  ├─ raw/
│  ├─ interim/
│  └─ processed/
├─ notebooks/
│  ├─ 01_eda.ipynb
│  ├─ 02_feature_engineering.ipynb
│  └─ 03_modeling.ipynb
├─ src/
│  ├─ __init__.py
│  ├─ data_loading.py         # функции чтения/валидации данных
│  ├─ features.py             # генерация признаков
│  ├─ modeling.py             # обучение/оценка моделей
│  └─ utils.py                # вспомогательные утилиты
├─ models/
│  ├─ churn_model.pkl
│  └─ scaler.pkl
├─ reports/
│  ├─ figures/
│  └─ final_report.md
├─ requirements.txt
├─ environment.yml
├─ .gitignore
└─ README.md
```
- **notebooks/** — последовательность ноутбуков: EDA → фичи → моделирование.
- **src/** — код, который переиспользуется из ноутбуков, чтобы не копипастить.
- **data/** — разделение данных по стадиям (чистота потока).
- **models/** — артефакты обучения.
- **requirements.txt**/**environment.yml** — воспроизводимость.

---
## 6. Практика: создаём каркас проекта из Python (безопасно)

Ниже — ячейка, которая **печатает**, что будет создано (DRY_RUN=True). Если поменять `DRY_RUN=False`, она реально создаст папки/файлы в подпапке `demo_project/` рядом с этим ноутбуком.

> ⚠️ Сначала запусти в режиме DRY_RUN и посмотри вывод!

In [None]:
import os
from pathlib import Path

DRY_RUN = True  # поменяй на False, чтобы реально создать структуры на диске

root = Path('demo_project')
dirs = [
    root / 'data' / 'raw',
    root / 'data' / 'interim',
    root / 'data' / 'processed',
    root / 'notebooks',
    root / 'src',
    root / 'models',
    root / 'reports' / 'figures'
]

files = {
    root / 'README.md': "# Demo Project\n\nКороткое описание проекта.\n",
    root / '.gitignore': """# venv\n.venv/\nvenv/\n\n# python cache\n__pycache__/\n*.py[cod]\n\n# jupyter\n.ipynb_checkpoints/\n\n# data\ndata/raw/\ndata/interim/\nmodels/\n\n# secrets\n.env\n*.env\n""",
    root / 'requirements.txt': "pandas\nnumpy\nscikit-learn\njupyter\npython-dotenv\n"
}

print('Будут созданы папки:')
for d in dirs:
    print(' -', d)

print('\nБудут созданы файлы:')
for f in files:
    print(' -', f)

if not DRY_RUN:
    root.mkdir(exist_ok=True)
    for d in dirs:
        d.mkdir(parents=True, exist_ok=True)
    for f, content in files.items():
        f.write_text(content, encoding='utf-8')
    print('\n✅ Каркас создан по адресу:', root.resolve())
else:
    print('\n(Режим DRY_RUN: ничего не создавалось)')


## 7. Быстрые шпаргалки по командам (копируй в терминал)

### 7.1. venv — полный цикл
```bash
# создать окружение
python -m venv .venv

# активировать (выбери свой вариант)
source .venv/bin/activate          # macOS/Linux
.\.venv\Scripts\Activate.ps1      # Windows PowerShell
.\.venv\Scripts\activate.bat      # Windows cmd

# установить пакеты
pip install -U pip
pip install numpy pandas scikit-learn jupyter python-dotenv

# добавить ядро Jupyter
python -m ipykernel install --user --name proj-env --display-name "Python (proj-env)"

# зафиксировать зависимости
pip freeze > requirements.txt

# установка по requirements.txt (в новом окружении)
pip install -r requirements.txt

# деактивировать
deactivate
```

### 7.2. conda — полный цикл
```bash
conda create -n proj-env python=3.11
conda activate proj-env
conda install -c conda-forge numpy pandas scikit-learn jupyter python-dotenv
python -m ipykernel install --user --name proj-env --display-name "Python (proj-env)"
conda env export --no-builds > environment.yml
conda env create -f environment.yml  # восстановление
```

---
## 8. Частые вопросы / проблемы
- **Windows блокирует активацию в PowerShell**: запусти PowerShell от имени администратора и выполни `Set-ExecutionPolicy RemoteSigned -Scope CurrentUser`, затем снова активируй `.venv`.
- **Jupyter не видит моё окружение**: установи ядро `ipykernel` из _самого этого окружения_ (см. п. 1.4/2.4).
- **`pip freeze` даёт слишком много пакетов**: это нормально. Если нужен минимальный список — используй `pip-tools` (опционально) или укажи ключевые пакеты вручную.
- **M1/M2 Mac (Apple Silicon)**: многие рекомендуют Miniforge/conda-forge. Старайся ставить пакеты из `conda-forge`.

---
## 9. Мини-проверка окружения из Python
Запусти ячейку ниже — она покажет путь к текущему интерпретатору и версии основных библиотек (если установлены).

In [None]:
import sys
print('Текущий Python:', sys.executable)

def try_version(pkg_name):
    try:
        mod = __import__(pkg_name)
        print(f"{pkg_name}:", getattr(mod, '__version__', 'версия не обнаружена'))
    except Exception as e:
        print(f"{pkg_name}: не установлен ({e})")

for p in ['pip','numpy','pandas','sklearn','jupyter','ipykernel','conda']:
    try_version(p)


---
## 10. Итог: что положить в Git
✅ **ДА:** `src/`, `notebooks/`, `requirements.txt`/`environment.yml`, `README.md`, скрипты, конфиги, **маленькие примеры данных** (или схемы/сэмплы).  
⛔ **НЕТ:** `.venv/`/`venv/`, `__pycache__/`, большие файлы данных (`data/raw/`), секреты (`.env`), тяжёлые модели (лучше в артефакт-хранилище).

# Задания (3 шт.)
1) **Создай проект** `my_first_analytics_project` с папками `data/{raw,interim,processed}`, `notebooks`, `src`, `models`, `reports`. Добавь `README.md`, `.gitignore` (используй шаблон из этого ноутбука).  
2) **Собери окружение** двумя способами: (а) `venv` и (б) `conda`. Для каждого установи `numpy`, `pandas`, `scikit-learn`, `jupyter`, добавь ядро `ipykernel`. Зафиксируй зависимости: `requirements.txt` и `environment.yml`.  
3) **Проверка воспроизводимости**: создай **новое** окружение (или на другом ПК), установи зависимости из `requirements.txt`/`environment.yml`, открой ноутбук в новом ядре и проверь, что импорт пакетов и базовые операции (создать `DataFrame`, обучить `LogisticRegression`) работают без ошибок.