<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/Python/Python-2025/%D0%9F%D0%9E%D0%9B%D0%9D%D0%AB%D0%99_%D0%9A%D0%A3%D0%A0%D0%A1_%D0%9F%D0%9E_%D0%91%D0%98%D0%91%D0%9B%D0%98%D0%9E%D0%A2%D0%95%D0%9A%D0%90%D0%9C_PYTHON.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



# 🐍 **ПОЛНЫЙ КУРС ПО БИБЛИОТЕКАМ PYTHON ДЛЯ DATA SCIENCE, ML, NLP, CV, MLOPS И ИНЖЕНЕРИИ ДАННЫХ**

> *От первого `python --version` до деплоя LLM в Kubernetes с мониторингом. Включает venv, Docker, Playwright, Transformers, Kedro, Shap, Optuna, NetworkX, Cloud Platforms, Observability и всё, что нужно для production.*


## 🎯 **Модуль 0: Введение и настройка окружения — venv, Docker, Pyenv, Makefile**

- Что такое Data Science, Machine Learning, NLP, Computer Vision, Data Engineering — различия, пересечения, карьерные траектории.
- Обзор современной экосистемы: библиотеки, фреймворки, инструменты, облака.
- Установка и управление зависимостями:
  - `pip`, `conda`, `poetry`, `pipenv`
  - `requirements.txt`, `environment.yml`, `pyproject.toml`
  - **Pyenv — управление версиями Python (установка, переключение, локальные версии)**
- Настройка изолированного окружения:
  - **`venv` — создание, активация, деактивация, интеграция с IDE**
  - `virtualenv`, `pipenv`, `poetry shell` — альтернативы
- Контейнеризация и воспроизводимость:
  - **Docker — установка, образы, контейнеры, Dockerfile, docker run, docker build**
  - **Docker Compose — локальное развертывание стека (PostgreSQL, Redis, MinIO, MLflow)**
- Автоматизация задач:
  - **Makefile — создание, команды (lint, test, build, deploy), интеграция с Docker и venv**
- Выбор инструмента под задачу и масштаб:
  - <1ГБ → Pandas
  - 1–50ГБ → Polars, Dask
  - >50ГБ → PySpark, Ray
  - Production → CatBoost + MLflow + FastAPI + Docker
- Структура курса, система оценки, критерии защиты проектов.
- Этические аспекты: bias, fairness, приватность, GDPR, легальность скрейпинга, **копирайт, Terms of Service**.
- Работа с Git и GitHub: основы, `.gitignore`, ветки, пул-реквесты, `.gitattributes`.
- Введение в DVC (Data Version Control) — версионирование данных, `dvc init`, `dvc add`.



## 🔢 **Модуль 1: NumPy — Фундамент научных вычислений**

- Создание массивов: `np.array()`, `np.zeros()`, `np.ones()`, `np.arange()`, `np.linspace()`, `np.random`
- Формы и оси: `.shape`, `.reshape()`, `.ravel()`, `np.newaxis`, транспонирование
- Индексация: базовая, булева, продвинутая (fancy indexing), срезы
- Векторизованные операции: broadcasting, универсальные функции (ufunc), `np.where()`
- Математические операции: `np.sum()`, `np.mean()`, `np.std()`, `np.cumsum()`, `np.percentile()`
- Линейная алгебра: `np.dot()`, `@`, `np.linalg.inv()`, `np.linalg.eig()`, `np.linalg.solve()`, SVD
- Генерация случайных чисел: `np.random.Generator`, `SeedSequence`, воспроизводимость
- Производительность: векторизация vs циклы, `np.einsum()`, профилирование
- Практика: обработка изображений (как массивы), математические модели, фильтрация сигналов, симуляции



## 🐼 **Модуль 2: Pandas — Анализ и обработка табличных данных**

- Структуры: `Series`, `DataFrame`, `Index`
- Чтение/запись: CSV, Excel, JSON, Parquet, SQL, HDF5
- Индексация: `.loc[]`, `.iloc[]`, булева индексация, `.query()`, `.at[]`, `.iat[]`
- Обработка пропусков: `isna()`, `fillna()`, `dropna()`, `interpolate()`, `bfill()`, `ffill()`
- Преобразования: `apply()`, `map()`, `assign()`, `pipe()`, `eval()`
- Группировка: `groupby()`, агрегация — `agg()`, `transform()`, `filter()`, `apply()`
- Сводные таблицы: `pivot_table()`, `melt()`, `crosstab()`, `stack()`, `unstack()`
- Объединение: `merge()` (все типы джойнов), `concat()`, `join()`
- Временные ряды: `pd.to_datetime()`, `resample()`, `rolling()`, `shift()`, `diff()`, `asfreq()`
- Оптимизация: `dtypes` (category, int32, float32), `memory_usage()`, `copy(deep=False)`
- Практика: анализ продаж, обработка логов, ETL-процессы, feature engineering



## ⚡ **Модуль 3: Polars — Высокопроизводительная обработка данных**

- Философия Polars: ленивые вычисления, мультипоточность, эффективная память, no-copy
- Создание DataFrame: из словарей, списков, файлов (CSV, Parquet, JSON, IPC)
- Выражения (Expressions): мощный DSL — `pl.col()`, `pl.when().then().otherwise()`, `pl.struct()`
- Группировка и агрегация: `group_by().agg()`, `over()`, `sort_by()`
- Объединение: `join()` — все типы, `asof_join()` для временных рядов
- Работа с большими данными: out-of-core обработка, streaming API, `scan_csv()`
- Сравнение с Pandas: когда что использовать, бенчмарки, memory/cpu профилирование
- Интеграция с ML: преобразование в NumPy — `.to_numpy()`, `.to_pandas()`
- Практика: обработка датасетов 5–20ГБ на ноутбуке, сравнение скорости, оптимизация памяти



## 🧩 **Модуль 4: Dask — Параллельные вычисления на одном компьютере**

- Что такое Dask? Lazy evaluation, task graphs, scheduler
- Dask DataFrame — API, совместимый с Pandas: `read_csv()`, `groupby()`, `merge()`
- Dask Array — для NumPy-подобных вычислений: `from_array()`, `map_blocks()`
- Dask Bag — для неструктурированных данных: JSON, тексты, логи
- Запуск: `LocalCluster`, `Client`, распределённый кластер (введение)
- Интеграция с Scikit-learn: `dask-ml` — `ParallelPostFit`, `Incremental`, `HyperbandSearchCV`
- Практика: обучение модели на данных, не помещающихся в память, параллельная обработка



## 🚀 **Модуль 5: PySpark — Распределённая обработка Big Data**

- Архитектура Spark: Driver, Executors, RDD, DataFrame, Catalyst Optimizer, Tungsten
- Создание `SparkSession`: локальный режим, standalone, YARN, Kubernetes
- Spark DataFrame API: `select()`, `filter()`, `groupBy()`, `agg()`, `join()`, `withColumn()`
- SQL в Spark: `spark.sql()`, временные представления
- Работа с партициями: `repartition()`, `coalesce()`, bucketing, оптимизация shuffle
- MLlib: `Pipeline`, `VectorAssembler`, `StringIndexer`, `RandomForestClassifier`, `CrossValidator`
- Чтение/запись: Parquet, ORC, Delta Lake (введение)
- Практика: обработка логов 50ГБ+, построение модели через MLlib, оптимизация производительности



## 🌐 **Модуль 6: Веб-скрейпинг и парсинг — от Requests до Scrapy, Selenium и Playwright**

### Часть 1: BeautifulSoup4 + Requests
- Основы HTML/CSS: теги, классы, id, атрибуты, DOM-дерево
- Селекторы: `find()`, `find_all()`, CSS-селекторы (`select()`, `select_one()`)
- Извлечение: текста, атрибутов (`href`, `src`, `data-*`), ссылок, мета-тегов
- Обработка пагинации: циклы, динамические URL, параметры запроса
- Обход защиты: headers (`User-Agent`, `Referer`), cookies, сессии, задержки (`time.sleep()`), ротация IP (введение)

### Часть 2: Scrapy Framework
- Создание проекта: `scrapy startproject`, структура проекта
- Пауки (Spiders): `parse()`, `yield Request()`, `yield Item()`, XPath/CSS
- Items: определение структуры данных, `Field`, валидация
- Pipelines: очистка, валидация, сохранение в JSON/CSV/БД, дублирование
- Middleware: ротация User-Agent, прокси, обработка ошибок, ретраи
- Распределённый скрейпинг: `scrapy-redis` (введение), очереди
- Экспорт: JSON Lines, CSV, XML, базы данных (SQLite, PostgreSQL)
- **Scrapy Splash — для рендеринга JavaScript в Scrapy**

### Часть 3: Selenium для JavaScript-сайтов
- Запуск браузера: Chrome, Firefox, headless-режим, опции
- Ожидания: `WebDriverWait`, `expected_conditions` (visibility, clickability)
- Взаимодействие: `click()`, `send_keys()`, `submit()`, `execute_script()`
- Скриншоты: `save_screenshot()`, `get_screenshot_as_png()`
- Обработка CAPTCHA — введение (анти-CAPTCHA сервисы, ручной ввод, 2Captcha API)

### Часть 4: Playwright — современная альтернатива Selenium
- Запуск браузеров: Chromium, Firefox, WebKit
- Автоматизация: `page.click()`, `page.fill()`, `page.screenshot()`
- Ожидания: `page.wait_for_selector()`, `page.wait_for_load_state()`
- Мобильные эмуляции, геолокация, перехват запросов
- Параллельное выполнение, контексты

### Часть 5: Обход CAPTCHA
- **Интеграция с 2Captcha / Anti-Captcha API**
- Ручные методы, распознавание через ML (введение)

### Часть 6: Дополнительные инструменты
- `lxml` — высокая производительность парсинга, XPath
- `requests-html` — рендеринг JavaScript без Selenium, `html.render()`
- Прокси и ротация User-Agent — для масштабирования, `fake-useragent`
- **Legal aspects — copyright, ToS, GDPR compliance — углублённо**



## 📊 **Модуль 7: Matplotlib — Основы визуализации**

- Архитектура: `Figure`, `Axes`, `Artist`, `subplots`
- Графики: `plot()`, `scatter()`, `bar()`, `hist()`, `boxplot()`, `violinplot()`
- Настройка: заголовки, метки, легенды, сетка, цвета, стили, шрифты
- Субплоты: `subplots()`, `GridSpec`, `subplot2grid`
- Экспорт: PNG, SVG, PDF, DPI, размеры, прозрачность
- Практика: создание отчётов, визуализация распределений, трендов, корреляций



## 🌈 **Модуль 8: Seaborn — Статистическая визуализация**

- Распределения: `histplot()`, `kdeplot()`, `ecdfplot()`, `rugplot()`
- Категориальные: `boxplot()`, `violinplot()`, `stripplot()`, `swarmplot()`
- Связи: `scatterplot()`, `lineplot()`, `regplot()`, `residplot()`
- Матрицы: `heatmap()`, `clustermap()`, аннотации, кластеризация
- Фасетная сетка: `FacetGrid`, `relplot`, `catplot`, `displot`
- Темы: `set_style()`, `set_palette()`, `set_context()`
- Интеграция с Pandas: автоматическая обработка столбцов, длинные/широкие форматы
- Практика: EDA (Exploratory Data Analysis), анализ корреляций, сравнение групп, A/B тесты



## 💫 **Модуль 9: Plotly — Интерактивная визуализация и дашборды**

- Интерактивность: зум, панорамирование, hover, клики, события
- Графики: `line`, `bar`, `scatter`, `pie`, `histogram`, `box`, `violin`
- 3D: `scatter3d`, `surface`, `mesh3d`, `cone`
- Карты: `choropleth`, `scatter_mapbox`, `density_mapbox`, тайлы
- Анимации: `frame`, `animation_frame`, `animation_group`, `redraw`
- Dash: `Dash`, `dcc.Graph`, `html.Div`, `@app.callback`, `Input`, `Output`
- Экспорт: HTML (standalone), PNG, SVG, встраивание в веб, Jupyter
- Практика: бизнес-дашборды, геоаналитика, анимированные тренды, дашборды в реальном времени



## 🤖 **Модуль 10: Scikit-learn — Машинное обучение (основы)**

- Предобработка: `StandardScaler`, `MinMaxScaler`, `RobustScaler`, `OneHotEncoder`, `LabelEncoder`, `OrdinalEncoder`
- Разделение: `train_test_split`, `StratifiedKFold`, `TimeSeriesSplit`
- Модели:
  - Линейные: `LinearRegression`, `LogisticRegression`, `Ridge`, `Lasso`
  - Деревья: `DecisionTreeClassifier`, `RandomForestClassifier`, `ExtraTrees`
  - SVM: `SVC`, `SVR`
  - Кластеризация: `KMeans`, `DBSCAN`, `AgglomerativeClustering`
  - Ансамбли: `VotingClassifier`, `StackingClassifier`
- Метрики: `accuracy_score`, `precision_recall_fscore_support`, `roc_auc_score`, `mean_squared_error`, `r2_score`
- Кросс-валидация: `cross_val_score`, `cross_validate`, `validation_curve`
- Конвейеры: `Pipeline`, `ColumnTransformer`, `make_pipeline`
- Подбор гиперпараметров: `GridSearchCV`, `RandomizedSearchCV`, `HalvingGridSearchCV`
- Сохранение моделей: `joblib.dump()`, `joblib.load()`, `pickle`
- Практика: полный цикл — от EDA до сохранения модели, интерпретация, важность признаков



## 🐱 **Модуль 11: CatBoost — Градиентный бустинг (специализированный)**

- Особенности: обработка категориальных признаков без предобработки, устойчивость к шуму
- Обучение: `CatBoostClassifier`, `CatBoostRegressor`, `fit()`, `eval_set`
- GPU-ускорение: `task_type='GPU'`, `devices`
- Кросс-валидация: `cv()`, `Pool`
- Ранняя остановка: `early_stopping_rounds`, `use_best_model`
- Интерпретация: `get_feature_importance()`, `plot_tree()`, `get_object_importance()`
- Работа с пропусками — встроенная, без imputation
- Практика: Kaggle-соревнования, бизнес-задачи классификации/регрессии, feature importance



## 🌳 **Модуль 12: XGBoost и LightGBM — Альтернативы CatBoost**

- **XGBoost**:
  - `XGBClassifier`, `XGBRegressor`, `XGBRanker`
  - `DMatrix` — оптимизированная структура данных, sparse матрицы
  - Подбор параметров: `cv()`, `GridSearchCV`
  - Важность признаков: `weight`, `gain`, `cover`
  - Визуализация: `plot_importance()`, `plot_tree()`

- **LightGBM**:
  - `LGBMClassifier`, `LGBMRegressor`
  - Гистограммный бустинг — скорость на больших данных
  - Leaf-wise рост деревьев — лучше accuracy
  - Обработка категориальных признаков: `categorical_feature`
  - Ранняя остановка: `early_stopping_rounds`

- **Сравнение**: CatBoost vs XGBoost vs LightGBM — по точности, скорости, удобству, потреблению памяти
- Практика: сравнение на одном датасете (например, Titanic, House Prices, Credit Risk), анализ trade-off



## 🔬 **Модуль 13: SciPy — Научные и инженерные вычисления**

- Оптимизация: `minimize()` (BFGS, Nelder-Mead), `curve_fit()`, `linprog()`, `differential_evolution`
- Интегрирование: `quad()`, `dblquad()`, `odeint()`, `solve_ivp`
- Интерполяция: `interp1d()` (линейная, кубическая), `griddata()`, `splrep()`, `BSpline`
- Линейная алгебра: `scipy.linalg` — SVD, LU, Cholesky, `eig`, `svdvals`
- Статистика: `scipy.stats` — распределения (norm, t, chi2), тесты (t-test, chi2, anova), `describe()`, `entropy`
- Обработка сигналов: `scipy.signal` — фильтры (butter, fir), FFT, `spectrogram`, вейвлеты
- Разреженные матрицы: `scipy.sparse` — `csr_matrix`, `csc_matrix`, `coo_matrix`, операции
- Практика: научные расчеты, инженерное моделирование, эконометрика, DSP


## 🧮 **Модуль 14: SymPy — Символьные вычисления**
- Символьные переменные: `symbols('x y')`, `Symbol('z')`
- Выражения: `x**2 + sin(x)`, `exp(x)`, `log(x)`
- Упрощение: `simplify()`, `expand()`, `factor()`, `collect()`, `trigsimp()`
- Решение: `solve()`, `solveset()`, `nonlinsolve()`, системы уравнений
- Дифференцирование: `diff()`, частные производные, градиент
- Интегрирование: `integrate()`, определённые/неопределённые интегралы, кратные
- Матрицы: `Matrix`, операции, определитель, обратная, собственные значения
- Визуализация: `plot()` (через Matplotlib), `plot3d`
- Практика: символьное моделирование, вывод формул, проверка производных, физика, экономика



## 📝 **Модуль 15: NLP — от NLTK до Transformers**

### Часть 1: NLTK — учебный стандарт
- Токенизация: `word_tokenize`, `sent_tokenize`, `regexp_tokenize`
- Стоп-слова: `stopwords.words('english')`, кастомные списки
- Стемминг: `PorterStemmer`, `SnowballStemmer`, `LancasterStemmer`
- Лемматизация: `WordNetLemmatizer`, части речи
- POS-теггинг: `pos_tag`, теги Penn Treebank, `DefaultTagger`, `UnigramTagger`
- Синтаксический анализ: chunking (`RegexpParser`), parsing (введение)
- Анализ тональности: VADER, обучение классификаторов (Naive Bayes, SVM)
- Корпуса: `nltk.corpus`, `gutenberg`, `movie_reviews`, `wordnet`

### Часть 2: SpaCy — промышленный NLP
- Загрузка моделей: `spacy.load('en_core_web_sm')`, `ru_core_news_sm`
- Обработка: `doc = nlp(text)`, токены, предложения
- Токены: текст, лемма, POS, тег, зависимость, форма
- Именованные сущности: `doc.ents`, типы (PERSON, ORG, GPE, DATE, MONEY)
- Синтаксические зависимости: `token.dep_`, дерево зависимостей
- Кастомные компоненты: `nlp.add_pipe()`, `@Language.component`
- Векторизация: `token.vector`, `PhraseMatcher`, `similarity()`
- Производительность: батч-обработка, `nlp.pipe()`, многопоточность

### Часть 3: Hugging Face Transformers
- Архитектуры: внимание, энкодеры (BERT), декодеры (GPT), энкодер-декодеры (T5)
- Модели: BERT, RoBERTa, DistilBERT, GPT-2, T5, mT5, XLM-R
- Fine-tuning: `Trainer`, `TrainingArguments`, `DataCollator`, метрики
- Токенизация: `AutoTokenizer`, WordPiece, BPE, SentencePiece, truncation, padding
- Задачи: классификация, NER, QA, summarization, translation, text generation
- Мультиязычность: XLM-R, mBERT, индуктивная передача

### Часть 4: Дополнительные NLP-библиотеки
- `Gensim` — topic modeling (LDA, NMF), word2vec, doc2vec, fastText
- `TextBlob` — простой API для polarity, subjectivity, noun phrases, translation
- `FastText` — эффективные текстовые классификаторы, subword-информация
- `Sumy` — автоматическая суммаризация (LSA, TextRank, LexRank)
- **SentenceTransformers** — для embedding-based подходов, семантического поиска
- **KeyBERT** — для извлечения ключевых слов на основе BERT
- **RAKE** — Rapid Automatic Keyword Extraction — для неструктурированных текстов
- **Coreferee** — разрешение кореференции (только для SpaCy)



## 🗣️ **Модуль 16: Hugging Face Ecosystem — Transformers, Datasets, Accelerate, Hub**

### Transformers Library
- Загрузка моделей: `AutoModel`, `AutoTokenizer`, `pipeline()`
- Fine-tuning: на своих данных, с кастомными метриками, callbacks
- Кастомизация: добавление слоёв, изменение голов, multi-task learning
- Оптимизация: mixed precision (fp16), gradient accumulation, `gradient_checkpointing`

### Datasets Library
- Загрузка: `load_dataset('glue', 'mrpc')`, `load_from_disk()`
- Предобработка: `map()`, `filter()`, `train_test_split()`, `shuffle()`
- Создание: из списков, файлов, pandas, NumPy
- Versioning: через Datasets Hub, хеширование, кэширование

### Accelerate
- Распределённое обучение: multi-GPU, TPU, ноутбук → кластер
- Mixed precision: автоматическое, без изменения кода
- Gradient accumulation: для больших батчей, экономия памяти
- Zero-shot inference: на CPU/GPU, pipeline-ready

### Hub и Spaces
- Публикация: моделей, датасетов, конфигов, логов
- Spaces: демо с Gradio/Streamlit за 5 минут, шаблоны
- Совместная работа: версионирование, комментарии, коллаборации
- Inference API: запуск моделей без деплоя



## 🏗️ **Модуль 17: Фреймворки для веб-приложений и дашбордов**

### Streamlit
- Создание приложений: `st.title()`, `st.dataframe()`, `st.plotly_chart()`, `st.map()`
- Интерактивность: `st.slider()`, `st.selectbox()`, `st.button()`, `st.file_uploader()`
- Интеграция с ML: загрузка модели, предсказание по запросу, кэширование (`@st.cache_data`)
- Деплой: Streamlit Cloud, Docker, Heroku

### Gradio
- UI за 3 строки: `gr.Interface(fn, inputs, outputs)`, `launch()`
- Типы: текст, изображение, аудио, видео, DataFrame
- Интеграция с Hugging Face Spaces: `gr.load()`, `gr.Interface.load()`
- Демо для моделей: классификация, генерация, перевод, чат-боты

### FastAPI
- REST API: `@app.post('/predict')`, `@app.get('/health')`
- Pydantic: валидация входных данных, схемы, вложенные модели
- Автодокументация: Swagger UI, ReDoc, OpenAPI
- Производительность: async/await, Uvicorn, Gunicorn
- Middleware: CORS, аутентификация, логирование

### Dash (Plotly)
- Интерактивные дашборды: `dcc.Graph`, `dcc.Slider`, `html.Div`, `dbc` (Dash Bootstrap)
- Callback система: `@app.callback`, `Input`, `Output`, `State`, цепочки
- Production deployment: Gunicorn, Docker, Kubernetes, Dash Enterprise
- Темы: Bootstrap, Material, кастомный CSS



## 📈 **Модуль 18: Оптимизация и MLOps**

### Оптимизация производительности
- `Numba` — JIT-компиляция для численных функций, `@jit`, `@vectorize`
- `Cython` — компиляция Python в C, `.pyx` файлы, типизация, введение
- `Dask` — параллельные вычисления (повторение + углубление)
- `Ray` — распределённые вычисления, акторы, задачи, `@ray.remote`

### MLOps инструменты
- `MLflow` — трекинг экспериментов, Model Registry, Projects, Recipes
- `Weights & Biases` — визуализация обучения, сравнение runs, артефакты, sweeps
- `Great Expectations` — валидация данных, Data Docs, профили, suites
- `Prefect / Airflow` — оркестрация пайплайнов, DAG, задачи, расписания, мониторинг
- **Kedro** — framework для production-ready data pipelines, узлы, конфиги, каталог данных
- **DVC** — более глубоко: `dvc add`, `dvc repro`, `dvc metrics`, `dvc plots`
- **Evidently AI** — мониторинг дрейфа данных, отчёты, интеграция с MLflow
- **Seldon Core / KServe** — serving моделей в Kubernetes, canary deployments, scaling
- **Optuna / Hyperopt** — продвинутый подбор гиперпараметров, Bayesian optimization, pruning
- **Shap / LIME** — explainable AI — интерпретация предсказаний моделей


## ☁️ **Модуль 22: Cloud Platforms — Развертывание в облаках**

- **AWS SageMaker** — ноутбуки, обучение, inference endpoints, AutoML
- **Google Vertex AI** — аналогично для GCP — pipelines, feature store, endpoints
- **Azure Machine Learning** — ML в Azure — compute, pipelines, registry
- **Databricks** — unified analytics — Delta Lake, MLflow, AutoML, notebooks
- **Hugging Face Endpoints** — deployment для transformer моделей — serverless, autoscaling
- Практика: запуск обучения в облаке, деплой модели, мониторинг расходов



## 🔍 **Модуль 23: Мониторинг и Observability — Наблюдаемость ML-систем**

- **Prometheus + Grafana** — метрики, дашборды, алерты для ML-сервисов
- **ELK Stack (Elasticsearch, Logstash, Kibana)** — централизованное логирование
- **Arize / WhyLabs** — commercial ML observability — дрейф, качество, аномалии
- **Alibi Detect** — detection of drift, outliers, adversarial examples
- **OpenTelemetry** — трассировка запросов в распределённых системах (введение)
- Практика: настройка мониторинга для FastAPI-сервиса, алерты при дрейфе



## 🧪 **Модуль 19: Интеграция и лучшие практики**

- End-to-end проекты: скрейпинг → EDA → ML → API → мониторинг → алерты
- Оптимизация: memory profiling (`memory_profiler`), CPU/GPU utilization (`nvidia-smi`, `psutil`), кэширование
- Воспроизводимость: Docker, DVC, фиксация сидов, версий, `requirements.lock`
- Тестирование: unit tests (pytest), интеграционные тесты для пайплайнов, моки
- Документация: Sphinx, MkDocs, JupyterBook, README.md, docstrings (Google style)
- Code quality: pre-commit hooks, black, ruff, mypy, CI/CD (GitHub Actions, GitLab CI)
- Безопасность: secrets management, env variables, .env, vault (введение)
- **NetworkX** — анализ графов и сетей — социальные сети, рекомендательные системы
- **PyMC3 / Stan** — байесовское моделирование — вероятностные модели, MCMC
- **Feature-engine** — feature engineering для ML — imputation, encoding, transformation
- **Great Expectations + DVC + MLflow** — end-to-end воспроизводимость
- **CI/CD for ML** — GitHub Actions — тесты, линтеры, сборка образов, деплой
- **Pre-commit hooks** — автоматизация форматирования и линтинга перед коммитом



## 🎓 **Модуль 20: Проекты для закрепления**

1. **Полный EDA пайплайн** — Pandas + Plotly + Streamlit → интерактивный отчёт с фильтрами
2. **Веб-скрейпер** — Scrapy + BeautifulSoup → сбор данных → CSV → Pandas → визуализация
3. **NLP классификатор** — SpaCy → Transformers fine-tuning → Gradio → Space на Hugging Face
4. **ML API** — FastAPI + Scikit-learn/CatBoost + Docker → production-ready REST API
5. **Интерактивный дашборд** — Dash/Plotly → бизнес-метрики, фильтры, алерты, экспорт
6. **Распределённая обработка** — PySpark/Dask → агрегация логов 50ГБ+ → визуализация
7. **Computer Vision проект** — OpenCV + PyTorch → классификация изображений → Gradio UI
8. **Конечный продукт** — полный MLOps пайплайн: от данных → до деплоя и мониторинга (MLflow + Docker + Evidently)
9. **ML Observability Dashboard** — Prometheus + Grafana + Evidently → мониторинг дрейфа
10. **Cloud ML Pipeline** — AWS SageMaker / Vertex AI → обучение + деплой
11. **Graph Analysis Project** — NetworkX → анализ социальной сети
12. **Bayesian Model** — PyMC3 → вероятностная регрессия
13. **Production MLOps Pipeline** — Kedro + MLflow + Docker + FastAPI → full cycle
14. **Explainable AI Dashboard** — Shap + Streamlit → интерпретация модели


## 📚 **Модуль 21: Специализированные библиотеки**

### Computer Vision
- `OpenCV` — загрузка, фильтрация, детекция (лиц, объектов), трансформации, видео
- `Pillow` — базовая обработка изображений: resize, crop, rotate, filters
- `scikit-image` — алгоритмы: сегментация, морфология, features, restoration

### Временные ряды
- `statsmodels` — ARIMA, SARIMA, VAR, тесты на стационарность (ADF, KPSS)
- `Prophet` — прогнозирование с учетом трендов, сезонности, праздников
- `tsfresh` — автоматическое извлечение признаков из временных рядов, отбор

### Геоданные
- `geopandas` — DataFrame для геометрий, CRS, операции (буфер, пересечение), чтение shapefile
- `folium` / `leafmap` — интерактивные карты, heatmaps, маркеры, полигоны
- `shapely` — геометрические операции: буфер, пересечение, расстояние, площадь

### Работа с таблицами и документами
- `tabula` — извлечение таблиц из PDF (на основе Java)
- `openpyxl` / `xlwings` — чтение/запись Excel, формулы, стили, графики
- `PyPDF2` / `pdfplumber` — извлечение текста, таблиц, метаданных из PDF, OCR (введение)

### Дополнительные библиотеки
- **NetworkX** — графы, алгоритмы (кратчайший путь, центральность), визуализация
- **PyMC3** — байесовские модели, MCMC, диагностика сходимости
- **Feature-engine** — унифицированный API для feature engineering — совместим с Scikit-learn
- **Shap** — SHapley Additive exPlanations — интерпретация моделей
- **Optuna** — автоматический подбор гиперпараметров — define-by-run, pruning, visualization

