# Краткий экскурс по библиотекам

**TensorFlow** — библиотека сквозного машинного обучения Python для выполнения высококачественных численных вычислений. С помощью TensorFlow можно построить глубокие нейронные сети для распознавания образов и рукописного текста и рекуррентные нейронные сети для NLP(обработки естественных языков). Также есть модули для векторизации слов (embedding) и решения дифференциальных уравнений в частных производных (PDE). Этот фреймворк имеет отличную архитектурную поддержку, позволяющую с легкостью производить вычисления на самых разных платформах, в том числе на десктопах, серверах и мобильных устройствах.

**Keras** — одна из основных библиотек Python с открытым исходным кодом, написанная для построения нейронных сетей и проектов машинного обучения. Keras может работать совместно с Deeplearning4j, MXNet, Microsoft Cognitive Toolkit (CNTK), Theano или TensorFlow. В этой библиотеке реализованы практически все автономные модули нейронной сети, включая оптимизаторы, нейронные слои, функции активации слоев, схемы инициализации, функции затрат и модели регуляризации. Это позволяет строить новые модули нейросети, просто добавляя функции или классы. И поскольку модель уже определена в коде, разработчику не приходится создавать для нее отдельные конфигурационные файлы.

Keras особенно удобна для начинающих разработчиков, которые хотят проектировать и разрабатывать собственные нейронные сети. Также Keras можно использовать при работе со сверточными нейронными сетями. В нем реализованы алгоритмы нормализации, оптимизации и активации слоев. Keras не является ML-библиотекой полного цикла (то есть, исчерпывающей все возможные варианты построения нейронных сетей). Вместо этого она функционирует как очень дружелюбный, расширяемый интерфейс, увеличивающий модульность и выразительность (в том числе других библиотек).

**Theano**

По своей сути, это научная математическая библиотека, которая позволяет вам определять, оптимизировать и вычислять математические выражения, в том числе и в виде многомерных массивов. Основой большинства ML и AI приложений является многократное вычисление заковыристых математических выражений. Theano позволяет вам проводить подобные вычисления в сотни раз быстрее, вдобавок она отлично оптимизирована под GPU, имеет модуль для символьного дифференцирования, а также предлагает широкие возможности для тестирования кода.

Когда речь идет о производительности, Theano — отличная библиотека ML и AI, поскольку она может работать с очень большими нейронными сетями. Ее целью является снижение времени разработки и увеличение скорости выполнения приложений, в частности, основанных на алгоритмах глубоких нейронных сетей. Ее единственный недостаток — не слишком простой синтаксис (по сравнению с TensorFlow), особенно для новичков.

**Scikit-learn** — еще одна известная опенсорсная библиотека машинного обучения Python, с широким спектром алгоритмов кластеризации, регрессии и классификации. DBSCAN, градиентный бустинг, случайный лес, SVM и k-means — вот только несколько примеров. Она также отлично взаимодействует с другими научными библиотеками Python, такими как NumPy и SciPy.

Эта библиотека поддерживает алгоритмы обучения как с учителем, так и без учителя. Вот список основных преимуществ данной библиотеки, делающих ее одной из самых предпочтительных библиотек Python для ML:

снижение размерности
алгоритмы, построенные на решающих деревьях (в том числе стрижка и индукция)
построение решающих поверхностей
анализ и выбор признаков
обнаружение и удаление выбросов
продвинутое вероятностное моделирование
классификация и кластеризация без учителя

**PyTorch** — это полностью готовая к работе библиотека машинного обучения Python с отличными примерами, приложениями и вариантами использования, поддерживаемая сильным сообществом. PyTorch отлично адаптирована к графическому процессору (GPU), что позволяет использовать его, например в приложениях NLP (обработка естественных языков). Вообще, поддержка вычислений на GPU и CPU обеспечивает оптимизацию и масштабирование распределенных задач обучения как в области исследований, так и в области создания ПО. Глубокие нейронные сети и тензорные вычисления с ускорением на GPU — две основные фишки PyTorch. Библиотека также включает в себя компилятор машинного обучения под названием Glow, который серьезно повышает производительность фреймворков глубокого обучения.

**SciPy**

Она имеет различные модули для реализации машинного обучения. Особенность, которая делает библиотеку столь важной для машинного обучения, заключается в том, что она обеспечивает быстрое и качественное выполнение кода. Кроме того, это простая в использовании библиотека.

Преимущества:
Идеально подходит для обработки изображений.
Предлагаются основные функции для осуществления математических операций.
Обеспечивает эффективную интеграцию числовых данных и их оптимизацию.
Также облегчает обработку сигналов.
Недостатки:
В общем-то, в использовании этой библиотеки нет серьезных недостатков. Однако может возникнуть путаница библиотеки SciPy с одноименным стеком, поскольку она в него включена.

# Типы машинного обучения

https://pythonist.ru/mashinnoe-obuchenie-v-povsednevnoj-zhizni/

# Введение в глубокое обучение: пошаговое руководство

https://pythonist.ru/vvedenie-v-glubokoe-obuchenie-po-shagam/?utm_source=telegram&utm_medium=pythonist

# Немного о Pandas

Скажем, вам нужно быстро проверить, есть ли в таблице значения NaN. В этом случае мы можем воспользоваться функцией count() , которая посчитает количество ячеек, содержащих какое-либо число.

df.count()

df.at[0,'price']= np.nan - Данная строка кода устанавливает значение NaN (Not a Number) в ячейку с индексом 0 в столбце 'price' объекта DataFrame df.

Скажем, нам нужно посмотреть подробную информацию о доме с наименьшей ценой. Существует множество способов сделать это с помощью других методов. Но функции idxmin() и idxmax() наиболее эффективны.

df.loc[df['price'].idxmin()]

Допустим, у нас есть непрерывная переменная. Но, например, в рамках вашей задачи эту переменную необходимо рассматривать как категориальную.

Функция cut() поможет вам привести непрерывную переменную к виду дискретной, разбив весь диапазон значений на интервалы.

В нашем случае я хочу создать набор ценовых данных, поскольку значение цены колеблется от 0 до 26590000. Если я сгруппирую данные, с ними будет проще работать.

pd.cut(df["price"], 4)

Если вы работали в excel, вы точно использовали эту функцию.

Допустим, нам нужно найти среднюю цену дома в каждом городе, основываясь на количестве комнат.

df.pivot_table(index="city" , columns="bedrooms" ,values="price" , aggfunc="mean")

Мы уже научились использовать idxmin() и idxmax(), чтобы находить определённые значения. А что, если нужно найти три позиции с наибольшей ценой? Тут-то нам и пригодятся функции nsmallest() и nlargest().

df.nlargest(3, "price")[["city","price"]]

# Как очистить данные: пошаговое руководство

In [None]:
import pandas as pd
# 1. Чтение данных из csv - способ по умолчанию
df = pd.read_csv('my_file.csv')
# 2. Чтение данных из csv с использованием запятой в качестве разделителя
df = pd.read_csv('my_file.csv', delimiter=',')
# 3. Чтение данных из csv с использованием запятой в качестве разделителя и без заголовков
df = pd.read_csv('my_file.csv', delimiter=',', header=None)
# 4. Чтение данных из csv с использованием запятой в качестве разделителя и с пользовательскими заголовками
my_headers = ['Id','Name', 'Type', 'Price']
df = pd.read_csv('my_file.csv', delimiter=',', header=0, names=my_headers)

Удаление дублирующихся данных

In [None]:
# 1. Удаление дубликатов и возврат копии датафрейма
df = df.drop_duplicates()
# 2. Удаление дубликатов в исходном датафрейме
df = df.drop_duplicates(inplace=True)
# 3. Отбрасываем дубликаты, оставляя первое/последнее вхождение
df = df.drop_duplicates(inplace=True, keep='last')
# 4. Для нахождения дубликатов учитываем только определенные столбцы
df = df.drop_duplicates(subset=['Id', 'Price'], inplace=True, keep='last')

Перевод данных в нижний регистр

In [None]:
df['Type'] = df['Type'].str.lower()
df['Name'] = df['Name'].str.lower()

Удаление множественных пробелов, табов и символов перевода строки

In [None]:
df['Type'] = df['Type'].str.replace('\n', '')
df['Type'] = df['Type'].str.replace('\t', ' ')
df['Type'] = df['Type'].str.replace(' {2,}', ' ', regex=True)
df['Type'] = df['Type'].str.strip()

Удаление URL-адресов

In [None]:
df['Type'] = df['Type'].replace(r'http\S+', '', regex=True).replace(r'www\S+', '', regex=True)

Отбрасываем строки с пустыми данными

In [None]:
df.dropna()
df['Type'].astype(bool)
df = df[df['Type'].astype(bool)]

Дальнейшая обработка данных

In [None]:
import numpy as np
df = df.drop(['Id', 'Name'], axis=1)
df = df[df['Type'].str.contains('frozen') | df['Type'].str.contains('green')]
def detect_price(row):
    if row['Price'] > 15.50:
        return 'High'
    elif row['Price'] > 5.50 and row['Price'] <= 15.50:
        return 'Medium'
    elif row['Price'] > 0.0 and row['Price'] <= 5.50:
        return 'Low'
    else:
        return np.NaN
df['Range'] = df.apply (lambda row: detect_price(row), axis=1)

Здесь в третьей строке мы отбрасываем два столбца с именами Id и Name и возвращаем копию нового датафрейма.

Четвертая строка проверяет, содержит ли столбец Type строку frozen или green, затем возвращает True и сохраняет эту строку.

Строки с 7 по 17 создают новый столбец с именем Range на основе данных столбца Price. Используя лямбда-функцию, мы передаем каждую строку в функцию detect_price и возвращаем значение на основе цены. Затем возвращаемое значение присваивается новому столбцу в строке, переданной в функцию. Мы используем np.NaN, чтобы потом иметь возможность удалить эти строки при помощи df.dropna().

# 6 тем

## **Прогнозирование кликов**

Для задачи прогнозирования кликов (click-through prediction) вы можете использовать различные методы машинного обучения, такие как линейная регрессия, случайные леса, градиентный бустинг и нейронные сети. Вот общий обзор шагов, которые можно выполнить для прогнозирования кликов:

1. Подготовка данных: Загрузите и подготовьте данные. Это может включать в себя очистку данных, обработку пропущенных значений, кодирование категориальных признаков и масштабирование данных.

2. Выбор признаков: Определите, какие признаки (факторы) будут использоваться для прогнозирования кликов. Это может включать в себя различные признаки, такие как демографическая информация, история кликов, контекстуальные данные и т.д.

3. Разделение данных: Разделите данные на обучающий и тестовый наборы. Обычно используется метод кросс-валидации или разделение на обучающий и тестовый наборы в соотношении, например, 70% к 30%.

4. Выбор модели: Выберите модель машинного обучения, которую хотите использовать для прогнозирования кликов. Это может быть линейная регрессия, случайный лес, градиентный бустинг и другие.

5. Обучение модели: Обучите выбранную модель на обучающем наборе данных.

6. Оценка модели: Оцените производительность модели на тестовом наборе данных, используя метрики, такие как точность, полнота, F1-мера, ROC-кривая и прочие.

7. Настройка гиперпараметров: Проведите настройку гиперпараметров модели для улучшения ее производительности.

8. Прогнозирование: Используйте обученную модель для прогнозирования кликов на новых данных.

9. Оптимизация и масштабирование: При необходимости оптимизируйте и масштабируйте модель для улучшения ее производительности на реальных данных.

Учитывая сложность задачи прогнозирования кликов, рекомендуется также изучить специализированные методы и подходы, которые используются в рекламной аналитике, такие как CTR (click-through rate) prediction и методы обработки больших объемов данных.

Для прогнозирования кликов в машинном обучении (ML) есть несколько популярных библиотек, которые можно использовать. Вот некоторые из них:

scikit-learn: Это одна из наиболее популярных библиотек ML для Python. Она предоставляет широкий спектр алгоритмов для классификации, регрессии, кластеризации и других задач. Вы можете использовать модели, такие как логистическая регрессия, случайный лес, градиентный бустинг и другие для прогнозирования кликов.

XGBoost: Это библиотека, специализирующаяся на градиентном бустинге деревьев решений. Она обеспечивает высокую производительность и эффективность при работе с большими объемами данных. XGBoost широко используется для решения задач классификации и регрессии.

CatBoost: CatBoost является библиотекой градиентного бустинга, разработанной Яндексом. Она обладает специальными возможностями для работы с категориальными признаками и автоматическим выбором гиперпараметров. CatBoost имеет хорошую производительность и подходит для задач классификации, регрессии и ранжирования.

TensorFlow: Это библиотека от Google, специализирующаяся на глубоком обучении. Она предоставляет высокоуровневые и низкоуровневые API для создания и обучения нейронных сетей. TensorFlow широко используется для задач классификации и регрессии, включая прогнозирование кликов.

PyTorch: Это другая популярная библиотека глубокого обучения. Она обеспечивает гибкость и простоту в использовании. Подобно TensorFlow, PyTorch используется для создания и обучения нейронных сетей для задач прогнозирования кликов.

## **Снижение размерности данных**

Для снижения размерности данных в машинном обучении, вы можете использовать различные методы и библиотеки. Ниже приведены некоторые из наиболее часто используемых методов и библиотек для этой задачи:

1. Метод главных компонент (PCA): PCA - это один из наиболее распространенных методов снижения размерности. Он позволяет найти линейные комбинации изначальных признаков, которые содержат наибольшее количество информации. В Python для реализации PCA можно использовать библиотеки scikit-learn или NumPy.

2. t-distributed Stochastic Neighbor Embedding (t-SNE): t-SNE - это метод для визуализации и понижения размерности данных, который позволяет проецировать данные на пространство меньшей размерности. Библиотека scikit-learn предоставляет реализацию t-SNE.

3. Linear Discriminant Analysis (LDA): LDA - это метод, который может быть использован для снижения размерности данных в задачах классификации. Он пытается найти комбинации признаков, которые максимизируют разделение классов. Реализация LDA также доступна в библиотеке scikit-learn.

4. Autoencoders: Autoencoders - это нейронные сети, которые могут быть использованы для сжатия данных и снижения размерности. Библиотеки Keras и PyTorch предоставляют инструменты для реализации автоэнкодеров.

5. Метод случайных проекций (Random Projection): Random Projection - это метод, который позволяет проецировать данные на случайно сгенерированные подпространства меньшей размерности. Этот метод может быть применен для снижения размерности данных. Реализации Random Projection также доступны в scikit-learn.

6. Библиотеки: Для реализации снижения размерности данных в Python часто используются библиотеки scikit-learn, NumPy, pandas, Keras, PyTorch и TensorFlow.

Это только несколько примеров методов и библиотек для снижения размерности данных. Выбор метода будет зависеть от специфики ваших данных и задачи.

## **Задачи работы с разреженными данными**

Работа с разреженными данными представляет собой важную задачу в области машинного обучения. Разреженные данные возникают, когда большинство элементов в наборе данных равны нулю. Это часто встречается в таких областях, как обработка естественного языка (NLP), рекомендательные системы, а также в задачах, связанных с большими разреженными матрицами (например, в рекомендательных системах).

Ниже приведены некоторые задачи, связанные с работой с разреженными данными, а также методы и библиотеки, которые могут быть использованы для их решения:

1. Представление разреженных данных: Эффективное представление и хранение разреженных данных является важной задачей. В Python для работы с разреженными матрицами можно использовать библиотеку scipy.sparse, которая предоставляет различные форматы для хранения разреженных матриц.

2. Масштабирование и нормализация: При работе с разреженными данными важно учитывать их особенности при масштабировании и нормализации. scikit-learn предоставляет инструменты для масштабирования разреженных данных.

3. Извлечение признаков: В некоторых случаях может потребоваться извлечение признаков из разреженных данных, например, при работе с текстовыми данными в NLP. Для этой задачи можно использовать методы векторизации текста, такие как TF-IDF или Word2Vec, а также библиотеку scikit-learn.

4. Обучение моделей на разреженных данных: Многие модели машинного обучения могут быть обучены на разреженных данных, но некоторые модели, такие как модели глубокого обучения, могут требовать дополнительной предобработки данных. Библиотеки scikit-learn, TensorFlow, PyTorch и Keras предоставляют инструменты для обучения моделей на разреженных данных.

5. Работа с рекомендательными системами: В рекомендательных системах часто используются разреженные матрицы для представления взаимодействия пользователей с элементами. Решение задач рекомендательных систем также требует специализированных методов и библиотек, таких как surprise, implicit, lightfm и другие.

6. Оптимизация хранения данных: При работе с большими разреженными данными может потребоваться оптимизировать их хранение и обработку. Рассмотрите использование специализированных инструментов и библиотек для эффективной работы с разреженными данными.

Работа с разреженными данными требует особого внимания к их уникальным особенностям и требует специализированных методов и инструментов для их эффективной обработки.

## **Мультимодальное обучение**

Мультимодальное обучение относится к области машинного обучения, где информация из различных модальностей (таких как изображения, текст, звук и видео) используется вместе для решения задач анализа данных. Это важная область, так как в реальном мире информация обычно представлена не только в одной форме, а в нескольких модальностях одновременно.

Ниже приведены некоторые примеры задач и методов, связанных с мультимодальным обучением:

1. Обработка мультимодальных данных: Мультимодальные данные могут содержать изображения, текст, аудио, видео и другие типы информации. Для их обработки и представления могут быть использованы различные методы, такие как методы компьютерного зрения, обработки естественного языка (NLP), аудиообработки и другие.

2. Обучение на мультимодальных данных: Для обучения моделей на мультимодальных данных могут использоваться различные методы, такие как объединение признаков из разных модальностей, использование общих представлений для разных модальностей, использование глубоких нейронных сетей и другие.

3. Извлечение признаков из различных модальностей: Для извлечения признаков из различных модальностей можно использовать различные методы, такие как сверточные нейронные сети для изображений, рекуррентные нейронные сети для текста, а также методы извлечения признаков из аудио и видео.

4. Объединение представлений: При решении задач мультимодального обучения важно научиться объединять информацию из разных модальностей для принятия решения. Это может включать в себя методы объединения признаков, мультимодальные архитектуры нейронных сетей и другие.

5. Задачи мультимодального обучения: Примерами задач мультимодального обучения могут быть распознавание и классификация изображений сопровождаемые текстовыми описаниями, обработка и анализ медиа-контента (аудио и видео) с текстовыми и графическими данными, анализ социальных медиа и другие.

Для решения задач мультимодального обучения могут использоваться различные библиотеки и фреймворки машинного обучения, такие как TensorFlow, PyTorch, scikit-learn и другие. Важно учитывать особенности каждой модальности и разрабатывать методы, способные эффективно работать с данными различных типов.

## **Предобработка изображений**

Для выполнения этих шагов вы можете использовать различные библиотеки Python, такие как OpenCV, Pillow, scikit-image, а также специализированные библиотеки для глубокого обучения, такие как TensorFlow и PyTorch, которые предоставляют инструменты для предобработки изображений в рамках обучения моделей.

## **Предобработка текста**

Предобработка текста играет важную роль в обработке данных для задач обработки естественного языка (Natural Language Processing, NLP) и других задач, связанных с анализом текстов. Вот несколько шагов, которые обычно включаются в процесс предобработки текста:

1. Токенизация: Этот шаг включает разделение текста на отдельные слова или токены. Библиотеки такие как NLTK, spaCy или регулярные выражения могут быть использованы для выполнения токенизации.

2. Преобразование в нижний регистр: Приведение всех слов к нижнему регистру может помочь унифицировать текст и избежать дублирования слов с разным регистром.

3. Удаление стоп-слов: Стоп-слова (например, "и", "в", "на", "не") несут мало смысловой нагрузки, поэтому их удаление может улучшить производительность моделей. Многие библиотеки NLP, такие как NLTK, содержат списки стоп-слов для множества языков.

4. Лемматизация или стемминг: Лемматизация и стемминг используются для приведения слов к их базовой форме. Лемматизация приводит слова к их лемме (например, "бегал", "бежит" -> "бежать"), в то время как стемминг обрезает слова до их основы (например, "бегал", "бежит" -> "бег"). Библиотеки NLTK и spaCy предоставляют инструменты для лемматизации и стемминга.

5. Удаление специальных символов и цифр: В некоторых случаях может быть полезно удалить специальные символы, цифры и другие нежелательные символы из текста.

6. Векторизация текста: После предобработки, текст должен быть преобразован в числовую форму, которую можно использовать в моделях машинного обучения. Это может быть достигнуто с использованием методов векторизации текста, таких как Bag of Words, TF-IDF или Word Embeddings.

7. Аугментация данных: В некоторых случаях можно использовать методы аугментации текста для увеличения разнообразия данных, например, путем добавления синонимов, изменения порядка слов и других методов.

Обычно для выполнения этих шагов используются различные библиотеки Python, такие как NLTK, spaCy, scikit-learn и другие, которые предоставляют инструменты для предобработки текста и работы с данными NLP. Выбор конкретных методов предобработки будет зависеть от задачи и особенностей ваших данных.

# Фенички, которые были на кластере

**Очистка памяти**

In [None]:
import gc
gc.collect()

**Замер памяти**

In [None]:
pip install memory_profiler
%load_ext memory_profiler
%memit

**Чтение файла**

In [None]:
import os

DATASET_ROOT = "../dataset"
TASK_DATASET = os.path.join(DATASET_ROOT, "ok-group-recommend")

os.listdir(TASK_DATASET)

In [None]:
import gzip
import csv

In [None]:
#X = pd.read_csv(os.path.join(TASK_DATASET, "train_df.tsv.gz"), delimiter="\t", compression='gzip')
X = pd.read_csv(os.path.join(TASK_DATASET, "train_df.tsv"), delimiter="\t")