## <center>Open()</center>

В Python есть встроенная функция `open()`. С ее помощью можно открыть любой файл на компьютере.
```python
f = open(file_name, access_mode)
```
* `file_name` — имя открываемого файла
* `access_mode` — режим открытия файла. Он может быть: для чтения, записи и так далее. По умолчанию используется режим чтения (*r*), если другое не указано. 

*r* — только для чтения. 

*w* — только для записи. Создаст новый файл, если не найдет с указанным именем.

В данном случае необходимо не забывать закрывать файл после его прочтения: `f.close()`.

## <center>Read_csv</center>

Но чаще используется `read_csv`.
```python
import pandas as pd
df = pd.read_csv(«for_example.csv», sep="\t", header=None)
```
Вместо `sep="\t"` можно писать `delimiter='\t'`.

# <center>Проверка данных</center>

1) `.head()` - выводит 5 строк начала датафрейма.
2) `.tail()` - выводит 5 строк конца датафрейма.
3) `.shape()` - количество столбцов и строк.
4) `df.info()` - для оценки наличия пропусков и посмотреть на тип данных.
5) `.describe()` - вывести описательную статистику по столбцу. Exp: `df['Year'].describe()`. А можно ко всему датафрейму `df.describe(include='all')`.

# <center>Очистка данных</center>

**<u>Удаление дубликатов во всех столбцах</u>**

Самый простой способ удалить повторяющиеся строки - использовать функцию `drop_duplicates()` из библиотеки *Pandas*. По умолчанию удаляет строки с повторяющимися значениями во всех столбцах.

По умолчанию функция `drop_duplicates()` удаляет все дубликаты, кроме первого. Однако мы могли бы использовать аргумент `keep=False` для полного удаления всех дубликатов: `df.drop_duplicates(keep= False)`.

**<u>Удаление дубликатов в определенных столбцах</u>** 

`df.drop_duplicates(subset=['team', 'points'])`

Можно использовать комбинацию методов *Pandas* для предварительной обработки данных перед удалением дубликатов. Например, можно привести все строки к нижнему регистру, удалить пробелы, преобразовать даты в единый формат и так далее.

Exp: `df['B'] = df['B'].str.lower().str.replace(' ', '')`.

# <center>Обработка пропущенных значений</center>

Функция `isnull()` в *Pandas* возвращает *DataFrame* или серию с булевыми значениями, где *True* указывает на пропущенное значение.

Функция `notnull()` возвращает *True* для элементов, где значение присутствует.

**<u>Удаление</u>**

Простейший вариант — исключить объекты, имеющие неполные сведения. То есть удалить те строки, в столбцах которых есть пропуски. Или исключить признаки, содержащие неполные сведения. То есть удалить те столбцы, в которых есть пропуски.

Функция `dropna()` удаляет строки, где есть хотя бы одно пропущенное значение:
* Чтобы удалить столбцы, содержащие пропущенные значения, можно использовать параметр `axis=1`.
* Можно удалить строки, где все значения пропущены, с помощью параметра `how='all'`.
* Можно указать столбцы, для которых должна быть применена проверка на *NaN*, используя параметр `subset`.
* `thresh` — позволяет указать минимальное количество непропущенных значений, при котором строка или столбец сохраняется.

**<u>Замена</u>**

Второй вариант борьбы с пропусками заключается в том, чтобы заменить их при помощи интерполяции (прогнозирования значений внутри набора данных). Это может быть среднее или медианное значение по столбцу.

Для заполнения пропусков используем метод `fillna()`:
* `filled_df = df.fillna(0)` — заполняет все пропуски нулями.
* `df.fillna(df.mean(), inplace=True)` — заполняет пропуски средним значением по столбцам.

Медиана может быть предпочтительнее среднего значения в случаях, когда данные содержат выбросы, которые могут исказить среднее.

Для категориальных данных или данных с дискретными значениями можно использовать моду.

# <center>Отбор признаков</center>

1) **Корреляционный анализ**

Корреляционный анализ используется для определения степени взаимосвязи между признаками и целевой переменной. Признаки с высокой корреляцией с целевой переменной могут быть выбраны для использования в модели, поскольку они помогают предсказывать целевую переменную с высокой точностью.

Однако не следует использовать признаки с высокой корреляцией между собой, так как они способны привести к мультиколлинеарности (наличию линейной зависимости между объясняющими переменными), что усложнит интерпретацию результатов модели.

2) **Метод главных компонент**

Метод главных компонент используется для уменьшения размерности признакового пространства путем проекции исходных признаков на новые оси, которые максимально сохраняют информацию о данных. Таким образом, можно выбрать наиболее важные признаки и избежать проблем с мультиколлинеарностью.

Однако метод главных компонент может быть менее интерпретируемым, чем другие методы выбора признаков.

3) **Отбор признаков на основе моделей машинного обучения**

Отбор признаков на основе моделей машинного обучения позволяет выбрать наиболее значимые признаки на основе их важности для конкретной модели машинного обучения. Например, можно использовать метод перебора всех комбинаций признаков и выбрать те признаки, которые дают наилучшую точность модели. Однако этот метод может быть вычислительно затратным и требовать большого количества вычислительных ресурсов.

Важно также учитывать контекст применения модели машинного обучения и цель исследования при выборе признаков. Например, для задачи бинарной классификации можно выбрать только те признаки, которые сильно коррелируют с целевой переменной и имеют низкую корреляцию друг с другом.

# <center>Работа с категориальными и числовыми признаками</center>

**<u>Категориальные признаки</u>**

Существует несколько методов преобразования категориальных признаков:

**Label Encoding** — метод преобразования категориальных признаков в числовые значения. Каждое значение категориального признака заменяется на соответствующее ему число.

Этот метод подходит для признаков с порядком значений, таких как уровень образования.

**One Hot Encoding** — метод преобразования категориальных признаков в бинарные значения. Каждое значение категориального признака заменяется на столбец бинарных значений, где 1 указывает на присутствие значения признака, а 0 — на его отсутствие.

Этот метод подходит для признаков без порядка значений, таких как цвет или тип объекта.

**Binary Encoding** — метод преобразования категориальных признаков в бинарные значения с использованием кодирования Грея. Каждое значение категориального признака заменяется на бинарное значение, где каждый следующий столбец имеет значение, отличное от предыдущего на одну позицию.

Этот метод также подходит для признаков без порядка значений.

**<u>Числовые признаки</u>**

Числовые признаки могут быть обработаны следующими методами:

1) **Масштабирование** - метод преобразования числовых признаков, который позволяет установить диапазон значений для признака (масштабировать можно с помощью нормализации и стандартизации).

Нормализованные данные находятся в диапазоне от 0 до 1: `Х = (Хi– Xmin) / (Xmax – Xmin)`. 
* *Xi* — i-е значение в наборе данных; 
* *Xmin* — минимальное значение в наборе данных; 
* *Xmax* — максимальное значение в наборе данных.

Для стандартизации: `Х = (Xi  - x̅) / std`.
* *Xi* — i -е значение в наборе данных;
* *x̅* — среднее значение выборки;
* *std* — стандартное отклонение выборки.

2) **Дискретизация** - метод преобразования числовых признаков в категориальные значения. 

Например, можно разбить возраст на несколько диапазонов и присвоить каждому диапазону соответствующую категорию. Это может быть полезно, когда числовой признак имеет большое количество уникальных значений.

# <center>Построение базовых моделей</center>

Алгоритмы машинного обучения делятся на три большие группы:
* обучение с учителем;
* обучение без учителя;
* обучение с подкреплением.

**<center>Обучение с учителем</center>**

Пусть данные — это **Х**, где у нас **n**-объекты (то есть Строки) и **d**-признаки (то есть Столбцы). Для каждого **Х** есть свой **у** — правильный ответ (целевая переменная / target), который и является учителем.

Допустим, у нас есть файл с записями пациентов с колонкой (признаком) болен человек или нет. Наличие болезни будет являться **у** — таргетом. Мы точно знаем болен человек или нет.

В зависимости от у существуют разные задачи:

1) **у — число**

Задача — регрессия. 

2) **у — бинарный класс** (качественная перемення)

Задача — бинарная классификация.

3) **у — класс**

Задача — мультиклассовая классификация.

4) **у — может принадлежать сразу нескольким классам**

Задача — multilabel классификация.

**<center>Обучение без учителя</center>**

Пусть данные — это **Х**, где у нас **n**-объекты (то есть Строки) и **d**-признаки (то есть Столбцы). Мы не имеем **у**! У нас есть данные, но мы не знаем о них правильных ответов

1) **Задача кластеризации**

Разделение данных на группы — кластеры.

2) **Снижение размерности (PCA, tSNE...)**

Применяется, когда у нас очень много признаков (сравнимо с количеством объектов).

Применяемые алгоритмы?
* Алгоритм поиска ближайшего соседа (nearest neighbour);
* Алгоритм поиска k-ближайших соседей (k-NN).


Для выбора подходящего **k** мы используем *train-test split*.

# <center>Метрики качества классификаций</center>

Рассмотрим оценку качества бинарной классификации с помощью *confusion matrix*.

![image.png](https://lms.skillfactory.ru/asset-v1:Skillfactory+DSMED+2023+type@asset+block@DSMED_practice_M2_U11_5.png)

У нас есть два касса:

* **0 класс** — здоровый человек;
* **1 класс** — больной человек.

1) Мы можем предсказать, что человек здоров и он действительно окажется здоров. Это **TN (true negative)** — правильное предсказание негативного класса.
2) Мы можем предсказать, что человек болен и он действительно окажется болен. Это **TP (true positive)** — правильное предсказание позитивного класса.
3) Мы предсказали, что человек болен, а он здоров. Это **FP (false positive)** — неправильно назвали объектом положительного класса. Это также является ошибкой первого рода.
4) Мы предсказали, что человек здоров, а он болен. Это **FN (false negative)** — неправильно предсказали, что объект находится к негативному классу. Это также является ошибкой второго рода.

Недостаток *confusion matrix* в том, что это не одно число. Для оценки качества классификации хотелось бы иметь одно число и желательно с известным диапазоном. Где, например, близость к 0 означает плохой результат, а к 1 — хороший.

**<center>Метрики</center>**

1) Утверждение: обычный год в обычном терапевтическом отделении обычной больницы (нам не важна разница между ошибкой первого и второго рода).

Используемая метрика: `accuracy = (TP+TN) / (TP+TN+FP+FN)`.

Доля верных ответов = количество правильных предсказание / на количество предсказаний. Чем ближе к 1, тем лучше.

Недостатки метрики:
* не делим ошибки первого и второго рода;
* при несбалансированной выборке можно не уловить модель, которая предсказывает оба класса.

2) Утверждение: определение болезни, которая падает жутким клеймом на каждого, кому поставили такой диагноз (мы не хотим ошибочно ставить этот диагноз, нам важна ошибка первого рода).

`precision = TP / (TP+FP)`

Точность = сколько среди предсказанных больных действительно больных. Чем больше число, тем лучше модель.

3) Утверждение: определение опасной и очень заразной болезни (нам важно найти всех больных, нас интересует ошибка второго рода).

`recall = TP / (TP+FN)`

Полнота = сколько больных людей наша модель смогла найти среди всех больных. Чем больше число, тем лучше модель.

4) Метрика *F1 score* усредняет *precision* и *recall*.

`F1 = 2 * ((recall * precision) / (precision + recall))`

Имеет значение от 0 до 1.

# <center>Метрики качества регрессии</center>

1) **MSE** — среднеквадратичная ошибка

![image.png](https://lms.skillfactory.ru/asset-v1:Skillfactory+DSMED+2023+type@asset+block@DSMED_practice_M2_U12_1.png)

*N* — количество объектов;

*Yi* — правильный ответ;

*Ŷi* — наше предсказание.

*MSE* неограничен сверху, и может быть нелегко понять, насколько «хорошим» или «плохим» является то или иное его значение.

Если большие ошибки для нас действительно неприемлемы, то квадратичный штраф за них — очень полезное свойство (и его даже можно усиливать, повышая степень, в которую мы возводим ошибку на объекте).

Однако если в наших тестовых данных присутствуют выбросы, то нам будет сложно объективно сравнить модели между собой. Ошибки на выбросах будет маскировать различия в ошибках на основном множестве объектов.

2) **MAE** — средняя абсолютная ошибка

![image.png](https://lms.skillfactory.ru/asset-v1:Skillfactory+DSMED+2023+type@asset+block@DSMED_practice_M2_U12_2.png)

В данной метрике влияние выбросов снижено. Значения сверху так же неограниченны.

3) **R^2**

![image.png](https://lms.skillfactory.ru/asset-v1:Skillfactory+DSMED+2023+type@asset+block@DSMED_practice_M2_U12_3.png)

*ȳ* — среднее значение

Если все предсказания мы сделали идеально, то `R^2=1`.

В этой метрике мы сравниваем нашу модель (числитель) с наивной моделью (знаменатель). Если наша модель предсказывает средне, то `R^2=0`.

Если наша модель хуже, чем наивная (например, наша целевая модель измеряет параметры в сотнях, а модель предсказывает в тысячах), то `R^2= -бесконечность`.

То есть *R^2* ограничена (-бесконечность, 1].