<h1 id="data_acquisition">Получение данных</h1> <p> Существуют различные форматы для набора данных: .csv, .json, .xlsx и т.д. Набор данных может храниться в разных местах, на вашем локальном компьютере или иногда в сети.<br>
В этом разделе вы узнаете, как загрузить набор данных в наш Jupyter Notebook.<br>

В нашем случае, набор данных "Автомобили" находится в интернете и представлен в формате CSV (значения, разделённые запятыми). Давайте использовать этот набор данных как пример для практики чтения данных.

<ul> <li>Источник данных: <a href="https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkDA0101ENSkillsNetwork20235326-2021-01-01" target="_blank">https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data</a></li> <li>Тип данных: csv</li> </ul> Библиотека Pandas — полезный инструмент, который позволяет нам загружать различные наборы данных в dataframe; платформы Jupyter Notebook имеют встроенную <b>библиотеку Pandas</b>, поэтому нам нужно только импортировать Pandas без установки. </p>

- symboling — рейтинг символа страхования (int64)
- normalized-losses — нормализованные потери (int32)
- make — марка автомобиля (object)
- fuel-type — тип топлива (object)
- aspiration — тип нагнетания (object)
- num-of-doors — количество дверей (object)
- body-style — тип кузова (object)
- drive-wheels — привод (object)
- engine-location — расположение двигателя (object)
- wheel-base — колесная база (float64)
- length — длина (float64)
- width — ширина (float64)
- height — высота (float64)
- curb-weight — снаряжённая масса (int64)
- engine-type — тип двигателя (object)
- num-of-cylinders — количество цилиндров (object)
- engine-size — объём двигателя (int64)
- fuel-system — топливная система (object)
- bore — диаметр цилиндра (float64)
- stroke — ход поршня (float64)
- compression-ratio — степень сжатия (float64)
- horsepower — мощность (л.с.) (float64)
- peak-rpm — максимальные обороты в минуту (float64)
- city-mpg — расход топлива в городе (миль на галлон) (int64)
- highway-mpg — расход топлива на шоссе (миль на галлон) (int64)

In [3]:
# Установить библиотеки можно используя встроенную библиотеку piplite
# import piplite
# import micropip
# await piplite.install(['pandas'])
# await piplite.install(['matplotlib'])
# await piplite.install(['scipy'])
# await piplite.install(['seaborn'])
# await micropip.install(['ipywidgets'],keep_going=True)
# await micropip.install(['tqdm'],keep_going=True)

In [None]:
# Также установить библиотеки можно через терминал
#pip install pandas==1.3.3  -y
#pip install numpy=1.21.2 -y

In [None]:
# Импортируем установленные библиотеки, используя команду import
import pandas as pd
import numpy as np

Для чтения данных в формат dataframe используем метод <b>read_csv()</b>

In [None]:
path = "./data/auto.csv"
df = pd.read_csv(path, header=None)

Датафреймы можно не только считывать, но и схоранять в любые форматы.

In [None]:
df.to_csv("./data/automobile.csv", index=False)

<h2>Чтение/Сохранение в другие форматы</h2>

| Data Formate |        Read       |            Save |
| ------------ | :---------------: | --------------: |
| csv          |  `pd.read_csv()`  |   `df.to_csv()` |
| json         |  `pd.read_json()` |  `df.to_json()` |
| excel        | `pd.read_excel()` | `df.to_excel()` |
| hdf          |  `pd.read_hdf()`  |   `df.to_hdf()` |
| sql          |  `pd.read_sql()`  |   `df.to_sql()` |
| ...          |        ...        |             ... |

Для отображения данных используются несколько методов. 

# Методы для отображения DataFrame в Pandas

1. **`df.head()`** — отображает первые несколько строк (по умолчанию 5).  
   Пример:  

In [None]:
df.head(10)  # отобразит первые 10 строк

2. **`df.tail()`** — отображает последние несколько строк (по умолчанию 5).  
   Пример:  

In [None]:
df.tail(10)  # отобразит последние 10 строк

3. **`df.info()`** — предоставляет информацию о DataFrame: количество строк и столбцов, типы данных, количество ненулевых значений и использование памяти.  
   Пример:

In [None]:
df.info()

4. **`df.describe()`** — отображает статистическое резюме для числовых данных в DataFrame.
   <br>Пример:

In [None]:
df.describe()

5. **`df.shape()`** — овозвращает кортеж с количеством строк и столбцов DataFrame.
   <br>Пример:

In [None]:
df.shape

6. **`df.sample()`** — возвращает 5 случайных строк из таблицы.
   <br>Пример:

In [None]:
df.sample(5)

7. **`df.style()`** — позволяет стилизовать DataFrame для более удобного отображения.
   <br>Примеры:

In [None]:
df.style.highlight_max() # выделяет максимальные значения в каждом столбце

In [None]:
df.style.highlight_min() # выделяет минимальные значения в каждом столбце

In [None]:
df.style.highlight_null(null_color='red') # выделяет NaN или пропущенные значения

In [None]:
df.style.background_gradient(cmap='viridis') # добавляет цветовой градиент к значениям

In [None]:
pd.set_option('display.float_format', lambda x: '%.2f' % x) # позволяет настроить формат отображения данных, например, задать количество знаков после запятой
display(df)

**`apply()`** - позволяет применить пользовательскую функцию для стилизации

In [None]:
def highlight_greater_than(val):
    color = 'green' if val > 0 else 'red'
    return f'background-color: {color}'

df.style.applymap(highlight_greater_than)

In [None]:
df.style.applymap(lambda x: 'color: green' if x > 0 else 'color: red')

In [None]:
df.style.set_properties(**{'background-color': 'black', 'color': 'white'}) # позволяет задать CSS-свойства для элементов DataFrame

In [None]:
df.style.hide() # скрывает индексы при выводе таблицы

8. **`df.to_html()`** — преобразует DataFrame в формат HTML для отображения в веб-браузере.
   <br>Пример:

In [None]:
df.to_html()

9. **`display()`** — отображает DataFrame в удобном табличном виде в Jupyter Notebook.
   <br>Пример:

In [None]:
display(df)

<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Задание #1: </h1>
<b>Отобразите последние 7 строк таблицы "df".</b> <br>
<b>Используйте методы info() и describe() для того, чтобы получить первичные знания о данных.</b>
</div>

In [None]:
# Напишите ваш код ниже и наждмите Shift+Enter для исполнения


<details><summary>Нажмите здесь, чтобы увидеть решение</summary>

```python
print("Последние 7 строк таблицы\n")
df.tail(10)
print("Общая информация о данных\n")
df.info()
print("Статистическая информация о данных\n")
df.describe(include='all')
```

<h3>Добавление заголовков</h3> <p> Взгляните на наш набор данных. Pandas автоматически установил заголовок с числами, начиная с 0. </p> <p> Чтобы лучше описать наши данные, мы можем ввести заголовок. Эта информация доступна по адресу: <a href="https://archive.ics.uci.edu/ml/datasets/Automobile?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkDA0101ENSkillsNetwork20235326-2021-01-01" target="_blank">https://archive.ics.uci.edu/ml/datasets/Automobile</a>. </p> <p> Таким образом, мы должны добавить заголовки вручную. </p> <p> Сначала мы создаем список "headers", который включает все названия столбцов в нужном порядке. Затем мы используем <code>dataframe.columns = headers</code>, чтобы заменить заголовки на созданный нами список. </p>

In [None]:
# создаем лист заголовков
headers = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style",
         "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type",
         "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower",
         "peak-rpm","city-mpg","highway-mpg","price"]
print("headers\n", headers)

Изменим заголовки и заново выведем нашу таблицу

In [None]:
df.columns = headers
df.head(10)

## Очистка данных
В Pandas и других инструментах для работы с данными существует несколько методов для очистки данных. Очистка данных — важный этап в обработке и анализе, так как она помогает избавиться от ошибок, пропущенных значений, дубликатов и неправильных данных. Вот основные методы:

### Работа с пропущенными значениями

<b>1. Удаление пропущенных значений</b><br>
**`dropna()`** — удаляет строки или столбцы с пропущенными значениями.
   <br>Пример:

In [None]:
df.dropna(subset=['column_name']) # удаляет строки, где в указанном столбце есть пропущенные значения

<b>2. Замена пропущенных значений</b><br>
**`fillna()`** — заполняет пропущенные значения указанным значением (например, средним, медианным, или другим фиксированным значением).
   <br>Пример:

In [None]:
df.fillna(df.mean()) # заполняет пропущенные значения средними по столбцам

<b>3. Обнаружение пропущенных значений</b><br>
**`isna()`** — возвращает DataFrame, который показывает, где в исходном DataFrame находятся пропущенные значения (True/False).
   <br>Пример:

In [None]:
df.isna().sum() # подсчитывает количество пропущенных значений в каждом столбце

### Работа с дубликатами

<b>1. Обнаружение дубликатов</b><br>
**`duplicated()`** — возвращает логическое значение для каждой строки (True, если строка дублируется).
   <br>Пример:

In [None]:
df[df.duplicated()] # отобразит все дубликаты в DataFrame

<b>2. Удаление дубликатов</b><br>
**`drop_duplicates()`** — удаляет повторяющиеся строки в DataFrame.
   <br>Пример:

In [None]:
df.drop_duplicates(subset=['column_name']) # удаляет дубликаты на основе одного или нескольких столбцов

### Преобразование данных

<b>1. Изменение типов данных</b><br>
**`astype()`** — изменяет тип данных столбца.
   <br>Пример:

In [None]:
df['column_name'] = df['column_name'].astype('int') # преобразует столбец в целочисленный тип

<b>2. Удаление ненужных пробелов</b><br>
**`strip()`** — удаляет пробелы в начале и в конце строковых значений.
   <br>Пример:

In [None]:
df['column_name'] = df['column_name'].str.strip()

<b>3. Изменение регистра строк</b><br>
**`lower()`**, **`upper()`** — преобразует строковые значения в нижний или верхний регистр.
   <br>Пример:

In [None]:
df['column_name'] = df['column_name'].str.lower()

<b>4. Преобразование форматов дат</b><br>
**`to_datetime()`** — преобразует строковые данные в формат даты.
   <br>Пример:

In [None]:
df['date_column'] = pd.to_datetime(df['date_column'])

<b>5. Преобразование категориальных данных</b><br>
**`get_dummies()`** — преобразует категориальные данные в бинарные переменные (one-hot encoding)
   <br>Пример:

In [None]:
pd.get_dummies(df['column_name'])

### Работа с несоответсвующими или некорректными значениями

<b>1. Замена неправильных значений</b><br>
**`replace(to_replace, value)`** — заменяет указанные значения на другие.
   <br>Пример:

In [None]:
df['column_name'].replace(-999, np.nan) # заменяет все значения -999 на NaN (пропущенные значения)

<b>2. Фильтрация данных</b><br>
Фильтрация данных в Pandas позволяет выбирать только те строки, которые удовлетворяют определённым условиям. Это можно делать с помощью логических выражений и лямбда-функций для выполнения более сложных операций.

**`filter()`** - используется, когда нужно оставить только определенные строки или группы на основе условия. Это полезно для удаления ненужных данных.

**`apply()`** - используется, когда нужно выполнить вычисления или трансформации для каждой строки, столбца или группы. Это более мощный и гибкий метод для работы с данными.

Фильтрация по одному условию:

In [None]:
# отбор строк, где значения в столбце column_name больше 0
df_filtered = df[df['column_name'] > 0]

In [None]:
# выбор столбцов по их имени
df_filtered = df.filter(items=['column1', 'column2'])
# другой способ использования — фильтрация столбцов по шаблону
df_filtered = df.filter(like='name')

Фильтрация по нескольким условиям:

In [None]:
# отбор строк, где значения в столбце column_name1 больше 10 и значения в столбце column_name2 равны 'value'
df_filtered = df[(df['column_name1'] > 10) & (df['column_name2'] == 'value')]

Фильтрация по списку значений:

In [None]:
# отбор строк, где значения в столбце column_name принадлежат списку допустимых значений
df_filtered = df[df['column_name'].isin(['value1', 'value2', 'value3'])]

Фильтрация строк, содержащих подстроку:

In [None]:
# отбор строк, где значение в столбце column_name содержит подстроку 'substring'
df_filtered = df[df['column_name'].str.contains('substring')]

Фильтрация по длине строки:

In [None]:
# отбор строк, где длина значения в столбце column_name больше 5 символов:
df_filtered = df[df['column_name'].str.len() > 5]

<b>Лямбда-функции в Pandas</b> используются для выполнения сложных операций над строками или столбцами DataFrame.

In [None]:
# отбор строк, где значение в столбце column_name больше 10 с использованием лямбда-функции
df_filtered = df[df['column_name'].apply(lambda x: x > 10)]

В данном случае лямбда-функция проверяет каждое значение в столбце column_name, и только строки, где значение больше 10, остаются.

Пример с несколькими условиями внутри лямбда-функции

In [None]:
# отбор строк, где значения в двух столбцах (column_name1 и column_name2) удовлетворяют условию (значение в column_name1 больше 10, а в column_name2 меньше 5)
df_filtered = df[df.apply(lambda row: row['column_name1'] > 10 and row['column_name2'] < 5, axis=1)]

Здесь apply() используется с параметром axis=1, чтобы применить лямбда-функцию ко всей строке DataFrame. Лямбда-функция возвращает True только для тех строк, где оба условия выполняются.

Лямбда-функции для обработки строк

In [None]:
# отбор строк, где значение в столбце column_name начинается с подстроки 'prefix'
df_filtered = df[df['column_name'].apply(lambda x: x.startswith('prefix'))]

Еще примеры с использованием лямбда-функций:

In [None]:
# каждый элемент столбца column_name умножается на 2, и результат сохраняется в новый столбец new_column
df['new_column'] = df['column_name'].apply(lambda x: x * 2)

In [None]:
# лямбда-функция складывает значения двух столбцов (column_name1 и column_name2) для каждой строки, и результат сохраняется в новый столбец new_column
df['new_column'] = df.apply(lambda row: row['column_name1'] + row['column_name2'], axis=1)

In [None]:
# для каждой строки проверяется значение в столбце score. Если значение больше 80, то в новый столбец status записывается "High", в противном случае — "Low"
df['status'] = df.apply(lambda row: 'High' if row['score'] > 80 else 'Low', axis=1)

In [None]:
# фильтрация групп, где количество строк в группе > 10
df_filtered = df.groupby('column_name').filter(lambda x: len(x) > 10)

### Удаление ненужных столбцов или строк

<b>1. Удаление столбцов</b><br>
**`drop(columns=['column_name'])`** — удаляет указанные столбцы из DataFrame.
   <br>Пример:

In [None]:
df.drop(columns=['unnecessary_column'], inplace = True)

Параметр "inplace" указывает на то, нужно ли изменять данные в исходном датасете, или же применить функцию над данными, не изменяя их. 

<b>2. Удаление строк </b><br>
**`df.drop(index):`** — удаляет строки по индексу.
   <br>Пример:

In [None]:
#удалит строки с индексами 0, 1, 2
df.drop([0, 1, 2], axis=0)

In [None]:
# удалит строки, соответствующие условию (значения меньше или равно 0)
df_cleaned = df.drop(df[df['column_name'] <= 0].index)

<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Задание #2: </h1>
<b>Замените символ "?" на пустые NaN значения, а затем удалите все пустые значения по колонке "price".</b>
</div>

In [None]:
# Напишите ваш код ниже и наждмите Shift+Enter для исполнения


<details><summary>Нажмите здесь, чтобы увидеть решение</summary>

```python
print("Замена символа '?' на NaN-значение\n")
df=df.replace('?',np.NaN)
print("Удаление пустых строк по колонке 'price'\n")
df=df.dropna(subset=["price"], axis=0)
print("Вывод таблицы после преобразований\n")
df.head(20)
```

Далее, подсчитаем количество пропущенных значений в каждом столбце

In [None]:
df.isna().sum()

### Разберемся с пропущенными значениями

Вы должны удалять целые столбцы только в том случае, если большинство записей в столбце пусты. В данном наборе данных ни один из столбцов не содержит столько пропущенных значений, чтобы их полностью удалить. У вас есть свобода выбора метода замены данных; однако некоторые методы могут казаться более разумными, чем другие. Примените каждый метод к разным столбцам:

<b>Замена средним значением:</b>

<ul> <li>"normalized-losses": 41 пропущенное значение, замените их средним значением</li> <li>"stroke": 4 пропущенных значения, замените их средним значением</li> <li>"bore": 4 пропущенных значения, замените их средним значением</li> <li>"horsepower": 2 пропущенных значения, замените их средним значением</li> <li>"peak-rpm": 2 пропущенных значения, замените их средним значением</li> </ul>
<b>Замена на частое значение:</b>

<ul> <li>"num-of-doors": 2 пропущенных значения, замените их на "four". <ul> <li>Причина: 84% седанов — это автомобили с четырьмя дверями. Так как четыре двери встречаются чаще всего, вероятно, что именно это значение будет наиболее подходящим.</li> </ul> </li> </ul>


<b>Посчитаем среднее значение для колонки "normalized-losses"</b>

In [None]:
avg_norm_loss = df["normalized-losses"].astype("float").mean(axis=0)
print("Average of normalized-losses:", avg_norm_loss)

<b>Заменим пустые значения на средние для колонки "normalized-losses"</b>

In [None]:
df["normalized-losses"].replace(np.nan, avg_norm_loss, inplace=True)

<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Задание #3: </h1>
<b> На примере выше, замените пустые значения в колонке "stroke" на среднее значение.</b>
</div>

In [None]:
# Напишите ваш код ниже и наждмите Shift+Enter для исполнения


<details><summary>Нажмите здесь, чтобы увидеть решение</summary>

```python
#Считаем среднее значение для колонки "stroke"
avg_stroke = df["stroke"].astype("float").mean(axis = 0)
print("Average of stroke:", avg_stroke)

# Заменяем пустые значения на среднее по колонке
df["stroke"].replace(np.nan, avg_stroke, inplace = True)
```

<b>Используем метод **`fillna()`** для автоматической замены пустых значение средним для всех оставшихся колонок</b>

In [None]:
df.info()

In [None]:
df[['bore', 'horsepower', 'peak-rpm']] = df[['bore', 'horsepower', 'peak-rpm']].astype('float')


In [None]:
columns_to_fill = ['bore', 'horsepower', 'peak-rpm']

In [None]:
# Заменяем пропущенные значения на средние для всех указанных столбцов
df[columns_to_fill].fillna(df[columns_to_fill].mean(), inplace=True)

In [None]:
df.isna().sum()

<b>Подсчет значений </b><br>
**`value_counts()`** — показывает, какие значения представлены в колонке.
   <br>Пример:

In [None]:
df['num-of-doors'].value_counts()

Отсюда видно, что самый популярный тип - с количеством дверей, равным 4м. Но для определения самого популярного значения также есть метод **`idxmax()`** 

In [None]:
df['num-of-doors'].value_counts().idxmax()

<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Задание #4: </h1>
<b> Замените пропущенные значения в колонке num-of-doors на самое популярное значение</b>
</div>

In [None]:
# Напишите ваш код ниже и наждмите Shift+Enter для исполнения


<details><summary>Нажмите здесь, чтобы увидеть решение</summary>

```python
# Заменяем пропущенные значения на самое популярное (four)
df["num-of-doors"].replace(np.nan, "four", inplace=True)
```

Еще раз взглянем на наш датасет, используя метод display()

In [None]:
display(df)

Так как мы удалили несколько строк, индексация была нарушена. Используем метод **`reset_index()`** для обновления индексации. <br> Параметр **`drop=True`** удаляет колонку с нарушенными индексами.

In [None]:
df.reset_index(drop=True, inplace=True)

### Исправим формат данных
<b>Мы почти закончили!</b>

<p>Последний шаг в очистке данных — это проверка и убеждение, что все данные находятся в правильном формате (int, float, текст или другой).</p>
В Pandas используется:

<p><b>.dtype()</b> для проверки типа данных</p> <p><b>.astype()</b> для изменения типа данных</p>

In [None]:
# проверим типы данных
df.dtypes

Как вы можете видеть выше, некоторые столбцы имеют неверный тип данных. Числовые переменные должны иметь тип 'float' или 'int', а переменные с текстовыми значениями, такими как категории, должны иметь тип 'object'. Например, числовые значения 'bore' и 'stroke' описывают характеристики двигателя, поэтому вы должны ожидать, что они будут иметь тип 'float' или 'int'; однако, они отображаются как тип 'object'. Вам нужно преобразовать типы данных в правильный формат для каждого столбца, используя метод "astype()".

In [None]:
df[["bore", "stroke"]] = df[["bore", "stroke"]].astype("float")
df[["normalized-losses"]] = df[["normalized-losses"]].astype("int")
df[["price"]] = df[["price"]].astype("float")
df[["peak-rpm"]] = df[["peak-rpm"]].astype("float")

In [None]:
df.dtypes

# Выявление выбросов (Outliers)

Выявление выбросов в данных — важный этап анализа, поскольку выбросы могут искажать результаты модели или статистических расчетов. Для выявления выбросов существует несколько методов в зависимости от того, какие данные вы анализируете. Вот основные методы, которые можно использовать в Pandas и других инструментах для анализа данных:

## Визуальные методы
Для наглядного выявления выбросов часто используются графики, такие как boxplot и гистограммы.

### 1. Boxplot 
Этот график помогает увидеть выбросы в данных. Выбросы будут показаны в виде точек за пределами "усов" графика.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

sns.boxplot(x=df['column_name'])
plt.show()

### 2. Гистограмма (Histogram)
Гистограммы помогают увидеть распределение данных и возможные аномалии или выбросы.

In [None]:
df['column_name'].hist(bins=50)
plt.show()

или

In [None]:
g = sns.displot(df, x="column_name", kde=True)
g.set(title="Распределение переменной")
plt.xticks(rotation=30)
plt.show()

Для лучшего понимания распределения расчитываются такие статистические данные, как: <br>
<b>Mean (Среднее значение)</b>: Это просто среднее арифметическое значение всех данных в выборке. Среднее отражает общий центр данных, но при наличии сильно смещённых данных может не точно отображать типичное значение (в отличие от медианы).

<b>Median (Медиана)</b>: Это центральное значение выборки, то есть половина данных находится ниже этого значения, а половина — выше. Если медиана ниже или выше среднего, то это указывает на то, что в данных есть выбросы.

<b>Skewness (Скос, асимметрия)</b>: Эта метрика показывает асимметрию распределения данных:

Если skewness = 0, данные симметрично распределены.
Если skewness > 0, распределение смещено вправо (правый "хвост" длиннее - в данных есть много высоких значений, которые создают длинный хвост справа).
Если skewness < 0, распределение смещено влево (левый "хвост" длиннее - в данных есть много низких значений, которые создают длинный хвост слева).
                  
<b>Kurtosis (Куртозис)</b>: Это мера "высоты" или "остроты" пика распределения:

Если kurtosis = 3, распределение считается нормальным.
Если kurtosis > 3, распределение более "остроконечное" (острый пик и более длинные хвосты). Означает наличие выбросов.
Если kurtosis < 3, распределение более плоское, чем нормальное. Означает наличие выбросов.

In [None]:
print("Mean:", data_clean["UnitPrice"].mean())
print("Median:", data_clean["UnitPrice"].median())
print("Skewness:", data_clean["UnitPrice"].skew())
print("Kurtosis:", data_clean["UnitPrice"].kurtosis())

## Метод межквартильного диапазона (IQR)
Межквартильный диапазон (Interquartile Range, IQR) — это диапазон между первым (25-й процентиль) и третьим квартилем (75-й процентиль). Обычно выбросами считаются значения, которые выходят за пределы 1.5 * IQR.

In [None]:
Q1 = df['column_name'].quantile(0.25)
Q3 = df['column_name'].quantile(0.75)
IQR = Q3 - Q1

# Границы для выбросов
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Фильтрация выбросов
outliers = df[(df['column_name'] < lower_bound) | (df['column_name'] > upper_bound)]


## Метод Z-оценки (Z-score)
Z-оценка показывает, насколько далеко значение находится от среднего в терминах стандартных отклонений. Значения с Z-оценкой выше 3 или ниже -3 часто считаются выбросами.

In [None]:
from scipy import stats

# Вычисляем Z-оценки для столбца
df['z_score'] = stats.zscore(df['column_name'])

# Фильтруем выбросы
outliers = df[(df['z_score'] > 3) | (df['z_score'] < -3)]


## Метод локальной факторной оценки выбросов (LOF)
Этот метод оценивает плотность каждого наблюдения и сопоставляет его с плотностью соседних наблюдений, чтобы определить, является ли точка выбросом.

In [None]:
from sklearn.neighbors import LocalOutlierFactor

# Создание модели LOF
lof = LocalOutlierFactor()
outliers = lof.fit_predict(df[['column_name']])

# Фильтруем выбросы
df_outliers = df[outliers == -1]


<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Задание #5: </h1>
<b> Постройте боксплот для визуализации выбросов для колонки "price" и используйте один из статистических методов для удаления выбросов.</b>
</div>

In [None]:
# Напишите ваш код ниже и наждмите Shift+Enter для исполнения


<details><summary>Нажмите здесь, чтобы увидеть решение</summary>

```python
# Визуализируем боксплот для выявления выбросов
plt.figure(figsize=(8, 6))
df.boxplot(column='price')
plt.title('Боксплот цены автомобилей')
plt.ylabel('Цена за единицу')
plt.show()

# Вычисляем первый и третий квартиль
Q1 = df['price'].quantile(0.25)
Q3 = df['price'].quantile(0.75)

# Вычисляем межквартильный диапазон (IQR)
IQR = Q3 - Q1

# Определяем нижнюю и верхнюю границы
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Отфильтровываем строки, где значения 'price' не являются выбросами
df_cleaned = df[(df['price'] >= lower_bound) & (df['price'] <= upper_bound)]

# Выводим очищенный DataFrame
df_cleaned

```

### Основы группировки данных
Метод groupby() в Pandas — это мощный инструмент для агрегирования, группировки и выполнения вычислений над данными. Он позволяет разделить данные на группы на основе значений одного или нескольких столбцов, а затем применить к этим группам различные операции, такие как суммирование, среднее, подсчет и другие.

### Как работает groupby():
Метод groupby() работает по следующей схеме, известной как "split-apply-combine" (разделить-применить-объединить):
<br>
- Разделить (Split): DataFrame разбивается на группы по значениям одного или нескольких столбцов.
- Применить (Apply): К каждой группе применяется функция для выполнения вычислений (например, суммирование, среднее, максимальное значение и т.д.).
- Объединить (Combine): Результаты применения функции к каждой группе объединяются в итоговый DataFrame.

Синтаксис:

In [None]:
df.groupby(by='column_name')

- by — это столбец (или несколько столбцов), по значениям которого производится группировка

### Параметры функции groupby()

In [None]:
df.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, observed=False, dropna=True)

**`axis`** — указывает, по какому измерению выполнять группировку.
- axis=0 (по умолчанию): группировка по строкам
- axis=1 : группировка по столбцам
   <br>Пример:

In [None]:
df.groupby(by='column_name', axis=0)

**`level`** — используется для группировки по уровню в многоуровневом индексе (MultiIndex). Если DataFrame имеет несколько уровней индекса, можно указать номер уровня (или имя уровня) для группировки.
   <br>Пример:

In [None]:
df.groupby(level=0)  # Группировка по первому уровню индекса

**`as_index`** — указывает, по какому измерению выполнять группировку.
- as_index=True (по умолчанию): группирующий столбец или уровень становится индексом результирующего DataFrame
- as_index=False : руппирующий столбец сохраняется как обычный столбец
   <br>Пример:

In [None]:
df.groupby('column_name', as_index=False`)

**`sort`** — выполняет сортировку по значениям.
   <br>Пример:

In [None]:
df.groupby('column_name', sort=False)

**`group_keys`** — управляет тем, добавляются ли ключи группировки в индекс.
- group_keys=True (по умолчанию): ключи группировки включаются в индекс при вызове метода apply()
   <br>Пример:

In [None]:
df.groupby('column_name', group_keys=False)

**`observed`** — этот параметр актуален для категориальных данных (при группировке по категориальным столбцам).
- observed=True : только категории, фактически присутствующие в данных, будут показаны в результате
- observed=False (по умолчанию): все категории будут показаны, даже если они не присутствуют в данных 
   <br>Пример:

In [None]:
df.groupby('category_column', observed=True)

**`dropna`** — игнорирование NaN значений в группировочном столбце. По умолчанию - True
   <br>Пример:

In [None]:
df.groupby('column_name', dropna=False)

### Примеры использования

<b>Группировка и суммирование значений</b><br>
Предположим, у вас есть DataFrame df с двумя столбцами: category и values. Мы можем сгруппировать данные по столбцу category и вычислить сумму для каждого значения:

In [None]:
grouped_df = df.groupby('category')['values'].sum()

Здесь:

- df.groupby('category') — группирует данные по значениям в столбце category.
- ['values'].sum() — вычисляет сумму значений для каждой группы.

<b>Группировка и вычисление среднего значения</b><br>
Допустим, у нас есть столбец score, и мы хотим узнать среднее значение для каждой категории:

In [None]:
grouped_df = df.groupby('category')['score'].mean()

<b>Применение нескольких функций к одной группе</b>

In [None]:
grouped_df = df.groupby('category')['metric'].agg(['mean', 'sum', 'max'])

<b>Группировка по нескольким столбцам</b><br>
Можно сгруппировать данные по нескольким столбцам. Например, если есть столбцы category и type, мы можем посчитать сумму для каждой комбинации этих двух столбцов:

In [None]:
grouped_df = df.groupby(['category', 'type'])['values'].sum()

<b>Применение пользовательской функции</b><br>
Вы можете применять собственные функции к группам с помощью метода apply(). Например, можно вычислить разницу между максимальным и минимальным значением в каждой группе:

In [None]:
grouped_df = df.groupby('category')['values'].apply(lambda x: x.max() - x.min())

<b>Создание многоуровневого индекса из столбцов (на примере)</b><br>

In [None]:
# Примерные данные
data = {
    'город': ['Москва', 'Москва', 'Питер', 'Питер'],
    'улица': ['Арбат', 'Тверская', 'Невский', 'Литейный'],
    'значение': [100, 200, 150, 250]
}

# Создание DataFrame
df = pd.DataFrame(data)

# Группировка данных
grouped = df.groupby(['город', 'улица'], as_index=True).sum()

# Вывод DataFrame
print(grouped)

<b>Группировка с использованием многоуровневого индекса</b>

In [None]:
grouped_2 = grouped.groupby(level='город').sum()
print(grouped_2)

<b>Восстановление столбцов из индекса</b><br>
Если вы хотите вернуть многоуровневый индекс обратно в столбцы, можно использовать метод reset_index():

In [None]:
df_reset = grouped.reset_index()
print(df_reset)


## Группировка данных по категориям колес

Для начала посмотрим, сколько категорий колес вообще есть в нашем датасете. Это можно сделать несколькими способами.

In [None]:
df['drive-wheels'].unique()

In [None]:
df['drive-wheels'].value_counts()

Создадим отдельный датасет для нашей группировки.

In [None]:
df_group_one = df[['drive-wheels','body-style','price']]
display(df_group_one)

In [None]:
df_group_one.loc[:, 'price'] = df_group_one['price'].astype(float)

In [None]:
df.info()

Мы можем затем вычислить среднюю цену для каждой из различных категорий данных.

In [None]:
df_grouped = df_group_one.groupby(['drive-wheels'], as_index=False).agg({'price': 'mean'})
df_grouped

Судя по нашим данным, автомобили с задним приводом, в среднем, самые дорогие, тогда как полноприводные и с передним приводом примерно одинаковы по цене.

Вы также можете группировать по нескольким переменным. Например, давайте сгруппируем по "drive-wheels" (тип привода) и "body-style" (тип кузова). Это сгруппирует DataFrame по уникальной комбинации значений "drive-wheels" и "body-style". Мы можем сохранить результаты в переменной 'grouped_test1'.

In [None]:
grouped_test1 = df_group_one.groupby(['drive-wheels','body-style'],as_index=False).mean()
grouped_test1

Эти сгруппированные данные намного легче визуализировать, если они преобразованы в сводную таблицу. Сводная таблица похожа на таблицу в Excel, где одна переменная располагается по столбцам, а другая по строкам. Мы можем преобразовать DataFrame в сводную таблицу с помощью метода "pivot", чтобы создать сводную таблицу из групп.

В этом случае мы оставим переменную drive-wheels (тип привода) в качестве строк таблицы, а переменную body-style (тип кузова) переместим в столбцы таблицы.

In [None]:
grouped_pivot = grouped_test1.pivot(index='drive-wheels',columns='body-style')
print(grouped_pivot)

<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Задание #6: </h1>
<b> Используйте функцию groupby для того, чтобы найти среднюю цену машин по колонке "body-style"</b>
</div>

In [None]:
df_gptest2.loc[:, 'price'] = df_gptest2['price'].astype(float)

In [None]:
# Напишите ваш код ниже и наждмите Shift+Enter для исполнения


<details><summary>Нажмите здесь, чтобы увидеть решение</summary>

```python
df_gptest2 = df[['body-style','price']]
grouped_test_bodystyle = df_gptest2.groupby(['body-style'],as_index= False).mean()
grouped_test_bodystyle
```






# Корреляция и причинно-следственная связь

<p><b>Корреляция</b>: мера степени взаимозависимости между переменными.</p> <p><b>Причинно-следственная связь</b>: отношение между причиной и следствием между двумя переменными.</p> <p>Важно понимать разницу между этими двумя понятиями. Корреляция не подразумевает причинно-следственную связь. Определение корреляции гораздо проще, чем определение причинно-следственной связи, так как для установления причинно-следственной связи могут потребоваться независимые эксперименты.</p>


<p><b>Корреляция Пирсона</b></p> <p>Корреляция Пирсона измеряет линейную зависимость между двумя переменными X и Y.</p> <p>Полученный коэффициент представляет собой значение в диапазоне от -1 до 1 включительно, где:</p> <ul> <li><b>1</b>: Идеальная положительная линейная корреляция.</li> <li><b>0</b>: Отсутствие линейной корреляции, две переменные, скорее всего, не влияют друг на друга.</li> <li><b>-1</b>: Идеальная отрицательная линейная корреляция.</li> </ul>







In [None]:
df.corr()

Иногда нам хотелось бы узнать значимость оценки корреляции.

<b>P-значение</b>

<p>Что такое P-значение? P-значение — это вероятность того, что корреляция между двумя переменными является статистически значимой. Обычно мы выбираем уровень значимости 0.05, что означает, что мы уверены на 95%, что корреляция между переменными значима.</p>
По общепринятой практике, когда

<ul> <li>P-значение < 0.001: это говорит о наличии сильных доказательств того, что корреляция значима.</li> <li>P-значение < 0.05: это указывает на умеренные доказательства значимости корреляции.</li> <li>P-значение < 0.1: это указывает на слабые доказательства значимости корреляции.</li> <li>P-значение > 0.1: это говорит об отсутствии доказательств значимости корреляции.</li> </ul>

In [None]:
from scipy import stats

<h3>Wheel-Base vs. Price</h3>

Давайте вычислим коэффициент корреляции Пирсона и P-значение для переменных 'wheel-base' (база колес) и 'price' (цена).

In [None]:
pearson_coef, p_value = stats.pearsonr(df['wheel-base'], df['price'])
print("The Pearson Correlation Coefficient is", pearson_coef, " with a P-value of P =", p_value)  

<h4>Вывод:</h4> <p>Так как P-значение < 0.001, корреляция между базой колес (wheel-base) и ценой (price) является статистически значимой, хотя линейная зависимость не является очень сильной (~0.585).</p>

<h3>Horsepower vs. Price</h3>

Давайте вычислим коэффициент корреляции Пирсона и P-значение для переменных 'horsepower' (мощность) и 'price' (цена).

In [None]:
pearson_coef, p_value = stats.pearsonr(df['horsepower'], df['price'])
print("The Pearson Correlation Coefficient is", pearson_coef, " with a P-value of P = ", p_value)  

<h4>Вывод:</h4> <p>Так как P-значение < 0.001, корреляция между мощностью (horsepower) и ценой (price) является статистически значимой, и линейная зависимость достаточно сильная (~0.809, близко к 1).</p>







### Визуализация корреляции с помощью тепловой карты

Для визуализации корреляционной матрицы можно использовать библиотеку Seaborn, которая предоставляет удобный метод heatmap() для создания тепловой карты.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Вычисляем корреляционную матрицу
correlation_matrix = df.corr()

# Строим тепловую карту корреляционной матрицы
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Correlation Heatmap')
plt.show()

- sns.heatmap() — строит тепловую карту на основе корреляционной матрицы.
- annot=True — добавляет числовые значения коэффициентов корреляции на тепловую карту.
- cmap='coolwarm' — задает цветовую палитру, которая визуализирует положительные и отрицательные корреляции разными цветами.
- fmt='.2f' — форматирует значения с двумя знаками после запятой.

### Применение кастомных функций для вычисления p-value

In [None]:
# Функция для вычисления коэффициента корреляции Пирсона и P-значения для всех числовых столбцов
def calculate_pearson_for_all(df, target_variable):
    numeric_columns = df.select_dtypes(include=['float64', 'int64']).columns
    result = {}

    for col in numeric_columns:
        if col != target_variable:
            pearson_coef, p_value = stats.pearsonr(df[col], df[target_variable])
            result[col] = {'Pearson Coefficient': pearson_coef, 'P-value': p_value}

    return result

In [None]:
# Вызываем функцию для всех числовых переменных по отношению к 'price'
results = calculate_pearson_for_all(df, 'price')

#### Вывод: важные признаки
<p>Теперь у нас есть лучшее представление о том, как выглядят наши данные и какие переменные важно учитывать при прогнозировании цены автомобиля. Мы сузили их до следующих переменных:</p>
Непрерывные числовые переменные:

<ul> <li>Длина (Length)</li> <li>Ширина (Width)</li> <li>Снаряженная масса (Curb-weight)</li> <li>Объем двигателя (Engine-size)</li> <li>Мощность (Horsepower)</li> <li>Городской расход топлива (City-mpg)</li> <li>Трассовый расход топлива (Highway-mpg)</li> <li>Колесная база (Wheel-base)</li> <li>Диаметр цилиндра (Bore)</li> </ul>
Категориальные переменные:

<ul> <li>Тип привода (Drive-wheels)</li> </ul> <p>Переходя к построению моделей машинного обучения для автоматизации нашего анализа, использование переменных, которые существенно влияют на нашу целевую переменную, улучшит производительность модели в прогнозировании.</p>

# Нормализация и стандартизация

## Стандартизация данных
<p> Обычно вы собираете данные из разных источников в разных форматах. (Стандартизация данных — это также термин, обозначающий определенный тип нормализации данных, когда вы вычитаете среднее и делите на стандартное отклонение.) </p>
<b>Что такое стандартизация?</b>

<p>Стандартизация — это процесс преобразования данных в общий формат, позволяющий исследователю проводить значимые сравнения.</p>
<b>Пример</b>

<p>Преобразование mpg в L/100km:</p> <p>В вашем наборе данных столбцы с расходом топлива "city-mpg" и "highway-mpg" представлены в единицах mpg (миль на галлон). Предположим, что вы разрабатываете приложение в стране, где используется стандарт расхода топлива в L/100km.</p> <p>Вам нужно будет применить <b>преобразование данных</b>, чтобы преобразовать mpg в L/100km.</p>


<p>Используйте эту формулу для преобразования единиц:<p> L/100km = 235 / mpg <p>Вы можете выполнять многие математические операции напрямую, используя Pandas.</p>

In [None]:
# Конвертируем данные
df['city-L/100km'] = 235/df["city-mpg"]

# Проверяем трансформированные данные
df.head()

<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Задание #7: </h1>
<b> Следуя примеру, преобразуйте колонку "highway-mpg" и переименуйте ее в "hiwghway-L/100km"</b>
</div>

In [None]:
# Напишите ваш код ниже и наждмите Shift+Enter для исполнения


<details><summary>Нажмите здесь, чтобы увидеть решение</summary>

```python
# transform mpg to L/100km by mathematical operation (235 divided by mpg)
df["highway-mpg"] = 235/df["highway-mpg"]

# rename column name from "highway-mpg" to "highway-L/100km"
df.rename(columns={'"highway-mpg"':'highway-L/100km'}, inplace=True)

# check your transformed data 
df.head()


## Биннинг
<b>Зачем нужен биннинг?</b>

<p> Биннинг — это процесс преобразования непрерывных числовых переменных в дискретные категориальные "корзины" (bins) для группового анализа. </p>
<b>Пример: </b>

<p>В вашем наборе данных переменная "horsepower" является числовой величиной, которая варьируется от 48 до 288 и имеет 59 уникальных значений. Что, если вас интересует только разница в цене между автомобилями с высокой, средней и низкой мощностью (3 типа)? Вы можете сгруппировать их в три "корзины" для упрощения анализа.</p> <p>Используйте метод Pandas 'cut', чтобы разделить столбец 'horsepower' на 3 корзины.</p>

In [None]:
df["horsepower"]=df["horsepower"].astype(int, copy=True)

Построим гистограмму, чтобы увидеть, как распределяется мощность

In [None]:
%matplotlib inline
import matplotlib as plt
from matplotlib import pyplot
plt.pyplot.hist(df["horsepower"])

# set x/y labels and plot title
plt.pyplot.xlabel("horsepower")
plt.pyplot.ylabel("count")
plt.pyplot.title("horsepower bins")

<p>Найдите 3 корзины с одинаковой шириной диапазона, используя функцию Numpy <code>linspace(start_value, end_value, numbers_generated</code>.</p> <p>Поскольку вы хотите включить минимальное значение мощности (horsepower), установите start_value = min(df["horsepower"]).</p> <p>Поскольку вы хотите включить максимальное значение мощности, установите end_value = max(df["horsepower"]).</p> <p>Поскольку вы создаете 3 корзины одинаковой длины, вам нужно 4 разделителя, поэтому numbers_generated = 4.</p>


Постройте массив корзин от минимального до максимального значения, используя ширину диапазона, рассчитанную выше. Эти значения будут определять, где заканчивается одна корзина и начинается другая.

In [None]:
bins = np.linspace(min(df["horsepower"]), max(df["horsepower"]), 4)
bins

In [None]:
group_names = ['Low', 'Medium', 'High']

Примените функцию "cut", чтобы определить, к какой корзине относится каждое значение из df['horsepower'].

In [None]:
df['horsepower-binned'] = pd.cut(df['horsepower'], bins, labels=group_names, include_lowest=True )
df[['horsepower','horsepower-binned']].head(20)

In [None]:
df["horsepower-binned"].value_counts()

In [None]:
%matplotlib inline
import matplotlib as plt
from matplotlib import pyplot
pyplot.bar(group_names, df["horsepower-binned"].value_counts())

# set x/y labels and plot title
plt.pyplot.xlabel("horsepower")
plt.pyplot.ylabel("count")
plt.pyplot.title("horsepower bins")

<p> Внимательно посмотрите на приведенный выше DataFrame. Вы увидите, что последний столбец содержит корзины для "horsepower" на основе 3 категорий ("Низкий", "Средний" и "Высокий"). </p> <p> Вы успешно сократили количество интервалов с 59 до 3! </p>

## Нормализация 
Нормализация данных — это процесс приведения данных к общему масштабу, что помогает улучшить работу машинных моделей и алгоритмов анализа данных. Этот процесс особенно важен для числовых переменных с различными диапазонами значений и для категориальных переменных, которые нужно перекодировать в числовые значения для анализа. Рассмотрим основные методы нормализации для числовых и категориальных переменных.

### Нормализация для числовых переменных
Числовые переменные могут иметь разные диапазоны значений, что может повлиять на работу машинных алгоритмов (например, линейных моделей или градиентного спуска). Нормализация помогает привести эти данные к одному масштабу. Вот несколько методов нормализации для числовых переменных:

#### 1. Min-Max Scaling
Этот метод приводит все значения переменной к диапазону [0, 1] или другому заданному диапазону.
- Когда использовать: <br>Этот метод полезен, когда данные ограничены известным минимальным и максимальным значением. Хорошо работает для алгоритмов, чувствительных к масштабам данных, таких как метод k-ближайших соседей (KNN) и нейронные сети.

In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df['normalized_column'] = scaler.fit_transform(df[['column']])

#### 2. Z-нормализация (стандартизация)
Этот метод приводит значения переменной к распределению с нулевым средним и стандартным отклонением 1. 
- Когда использовать: <br>Этот метод полезен, когда данные имеют нормальное распределение. Хорошо работает для алгоритмов, которые предполагают нормальность данных, таких как линейная регрессия, логистическая регрессия и SVM.

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df['standardized_column'] = scaler.fit_transform(df[['column']])

#### 3. Robust Scaler
Этот метод использует медиану и межквартильный диапазон (IQR), чтобы минимизировать влияние выбросов.
- Когда использовать: <br>Этот метод полезен, когда данные содержат выбросы.

In [None]:
from sklearn.preprocessing import RobustScaler

scaler = RobustScaler()
df['robust_column'] = scaler.fit_transform(df[['column']])

#### 4. Log Transform
Этот метод применяется к сильно скошенным данным, чтобы уменьшить влияние выбросов и привести распределение к более симметричному.
- Когда использовать: <br>Когда данные имеют асимметричное распределение или присутствуют большие выбросы.

In [None]:
import numpy as np

df['log_column'] = np.log(df['column'] + 1)

### Нормализация для категориальных переменных
One-Hot Encoding — это метод преобразования категориальных переменных в бинарные столбцы, где каждому уникальному значению категории соответствует отдельный столбец с бинарными значениями (0 или 1). Это помогает машинам и моделям работать с категориальными данными, поскольку алгоритмы машинного обучения обычно требуют числовые данные в качестве входных.

<b>Как работает One-Hot Encoding?</b>
<p>Допустим, у вас есть столбец `цвет` с тремя категориями: "красный", "синий" и "зеленый". One-Hot Encoding преобразует этот столбец в три новых столбца:</p> <ul> <li>цвет_красный</li> <li>цвет_синий</li> <li>цвет_зеленый</li> </ul> <p>Каждая строка будет иметь значение 1 для соответствующего цвета и 0 для остальных:</p>

| цвет    | цвет_красный | цвет_синий | цвет_зеленый |
|---------|--------------|------------|-------------|
| красный | 1            | 0          | 0           |
| синий   | 0            | 1          | 0           |
| зеленый | 0            | 0          | 1           |
| красный | 1            | 0          | 0           |

<b>Когда использовать One-Hot Encoding?</b>
<ul> <li><b>Для номинальных категориальных данных:</b> One-Hot Encoding полезен, когда переменная не имеет естественного порядка. Например, цвет не имеет упорядоченного смысла.</li> <li><b>При небольшом количестве категорий:</b> Если у вас слишком много уникальных значений, One-Hot Encoding может создать множество столбцов, что усложнит анализ.</li> </ul>
<b>Как выполнить One-Hot Encoding в Pandas?</b>
<p>В Pandas есть встроенная функция <code>get_dummies()</code>, которая делает One-Hot Encoding для категориальных переменных.</p>
<b>Пример:</b>

In [None]:
import pandas as pd

# Примерные данные
data = {'цвет': ['красный', 'синий', 'зеленый', 'красный']}
df = pd.DataFrame(data)

# Применение One-Hot Encoding с использованием get_dummies
df_encoded = pd.get_dummies(df, columns=['цвет'])

print(df_encoded)


<b>One-Hot Encoding с использованием <code>OneHotEncoder</code> из библиотеки <code>sklearn</code></b>
<p>Кроме того, One-Hot Encoding можно выполнить с помощью библиотеки Scikit-learn. Это полезно, если вы работаете с данными в рамках пайплайнов машинного обучения.</p>
<b>Пример:</b>

In [None]:
from sklearn.preprocessing import OneHotEncoder
import pandas as pd

# Примерные данные
data = {'цвет': ['красный', 'синий', 'зеленый', 'красный']}
df = pd.DataFrame(data)

# Создание объекта OneHotEncoder
encoder = OneHotEncoder(sparse_output=False)

# Применение One-Hot Encoding
encoded = encoder.fit_transform(df[['цвет']])

# Преобразование в DataFrame для наглядности
df_encoded = pd.DataFrame(encoded, columns=encoder.get_feature_names_out(['цвет']))

print(df_encoded)


<b>Параметры <code>OneHotEncoder</code>:</b>
<ul> <li><b><code>sparse_output=False</code></b> — возвращает результат в виде обычного массива (не разреженной матрицы), что удобно для небольших наборов данных.</li> <li><b><code>handle_unknown</code></b> — можно использовать этот параметр, чтобы указать, как обрабатывать неизвестные категории (например, можно игнорировать их или возвращать ошибки).</li> </ul>