EDA (Exploratory Data Analysis) — разведывательный анализ данных. Этот этап дата-сайентисты проводят перед построением самой модели. Цель этого этапа — понять, что нам могут дать данные, и как признаки могут быть взаимосвязаны между собой. Понимание изначальных признаков позволит создать новые, более сильные признаки и повысить качество модели. 

***Метод Feature Engineering (проектирование признаков)***

**Это процесс создания новых признаков для повышения качества прогнозной модели. Для генерации новых признаков мы можем использовать внешние источники данных или конструировать признаки из имеющихся признаков в наборе данных.**

Цель этого метода — создать новые, более сильные признаки для обучения модели. Изучать проектирование признаков мы будем далее — в модулях, посвящённых проектированию признаков.

У нас есть информация, в каком городе находится ресторан. Мы можем дополнительно создать признак из существующего, который бы говорил нам о том, является ли этот город столицей. Скорее всего, такой признак будет очень важен в определении рейтинга ресторана, ведь в столице рейтинг ресторанов в среднем выше. Сделать такой вывод нам помогает статистический анализ, который мы будем изучать далее в модулях про статистику. 

**Метод Feature Selection (отбор признаков)**

Это процесс выбора признаков из общего набора данных признаков, больше всего влияющих на качество модели. 

Метод кодирования признаков

Чаще всего в кодировании нуждаются категориальные признаки. Вы с ними познакомились в PYTHON-11. Базовые приемы работы с данными в Pandas Юнит 5. Тип данных Category. Они представлены обычно в строковом формате, а большинство алгоритмов машинного обучения требуют численного формата. 

У нас есть признак, говорящий о том, к какой кухне мира относят ресторан, например к средиземноморской. 

В таком виде мы не можем передать данные в модель, поэтому закодируем их таким образом:

1 — средиземноморская кухня

2  — китайская

3 — грузинская

country — страна-производитель вина.

description — подробное описание.

designation — название виноградника, где выращивают виноград для вина.

points — баллы, которыми WineEnthusiast оценил вино по шкале от 1 до 100.

price — стоимость бутылки вина.

province — провинция или штат.

region_1 — винодельческий район в провинции или штате (например Напа).

region_2 — конкретный регион. Иногда в пределах винодельческой зоны указываются более конкретные регионы (например Резерфорд в долине Напа), но это значение может быть пустым.

taster_name — имя сомелье.

taster_twitter_handle — твиттер сомелье.

title — название вина, которое часто содержит год и другую подробную информацию.

variety — сорт винограда, из которого изготовлено вино (например Пино Нуар).

winery — винодельня, которая производила вино.

Сколько всего дегустаторов приняло участие в винных обзорах?

In [1]:
import pandas as pd

# Загрузка данных
data = pd.read_csv('data/wine.csv', sep = ',')

# Подсчёт уникальных дегустаторов
unique_tasters = data['taster_name'].nunique()

# Вывод результата
print(f"Всего уникальных дегустаторов: {unique_tasters}")

Всего уникальных дегустаторов: 19


Какова максимальная цена за бутылку в этом наборе данных?

In [2]:
top_price = data['price'].max()
display(top_price)


np.float64(3300.0)

Проанализируйте представленный датасет и перечислите все числовые признаки через запятую

In [3]:
numeric_cols = data.describe().columns.tolist()
print("Числовые признаки:", ", ".join(numeric_cols))

Числовые признаки: points, price


Проанализируйте датасет на наличие дублирующихся винных обзоров. Если дублирующиеся записи есть, удалите их.

В поле ниже введите, сколько дублирующихся записей вам удалось обнаружить.

In [4]:
mask = data.duplicated(subset=data.columns) # маска для фильтрации
data_duplicates = data[mask] # фильтруем наш датасет
print(f'Число найденных дубликатов: {data_duplicates.shape[0]}')

Число найденных дубликатов: 9983


Проверьте датасет на наличие пропусков в данных.

В каких из представленных признаках были обнаружены пропуски?

In [5]:
# Проверяем количество пропусков в каждом столбце
missing_values = data.isnull().sum()

# Выводим только столбцы с пропусками (>0)
missing_values = missing_values[missing_values > 0]
print(missing_values)

country                     63
designation              37465
price                     8996
province                    63
region_1                 21247
region_2                 79460
taster_name              26244
taster_twitter_handle    31213
variety                      1
dtype: int64


Обработайте пропущенные значения в наборе данных любым известным вам способом

- Если какой-то из признаков имеет более 30-40 % пропусков, лучше избавьтесь от него: его заполнение может привести к сильному искажению общего распределения, а удаление записей — к большой утрате данных.
- Заполняйте данные с умом! Если перед вами количественный признак, то использование нецелого числа в качестве константы является как минимум нелогичным.
- Вы можете оставить пропуски как есть, просто заменив их на какой-то специальный символ. Например, для числовых неотрицательных признаков можно использовать число -1, а для категориальных — строку 'unknown'.

In [6]:
# Общее количество строк в датасете
total_rows = len(data)

# Считаем количество пропусков в каждом столбце
missing_counts = data.isnull().sum()

# Рассчитываем процент пропусков
missing_percent = (missing_counts / total_rows) * 100

display(missing_percent)

country                   0.048472
description               0.000000
designation              28.825661
points                    0.000000
price                     6.921544
province                  0.048472
region_1                 16.347493
region_2                 61.136715
taster_name              20.192197
taster_twitter_handle    24.015357
title                     0.000000
variety                   0.000769
winery                    0.000000
dtype: float64

In [7]:
df = data.drop(['region_2'], axis=1) # имеет порядка 60% пропусков

In [8]:
df.describe(include='all')

Unnamed: 0,country,description,designation,points,price,province,region_1,taster_name,taster_twitter_handle,title,variety,winery
count,129908,129971,92506,129971.0,120975.0,129908,108724,103727,98758,129971,129970,129971
unique,43,119955,37979,,,425,1229,19,15,118840,707,16757
top,US,"Seductively tart in lemon pith, cranberry and ...",Reserve,,,California,Napa Valley,Roger Voss,@vossroger,Gloria Ferrer NV Sonoma Brut Sparkling (Sonoma...,Pinot Noir,Wines & Winemakers
freq,54504,3,2009,,,36247,4480,25514,25514,11,13272,222
mean,,,,88.447138,35.363389,,,,,,,
std,,,,3.03973,41.022218,,,,,,,
min,,,,80.0,4.0,,,,,,,
25%,,,,86.0,17.0,,,,,,,
50%,,,,88.0,25.0,,,,,,,
75%,,,,91.0,42.0,,,,,,,


In [9]:
# обрабатываем пропуски в категориальных признаках самым простым вариантом, замена на unknown

df['designation'] = df['designation'].fillna('unknown')
df['region_1'] = df['region_1'].fillna('unknown')
df['taster_name'] = df['taster_name'].fillna('unknown')
df['taster_twitter_handle'] = df['taster_twitter_handle'].fillna('unknown')

# признаки с маленьким количеством пропусков заменим на самые частовречающиеся значения
df['country'] = df['country'].fillna('US')
df['price'] = df['price'].fillna(df['price'].mean())
df['province'] = df['province'].fillna('California')
df['variety'] = df['variety'].fillna('Pinot Noir')


In [10]:
# Общее количество строк в датасете
total_rows = len(df)

# Считаем количество пропусков в каждом столбце
missing_counts = df.isnull().sum()

# Рассчитываем процент пропусков
missing_percent = (missing_counts / total_rows) * 100

display(missing_percent)

country                  0.0
description              0.0
designation              0.0
points                   0.0
price                    0.0
province                 0.0
region_1                 0.0
taster_name              0.0
taster_twitter_handle    0.0
title                    0.0
variety                  0.0
winery                   0.0
dtype: float64

In [11]:
df = df.to_csv('wine_cleared.csv', index=False) # сохраняем очищенный датасет для дальнейшей работы

В реальной жизни большую часть работы над моделью занимает разведывательный анализ данных. С целью решения подобной проблемы появились инструменты автоматической визуализации и представления датасета.

К таким инструментам можно отнести следующие библиотеки Python, которые могут выполнять EDA всего одной строкой кода:

- d-tale; 
- ydata-profiling;
- sweetviz.

Ydata-profiling — это библиотека с открытым исходным кодом, которая создаёт подробный отчёт по данным. Ydata-profiling можно легко использовать для больших наборов данных: отчёты создаются всего за несколько секунд.

Примечание. Ранее библиотека ydata-profiling называлась pandas-profiling и работала только с pandas.DataFrame. Однако, начиная с версии 4.0.0, в библиотеке появилась возможность работать с форматами данных библиотеки Spark (библиотека для работы с распределёнными вычислениями на больших объёмах данных). В результате расширения возможностей библиотеки возникла необходимость ребрендинга, который и привёл к смене имени. Синтаксис и формат выходных данных для pandas остались теми же.

Sweetviz — это библиотека автоматического анализа с открытым исходным кодом. Sweetviz также можно использовать для сравнения нескольких наборов данных и выводов по ним. Это может быть удобно, когда необходимо сравнить обучающий и тестовый наборы данных. Об этом вы узнаете далее в модулях про машинное обучение.

D-Tale — это библиотека с открытым исходным кодом. D-Tale делает подробный разведывательный анализ набора данных. Интересная особенность: библиотека предоставляет функцию экспорта кода для каждого графика или элемента анализа в отчёте.