# Подготовка данных

[Оригинальный источник блокнота из *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Изучение информации о `DataFrame`

> **Цель обучения:** К концу этого раздела вы должны уверенно находить общую информацию о данных, хранящихся в pandas DataFrame.

После того как вы загрузили свои данные в pandas, скорее всего, они будут находиться в `DataFrame`. Однако если ваш набор данных в `DataFrame` содержит 60,000 строк и 400 столбцов, с чего вообще начать, чтобы понять, с чем вы работаете? К счастью, pandas предоставляет удобные инструменты для быстрого ознакомления с общей информацией о `DataFrame`, а также с первыми и последними строками.

Чтобы изучить эту функциональность, мы импортируем библиотеку Python scikit-learn и воспользуемся знаковым набором данных, который каждый специалист по данным видел сотни раз: набор данных британского биолога Рональда Фишера *Iris*, использованный в его статье 1936 года "Использование множественных измерений в таксономических задачах":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Мы загрузили набор данных Iris в переменную `iris_df`. Прежде чем углубляться в данные, полезно узнать количество точек данных и общий размер набора данных. Это помогает оценить объем данных, с которыми мы работаем.


In [2]:
iris_df.shape

(150, 4)

Итак, у нас есть 150 строк и 4 столбца данных. Каждая строка представляет одну точку данных, а каждый столбец — одну характеристику, связанную с датафреймом. Таким образом, у нас есть 150 точек данных, каждая из которых содержит 4 характеристики.

`shape` здесь является атрибутом датафрейма, а не функцией, поэтому он не заканчивается парой круглых скобок.


### `DataFrame.columns`
Теперь давайте рассмотрим 4 столбца данных. Что именно каждый из них представляет? Атрибут `columns` предоставит нам названия столбцов в датафрейме.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Как мы видим, есть четыре (4) столбца. Атрибут `columns` сообщает нам названия столбцов и, по сути, ничего больше. Этот атрибут приобретает важность, когда мы хотим определить признаки, которые содержит набор данных.


### `DataFrame.info`
Объем данных (определяемый атрибутом `shape`) и названия признаков или столбцов (определяемые атрибутом `columns`) дают нам некоторое представление о наборе данных. Теперь мы хотим углубиться в изучение набора данных. Функция `DataFrame.info()` очень полезна для этого.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Отсюда можно сделать несколько наблюдений:
1. Тип данных каждого столбца: В этом наборе данных все данные хранятся в виде 64-битных чисел с плавающей точкой.
2. Количество ненулевых значений: Работа с нулевыми значениями — важный этап подготовки данных. Это будет рассмотрено позже в блокноте.


### DataFrame.describe()
Предположим, у нас есть много числовых данных в наборе данных. Одномерные статистические расчёты, такие как среднее, медиана, квартили и т.д., могут быть выполнены для каждого столбца отдельно. Функция `DataFrame.describe()` предоставляет нам статистическое резюме числовых столбцов набора данных.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Вывод выше показывает общее количество точек данных, среднее значение, стандартное отклонение, минимум, нижний квартиль (25%), медиану (50%), верхний квартиль (75%) и максимальное значение каждого столбца.


### `DataFrame.head`
С помощью всех вышеупомянутых функций и атрибутов мы получили общее представление о наборе данных. Мы знаем, сколько данных в наборе, сколько признаков, тип данных каждого признака и количество ненулевых значений для каждого признака.

Теперь пришло время взглянуть на сами данные. Давайте посмотрим, как выглядят первые несколько строк (первые несколько точек данных) нашего `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


На выходе здесь мы видим пять (5) записей набора данных. Если посмотреть на индекс слева, мы обнаружим, что это первые пять строк.


### Упражнение:

Из приведенного выше примера ясно, что по умолчанию `DataFrame.head` возвращает первые пять строк `DataFrame`. В кодовой ячейке ниже, сможете ли вы найти способ отобразить больше пяти строк?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Другой способ просмотра данных — с конца (вместо начала). Противоположностью `DataFrame.head` является `DataFrame.tail`, который возвращает последние пять строк `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


На практике полезно иметь возможность легко просматривать первые несколько строк или последние несколько строк `DataFrame`, особенно когда вы ищете выбросы в упорядоченных наборах данных.

Все функции и атрибуты, показанные выше с помощью примеров кода, помогают нам получить представление о данных.

> **Вывод:** Даже просто взглянув на метаданные о информации в DataFrame или на первые и последние несколько значений, вы можете сразу получить представление о размере, форме и содержании данных, с которыми работаете.


### Отсутствующие данные
Давайте разберемся с отсутствующими данными. Отсутствующие данные возникают, когда в некоторых столбцах не сохранено значение.

Возьмем пример: предположим, кто-то очень переживает за свой вес и не заполняет поле "вес" в анкете. Тогда значение веса для этого человека будет отсутствовать.

В большинстве случаев в реальных наборах данных встречаются отсутствующие значения.

**Как Pandas обрабатывает отсутствующие данные**

Pandas обрабатывает отсутствующие значения двумя способами. Первый способ вы уже видели в предыдущих разделах: `NaN`, или Not a Number (не число). Это на самом деле специальное значение, которое является частью спецификации IEEE для чисел с плавающей точкой и используется только для обозначения отсутствующих значений с плавающей точкой.

Для отсутствующих значений, кроме чисел с плавающей точкой, pandas использует объект Python `None`. Хотя может показаться запутанным, что вы сталкиваетесь с двумя разными типами значений, которые по сути означают одно и то же, существуют веские программные причины для такого выбора дизайна. На практике этот подход позволяет pandas предложить хороший компромисс для подавляющего большинства случаев. Тем не менее, и `None`, и `NaN` имеют ограничения, которые необходимо учитывать в отношении их использования.


### `None`: отсутствие данных не типа float
Поскольку `None` является частью Python, его нельзя использовать в массивах NumPy и pandas, если их тип данных не `'object'`. Помните, что массивы NumPy (и структуры данных в pandas) могут содержать только один тип данных. Именно это обеспечивает их огромную мощность для работы с большими объемами данных и вычислений, но также ограничивает их гибкость. Такие массивы должны быть приведены к «наименьшему общему знаменателю» — типу данных, который охватывает все элементы массива. Если в массиве присутствует `None`, это означает, что вы работаете с объектами Python.

Чтобы увидеть это на практике, рассмотрим следующий пример массива (обратите внимание на его `dtype`):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Реальность повышения типов данных имеет два побочных эффекта. Во-первых, операции будут выполняться на уровне интерпретируемого кода Python, а не скомпилированного кода NumPy. По сути, это означает, что любые операции, связанные с `Series` или `DataFrame`, содержащими `None`, будут происходить медленнее. Хотя вы, вероятно, не заметите этого снижения производительности, для больших наборов данных это может стать проблемой.

Второй побочный эффект вытекает из первого. Поскольку `None` фактически возвращает `Series` или `DataFrame` в мир обычного Python, использование агрегатов NumPy/pandas, таких как `sum()` или `min()`, на массивах, содержащих значение ``None``, обычно приведет к ошибке:


In [10]:
example1.sum()

TypeError: ignored

**Основной вывод**: Сложение (и другие операции) между целыми числами и значениями `None` не определено, что может ограничивать возможности работы с наборами данных, содержащими их.


### `NaN`: отсутствующие значения типа float

В отличие от `None`, NumPy (а следовательно, и pandas) поддерживает `NaN` для быстрых векторизированных операций и ufuncs. Плохая новость заключается в том, что любые арифметические операции с `NaN` всегда приводят к `NaN`. Например:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Хорошая новость: агрегации, выполняемые на массивах с `NaN`, не вызывают ошибок. Плохая новость: результаты не всегда полезны:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Упражнение:


In [11]:
# What happens if you add np.nan and None together?


Помните: `NaN` используется только для отсутствующих значений с плавающей точкой; эквивалента `NaN` для целых чисел, строк или логических значений не существует.


### `NaN` и `None`: пустые значения в pandas

Несмотря на то, что `NaN` и `None` могут вести себя немного по-разному, pandas все же разработан для работы с ними как с взаимозаменяемыми значениями. Чтобы понять, о чем идет речь, рассмотрим `Series` из целых чисел:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Упражнение:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


В процессе приведения типов данных к единому формату в `Series` и `DataFrame` pandas легко заменяет пропущенные значения между `None` и `NaN`. Благодаря этой особенности дизайна полезно рассматривать `None` и `NaN` как два разных типа "нулевых" значений в pandas. На самом деле, некоторые основные методы, которые вы будете использовать для работы с пропущенными значениями в pandas, отражают эту идею в своих названиях:

- `isnull()`: Создает булевую маску, указывающую на пропущенные значения
- `notnull()`: Противоположность `isnull()`
- `dropna()`: Возвращает отфильтрованную версию данных
- `fillna()`: Возвращает копию данных с заполненными или замененными пропущенными значениями

Эти методы важны для освоения и уверенного использования, поэтому давайте рассмотрим каждый из них более подробно.


### Обнаружение пустых значений

Теперь, когда мы поняли важность отсутствующих значений, нам нужно обнаружить их в нашем наборе данных, прежде чем начинать с ними работать. 
Методы `isnull()` и `notnull()` являются основными для обнаружения пустых данных. Оба возвращают булевы маски для ваших данных.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Внимательно посмотрите на результат. Вас что-то удивляет? Хотя `0` является арифметическим нулем, он всё же считается вполне допустимым целым числом, и pandas обрабатывает его именно так. `''` немного сложнее. Хотя мы использовали его в Разделе 1 для представления пустой строки, он всё же является объектом типа строка, а не представлением null с точки зрения pandas.

Теперь давайте изменим подход и применим эти методы так, как вы будете использовать их на практике. Вы можете использовать булевы маски непосредственно в качестве индекса для ``Series`` или ``DataFrame``, что может быть полезно при работе с отдельными пропущенными (или присутствующими) значениями.

Если мы хотим узнать общее количество пропущенных значений, мы можем просто выполнить суммирование по маске, созданной методом `isnull()`.


In [19]:
example3.isnull().sum()

2

### Упражнение:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Основной вывод**: Оба метода `isnull()` и `notnull()` дают схожие результаты при использовании их в DataFrame: они показывают результаты и индекс этих результатов, что значительно поможет вам в работе с данными.


### Работа с отсутствующими данными

> **Цель обучения:** К концу этого раздела вы должны понимать, как и когда заменять или удалять пустые значения в DataFrames.

Модели машинного обучения не могут самостоятельно работать с отсутствующими данными. Поэтому перед передачей данных в модель необходимо разобраться с этими пропущенными значениями.

Способ обработки отсутствующих данных имеет тонкие компромиссы, которые могут повлиять на ваш окончательный анализ и результаты в реальном мире.

Существует два основных способа работы с отсутствующими данными:

1. Удалить строку, содержащую пропущенное значение  
2. Заменить пропущенное значение на другое значение  

Мы обсудим оба этих метода, а также их плюсы и минусы более подробно.


### Удаление пустых значений

Количество данных, которые мы передаем нашей модели, напрямую влияет на ее производительность. Удаление пустых значений означает сокращение количества точек данных, а следовательно, уменьшение размера набора данных. Поэтому рекомендуется удалять строки с пустыми значениями, если набор данных достаточно большой.

Другой случай может быть связан с тем, что определенная строка или столбец содержит много пропущенных значений. Тогда их можно удалить, так как они не добавят значительной ценности нашему анализу, поскольку большая часть данных для этой строки/столбца отсутствует.

Помимо выявления пропущенных значений, pandas предоставляет удобный способ удаления пустых значений из `Series` и `DataFrame`. Чтобы увидеть это на практике, вернемся к `example3`. Функция `DataFrame.dropna()` помогает удалять строки с пустыми значениями.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Обратите внимание, что это должно выглядеть как ваш вывод из `example3[example3.notnull()]`. Разница здесь в том, что вместо индексации только по значениям с маской, `dropna` удалил эти пропущенные значения из `Series` `example3`.

Поскольку DataFrame имеет две измерения, он предоставляет больше возможностей для удаления данных.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Вы заметили, что pandas преобразовал два столбца в тип float, чтобы учесть значения `NaN`?)

Вы не можете удалить одно значение из `DataFrame`, поэтому вам придется удалять целые строки или столбцы. В зависимости от ваших задач, вам может понадобиться одно или другое, и pandas предоставляет вам варианты для обоих случаев. Поскольку в анализе данных столбцы обычно представляют переменные, а строки — наблюдения, чаще всего удаляют строки данных; настройка по умолчанию для `dropna()` — удаление всех строк, содержащих любые пустые значения:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Если необходимо, вы можете удалить значения NA из столбцов. Используйте `axis=1`, чтобы сделать это:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Обратите внимание, что это может удалить много данных, которые вы, возможно, захотите сохранить, особенно в небольших наборах данных. Что, если вы хотите удалить только строки или столбцы, содержащие несколько или даже все значения null? Вы можете указать эти настройки в `dropna` с помощью параметров `how` и `thresh`.

По умолчанию `how='any'` (если вы хотите проверить это самостоятельно или посмотреть, какие еще параметры есть у метода, выполните `example4.dropna?` в ячейке кода). Вы также можете указать `how='all'`, чтобы удалять только строки или столбцы, содержащие все значения null. Давайте расширим наш пример `DataFrame`, чтобы увидеть это в действии в следующем упражнении.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Основные выводы:  
1. Удаление пустых значений имеет смысл только в том случае, если набор данных достаточно большой.  
2. Полные строки или столбцы можно удалить, если в них отсутствует большая часть данных.  
3. Метод `DataFrame.dropna(axis=)` помогает удалять пустые значения. Аргумент `axis` указывает, следует ли удалять строки или столбцы.  
4. Также можно использовать аргумент `how`. По умолчанию он установлен на `any`, поэтому удаляются только те строки/столбцы, которые содержат хотя бы одно пустое значение. Его можно установить на `all`, чтобы удалять только те строки/столбцы, где все значения пустые.  


### Упражнение:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Параметр `thresh` предоставляет более тонкий контроль: вы задаете количество *ненулевых* значений, которые строка или столбец должны иметь, чтобы быть сохраненными:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Здесь первая и последняя строки были удалены, так как они содержат только два ненулевых значения.


### Заполнение пропущенных значений

Иногда имеет смысл заполнить пропущенные значения теми, которые могут быть допустимыми. Существует несколько методов заполнения null-значений. Первый — использование предметных знаний (знаний о теме, на которой основан набор данных) для приблизительного определения пропущенных значений.

Вы можете использовать `isnull` для выполнения этой задачи на месте, но это может быть трудоемко, особенно если у вас много значений для заполнения. Поскольку это очень распространенная задача в области анализа данных, pandas предоставляет метод `fillna`, который возвращает копию `Series` или `DataFrame` с заменой пропущенных значений на выбранные вами. Давайте создадим еще один пример `Series`, чтобы увидеть, как это работает на практике.


### Категориальные данные (нечисловые)
Сначала рассмотрим нечисловые данные. В наборах данных есть столбцы с категориальными данными, например, пол, значения True или False и т.д.

В большинстве случаев мы заменяем пропущенные значения на `моду` столбца. Например, у нас есть 100 точек данных: 90 указали True, 8 указали False, а 2 оставили пустыми. Тогда мы можем заполнить эти 2 значения True, учитывая весь столбец.

Также здесь можно использовать знания предметной области. Рассмотрим пример заполнения значений модой.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


Теперь давайте сначала найдем моду, прежде чем заполнять значение `None` модой.


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

Итак, мы заменим None на True


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Как мы видим, значение null было заменено. Само собой разумеется, мы могли написать что угодно вместо `'True'`, и оно было бы подставлено.


### Числовые данные
Теперь перейдем к числовым данным. Здесь есть два распространенных способа замены пропущенных значений:

1. Замена на медиану строки
2. Замена на среднее значение строки

Мы используем медиану в случае смещенных данных с выбросами. Это связано с тем, что медиана устойчива к выбросам.

Когда данные нормализованы, можно использовать среднее значение, так как в этом случае среднее и медиана будут довольно близки.

Сначала возьмем столбец, который имеет нормальное распределение, и заполним пропущенные значения средним значением столбца.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Среднее значение столбца равно


In [33]:
np.mean(fill_with_mean[0])

0.0

Заполнение средним


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Как мы видим, отсутствующее значение было заменено его средним.


Теперь давайте попробуем другой датафрейм, и на этот раз мы заменим значения None на медиану столбца.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Медиана второго столбца составляет


In [36]:
fill_with_median[1].median()

4.0

Заполнение медианой


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Как мы видим, значение NaN было заменено медианой столбца


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Вы можете заполнить все пустые записи одним значением, например, `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Основные выводы:
1. Заполнение пропущенных значений следует выполнять, если данных недостаточно или если есть стратегия для их заполнения.
2. Для заполнения пропущенных значений можно использовать знания предметной области, приближая их.
3. В случае категориальных данных пропущенные значения чаще всего заменяются модой столбца.
4. Для числовых данных пропущенные значения обычно заполняются средним значением (для нормализованных наборов данных) или медианой столбцов.


### Упражнение:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Вы можете **заполнить вперед** пустые значения, используя последнее допустимое значение для заполнения пустого:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Вы также можете **заполнить назад**, чтобы распространить следующее допустимое значение назад для заполнения null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Как вы могли догадаться, это работает так же с DataFrame, но вы также можете указать `axis`, вдоль которого заполнять значения null:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Обратите внимание, что если предыдущего значения нет для заполнения вперед, пустое значение остается.


### Упражнение:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Вы можете творчески использовать `fillna`. Например, давайте снова посмотрим на `example4`, но на этот раз заполним пропущенные значения средним значением всех значений в `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Обратите внимание, что столбец 3 все еще остается пустым: значения по умолчанию заполняются построчно.

> **Вывод:** Существует множество способов справляться с отсутствующими значениями в ваших наборах данных. Конкретная стратегия (удаление, замена или способ замены) должна определяться особенностями этих данных. Чем больше вы работаете с наборами данных, тем лучше вы будете понимать, как справляться с отсутствующими значениями.


### Кодирование категориальных данных

Модели машинного обучения работают только с числами и любыми формами числовых данных. Они не смогут различить "Да" и "Нет", но смогут отличить 0 от 1. Поэтому, после заполнения пропущенных значений, необходимо закодировать категориальные данные в числовую форму, чтобы модель могла их понять.

Кодирование можно выполнить двумя способами. Мы обсудим их далее.


**КОДИРОВАНИЕ МЕТКИ**

Кодирование метки — это процесс преобразования каждой категории в число. Например, предположим, у нас есть набор данных о пассажирах авиакомпании, и в нем есть столбец, содержащий их класс из следующих ['бизнес-класс', 'эконом-класс', 'первый класс']. Если выполнить кодирование метки, это будет преобразовано в [0,1,2]. Давайте рассмотрим пример с помощью кода. Поскольку мы будем изучать `scikit-learn` в следующих блокнотах, здесь мы его использовать не будем.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Чтобы выполнить кодирование меток в первом столбце, сначала необходимо описать отображение каждого класса в число, прежде чем заменить.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Как мы видим, результат соответствует тому, что мы ожидали. Итак, когда же использовать кодирование меток? Кодирование меток применяется в одном или обоих из следующих случаев:
1. Когда количество категорий велико
2. Когда категории имеют порядок.


**ONE HOT ENCODING**

Другой тип кодирования — это One Hot Encoding. При таком кодировании каждая категория столбца добавляется как отдельный столбец, и каждой точке данных присваивается 0 или 1 в зависимости от того, содержит ли она эту категорию. Таким образом, если есть n различных категорий, к датафрейму будет добавлено n столбцов.

Например, возьмем тот же пример с классами самолета. Категории были: ['business class', 'economy class', 'first class']. Если мы применим One Hot Encoding, к набору данных будут добавлены следующие три столбца: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Давайте выполним one hot encoding для первого столбца


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Каждый закодированный столбец содержит 0 или 1, что указывает, существует ли эта категория для данной точки данных.


Когда мы используем one hot encoding? One hot encoding применяется в одном или обоих следующих случаях:

1. Когда количество категорий и размер набора данных невелики.
2. Когда категории не имеют определенного порядка.


> Основные выводы:
1. Кодирование используется для преобразования ненумерованных данных в числовые.
2. Существует два типа кодирования: кодирование меток и One Hot кодирование, которые можно применять в зависимости от требований набора данных.


## Удаление дублированных данных

> **Цель обучения:** К концу этого раздела вы должны уверенно определять и удалять дублированные значения из DataFrame.

Помимо отсутствующих данных, в реальных наборах данных вы часто будете сталкиваться с дублированными данными. К счастью, pandas предоставляет простой способ обнаружения и удаления повторяющихся записей.


### Определение дубликатов: `duplicated`

Вы можете легко обнаружить повторяющиеся значения с помощью метода `duplicated` в pandas, который возвращает булевую маску, указывающую, является ли запись в `DataFrame` дубликатом более ранней. Давайте создадим еще один пример `DataFrame`, чтобы увидеть, как это работает.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Удаление дубликатов: `drop_duplicates`
`drop_duplicates` просто возвращает копию данных, для которых все значения `duplicated` равны `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Оба метода `duplicated` и `drop_duplicates` по умолчанию учитывают все столбцы, но вы можете указать, чтобы они проверяли только подмножество столбцов в вашем `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **Вывод:** Удаление дублирующихся данных является важной частью практически каждого проекта в области науки о данных. Дублирующиеся данные могут изменить результаты ваших анализов и привести к неточным выводам!


## Проверка качества данных в реальных условиях

> **Цель обучения:** К концу этого раздела вы сможете уверенно выявлять и исправлять распространенные проблемы качества данных, такие как несогласованные категориальные значения, аномальные числовые значения (выбросы) и дублирующиеся сущности с вариациями.

Хотя пропущенные значения и точные дубликаты являются распространенными проблемами, в реальных наборах данных часто встречаются более тонкие ошибки:

1. **Несогласованные категориальные значения**: Одна и та же категория записана по-разному (например, "USA", "U.S.A", "United States").
2. **Аномальные числовые значения**: Экстремальные выбросы, указывающие на ошибки ввода данных (например, возраст = 999).
3. **Почти дублирующиеся строки**: Записи, представляющие одну и ту же сущность с небольшими вариациями.

Давайте рассмотрим методы выявления и устранения этих проблем.


### Создание примера "грязного" набора данных

Сначала давайте создадим пример набора данных, содержащий типичные проблемы, с которыми мы часто сталкиваемся в реальных данных:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. Обнаружение несоответствий в категориальных значениях

Обратите внимание, что в столбце `country` есть несколько вариантов написания одних и тех же стран. Давайте выявим эти несоответствия:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### Стандартизация категориальных значений

Мы можем создать отображение для стандартизации этих значений. Простой подход — преобразовать значения в нижний регистр и создать словарь отображения:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**Альтернатива: использование нечеткого сопоставления**

Для более сложных случаев можно использовать нечеткое строковое сопоставление с библиотекой `rapidfuzz` для автоматического обнаружения похожих строк:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. Обнаружение аномальных числовых значений (выбросов)

Рассматривая столбец `age`, мы видим подозрительные значения, такие как 199 и -5. Давайте используем статистические методы для выявления этих выбросов.


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### Использование метода IQR (межквартильный размах)

Метод IQR — это надежный статистический подход для обнаружения выбросов, который менее чувствителен к экстремальным значениям:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### Использование метода Z-оценки

Метод Z-оценки определяет выбросы на основе стандартных отклонений от среднего значения:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### Работа с выбросами

После обнаружения выбросов их можно обработать несколькими способами:
1. **Удалить**: Удалить строки с выбросами (если это ошибки)
2. **Ограничить**: Заменить на граничные значения
3. **Заменить на NaN**: Рассматривать как пропущенные данные и использовать методы импутации
4. **Оставить**: Если это действительно допустимые экстремальные значения


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. Обнаружение почти одинаковых строк

Обратите внимание, что в нашем наборе данных есть несколько записей для "John Smith" с немного отличающимися значениями. Давайте определим возможные дубликаты на основе сходства имен.


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### Поиск почти дубликатов с помощью нечеткого сопоставления

Для более сложного обнаружения дубликатов можно использовать нечеткое сопоставление для поиска похожих имен:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### Работа с дубликатами

После выявления необходимо решить, как поступить с дубликатами:
1. **Сохранить первое вхождение**: Используйте `drop_duplicates(keep='first')`
2. **Сохранить последнее вхождение**: Используйте `drop_duplicates(keep='last')`
3. **Агрегировать информацию**: Объединить данные из повторяющихся строк
4. **Ручная проверка**: Отметить для проверки человеком


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### Резюме: Полный процесс очистки данных

Давайте соберем все вместе в единый процесс очистки данных:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 Задание

Теперь ваша очередь! Ниже приведена новая строка данных с несколькими проблемами качества. Можете ли вы:

1. Выявить все проблемы в этой строке
2. Написать код для исправления каждой проблемы
3. Добавить очищенную строку в набор данных

Вот проблемные данные:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### Основные выводы

1. **Несогласованные категории** часто встречаются в реальных данных. Всегда проверяйте уникальные значения и стандартизируйте их с помощью сопоставлений или нечеткого поиска совпадений.

2. **Выбросы** могут существенно повлиять на ваш анализ. Используйте знания предметной области в сочетании со статистическими методами (IQR, Z-оценка) для их обнаружения.

3. **Почти дубликаты** сложнее обнаружить, чем точные дубликаты. Рассмотрите возможность использования нечеткого поиска совпадений и нормализации данных (приведение к нижнему регистру, удаление пробелов) для их идентификации.

4. **Очистка данных — это итеративный процесс**. Возможно, вам придется применять несколько методов и пересматривать результаты, прежде чем завершить процесс очистки данных.

5. **Документируйте свои решения**. Фиксируйте, какие шаги по очистке данных вы применили и почему, так как это важно для воспроизводимости и прозрачности.

> **Лучший подход:** Всегда сохраняйте копию ваших исходных "грязных" данных. Никогда не перезаписывайте исходные файлы данных — создавайте очищенные версии с понятными именами, например, `data_cleaned.csv`.



---

**Отказ от ответственности**:  
Этот документ был переведен с использованием сервиса автоматического перевода [Co-op Translator](https://github.com/Azure/co-op-translator). Несмотря на наши усилия обеспечить точность, автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его родном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные интерпретации, возникающие в результате использования данного перевода.
