# Типы данных и пропущенные значения
Устраняются наиболее распространенные проблемы, препятствующие выполнению

# Вступление
В этом руководстве вы узнаете, как исследовать типы данных в рамках фрейма данных или серии. Вы также узнаете, как находить и заменять записи.

Чтобы начать выполнение упражнения по этому разделу, пожалуйста, нажмите здесь.

# Типы
Тип данных для столбца во фрейме данных или серии называется type.

Вы можете использовать свойство type для определения типа определенного столбца. Например, мы можем получить тип столбца price во фрейме данных reviews:

In [None]:
import pandas as pd
reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv", index_col=0)
pd.set_option('display.max_rows', 5)

In [None]:
reviews.price.dtype

В качестве альтернативы, свойство type возвращает тип каждого столбца во фрейме данных:

In [None]:
reviews.dtypes

Типы данных говорят нам кое-что о том, как pandas хранит данные внутри системы. float64 означает, что используется 64-разрядное число с плавающей запятой; int64 означает целое число аналогичного размера и так далее.

Одна из особенностей, которую следует иметь в виду (и которая здесь очень наглядно показана), заключается в том, что столбцы, полностью состоящие из строк, не имеют своего собственного типа; вместо этого им присваивается тип object.

Столбец одного типа можно преобразовать в другой везде, где такое преобразование имеет смысл, с помощью функции astype(). Например, мы можем преобразовать столбец points из существующего типа данных int64 в тип данных float64:

In [None]:
reviews.points.astype('float64')

Индекс фрейма данных или серии данных также имеет свой собственный тип:

In [None]:
reviews.index.dtype

Pandas также поддерживает более экзотические типы данных, такие как категориальные данные и данные временных рядов. Поскольку эти типы данных используются реже, мы не будем использовать их до более позднего раздела этого руководства.

# Отсутствующие данные
Записям, в которых отсутствуют значения, присваивается значение NaN, сокращенное от "Не число". По техническим причинам эти значения NaN всегда имеют тип float64 dtype.

Pandas предоставляет некоторые методы, специфичные для работы с отсутствующими данными. Чтобы выбрать записи NaN, вы можете использовать функцию pd.isnull() (или сопутствующую функцию pd.notnull()). Это предназначено для использования таким образом:

In [None]:
reviews[pd.isnull(reviews.country)]

Замена пропущенных значений - обычная операция. Pandas предлагает действительно удобный метод для решения этой проблемы: filina(). filina() предоставляет несколько различных стратегий для обработки таких данных. Например, мы можем просто заменить каждое значение NaN на "Неизвестное".:

In [None]:
reviews.region_2.fillna("Unknown")

Или мы могли бы заполнить каждое пропущенное значение первым ненулевым значением, которое появляется через некоторое время после данной записи в базе данных. Это называется стратегией обратной заливки.

В качестве альтернативы, у нас может быть ненулевое значение, которое мы хотели бы заменить. Например, предположим, что с момента публикации этого набора данных рецензент Керин О'Киф изменила свой хендл в Twitter с @kerinokeefe на @kerino. Один из способов отразить это в наборе данных - использовать метод replace():

In [None]:
reviews.taster_twitter_handle.replace("@kerinokeefe", "@kerino")

Здесь стоит упомянуть метод replace(), поскольку он удобен для замены отсутствующих данных, которым присваивается какое-либо контрольное значение в наборе данных: например, "Неизвестно", "Нераскрыто", "Недопустимо" и так далее.

# Ваш ход¶
Если вы еще не приступали к выполнению упражнения, вы можете начать здесь.