# Типы данных и пропущенные значения
Одним из важнейших элементов информации DataFrame является тип данных каждого столбца. Каждый столбец pandas  хранит только один тип данных. Для столбцов DataFrame доступно большое количество типов данных. Эта глава рассматривает только наиболее распространенные типы данных и предоставляет краткое описание каждого. Для получения более подробной информации о каждом типе данных см. главу "Изменение типов данных" в разделе "Основные команды"

# 3.1 Распространенные типы данных
Следующие типы данных являются наиболее распространенными в DataFrame.  
 - **boolean** – принимает только два возможных значения: **True** или **False**
 - **integer** – целые числа без десятичных знаков
 - **float** – числа с десятичными знаками
 - **object** – обычные строки, но могут содержать другие объекты
 - **datetime** – конкретные дата и время с наносекудной точностью  
   
### Подробнее о типе данных object  
Тип данных object является самым запутанным и заслуживает детального разбора. Каждое значения столбца данного типа  может быть любым объектом языка Python. Столбец типа object может содержать данные слудующих типов: integer, float, list, dict. Все что угодно может быть записано в такой столбец. Но в большинстве случаев столбцы типа object хранят переменные только типа string. Когда вы видите столбец, хранящий переменные типа object, то вы должны понимать, что значения должны быть типа string. К сожалению, библиотека pandas не предоставляет пользователям специальный тип для строковых переменных. Поэтому, если у вас столбцы содержат строковые переменые, то для них типа данных - object.
  
### Почему важно знать тип данных
Очень важно знать тип данных каждого столбца Вашего датафрейма. Основным поводом для этого является тот факт, что каждое значение столбца имеет один тип. Например, если Вы выберите один столбец, относящийся к типу integer, то гарантируется, что его значения будут целочисленными. Понимание типа данных столбца является одним из базовых шагов в исследовании Вашего датафрейма.
  
### Исключение для типа данных object
К сожалению, тип данных object является исключением по отношению к информации предыдущего пункта. Хотя столбцы типа object в основном содержат переменные типа string, но это не гарантирует того, что все столбцы object содержат переменные типа string. Точно так же Вам могут встретиться данные типа integer, list или даже другой датафрейм в качестве значения в том же столбце объекта.  
  
# 3.2 Пропущенные значения  
**NaN, None, NaT**  
Pandas по-разному отображает пропущенные значения в зависимости от типа данных столбца. 
 - **NaN** – Означает "не число" и относится к вещественному типу данных
 - **None** – Литеральный объект Python None и находится только в столбцах типа object  
 - **NaT** – Означает "не время" и применяется для пропущенных значений в столбцах типа datetime  
  
### Пропущенные значения для каждого типа данных  
 - **boolean and integer** – Не существует представления отсутствующих значений для логических и целочисленных столбцов. С данным ограничением, к сожалению, приходится мириться.
 - **float** – Испольнуется **NaN** при пропуске значения
 - **datetime** – Используется **NaT** при пропуске значения  
 - **object** – Может содержать различные объекты Python, поэтому могут появиться все три варианта представления пропущенных значений, но обычно встречаются значения **NaN** или **None**  
  
### Пропущенные значения в столбцах логического и целочисленного типа  
Известно, что столбец, являющийся логическим или целочисленным, гарантирует, что отсутствуют пропущенные значения, так как pandas не допускает этого. Например, если вы захотите поместить пропущенное значение в столбец логического или целочисленного типа, то pandas преобразует весь столбец в вещественный тип. Это происходит, потому что только столбец вещественного типа может размещать пропущенные значения. Когда логические переменные преобразуются в вещественные, то **False** заменяется на 0, а **True** заменяется на 1.  

# Поиск типа данных каждого столбца
Атрибут (не метод) датафрейма **dtypes** возвращает тип данных каждого столбца и является одной из первых запущенных команд после прочтения ваших данных. Начнем с использования функции **read_csv** для чтения набора данных bikes.

In [1]:
import pandas as pd
bikes = pd.read_csv('../data/bikes.csv')
bikes.head()

Unnamed: 0,trip_id,usertype,gender,starttime,stoptime,tripduration,from_station_name,latitude_start,longitude_start,dpcapacity_start,to_station_name,latitude_end,longitude_end,dpcapacity_end,temperature,visibility,wind_speed,precipitation,events
0,7147,Subscriber,Male,2013-06-28 19:01:00,2013-06-28 19:17:00,993,Lake Shore Dr & Monroe St,41.88105,-87.61697,11.0,Michigan Ave & Oak St,41.90096,-87.623777,15.0,73.9,10.0,12.7,-9999.0,mostlycloudy
1,7524,Subscriber,Male,2013-06-28 22:53:00,2013-06-28 23:03:00,623,Clinton St & Washington Blvd,41.88338,-87.64117,31.0,Wells St & Walton St,41.89993,-87.63443,19.0,69.1,10.0,6.9,-9999.0,partlycloudy
2,10927,Subscriber,Male,2013-06-30 14:43:00,2013-06-30 15:01:00,1040,Sheffield Ave & Kingsbury St,41.909592,-87.653497,15.0,Dearborn St & Monroe St,41.88132,-87.629521,23.0,73.0,10.0,16.1,-9999.0,mostlycloudy
3,12907,Subscriber,Male,2013-07-01 10:05:00,2013-07-01 10:16:00,667,Carpenter St & Huron St,41.894556,-87.653449,19.0,Clark St & Randolph St,41.884576,-87.63189,31.0,72.0,10.0,16.1,-9999.0,mostlycloudy
4,13168,Subscriber,Male,2013-07-01 11:16:00,2013-07-01 11:18:00,130,Damen Ave & Pierce Ave,41.909396,-87.677692,19.0,Damen Ave & Pierce Ave,41.909396,-87.677692,19.0,73.0,10.0,17.3,-9999.0,partlycloudy


Теперь выведем типы данных каждого столбца нашего датафрейма. Выведенный объект явлется Series со значениями – тип данных; индексом – наименование столбца.

In [2]:
bikes.dtypes

trip_id                int64
usertype              object
gender                object
starttime             object
stoptime              object
tripduration           int64
from_station_name     object
latitude_start       float64
longitude_start      float64
dpcapacity_start     float64
to_station_name       object
latitude_end         float64
longitude_end        float64
dpcapacity_end       float64
temperature          float64
visibility           float64
wind_speed           float64
precipitation        float64
events                object
dtype: object

### Почему столбцы starttime и stoptime относятся к типу данных object?
Из только что выведенного на экран датафрейма можно заметить, что пара столбцов **starttime** и **stoptime** содержат данные времени. Но применение атрибута **dtypes** показывает нам, что эти столбцы относятся к типу **object** (то есть время записано в виде строки).  
  
Функция **read_csv** требует, чтобы вы предварительно предоставили параметру **parse_dates** список столбцов, которые относятся к **datetime**, в противном случае они будут прочитаны как строки. Давайте заново прочтем наши данные с использованием параметра **parse_dates**.

In [3]:
bikes = pd.read_csv('../data/bikes.csv', parse_dates=['starttime', 'stoptime'])
bikes.dtypes

trip_id                       int64
usertype                     object
gender                       object
starttime            datetime64[ns]
stoptime             datetime64[ns]
tripduration                  int64
from_station_name            object
latitude_start              float64
longitude_start             float64
dpcapacity_start            float64
to_station_name              object
latitude_end                float64
longitude_end               float64
dpcapacity_end              float64
temperature                 float64
visibility                  float64
wind_speed                  float64
precipitation               float64
events                       object
dtype: object

### Что означает число 64 в конце наименования типа данных?
Логические, целочисленные, вещественные и datetime типы данных используют конкретный объем памяти для каждого значения. Память измеряется в битах. Количество бит, используемых для каждого значения, - это число, приписанное в конце названия типа данных. Например, целочисленные значения могут быть представлены в виде 8, 16, 32, 64 бит, тем временем вещественные значения могут быть представлены в виде 16, 32, 64, 128 бит. Тип столбца из 128-ми битных вещественных чисел будет представлен как **float128**.  
  
Технически **float128** не эквивалентен типу данных **float64**, но, как правило, вам не придется беспокоиться об этом различии, поскольку операции между различными столбцами вещественных чисел будут одинаковыми.  
  
Логические переменные всегда хранятся в виде 8 бит. Но не задан битовый размер для значений типа object, поэтому каждое значение может быть любого размера.

# 3.4 Получение большего количества метаданных
Про **метаданные** можно сказать, что это данные о данных. Примером метаданных является тип данных каждого столбца. Количество строк и столбцов является еще одним элементом метаданных. Мы вычисляем это с помощью атрибута **shape**, который возвращает кортеж целых чисел. 

In [4]:
bikes.shape

(50089, 19)

### Вывод общего количества значений с помощью атрибута size
Атрибут **size** выводит общее количество значений (число столбцов умноженное на количество строк) датафрейма.

In [5]:
bikes.size

951691

### Большее количество информации можно получить с помощью метода **info**
Метод датафрейма **info** предоставляет аналогичный вывод **dtypes**, а также показывает количество непропущенных  значений в каждом столбце вместе со следующей дополнительной информацией: 
 - Тип объекта (всегда DataFrame)
 - Тип индекса и количество строк
 - Количество столбцов
 - Типы данных каждого столбца и количество непропущенных значений (также называемых ненулевыми)
 - Количество столбцов различных типов данных
 - Общий объем импользуемой памяти

In [6]:
bikes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50089 entries, 0 to 50088
Data columns (total 19 columns):
trip_id              50089 non-null int64
usertype             50089 non-null object
gender               50089 non-null object
starttime            50089 non-null datetime64[ns]
stoptime             50089 non-null datetime64[ns]
tripduration         50089 non-null int64
from_station_name    50089 non-null object
latitude_start       50083 non-null float64
longitude_start      50083 non-null float64
dpcapacity_start     50083 non-null float64
to_station_name      50089 non-null object
latitude_end         50077 non-null float64
longitude_end        50077 non-null float64
dpcapacity_end       50077 non-null float64
temperature          50089 non-null float64
visibility           50089 non-null float64
wind_speed           50089 non-null float64
precipitation        50089 non-null float64
events               50089 non-null object
dtypes: datetime64[ns](2), float64(10), int64(2), 

# 3.5 Больше о типах данных
В pandas доступно еще несколько типов данных. Более подробное и формальное обсуждение всех типов данных представлено в главе **Изменение типов данных** из части **Основные команды**

# 3.6 Задания
Используйте датафрейм **bikes** для дальнейших заданий:

### Упражнение 1
Какого типа будет выведен объект после применения атрибута **dtypes**?

In [7]:
type(bikes.dtypes)

pandas.core.series.Series

### Упражнение 2
Какого типа будет выведен объект после применения атрибута **shape**?

In [8]:
type(bikes.shape)

tuple

### Упражнение 3
Какого типа будет выведен объект после применения метода **info**?

In [9]:
type(bikes.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50089 entries, 0 to 50088
Data columns (total 19 columns):
trip_id              50089 non-null int64
usertype             50089 non-null object
gender               50089 non-null object
starttime            50089 non-null datetime64[ns]
stoptime             50089 non-null datetime64[ns]
tripduration         50089 non-null int64
from_station_name    50089 non-null object
latitude_start       50083 non-null float64
longitude_start      50083 non-null float64
dpcapacity_start     50083 non-null float64
to_station_name      50089 non-null object
latitude_end         50077 non-null float64
longitude_end        50077 non-null float64
dpcapacity_end       50077 non-null float64
temperature          50089 non-null float64
visibility           50089 non-null float64
wind_speed           50089 non-null float64
precipitation        50089 non-null float64
events               50089 non-null object
dtypes: datetime64[ns](2), float64(10), int64(2), 

NoneType

### Упражнение 4
   Если в датафрейме есть столбцы типа object, то метод **info** некорректно выводит количество используемой памяти. Прочтите докстринг и выведите настоящий объем используемой памяти

In [10]:
bikes.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50089 entries, 0 to 50088
Data columns (total 19 columns):
trip_id              50089 non-null int64
usertype             50089 non-null object
gender               50089 non-null object
starttime            50089 non-null datetime64[ns]
stoptime             50089 non-null datetime64[ns]
tripduration         50089 non-null int64
from_station_name    50089 non-null object
latitude_start       50083 non-null float64
longitude_start      50083 non-null float64
dpcapacity_start     50083 non-null float64
to_station_name      50089 non-null object
latitude_end         50077 non-null float64
longitude_end        50077 non-null float64
dpcapacity_end       50077 non-null float64
temperature          50089 non-null float64
visibility           50089 non-null float64
wind_speed           50089 non-null float64
precipitation        50089 non-null float64
events               50089 non-null object
dtypes: datetime64[ns](2), float64(10), int64(2), 