# 1. Введение

✍ Как известно, специалист в области Data Science занимается построением моделей, которые помогают в принятии верных решений, — например, построением нейронной сети, которая по медицинским данным о пациенте способна предсказать развитие у него онкологии, или модели, которая будет прогнозировать цены акций на бирже.

Однако не все знают, что перед тем как построить свою модель, дата-сайентист проходит через огромный этап под названием Предобработка данных и их подготовка к анализу и подаче в модель.

Под предобработкой понимаются следующие этапы работы с данными:

очистка данных от аномальных значений (выбросов);
работа с пропущенными значениями;
удаление признаков, которые не несут полезной информации;
создание новых признаков;
преобразование признаков и приведение данных к необходимому для анализа и модели формату.
Этап подготовки данных является самым трудоёмким и времязатратным при работе с любой бизнес-задачей. В среднем он занимает около 60-70% общей работы специалиста!

?
Почему этот этап так важен?

Ответ на этот вопрос кроется в распространённой среди специалистов поговорке «Мусор на входе — мусор на выходе», что означает следующее: если данные плохо подготовлены, то и результат прогнозирования даже самой мощной в мире нейронной сети будет сильно разниться с действительностью.

Feature Engineering

Одним из этапов подготовки данных является удаление, преобразование и создание столбцов таблицы.

?
Зачем нужны такие манипуляции? 

Оказывается, что при правильных преобразованиях таблицы можно добиваться лучшего качества прогноза, а также извлекать новую информацию из данных и интерпретировать её для заказчика. 

Такой подход часто называют Feature Engineering, или генерацией признаков (фичей).

→ На самом деле, в этом термине заложен более глубокий смысл, ведь Feature Engineering — это целая методология получения более качественных и более производительных моделей за счёт манипуляций над данными. Специалисты часто называют данную методологию настоящим искусством, которое может быть освоено лишь с годами практики решения задач, ведь необходимо быть экспертом в исследуемой предметной области, чтобы понимать, как признаки влияют друг на друга и какое преобразование стоит к ним применить. 

В данном модуле мы сделаем первые шаги в изучении темы подготовки данных и рассмотрим базовые подходы и методы магии под кодовым названием Feature Engineering.

Цели данного модуля:

Научиться создавать новые признаки в данных с помощью базовых операций со столбцами.
Освоить методы работы с датой и временем в Pandas.
Научиться применять собственные функции для преобразования столбцов и создания новых признаков.
Познакомиться с новым типом данных category и научиться использовать его при работе с данными.
Вспомним, с какими данными мы работаем

В этом модуле мы продолжим работу с датасетом о продажах объектов недвижимости в Мельбурне и его пригородах. Напомним, что в прошлый раз мы совершили несколько преобразований типов столбцов в нашей изначальной таблице, когда исследовали её структуру.

Скачать обновлённый набор данных в формате csv (разделитель — ',') можно здесь (csv-файл находится в zip-архиве — распакуйте архив, прежде чем продолжать работу!)

Чтобы освежить в памяти информацию о столбцах таблицы, вы можете вернуться сюда.

Импортируем Pandas, прочитаем наш csv-файл в DataFrame и выведем первые пять строк таблицы, чтобы убедиться в том, что файл прочитан верно.

In [186]:
import pandas as pd

melb_data = pd.read_csv('data/melb_data_ps.csv', sep=',')
melb_data.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019,"-37.8072, 144.9941"


Данные представляют собой таблицу, в которой содержится 23 столбца:

index — номер строки
Suburb — наименование пригорода
Address — адрес
Rooms — количество комнат в помещении
Type — тип здания (h — дом, коттедж, вилла, терраса; u — блочный, дуплексный дом; t — таунхаус)
Price — цена помещения
Method — метод продажи 
SellerG — риэлторская компания
Date — дата продажи (в формате день/месяц/год)
Distance — расстояния до объекта от центра Мельбурна 
Postcode — почтовый индекс
Bedroom — количество спален
Bathroom — количество ванных комнат
Car — количество парковочных мест
Landsize — площадь прилегающей территории
BuildingArea — площадь здания
YearBuilt — год постройки
CouncilArea — региональное управление
Lattitude — географическая широта
Longitude — географическая долгота
Regionname — наименование района Мельбурна
Propertycount — количество объектов недвижимости в районе
Coordinates — широта и долгота, объединённые в кортеж


# 2. Базовые операции со столбцами DataFrame

### Создание копии таблицы

На протяжении всего модуля мы будем производить множество тренировочных преобразований с нашей таблицей. Поэтому, чтобы не переопределять переменную melb_data и тем самым не повредить первоначальный DataFrame, создадим копию melb_df с помощью метода copy():

In [187]:
melb_df = melb_data.copy()
melb_df.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019,"-37.8072, 144.9941"


На протяжении всего модуля наши данные будут множество раз меняться (будут добавляться и удаляться столбцы), поэтому, чтобы у вас не было расхождений с ответами в заданиях и в уроке, советуем следить за изменениями на протяжении модуля и фиксировать их у себя в ноутбуке.

⭐ Лайфхак. Старайтесь всегда оставлять переменную с первоначальным DataFrame неизменной, создавайте копию исходной таблицы и совершайте преобразования на ней. Это оградит вас от ошибок, которые можно совершить при подготовке данных. Например, если вы понимаете, что преобразование оказалось неудачным, достаточно будет лишь запустить ячейку, в которой вы производите копирование, а не читать таблицу заново. Особенно критичным это может быть, когда количество строк в таблице исчисляется миллионами и её чтение занимает до нескольких минут.


### Удаление столбцов

→ Среди списка базовых операций над столбцами в Pandas важное место занимает возможность удаления столбцов из таблицы. Это может быть полезно, например, когда в данных есть признаки, которые не несут полезной информации.

Представим, что мы хотим построить модель, которая бы предсказывала цену объекта недвижимости в Мельбурне. Даже не будучи профессиональными риелторами, мы можем легко сделать следующие выводы:

цена объекта никак не зависит от его порядкового номера (столбец index);
признак, описывающий долготу и широту в виде кортежа Coordinates, дублирует информацию, представленную в столбцах Longitude и Lattitude.
За удаление строк и столбцов в таблице отвечает метод drop().


Основные параметры метода drop()

labels — порядковые номера или имена столбцов, которые подлежат удалению; если их несколько, то передаётся список;
axis — ось совершения операции, axis=0 — удаляются строки, axis=1 — удаляются столбцы;
inplace — если параметр выставлен на True, происходит замена изначального DataFrame на новый, при этом метод ничего не возвращает; если на False — возвращается копия DataFrame, из которой удалены указанные строки (столбцы), при этом первоначальный DataFrame не изменяется; по умолчанию параметр равен False.

In [188]:
melb_df = melb_df.drop(['index', 'Coordinates'], axis=1)
melb_df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067,...,1,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067,...,1,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067,...,2,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067,...,2,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067,...,1,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019


Альтернативный вариант:

melb_df.drop(['index','Coordinates'],axis=1,inplace=True)

melb_df.head()

### Математические операции со столбцами

→ Pandas поддерживает базовые математические операции между столбцами: столбцы можно складывать, вычитать, умножать, делить между собой, а также возводить в степень. С помощью таких операций мы можем создавать новые признаки или производить преобразования над старыми.

Причём все операции со столбцами совершаются поэлементно, очень быстро, а самое главное — без написания циклов.

Такая производительность достигается за счёт того, что все математические операции со столбцами выполняются на языке программирования С, что значительно повышает скорость вычислений по сравнению с перебором элементов в цикле. 

Например, давайте создадим переменную total_rooms, в которой будем хранить общее количество комнат в здании. Для этого выполним сложение столбцов с количеством комнат, ванн и спален:

In [189]:
total_rooms = melb_df['Rooms'] + melb_df['Bedroom'] + melb_df['Bathroom']
display(total_rooms)

0         5
1         5
2         8
3         8
4         8
         ..
13575    10
13576     8
13577     8
13578     9
13579     9
Length: 13580, dtype: int64

А теперь введём признак MeanRoomsArea, который соответствует средней площади одной комнаты для каждого объекта. Для этого разделим площадь здания на полученное ранее общее количество комнат:

In [190]:
melb_df['MeanRoomsArea'] = melb_df['BuildingArea'] / total_rooms
display(melb_df['MeanRoomsArea'])

0        25.200000
1        15.800000
2        18.750000
3        15.750000
4        17.750000
           ...    
13575    12.600000
13576    16.625000
13577    15.750000
13578    17.444444
13579    12.444444
Name: MeanRoomsArea, Length: 13580, dtype: float64

Можно ввести ещё один интересный признак — AreaRatio, коэффициент соотношения площади здания (BuildingArea) и площади участка (Landsize). Для этого разницу двух площадей поделим на их сумму:

In [191]:
diff_area = melb_df['BuildingArea'] - melb_df['Landsize']
sum_area = melb_df['BuildingArea'] + melb_df['Landsize']
melb_df['AreaRatio'] = diff_area/sum_area
display(melb_df['AreaRatio'])

0       -0.231707
1       -0.327660
2        0.056338
3        0.145455
4        0.083969
           ...   
13575   -0.676093
13576   -0.429185
13577   -0.551601
13578   -0.693060
13579   -0.527426
Name: AreaRatio, Length: 13580, dtype: float64

Что показывает такой коэффициент? Если присмотреться, можно увидеть, что AreaRatio лежит в интервале от -1 до 1.

Рассмотрим три случая, чтобы понять его значение:

Если рассматриваемые площади равны, то числитель дроби зануляется и коэффициент тоже равен 0.
Если одна из площадей начинает доминировать над другой, то коэффициент начинает расти в отрицательную сторону, если площадь участка больше площади здания, и в положительную сторону, если наоборот.
Наконец, в предельном случае, если площадь здания равна 0, то числитель дроби равен знаменателю со знаком минус, а коэффициент равен -1, а если площадь участка равна 0, то числитель дроби равен знаменателю со знаком плюс, а коэффициент равен 1.
Таким образом, значение в столбце AreaRatio служит своеобразным указателем соотношения площадей объекта недвижимости. Для пустырей — участков без строений — он будет равен -1, для домов без территории — 1, во всех остальных случаях мы можем увидеть, какая площадь больше — здания или участка.

 Мы рассмотрели базовые операции со столбцами.  Даже сейчас, не имея представления о специальных математических преобразованиях данных, мы можем создавать интересные признаки и извлекать большее количество информации из таблицы.

Подумайте, какие ещё признаки можно ввести в нашу таблицу с помощью простых математических операций.

Предлагаем вам решить несколько задач, чтобы закрепить пройденный материал ↓

#### Задание 2.1
1 point possible (graded)
Среди приведённых ниже вариантов кода выберите тот, который найдёт квадрат цены объекта недвижимости за наименьшее время и не выдаст ошибку.
Результат должен быть занесён в переменную price_square и представлять собой объект Series:

In [192]:
import time

# фиксируем время старта работы кода
start = time.time()

# код, время работы которого измеряем
price_square = melb_df['Price'] **2
#display(price_square)

#фиксируем время окончания работы кода
finish = time.time()

# вычитаем время старта из времени окончания и получаем результат в миллисекундах
res = finish - start
res_msec = res * 1000
print('Время работы в миллисекундах: ', res_msec)

Время работы в миллисекундах:  0.4680156707763672


In [193]:
# import math

# # фиксируем время старта работы кода
# start = time.time()

# # код, время работы которого измеряем
# price_square = math.pow(melb_df['Price'], 2) # TypeError: cannot convert the series to <class 'float'>
# display(price_square)

# #фиксируем время окончания работы кода
# finish = time.time()

# # вычитаем время старта из времени окончания и получаем результат в миллисекундах
# res = finish - start
# res_msec = res * 1000
# print('Время работы в миллисекундах: ', res_msec)

### Задание 2.2
1 point possible (graded)
Задан DataFrame customer_df, содержащий столбцы:
cust_id — идентификатор клиента;
cust_age — возраст клиента (точкой отсчёта возраста считается 2021 год);
cust_sale — персональная скидка клиента;
cust_year_birth — год рождения клиента;
cust_order — сумма заказа клиента.

In [194]:
customer_df = pd.DataFrame({
        'number': [0, 1, 2, 3, 4],
        'cust_id': [128, 1201, 9832, 4392, 7472],
        'cust_age': [13, 21, 19, 21, 60],
        'cust_sale': [0, 0, 0.2, 0.15, 0.3],
        'cust_year_birth': [2008, 2000, 2002, 2000, 1961],
        'cust_order': [1400, 14142, 900, 1240, 8430]
    })

Какие столбцы не несут полезной информации/дублируют информацию из других столбцов и поэтому могут быть удалены?

В качестве ответа запишите названия этих столбцов по порядку их следования в коде, через запятую, без пробелов и кавычек.


Ответ: number,cust_age

### Задание 2.3 (External resource)
(1.0 points possible)
Напишите функцию delete_columns(df, col=[]), которая удаляет столбцы из DataFrame и возвращает новую таблицу. Если одного из указанных столбцов не существует в таблице, то функция должна возвращать None.

Пример DataFrame:

customer_df = pd.DataFrame({
            'number': [0, 1, 2, 3, 4],
            'cust_id': [128, 1201, 9832, 4392, 7472],
            'cust_age': [13, 21, 19, 21, 60],
            'cust_sale': [0, 0, 0.2, 0.15, 0.3],
            'cust_year_birth': [2008, 2000, 2002, 2000, 1961],
            'cust_order': [1400, 14142, 900, 1240, 8430]
        })

Примечание. Не забудьте импортировать библиотеки.



In [195]:
import pandas as pd

customer_df = pd.DataFrame({
            'number': [0, 1, 2, 3, 4],
            'cust_id': [128, 1201, 9832, 4392, 7472],
            'cust_age': [13, 21, 19, 21, 60],
            'cust_sale': [0, 0, 0.2, 0.15, 0.3],
            'cust_year_birth': [2008, 2000, 2002, 2000, 1961],
            'cust_order': [1400, 14142, 900, 1240, 8430]
        })

def delete_columns(df, col=[]):
    # Для проверки наличия заданных столбцов в DataFrame можно использовать метод all() в комбинации с проверкой на существование каждого столбца.
    columns_exist = all(column in df.columns for column in col)
    # Используем генератор списка в комбинации с all(), чтобы проверить, присутствуют ли все заданные столбцы в DataFrame.
    # Если хотя бы одного столбца из списка нет в DataFrame, columns_exist будет False. Если все столбцы присутствуют, columns_exist будет True.
    if columns_exist: 
        return df.drop(col,axis=1)
    else:
        return None
    
customer_df_new = delete_columns(customer_df, col=['number', 'cust_age'])
customer_df_new.head()

Unnamed: 0,cust_id,cust_sale,cust_year_birth,cust_order
0,128,0.0,2008,1400
1,1201,0.0,2000,14142
2,9832,0.2,2002,900
3,4392,0.15,2000,1240
4,7472,0.3,1961,8430


### Задание 2.4
1 point possible (graded)
Задан DataFrame countries_df, содержащий следующие столбцы: название страны, население (population) в миллионах человек и площадь страны (area) в квадратных километрах.

countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'area': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

Для каждой страны рассчитайте плотность населения (количество человек на квадратный километр).

Затем по полученным данным рассчитайте среднее по плотностям населения в указанных странах. Ответ округлите до сотых.

Плотность населения рассчитывается как количество человек, проживающих на территории отдельной страны, делённое на площадь этой страны. Обратите внимание, что население в таблице представлено в миллионах.



In [196]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'area': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

countries_df['population_density']  = countries_df['population'] / countries_df['area']*1000000


display(countries_df['population_density'])
display(round(countries_df['population_density'].mean(),2))

0    421.976671
1      3.810842
2     32.796595
3      8.539467
4     75.377550
5     45.761079
6      6.253436
Name: population_density, dtype: float64

np.float64(84.93)

# 3. Работа с датами в DataFrame

Признаки даты и времени

→ При генерации новых признаков очень ценным может стать временной признак (признак даты и времени). Это особый тип данных, с которым приходится сталкиваться в большинстве задач по обработке данных. В реальных задачах часто нужно сравнивать даты, выделять день недели или час, вычислять различные интервалы между датами. 

Например, в наших данных об объектах недвижимости есть признак даты продажи — столбец Date. Из данного признака можно выделить массу полезной информации, например год, месяц или день недели продажи имущества. На рынке недвижимости, как известно, присутствует сезонность: есть периоды, когда недвижимость покупается чаще, а есть интервалы времени, когда рынок претерпевает застой, поэтому было бы неплохо учитывать эту сезонность при анализе рынка.

Формат datetime

В жизни мы видим даты в привычных для нас форматах. Например, запись 01.12.18 обычно означает 1 декабря 2018 года. Однако для жителей США эта дата окажется 12 января 2018 года, так как для них привычнее сначала указывать номер месяца, а затем день. 

Многие выгрузки из систем и баз данных имеют свой служебный формат. Например, формат времени из разных систем может отличаться:

2018-11-09 15:45:21;
11/09/2018 3:45:20 PM;
2018-11-09T15:45:21.2984.
Для всех этих случаев необходимо задавать формат распознавания дат и уметь сравнивать их между собой. Для этого был создан единый способ обозначения даты и времени. 

Таким форматом в Pandas является формат datetime, который записывается как YYYY-MM-DD HH: MM: SS, то есть составляющие времени указываются в следующем порядке: год, месяц, день, час, минута, секунда.

В наших данных дата записана в виде DD/MM/YYYY, например 3/12/2017. Посмотрим на это:

In [197]:
display(melb_df['Date'])

0         3/12/2016
1         4/02/2016
2         4/03/2017
3         4/03/2017
4         4/06/2016
            ...    
13575    26/08/2017
13576    26/08/2017
13577    26/08/2017
13578    26/08/2017
13579    26/08/2017
Name: Date, Length: 13580, dtype: object

Для того чтобы преобразовывать столбцы с датами, записанными в распространённых форматах, в формат datetime, можно воспользоваться функцией pandas.to_datetime(). В нашем случае в функции нужно указать параметр dayfirst=True, который будет обозначать, что в первоначальном признаке первым идет день. Преобразуем столбец Date в формат datetime, передав его в эту функцию:

In [198]:
melb_df['Date'] = pd.to_datetime(melb_df['Date'], dayfirst=True)
display(melb_df['Date'])

0       2016-12-03
1       2016-02-04
2       2017-03-04
3       2017-03-04
4       2016-06-04
           ...    
13575   2017-08-26
13576   2017-08-26
13577   2017-08-26
13578   2017-08-26
13579   2017-08-26
Name: Date, Length: 13580, dtype: datetime64[ns]

В результате мы переопределяем признак Date в формат datetime. При этом так как в изначальном варианте время не было указано, то и после преобразования оно опускается.

Стоит обратить внимание, что изменился тип данных для столбца Date, теперь его тип — datetime64. Рассмотрим несколько возможностей этого типа данных.

### Выделение атрибутов datetime

Тип данных datetime позволяет с помощью специального аксессора dt выделять составляющие времени из каждого элемента столбца, такие как:

date — дата;
year, month, day — год, месяц, день;
time — время;
hour, minute, second — час, минута, секунда;
dayofweek — номер дня недели, от 0 до 6, где 0 — понедельник, 6 — воскресенье;
day_name — название дня недели;
dayofyear — порядковый день года;
quarter — квартал (интервал в три месяца).

Аксессор — это атрибут столбца, хранящий переменные, которые были строковым представлением времени, а затем были изменены с помощью pd.to_datetime().

Обратите внимание, что вы не сможете обратиться к аксессору, если ваш столбец не приведён к типу datetime.

С использованием dt можно подробнее ознакомиться здесь.

Например, обратившись по атрибуту dt.year в столбце Date, мы можем «достать» год продажи и понять, за какой интервал времени (в годах) представлены наши данные, а также на какой год приходится наибольшее число продаж:

In [199]:
years_sold = melb_df['Date'].dt.year
print(years_sold)
print('Min year sold:', years_sold.min())
print('Max year sold:', years_sold.max())
print('Mode year sold:', years_sold.mode()[0])
print('Mode year sold:', years_sold.mode())

0        2016
1        2016
2        2017
3        2017
4        2016
         ... 
13575    2017
13576    2017
13577    2017
13578    2017
13579    2017
Name: Date, Length: 13580, dtype: int32
Min year sold: 2016
Max year sold: 2017
Mode year sold: 2017
Mode year sold: 0    2017
Name: Date, dtype: int32


В результате обращения к атрибуту datetime melb_df['Date'].dt.year мы получаем объект Series, в котором в качестве значений выступают годы продажи объектов недвижимости. Мы можем занести результат в переменную year_sold и далее работать с ней как с обычным столбцом Series — вычислять максимум, минимум и модальное значение.

Из результатов видно, что данные представлены за интервал с 2016 по 2017 год и наибольшее количество объектов было продано в 2017 году.

Примечание. Так как модальных значений в столбце может быть несколько, метод mode() возвращает объект Series, даже если мода в данных только одна. Чтобы сохранить стилистику вывода информации о годе продажи и выводить только число, а не Series, мы обращаемся к результату работы метода mode() по индексу 0.

Теперь попробуем понять, на какие месяцы приходится пик продаж объектов недвижимости. Для этого выделим атрибут dt.month и на этот раз занесём результат в столбец MonthSale, а затем найдём относительную частоту продаж для каждого месяца от общего количества продаж — для этого используем метод value_counts() с параметром normalize (вывод в долях):

In [200]:
melb_df['MonthSale'] = melb_df['Date'].dt.month
melb_df['MonthSale'].value_counts(normalize=True)

MonthSale
5     0.149411
7     0.145950
9     0.135862
6     0.134757
8     0.114138
11    0.082032
4     0.069882
3     0.049926
12    0.044698
10    0.040574
2     0.032622
1     0.000147
Name: proportion, dtype: float64

Из результатов становится ясно, что наибольшее количество продаж недвижимости приходится на май, июль и сентябрь (пятый, седьмой и девятый месяцы соответственно). Месяцами застоя при этом являются месяцы — октябрь, февраль и январь (десятый, второй и первый месяцы соответственно).

### Работа с интервалами

Часто бывает такая ситуация, что необходимо вычислять интервалы между двумя временными промежутками. Например, можно вычислить, сколько дней прошло с 1 января 2016 года до момента продажи объекта. Для этого можно просто найти разницу между датами продаж и заявленной датой, представленной в формате datetime:

In [201]:
delta_days = melb_df['Date'] - pd.to_datetime('2016-01-01') 
display(delta_days)

0       337 days
1        34 days
2       428 days
3       428 days
4       155 days
          ...   
13575   603 days
13576   603 days
13577   603 days
13578   603 days
13579   603 days
Name: Date, Length: 13580, dtype: timedelta64[ns]

В результате мы получаем Series, элементами которой является количество дней, которое прошло с 1 января 2016 года. Обратите внимание, что данные такого формата относятся к типу timedelta.

Чтобы превратить количество дней из формата интервала в формат целого числа дней, можно воспользоваться аксессором dt для формата timedelta и извлечь из него атрибут days:

In [202]:
display(delta_days.dt.days)

0        337
1         34
2        428
3        428
4        155
        ... 
13575    603
13576    603
13577    603
13578    603
13579    603
Name: Date, Length: 13580, dtype: int64

Рассмотрим другой пример. Давайте создадим признак возраста объекта недвижимости в годах на момент продажи. Для этого выделим из столбца с датой продажи год и вычтем из него год постройки здания. Результат оформим в виде столбца AgeBuilding:

In [203]:
melb_df['AgeBuilding'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
display(melb_df['AgeBuilding'])

0         46
1        116
2        117
3         47
4          2
        ... 
13575     36
13576     22
13577     20
13578     97
13579     97
Name: AgeBuilding, Length: 13580, dtype: int64

Примечание. Обратите внимание, что, так как года кодируются целым числом, в результате мы тоже получаем целочисленный столбец — тип int64 (а не timedelta).

На самом деле столбец AgeBuilding дублирует информацию столбца YearBuilt, так как, зная год постройки здания, мы автоматически знаем его возраст. Такие признаки не стоит оставлять вместе, поэтому оставим возраст здания, так как он является более наглядным, а год постройки удалим из таблицы:

melb_df = melb_df.drop('YearBuilt', axis=1)

In [204]:
melb_df = melb_df.drop('YearBuilt', axis=1)

✍ Мы рассмотрели основные концепции работы с временными признаками в DataFrame.

Временные признаки часто становятся важной частью анализа данных и построения моделей, особенно когда тематика связана со сферой, в которой присутствует непостоянство во времени (зависимость от месяца, дня недели, времени суток), например сфера продаж и услуг. Важно уметь работать с такими признаками, чтобы извлекать из представленных данных максимум полезной информации и строить качественные прогнозы.

А теперь предлагаем вам закрепить пройденный материал ↓

### Задание 3.1
1 point possible (graded)
Выберите даты, представленные в формате datetime:
A 28-12-2015 15:13:16
B 2019-28-09 17:13:00
C 2020-03-29 19:03:55
D 2021-01-13 26:21:03
E 2021-01-16 13:02:06

C, E

### Задание 3.2
1 point possible (graded)
Выберите верные атрибуты datetime:
A data
B year
C weekofday
D dayofweek
E hour
F latitude
G second
H dayofyear

B, D, E, G, H

### Задание 3.3
1 point possible (graded)
Создайте в таблице melb_df признак WeekdaySale (день недели). Найдите, сколько объектов недвижимости было продано в выходные (суббота и воскресенье), результат занесите в переменную weekend_count. В качестве ответа введите результат вывода переменной weekend_count.

In [205]:
melb_df['WeekdaySale'] = melb_df['Date'].dt.dayofweek
display(melb_df['WeekdaySale'].value_counts(normalize=True))
condition1 = melb_df['WeekdaySale'] == 5
condition2 = melb_df['WeekdaySale'] == 6                     

weekend_count = (condition1 | condition2).sum()

display(weekend_count)


WeekdaySale
5    0.865906
6    0.078277
0    0.043962
1    0.009794
3    0.002062
Name: proportion, dtype: float64

np.int64(12822)

In [206]:
# Эталонное решение
melb_df['WeekdaySale'] = melb_df['Date'].dt.dayofweek
weekend_count = melb_df[(melb_df['WeekdaySale'] == 5) | (melb_df['WeekdaySale'] == 6)].shape[0]
print(weekend_count)

12822


Вводные данные для выполнения заданий 3.4-3.5

Вам представлены данные (в формате csv) об отчётах очевидцев НЛО в США за период с 1930 по 2020 год.

В данных есть следующие признаки:

"City" — город, где был замечен НЛО;
"Colors Reported" — цвет объекта;
"Shape Reported" — форма объекта;
"State" — обозначение штата;
"Time" — время, когда был замечен НЛО (данные отсортированы от старых наблюдений к новым). 
Прочитайте данные, сделайте преобразование времени к формату datetime и выполните задания ниже.

### Задание 3.4
1 point possible (graded)
В каком году отмечается наибольшее количество случаев наблюдения НЛО в США?

In [207]:
ufo_data = pd.read_csv('data/ufo.txt', sep=',')
ufo_data = pd.read_csv('http://bit.ly/uforeports')
ufo_data.head()

ufo_df = ufo_data.copy()
ufo_df.head()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00
3,Abilene,,DISK,KS,6/1/1931 13:00
4,New York Worlds Fair,,LIGHT,NY,4/18/1933 19:00


In [208]:
# ufo_df['Date'] = pd.to_datetime(ufo_df['Time'], dayfirst=False)
# display(ufo_df['Date'])

# years_views = ufo_df['Date'].dt.year
# print(years_views)
# print('Min year views:', years_views.min())
# print('Max year views:', years_views.max())
# print('Mode year views:', years_views.mode()[0])
# #print('Mode year views:', years_views.mode())

# display(years_views.value_counts())
# display(years_views.value_counts(normalize=True))

# Эталонное решение
ufo_df = pd.read_csv('http://bit.ly/uforeports')
ufo_df['Time'] = pd.to_datetime(ufo_df.Time)
print(ufo_df['Time'].dt.year.mode()[0])



1999


In [209]:
# Эталонное решение
ufo_df = pd.read_csv('data/ufo.txt', sep=',')
#ufo_df = pd.read_csv('http://bit.ly/uforeports')

ufo_df['Time'] = pd.to_datetime(ufo_df.Time)
print(ufo_df['Time'].dt.year.mode()[0])

1999


### Задание 3.5
1 point possible (graded)
Найдите средний интервал времени (в днях) между двумя последовательными случаями наблюдения НЛО в штате Невада (NV).

Чтобы выделить дату из столбца Time, можно воспользоваться атрибутом datetime date.

Чтобы вычислить разницу между двумя соседними датами в столбце, примените к нему метод diff().

Чтобы перевести интервал времени в дни, воспользуйтесь атрибутом timedelta days.


У меня получается строго 68. В ответе - 69. Проверил - в эталонном решении идет загрузка по URL, у меня - из файла

In [210]:
condition_ufo_1 = ufo_df['State']== 'NV'

ufo_df['datetime'] = pd.to_datetime(ufo_df['Time'], dayfirst=False)
                                   
# Фильтрация строк по условию 
filtered_df = ufo_df[condition_ufo_1]

# Вычисление промежутков времени между соседними строками
display(filtered_df)

time_diffs = filtered_df['datetime'].diff().dropna()
display(time_diffs)
time_diffs_in_days = time_diffs.dt.days
display(time_diffs_in_days)

#ufo_df['diffs_in_days'] = time_diffs_in_days

print('средний интервал времени (в днях):', round(time_diffs_in_days.mean()))
print('суммарный интервал времени (в днях):', round(time_diffs_in_days.sum()))
counter_of_views = round(len(time_diffs_in_days))
summ_days_of_views = round(time_diffs_in_days.sum())
display(counter_of_views, summ_days_of_views)
display(summ_days_of_views / counter_of_views)
display(f"Средний интервал времени (в днях) между двумя последовательными случаями наблюдения НЛО в штате Невада (NV) = {round(summ_days_of_views / counter_of_views, 2)}")




Unnamed: 0,City,Colors Reported,Shape Reported,State,Time,datetime
76,Las Vegas,,DISK,NV,1947-07-15 10:00:00,1947-07-15 10:00:00
172,Nellis AFB,,DISK,NV,1952-02-17 18:00:00,1952-02-17 18:00:00
565,Fallon,,OVAL,NV,1959-09-15 00:00:00,1959-09-15 00:00:00
566,Goldfield,,LIGHT,NV,1959-09-15 01:00:00,1959-09-15 01:00:00
613,,,DISK,NV,1960-07-01 12:00:00,1960-07-01 12:00:00
...,...,...,...,...,...,...
17447,Laughlin,,FORMATION,NV,2000-09-16 22:00:00,2000-09-16 22:00:00
17567,Las Vegas,,SPHERE,NV,2000-09-30 22:25:00,2000-09-30 22:25:00
17617,Las Vegas,RED YELLOW,OTHER,NV,2000-10-06 20:25:00,2000-10-06 20:25:00
17890,Reno,,TRIANGLE,NV,2000-11-07 02:15:00,2000-11-07 02:15:00


172     1678 days 08:00:00
565     2766 days 06:00:00
566        0 days 01:00:00
613      290 days 11:00:00
883     1444 days 01:00:00
               ...        
17447     22 days 00:00:00
17567     14 days 00:25:00
17617      5 days 22:00:00
17890     31 days 05:50:00
18104     33 days 15:15:00
Name: datetime, Length: 283, dtype: timedelta64[ns]

172      1678
565      2766
566         0
613       290
883      1444
         ... 
17447      22
17567      14
17617       5
17890      31
18104      33
Name: datetime, Length: 283, dtype: int64

средний интервал времени (в днях): 68
суммарный интервал времени (в днях): 19371


283

19371

68.44876325088339

'Средний интервал времени (в днях) между двумя последовательными случаями наблюдения НЛО в штате Невада (NV) = 68.45'

In [211]:
# Эталонное решение
ufo_df['Date'] = ufo_df['Time'].dt.date
print(ufo_df[ufo_df['State']=='NV']['Date'].diff().dt.days.mean())

68.92932862190813


## 4. Создание и преобразование столбцов с помощью функций

✍ Библиотека Pandas предоставляет большое количество возможностей для преобразований данных, однако иногда необходимо совершать более сложные манипуляции над столбцами. Например, из столбцов, содержащих в себе некоторый текст, необходимо специальным образом извлечь определённые слова, даты или числа.

→ Для таких случаев Pandas не имеет специальных методов, однако позволяет расширить свою функциональность за счёт использования пользовательских функций. 

Мы можем написать некоторую функцию, которая принимает на вход один элемент столбца, каким-то образом его обрабатывает и возвращает результат, после чего применить эту функцию к каждому элементу в столбце с помощью специального метода apply(). В результате применения этой функции будет возвращён объект Series, элементы которого будут представлять результат работы этой функции.

Рассмотрим пример. В наших данных есть столбец с адресами объектов недвижимости. Проблема этого столбца в том, что в нём слишком большое количество уникальных значений: почти на каждый объект недвижимости в таблице приходится свой уникальный адрес. Убедимся в этом, вычислив количество уникальных значений в столбце с помощью метода nunique():

In [212]:
print(melb_df['Address'].nunique())
# 13378

13378


Если мы прогнозируем цену объекта, то такое большое количество возможных категорий может плохо сказаться на модели, которую мы бы хотели в дальнейшем построить на наших данных. Говорят, что такой признак, скорее всего, не имеет статистической значимости, потому что не позволяет разделить данные на группы, которые можно сравнить по целевому признаку.

Из-за таких признаков зависимость между целевым признаком, который мы хотим предсказать, и признаками, на основе которых мы делаем предсказание, становится очень сложной. При этом точность моделирования при учёте такого признака может не повыситься, а даже снизиться, а производительность однозначно резко упадёт.

Обычно подобные признаки удаляют, однако можно поступить умнее: давайте извлечём из признака адреса характеристику подтипа улицы (улица, шоссе, авеню, бульвар). Для этого сначала внимательнее посмотрим на структуру адреса, выберем несколько строк столбца Address:


In [213]:
print(melb_df['Address'].loc[177])
print(melb_df['Address'].loc[1812])
print(melb_df['Address'].loc[9001])
# 2/119 Railway St N
# 9/400 Dandenong Rd
# 172 Danks St

2/119 Railway St N
9/400 Dandenong Rd
172 Danks St


Итак, адрес строится следующим образом: сначала указывается номер дома и корпус, после указывается название улицы, а в конце — подтип улицы, но в некоторых случаях к подтипу добавляется географическая отметка (N — север, S — юг и т. д.), она нам не нужна . Для того чтобы выделить подтип улицы, на которой находится объект, можно использовать следующую функцию:

In [214]:
# На вход данной функции поступает строка с адресом.
def get_street_type(address):
# Создаём список географических пометок exclude_list.
    exclude_list = ['N', 'S', 'W', 'E']
# Метод split() разбивает строку на слова по пробелу.
# В результате получаем список слов в строке и заносим его в переменную address_list.
    address_list = address.split(' ')
# Обрезаем список, оставляя в нём только последний элемент,
# потенциальный подтип улицы, и заносим в переменную street_type.
    street_type = address_list[-1]
# Делаем проверку на то, что полученный подтип является географической пометкой.
# Для этого проверяем его на наличие в списке exclude_list.
    if street_type in exclude_list:
# Если переменная street_type является географической пометкой,
# переопределяем её на второй элемент с конца списка address_list.
        street_type = address_list[-2]
# Возвращаем переменную street_type, в которой хранится подтип улицы.
    return street_type

Теперь применим эту функцию к столбцу c адресом. Для этого передадим функцию get_street_type в аргумент метода столбца apply(). В результате получим объект Series, который положим в переменную street_types:

In [215]:
street_types = melb_df['Address'].apply(get_street_type)
display(street_types)

0        St
1        St
2        St
3        La
4        St
         ..
13575    Cr
13576    Dr
13577    St
13578    St
13579    St
Name: Address, Length: 13580, dtype: object

Обратите внимание, что функция пишется для одного элемента столбца, а метод apply() применяется к каждому его элементу. Используемая функция обязательно должна иметь возвращаемое значение.

Итак, мы смогли выделить подтип улицы. Посмотрим, сколько уникальных значений у нас получилось:

In [216]:
print(street_types.nunique())
# 56

56


У нас есть 56 уникальных значений. Однако наш результат можно улучшить. Давайте для начала посмотрим на частоту каждого подтипа улицы с помощью метода value_counts:

In [217]:
display(street_types.value_counts())

Address
St           8012
Rd           2825
Ct            612
Dr            447
Av            321
Gr            311
Pde           211
Pl            169
Cr            152
Cl            100
La             67
Bvd            53
Tce            47
Wy             40
Avenue         40
Cct            25
Hwy            24
Parade         15
Boulevard      13
Sq             11
Crescent        9
Cir             7
Strand          7
Esplanade       6
Grove           5
Grn             4
Fairway         4
Mews            4
Gdns            4
Righi           3
Crossway        3
Esp             2
Ridge           2
Victoria        2
Crofts          2
Athol           1
Highway         1
Cove            1
Grange          1
Res             1
Terrace         1
Qy              1
Glade           1
Nook            1
Eyrie           1
Loop            1
Dell            1
East            1
Summit          1
Grand           1
Gra             1
Hts             1
Outlook         1
Woodland        1
Ave             1
Co

Из данного вывода можно увидеть, что есть группа наиболее популярных подтипов улиц, а дальше частота подтипов быстро падает.

В таком случае давайте применим очень распространённый метод уменьшения количества уникальных категорий — выделим n подтипов, которые встречаются чаще всего, а остальные обозначим как 'other' (другие).

Для этого к результату метода value_counts применим метод nlargest(), который возвращает n наибольших значений из Series. Зададим n=10, т. е. мы хотим отобрать десять наиболее популярных подтипов. Извлечём их названия с помощью атрибута index, а результат занесём в переменную popular_stypes:

In [218]:
popular_stypes =street_types.value_counts().nlargest(10).index
print(popular_stypes)
# Index(['St', 'Rd', 'Ct', 'Dr', 'Av', 'Gr', 'Pde', 'Pl', 'Cr', 'Cl'], dtype='object')

Index(['St', 'Rd', 'Ct', 'Dr', 'Av', 'Gr', 'Pde', 'Pl', 'Cr', 'Cl'], dtype='object', name='Address')


Попробуйте применить использованные методы последовательно и выводить результат, чтобы проследить за логикой преобразования.

Теперь, когда у нас есть список наиболее популярных подтипов улиц, введём lambda-функцию, которая будет проверять, есть ли строка x в этом перечне, и, если это так, lambda-функция будет возвращать x, в противном случае она будет возвращать строку 'other'. Наконец, применим такую функцию к Series street_types, полученной ранее, а результат определим в новый столбец таблицы StreetType:

In [219]:
melb_df['StreetType'] = street_types.apply(lambda x: x if x in popular_stypes else 'other')
display(melb_df['StreetType'])

0           St
1           St
2           St
3        other
4           St
         ...  
13575       Cr
13576       Dr
13577       St
13578       St
13579       St
Name: StreetType, Length: 13580, dtype: object

Посмотрим на результирующее число уникальных подтипов:

In [220]:
print(melb_df['StreetType'].nunique())
# 11

11


Теперь, у нас нет потребности хранить признак Address, так как, если конкретное местоположение объекта всё же и влияет на его стоимость, то оно определяется столбцами Longitude и Lattitude. Удалим его из нашей таблицы:

In [221]:
melb_df = melb_df.drop('Address', axis=1)

Таким образом, с помощью написания собственных функций и их комбинирования с методом apply() из библиотеки Pandas мы смогли извлечь информацию из признака с адресом и заменить на признак подтипа улицы.

Примечание. Внимательный читатель наверняка обратит внимание на то, что мы допустили небольшую ошибку!

Если присмотреться, то в списке подтипов улиц street_types можно заметить подтипы, которые именуются различным образом, но при этом обозначают одинаковые вещи. Например, подтипы Av и Avenue, Bvd и Boulevard, Pde и Parade. Мы упустили данный момент, хотя в реальных задачах стоит обращать пристальное внимание на результаты преобразований и исправлять неточности в данных.

Такие ошибки в данных (обозначение идентичных категорий различными именами) являются одним из видов «грязных» данных.

Порой отследить такие неточности бывает очень сложно, а при наличии большого количества категорий (например, более ста) — практически невозможно.

Мы предлагаем вам самостоятельно разобраться с этой ошибкой: попробуйте написать функцию-преобразование (lambda-функцию-преобразование), которая возвращала бы вместо значений Avenue, Boulevard и Parade их топографические сокращения, и примените её к данным о подтипах улиц.

→ Обратите внимание, что данное преобразование необходимо применить до сокращения количества уникальных категорий.

Резюмируя, поделимся общими рекомендациями по уменьшению числа уникальных значений в признаке, который описывается категориями:

1
Определите (хотя бы на глаз) соотношение числа уникальных категорий интересующего вас признака к общему числу объектов в таблице. Если это соотношение превышает значение 30 %, то это уже повод задуматься над уменьшением числа категорий и перейти к шагу 2.

2
Если ваш признак уникален для каждого объекта, например адрес, имя или название, то такой признак, скорее всего, не имеет статистической значимости. От таких признаков чаще всего избавляются. Однако можно попробовать выделить из этого признака какие-то общие черты, например, как мы это сделали с подтипами улиц. Такой же трюк можно произвести, например, с названиями компаний, в которых может быть скрыт признак типа организации (из строки «ООО Три Слепые Мыши» можно извлечь ООО — общество с ограниченной ответственностью).

Далее переходите к шагу 3.

3
Если даже после преобразования число уникальных категорий всё ещё велико, можно попробовать с помощью метода value_counts() оценить, есть ли в данных категории, которые употребляются гораздо реже, чем остальные. Если такие категории присутствуют, переходите к шагу 4.

4
Можно подобрать число  популярных категорий таким образом, чтобы эти категории покрывали большую часть ваших данных.

Когда вы выбрали оптимальное число, переходите к шагу 5.

5
Наконец, можно совершить преобразование, обозначив категории, не попавшие в число популярных, как «другие».

→ Такая методика является очень популярной и хорошо показывает себя на практике. Однако не нужно ей злоупотреблять: применяя эту методику ко всем столбцам подряд, вы рискуете потерять немалую долю полезной информации из ваших данных. Внимательно изучите интересующий вас признак, прежде чем преобразовывать его.

✍ А теперь предлагаем вам закрепить пройденный материал и потренироваться использовать преобразования с помощью функций ↓

### Задание 4.1
1 point possible (graded)
Загляните в документацию по методу apply() и определите, с помощью какого параметра данного метода можно передавать другие аргументы в вызываемую функцию.
new_args
args
axis
result_type

Ответ args

### Задание 4.2
1 point possible (graded)
Ранее, в задании 3.3, мы создали признак WeekdaySale в таблице melb_df — день недели продажи. Из полученных в задании результатов можно сделать вывод, что объекты недвижимости в Мельбурне продаются преимущественно по выходным (суббота и воскресенье).
Напишите функцию get_weekend(weekday), которая принимает на вход элемент столбца WeekdaySale и возвращает 1, если день является выходным, и 0 — в противном случае, и создайте столбец Weekend в таблице melb_df с помощью неё.

Примените эту функцию к столбцу и вычислите среднюю цену объекта недвижимости, проданного в выходные дни. Результат округлите до целых.

In [222]:
def get_weekend(weekday) -> int:
    if weekday == 5 or weekday == 6:
        return 1
    else: return 0
    
melb_df['Weekend']  = melb_df['WeekdaySale'].apply(get_weekend)
display(melb_df.head())

print(melb_df['Weekend'].nunique())

round(melb_data[melb_df['Weekend'] == 1 ]['Price'].mean())


Unnamed: 0,Suburb,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom,...,Longtitude,Regionname,Propertycount,MeanRoomsArea,AreaRatio,MonthSale,AgeBuilding,WeekdaySale,StreetType,Weekend
0,Abbotsford,2,h,1480000.0,S,Biggin,2016-12-03,2.5,3067,2,...,144.9984,Northern Metropolitan,4019,25.2,-0.231707,12,46,5,St,1
1,Abbotsford,2,h,1035000.0,S,Biggin,2016-02-04,2.5,3067,2,...,144.9934,Northern Metropolitan,4019,15.8,-0.32766,2,116,3,St,0
2,Abbotsford,3,h,1465000.0,SP,Biggin,2017-03-04,2.5,3067,3,...,144.9944,Northern Metropolitan,4019,18.75,0.056338,3,117,5,St,1
3,Abbotsford,3,h,850000.0,PI,Biggin,2017-03-04,2.5,3067,3,...,144.9969,Northern Metropolitan,4019,15.75,0.145455,3,47,5,other,1
4,Abbotsford,4,h,1600000.0,VB,Nelson,2016-06-04,2.5,3067,3,...,144.9941,Northern Metropolitan,4019,17.75,0.083969,6,2,5,St,1


2


1081199

### Задание 4.3
1 point possible (graded)
Преобразуйте столбец SellerG с наименованиями риелторских компаний в таблице melb_df следующим образом: оставьте в столбце только 49 самых популярных компаний, а остальные обозначьте как 'other'.
Найдите, во сколько раз минимальная цена объектов недвижимости, проданных компанией 'Nelson', больше минимальной цены объектов, проданных компаниями, обозначенными как 'other'. Ответ округлите до десятых.

  

In [223]:
 
print(melb_df['SellerG'].nunique())

popular_sellers =melb_df['SellerG'].value_counts().nlargest(49).index
print(popular_sellers)

melb_df['SellerG'] = melb_df['SellerG'].apply(lambda x: x if x in popular_sellers else 'other')
display(melb_df['SellerG'])

print(melb_df['SellerG'].nunique())

nelson_min = melb_data[melb_df['SellerG'] == 'Nelson' ]['Price'].min()
other_min = melb_data[melb_df['SellerG'] == 'other' ]['Price'].min()

diff_price_sellerG = nelson_min / other_min
display(round(diff_price_sellerG,2))



268
Index(['Nelson', 'Jellis', 'hockingstuart', 'Barry', 'Ray', 'Marshall',
       'Buxton', 'Biggin', 'Brad', 'Fletchers', 'Woodards', 'Jas', 'Greg',
       'McGrath', 'Sweeney', 'Noel', 'Miles', 'RT', 'Gary', 'Harcourts',
       'Hodges', 'YPA', 'Stockdale', 'Village', 'Kay', 'Raine', 'Williams',
       'Love', 'Douglas', 'Chisholm', 'RW', 'Rendina', 'HAR', 'O'Brien', 'C21',
       'Collins', 'Cayzer', 'Purplebricks', 'Eview', 'Philip', 'Buckingham',
       'Bells', 'Thomson', 'Nick', 'Alexkarbon', 'Burnham', 'McDonald',
       'Moonee', 'LITTLE'],
      dtype='object', name='SellerG')


0          Biggin
1          Biggin
2          Biggin
3          Biggin
4          Nelson
           ...   
13575       Barry
13576    Williams
13577       Raine
13578     Sweeney
13579     Village
Name: SellerG, Length: 13580, dtype: object

50


np.float64(1.3)

### Задание 4.4 (External resource)
(1.0 points possible)

Представьте, что вы занимаетесь подготовкой данных о вакансиях с платформы hh.ru. В вашем распоряжении имеется таблица, в которой с помощью парсинга собраны резюме кандидатов. В этой таблице есть текстовый столбец «Опыт работы». Пример такого столбца представлен ниже в виде объекта Series. Структура текста в столбце фиксирована и не может измениться.

Напишите функцию get_experience(arg), аргументом которой является строка столбца с опытом работы. Функция должна возвращать опыт работы в месяцах. Не забудьте привести результат к целому числу.

Примечание. Обратите внимание, что опыт работы может выражаться только в годах или только в месяцах. Учтите это при построении своей функции.

При проверке мы будем применять вашу функцию к разным Series с помощью метода apply().

Пример результата работы функции get_experience:

In [224]:

def get_experience(arg) -> int:
    # Создаём список пометок для отбора слов месяц и год/лет
    month_list = ['месяц', 'месяца', 'месяцев']
    year_list = ['год', 'года', 'лет']
    
    month_quantity = 0
    year_quantity = 0
    
    # Метод split() разбивает строку на слова по пробелу.
    arg_list = arg.split(' ')
    if arg_list[-1] not in month_list: 
        year_quantity = int(arg_list[-2])        
    else:
        month_quantity = int(arg_list[-2])
        if arg_list[-3] in year_list:
            year_quantity = int(arg_list[-4])
    return int(year_quantity*12 + month_quantity)
        



expirience_series = pd.Series(data=[
        'Опыт работы 8 лет 3 месяца', 
        'Опыт работы 3 года 5 месяцев', 
        'Опыт работы 1 год 9 месяцев', 
        'Опыт работы 3 месяца', 
        'Опыт работы 6 лет' ], 
        index=['0', '1', '2', '3', '4'])



# 5. Тип данных Category

✍ Важной частью предобработки данных является оптимизация хранения данных и работы с ними. В этом разделе мы поговорим об оптимизации работы с категориальными признаками.

### Признаки: категориальные и числовые

Рассмотрим такие статистические термины, как категориальные и числовые признаки.

Под __числовыми__ признаками обычно подразумевают признаки, которые отражают количественную меру и могут принимать значения из неограниченного диапазона.

__Числовые__ признаки могут быть:

дискретными (например, количество комнат, пациентов, дней, отток сотрудников);
непрерывными (например, масса, цена, площадь).
Дискретные признаки чаще всего представлены целыми числами, а непрерывные — целыми числами и числами с плавающей точкой.

Под __категориальными__ признаками обычно подразумевают столбцы в таблице, которые обозначают принадлежность объекта к какому-то классу/категории.

__Категориальные__ признаки могут быть:

номинальными (например, пол, национальность, район);
порядковыми (например, уровень образования, уровень комфорта, стадия заболевания).
Такие признаки имеют ограниченный набор значений. Они чаще всего представлены в виде текстового описания и кодируются в Pandas типом данных object.

Однако это не всегда так. Например, созданный нами ранее признак месяца продажи кодируется числом (от 1 до 12), но на самом деле является категориальным, поскольку диапазон его значений ограничен и каждому числу мы можем поставить в соответствие название месяца.

Возникает вопрос: а какие признаки стоит считать категориальными?

Однозначного ответа на этот вопрос нет. Решение, какой признак отнести к классу категорий, остаётся за исследователем. Некоторые специалисты даже относят количественные признаки в разряд категориальных, когда диапазон возможных значений довольно мал. 

Не существует жёсткого правила, определяющего, сколько значений должна иметь категориальная переменная. Вы должны использовать собственные знания о предметной области, чтобы сделать выбор. Однако в этом разделе мы всё же введём некоторые рекомендации.


ДОПОЛНИТЕЛЬНО

На самом деле классификация признаков уходит даже глубже — здесь вы сможете подробнее ознакомиться со всеми тонкостями.


Почему так важно отличать категориальные столбцы от других?

→ Оказывается, анализ и предобработка категориальных признаков отличается от предобработки числовых признаков.

Мы уже видели, что в столбцах с типом данных object мы не можем рассчитать среднее значение, стандартное отклонение или другие статистические параметры, которые годятся только для чисел.

Способ заполнения пропущенных данных и поиск аномальных значений также различаются для разных типов признаков, но этот момент мы рассмотрим в модуле по очистке данных.

Категории в данных о недвижимости

Давайте определим число уникальных категорий в каждом столбце нашей таблицы melb_df. Для этого создадим вспомогательную таблицу unique_counts:

In [225]:
# создаём пустой список
unique_list = []
# пробегаемся по именам столбцов в таблице
for col in melb_df.columns:
    # создаём кортеж (имя столбца, число уникальных значений)
    item = (col, melb_df[col].nunique(),melb_df[col].dtypes) 
    # добавляем кортеж в список
    unique_list.append(item) 
# создаём вспомогательную таблицу и сортируем её
unique_counts = pd.DataFrame(
    unique_list,
    columns=['Column_Name', 'Num_Unique', 'Type']
).sort_values(by='Num_Unique',  ignore_index=True)
# выводим её на экран
display(unique_counts)

Unnamed: 0,Column_Name,Num_Unique,Type
0,Weekend,2,int64
1,Type,3,object
2,WeekdaySale,5,int32
3,Method,5,object
4,Regionname,8,object
5,Rooms,9,int64
6,Bathroom,9,int64
7,Car,11,int64
8,StreetType,11,object
9,Bedroom,12,int64


Разберём код подробнее:

1
Создаём пустой список, в который будем добавлять кортежи: имя столбца, количество уникальных значений в нём и тип столбца.

2
В цикле перебираем имена столбцов, которые получаем с помощью атрибута columns. В переменной col на каждой итерации находятся имена столбцов — обращаемся к ним в цикле и извлекаем число уникальных элементов с помощью метода nunique(), а также тип столбца с помощью атрибута dtypes. Результат заносим в кортеж и добавляем его в список.

3
Из списка с кортежами (имя столбца, количество уникальных значений в нём, тип столбца) создаём DataFrame, даём названия его столбцам: Column_Name, Num_unique и Type.

4
Сортируем таблицу по столбцу Num_unique в порядке возрастания количества уникальных элементов с помощью метода sort_values() и выводим результат на экран.

Примечание. Мы ещё не изучали сортировку DataFrame методом sort_values() — данную тему мы обсудим в следующем модуле, однако здесь эта функция необходима для более наглядной интерпретации результата.

Итак, с помощью такого несложного кода мы смогли получить вспомогательную таблицу, где в отсортированном виде показано количество уникальных значений во всех столбцах и их типы.

?
Что интересного мы можем узнать из такой таблицы?

Если присмотреться внимательно, можно увидеть резкий скачок количества уникальных значений, начиная с 14 строки таблицы, где число уникальных значений составляет 152. Учтём этот момент.

Условимся, что категориальными будем считать признаки, у которых число уникальных категорий меньше 150. 

Однако учтём, что признак Date (дата продажи), преобразованный нами ранее в формат datetime, является временным признаком, поэтому далее не будем его воспринимать как категориальный. 

К тому же в наш потенциальный список попали количественные столбцы Rooms, Car, Bedroom и Bathroom. Договоримся, что мы не будем относить их к разряду категориальных, однако, как упоминалось ранее, такое тоже вполне возможно.

Примечание. Ещё раз подчеркиваем, что такая классификация признаков является исключительно субъективной и специфична для задачи.

## Тип данных category ##

Для хранения и оптимизации работы с категориальными признаками в Pandas предусмотрен специальный тип данных — category.

→ Этот тип данных является гибридным: внешне он выглядит как строка, но внутренне представлен массивом целых чисел. Так как данные вместо изначальных строк хранятся в памяти как число, то объём памяти, занимаемой таблицей при использовании типа category, резко уменьшается, что повышает эффективность хранения и работы с таблицей.

→ Более того, этот тип данных расширяет возможности работы с категориальными признаками: мы можем легко преобразовывать категории, строить графики по таким данным (что сложно сделать для типа данных object). Также резко повышается производительность операций, совершаемых с такими столбцами.

Самый простой способ преобразования столбцов к типу данных category — это использование уже знакомого нам метода astype(), в параметры которого достаточно передать строку 'category'.

Рассмотрим это на примере.

Для начала, выведем информацию о памяти, занимаемой текущей таблицей, с помощью метода info():

In [226]:
display(melb_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Suburb         13580 non-null  object        
 1   Rooms          13580 non-null  int64         
 2   Type           13580 non-null  object        
 3   Price          13580 non-null  float64       
 4   Method         13580 non-null  object        
 5   SellerG        13580 non-null  object        
 6   Date           13580 non-null  datetime64[ns]
 7   Distance       13580 non-null  float64       
 8   Postcode       13580 non-null  int64         
 9   Bedroom        13580 non-null  int64         
 10  Bathroom       13580 non-null  int64         
 11  Car            13580 non-null  int64         
 12  Landsize       13580 non-null  float64       
 13  BuildingArea   13580 non-null  float64       
 14  CouncilArea    12211 non-null  object        
 15  Lattitude      1358

None

Текущий объём памяти — 2.7 Мб.

Примечание. Объём занимаемой памяти и количество столбцов на вашем компьютере может отличаться в зависимости от того, выполняли ли вы код и задания из предыдущих разделов на добавление и преобразование данных в таблице.

Сделаем преобразование столбцов к типу данных category:

In [227]:
cols_to_exclude = ['Date', 'Rooms', 'Bedroom', 'Bathroom', 'Car'] # список столбцов, которые мы не берём во внимание
max_unique_count = 150 # задаём максимальное число уникальных категорий
for col in melb_df.columns: # цикл по именам столбцов
    if melb_df[col].nunique() < max_unique_count and col not in cols_to_exclude: # проверяем условие
        melb_df[col] = melb_df[col].astype('category') # преобразуем тип столбца
display(melb_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Suburb         13580 non-null  object        
 1   Rooms          13580 non-null  int64         
 2   Type           13580 non-null  category      
 3   Price          13580 non-null  float64       
 4   Method         13580 non-null  category      
 5   SellerG        13580 non-null  category      
 6   Date           13580 non-null  datetime64[ns]
 7   Distance       13580 non-null  float64       
 8   Postcode       13580 non-null  int64         
 9   Bedroom        13580 non-null  int64         
 10  Bathroom       13580 non-null  int64         
 11  Car            13580 non-null  int64         
 12  Landsize       13580 non-null  float64       
 13  BuildingArea   13580 non-null  float64       
 14  CouncilArea    12211 non-null  category      
 15  Lattitude      1358

None

Разберём код подробнее:

1
Задаём список столбцов, которые мы не берём в рассмотрение (cols_to_exclude), а также условленный нами ранее порог уникальных значений столбца max_unique_count.

2
В цикле перебираем имена столбцов, и, если число уникальных категорий меньше заданного порога и имён столбцов нет в списке cols_to_exclude, то с помощью метода astype() приводим столбец к типу данных category.

3
Итоговый объём памяти — 1.9 Мб. В результате такого преобразования объём памяти, занимаемый таблицей, уменьшился почти в 1.5 раза. Это впечатляет!

Особенно хорошо такое преобразование работает на действительно больших данных, где число строк превышает сотни тысяч или миллионы. Иногда изменение типов может уменьшить объём памяти в десятки раз и существенно увеличить производительность.

Получение атрибутов category

У типа данных category есть свой специальный аксесcор cat, который позволяет получать информацию о своих значениях и преобразовывать их. Например, с помощью атрибута этого аксессора categories мы можем получить список уникальных категорий в столбце Regionname:

In [228]:
print(melb_df['Regionname'].cat.categories)

Index(['Eastern Metropolitan', 'Eastern Victoria', 'Northern Metropolitan',
       'Northern Victoria', 'South-Eastern Metropolitan',
       'Southern Metropolitan', 'Western Metropolitan', 'Western Victoria'],
      dtype='object')


А теперь посмотрим, каким образом столбец кодируется в виде чисел в памяти компьютера. Для этого можно воспользоваться атрибутом codes:

In [229]:
display(melb_df['Regionname'].cat.codes)

0        2
1        2
2        2
3        2
4        2
        ..
13575    4
13576    6
13577    6
13578    6
13579    6
Length: 13580, dtype: int8

С помощью метода аксессора rename_categories() можно легко переименовать текущие значения категорий. Для этого в данный метод нужно передать словарь, ключи которого — старые имена категорий, а значения — новые.

Рассмотрим на примере: переименуем категории признака типа постройки Type — заменим их на полные названия (напомним, u — unit, h — house, t — townhouse).

In [230]:
melb_df['Type'] = melb_df['Type'].cat.rename_categories({
    'u': 'unit',
    't': 'townhouse',
    'h': 'house'
})
display(melb_df['Type'])

0        house
1        house
2        house
3        house
4        house
         ...  
13575    house
13576    house
13577    house
13578    house
13579    house
Name: Type, Length: 13580, dtype: category
Categories (3, object): ['house', 'townhouse', 'unit']

ДОПОЛНИТЕЛЬНО

Подробнее ознакомиться с другими возможностями типа данных category можно здесь.

## Подводные камни

А теперь представим ситуацию, что появилась новая партия домов и теперь мы продаём и квартиры (flat). Создадим объект Series new_houses_types, в котором будем хранить типы зданий новой партии домов. Преобразуем тип new_houses_types в такой же тип, как и у столбца Type в таблице melb_data, и выведем результат на экран:

In [231]:
new_houses_types = pd.Series(['unit', 'house', 'flat', 'flat', 'house'])
new_houses_types = new_houses_types.astype(melb_df['Type'].dtype)
display(new_houses_types)

0     unit
1    house
2      NaN
3      NaN
4    house
dtype: category
Categories (3, object): ['house', 'townhouse', 'unit']

Хммм... С нашими новыми объектами недвижимости произошло нечто странное. По какой-то причине вместо квартир мы получили пустые значения — NaN.

На самом деле причина проста: тип данных category хранит только категории, которые были объявлены при его __инициализации__. При встрече с новой, неизвестной ранее категорией, этот тип превратит её в пустое значение, так как он просто не знает о существовании этой категории.

Решить эту проблему на самом деле не сложно. Можно добавить категорию flat в столбец Type с помощью метода акссесора cat add_categories(), в который достаточно просто передать имя новой категории:

In [232]:
melb_df['Type'] = melb_df['Type'].cat.add_categories('flat')
new_houses_types = pd.Series(['unit', 'house', 'flat', 'flat', 'house'])
new_houses_types = new_houses_types.astype(melb_df['Type'].dtype)
display(new_houses_types)

0     unit
1    house
2     flat
3     flat
4    house
dtype: category
Categories (4, object): ['house', 'townhouse', 'unit', 'flat']

Примечание. Добавление новой категории в столбец Type не отразится на самом столбце — текущие категории не изменятся, однако такое преобразование позволит добавлять в таблицу новые данные о домах с новой категорией — flat.

Из данного примера можно сделать вывод, что если набор категорий в столбце жёстко не зафиксирован и может обновляться в процессе работы, то тип category не является подходящим типом данных для этого столбца или необходимо постоянно писать проверки при обновлении таблицы.

Теперь, когда мы рассмотрели основные моменты и нюансы работы с типом данных category, можно сформулировать несколько рекомендаций по его использованию:

1
Необязательно каждый раз преобразовывать категориальные данные в тип данных category. Зачастую это делается исключительно для оптимизации работы с большими данными.

2
Если набор данных занимает значительный процент используемой оперативной памяти, рассмотрите возможность использования типа category.

3
Если у вас очень серьёзные проблемы с производительностью, обратите внимание на использование типа category.

4
Если вы решили использовать тип category, будьте осторожны при добавлении новой информации в вашу таблицу. Убедитесь, что вы собрали всю необходимую информацию, произведите предобработку данных и только после этого используйте преобразование типов.

✍ Мы рассмотрели основной подход в оптимизации работы с признаками, представленными в виде категорий. Предлагаем вам закрепить знания, выполнив несколько заданий ↓

### Задание 5.1
1 возможный балл (оценивается)
 Помощь по управлению с клавиатуры
Вам представлены табличные данные о пациентах, пребывающих в некотором отделении больницы. Соотнесите представленные ниже признаки, описывающие пациента, с категориальными и числовыми столбцами.

### Задание 5.2
1 point possible (graded)
При преобразовании столбцов таблицы о недвижимости к типу category мы оставили без внимания столбец Suburb (пригород). Давайте исправим это.
С помощью метода info() узнайте, сколько памяти занимает таблица melb_df.
Преобразуйте признак Suburb следующим образом: оставьте в столбце только 119 наиболее популярных пригородов, остальные замените на 'other'.
Приведите данные в столбце Suburb к категориальному типу.
В качестве ответа запишите разницу между объёмом занимаемой памяти до преобразования (который мы получили ранее в модуле) и после него в Мб. Ответ округлите до десятых.

In [233]:
display(melb_df.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Suburb         13580 non-null  object        
 1   Rooms          13580 non-null  int64         
 2   Type           13580 non-null  category      
 3   Price          13580 non-null  float64       
 4   Method         13580 non-null  category      
 5   SellerG        13580 non-null  category      
 6   Date           13580 non-null  datetime64[ns]
 7   Distance       13580 non-null  float64       
 8   Postcode       13580 non-null  int64         
 9   Bedroom        13580 non-null  int64         
 10  Bathroom       13580 non-null  int64         
 11  Car            13580 non-null  int64         
 12  Landsize       13580 non-null  float64       
 13  BuildingArea   13580 non-null  float64       
 14  CouncilArea    12211 non-null  category      
 15  Lattitude      1358

None

In [234]:
print(melb_df['Suburb'].nunique())

popular_suburb =melb_df['Suburb'].value_counts().nlargest(119).index
print(popular_suburb)

melb_df['Suburb'] = melb_df['Suburb'].apply(lambda x: x if x in popular_suburb else 'other')
display(melb_df['Suburb'])

print(melb_df['Suburb'].nunique())


melb_df['Suburb'] = melb_df['Suburb'].astype('category')

display(melb_df.info())

314
Index(['Reservoir', 'Richmond', 'Bentleigh East', 'Preston', 'Brunswick',
       'Essendon', 'South Yarra', 'Glen Iris', 'Hawthorn', 'Coburg',
       ...
       'Southbank', 'Sunbury', 'Hoppers Crossing', 'Bundoora', 'Greensborough',
       'Hughesdale', 'Caulfield North', 'Chadstone', 'Middle Park',
       'Mont Albert'],
      dtype='object', name='Suburb', length=119)


0          Abbotsford
1          Abbotsford
2          Abbotsford
3          Abbotsford
4          Abbotsford
             ...     
13575           other
13576    Williamstown
13577    Williamstown
13578    Williamstown
13579      Yarraville
Name: Suburb, Length: 13580, dtype: object

120
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Suburb         13580 non-null  category      
 1   Rooms          13580 non-null  int64         
 2   Type           13580 non-null  category      
 3   Price          13580 non-null  float64       
 4   Method         13580 non-null  category      
 5   SellerG        13580 non-null  category      
 6   Date           13580 non-null  datetime64[ns]
 7   Distance       13580 non-null  float64       
 8   Postcode       13580 non-null  int64         
 9   Bedroom        13580 non-null  int64         
 10  Bathroom       13580 non-null  int64         
 11  Car            13580 non-null  int64         
 12  Landsize       13580 non-null  float64       
 13  BuildingArea   13580 non-null  float64       
 14  CouncilArea    12211 non-null  category      
 15  Lattitude      

None

# 6. Закрепление знаний

✍ А теперь настало время применить навыки работы со столбцами на практике.

В этом вам поможет скринкаст, в котором мы собрали самые важные моменты модуля ↓

На этот раз мы поговорим о спорте, а точнее — о велоспорте. 

Вашим заданием в этом модуле будет проанализировать и преобразовать данные о велопоездках клиентов компании Citi Bike (США), специализирующейся на прокате велосипедов.

Скачать датасет в формате csv можно здесь.

Датасет представляет собой таблицу с информацией о 300 тысячах поездок за первые пять дней сентября 2018 года и включает в себя следующую информацию:

starttime — время начала поездки (дата, время);
stoptime — время окончания поездки (дата, время);
start station id — идентификатор стартовой стоянки;
start station name — название стартовой стоянки;
start station latitude, start station longitude — географическая широта и долгота стартовой стоянки;
end station id — идентификатор конечной стоянки;
end station name — название конечной стоянки;
end station latitude, end station longitude — географическая широта и долгота конечной стоянки;
bikeid — идентификатор велосипеда;
usertype — тип пользователя (Customer — клиент с подпиской на 24 часа или на три дня, Subscriber — подписчик с годовой арендой велосипеда);
birth year — год рождения клиента;
gender — пол клиента (0 — неизвестный, 1 — мужчина, 2 — женщина).


Оригинальный источник данных вы можете найти здесь. Он представляет собой таблицу на 1,7 миллиона строк. В учебных целях мы удалили из датасета несколько признаков, а также уменьшили число строк.

Итак, начнём с разминки и произведём базовый анализ, чтобы познакомиться с данными поближе, а заодно повторим темы предыдущего модуля.

### Задание 6.1
1 point possible (graded)
Сколько пропусков в столбце start station id?



In [278]:
citibike_data = pd.read_csv('data/citibike-tripdata.csv', sep=',')
#citibike_data.head()

citibike_df = citibike_data.copy()
citibike_df.head()

Unnamed: 0,starttime,stoptime,start station id,start station name,start station latitude,start station longitude,end station id,end station name,end station latitude,end station longitude,bikeid,usertype,birth year,gender
0,2018-09-01 00:00:05.2690,2018-09-01 00:27:20.6340,252.0,MacDougal St & Washington Sq,40.732264,-73.998522,366.0,Clinton Ave & Myrtle Ave,40.693261,-73.968896,25577,Subscriber,1980,1
1,2018-09-01 00:00:11.2810,2018-09-01 00:02:23.4810,314.0,Cadman Plaza West & Montague St,40.69383,-73.990539,3242.0,Schermerhorn St & Court St,40.691029,-73.991834,34377,Subscriber,1969,0
2,2018-09-01 00:00:20.6490,2018-09-01 00:55:58.5470,3142.0,1 Ave & E 62 St,40.761227,-73.96094,3384.0,Smith St & 3 St,40.678724,-73.995991,30496,Subscriber,1975,1
3,2018-09-01 00:00:21.7460,2018-09-01 00:07:38.5830,308.0,St James Pl & Oliver St,40.713079,-73.998512,3690.0,Park Pl & Church St,40.713342,-74.009355,28866,Subscriber,1984,2
4,2018-09-01 00:00:27.3150,2018-09-01 02:21:25.3080,345.0,W 13 St & 6 Ave,40.736494,-73.997044,380.0,W 4 St & 7 Ave S,40.734011,-74.002939,20943,Customer,1994,1


In [279]:
citibike_df.info

<bound method DataFrame.info of                        starttime                  stoptime  start station id  \
0       2018-09-01 00:00:05.2690  2018-09-01 00:27:20.6340             252.0   
1       2018-09-01 00:00:11.2810  2018-09-01 00:02:23.4810             314.0   
2       2018-09-01 00:00:20.6490  2018-09-01 00:55:58.5470            3142.0   
3       2018-09-01 00:00:21.7460  2018-09-01 00:07:38.5830             308.0   
4       2018-09-01 00:00:27.3150  2018-09-01 02:21:25.3080             345.0   
...                          ...                       ...               ...   
299995  2018-09-05 19:08:27.8460  2018-09-05 19:15:51.4940             494.0   
299996  2018-09-05 19:08:28.3700  2018-09-05 19:20:01.5080            3016.0   
299997  2018-09-05 19:08:27.5090  2018-09-05 19:13:40.5060            3686.0   
299998  2018-09-05 19:08:29.2300  2018-09-05 20:04:29.3220             254.0   
299999  2018-09-05 19:08:29.7110  2018-09-05 19:12:14.7620            3496.0   

       

In [280]:
missing_values_count = citibike_df['start station id'].isnull().sum()
display(missing_values_count)

np.int64(169)

### Задание 6.2
1 point possible (graded)
Какой тип данных имеют столбцы starttime и stoptime?

In [281]:
citibike_df['starttime'].dtype
# Object

dtype('O')

In [282]:
citibike_df['stoptime'].dtype

#Object

dtype('O')

### Задание 6.3
1 point possible (graded)
Найдите идентификатор самой популярной стартовой стоянки. Запишите идентификатор в виде целого числа.

In [283]:


most_frequent_value = citibike_df['start station name'].mode()[0]
display(most_frequent_value)

index_of_most_frequent = citibike_df[citibike_df['start station name'] == most_frequent_value].index[0]
display(index_of_most_frequent)

id_of_most_frequent = citibike_df.loc[index_of_most_frequent, 'start station id']
display(id_of_most_frequent)


'Grand Army Plaza & Central Park S'

np.int64(53)

np.float64(281.0)

### Задание 6.4
1 point possible (graded)
Велосипед с каким идентификатором является самым популярным?

In [284]:
most_frequent_bikeid = citibike_df['bikeid'].mode()[0]
display(most_frequent_bikeid)

# index_of_most_frequent = citibike_df[citibike_df['start station name'] == most_frequent_value].index[0]
# display(index_of_most_frequent)

# id_of_most_frequent = citibike_df.loc[index_of_most_frequent, 'start station id']
# display(id_of_most_frequent)


np.int64(33887)

### Задание 6.5
1 point possible (graded)
Какой тип клиентов (столбец usertype) является преобладающим — Subscriber или Customer? В качестве ответа запишите долю клиентов преобладающего типа среди общего количества клиентов. Ответ округлите до сотых.


In [285]:

citibike_df['usertype'].value_counts(normalize=True)

# 0.77

usertype
Subscriber    0.774007
Customer      0.225993
Name: proportion, dtype: float64

### Задание 6.6
1 point possible (graded)
Кто больше занимается велоспортом — мужчины или женщины? В ответ запишите число поездок для той группы, у которой их больше.

In [287]:
citibike_df['gender'].value_counts(normalize=True)

# 1 man
most_frequent_gender = citibike_df['gender'].mode()[0]
display(most_frequent_gender)

index_of_most_frequent_gender = citibike_df[citibike_df['gender'] == most_frequent_gender].shape[0]
display(index_of_most_frequent_gender)


np.int64(1)

183582

### Задание 6.7
1 point possible (graded)
Выберите утверждения,которые соответствуют нашим данным:
A Число уникальных стартовых и конечных стоянок, которыми воспользовались клиенты, не равны друг другу
B В рассматриваемые дни минимальный возраст клиента составлял 10 лет
C Самой непопулярной стартовой стоянкой из тех, которыми воспользовались клиенты, является стоянка с названием "Eastern Pkwy & Washington Ave"
D Наибольшее количество поездок завершается на стоянке под названием "Liberty Light Rail"
нет ответа


Ответ
Верно:
A Верно.
C Верно.


In [288]:
display(citibike_df['start station name'].nunique())

display(citibike_df['end station name'].nunique())


759

765

In [289]:
display(citibike_df['birth year'].max())
#citibike_df['birth year'].info()

display(citibike_df['starttime'].min())
#citibike_df['starttime'].info()
 
 
 # Минимальный возраст участника - как минимум 16 лет

np.int64(2002)

'2018-09-01 00:00:05.2690'

In [290]:
citibike_df['start station name'].value_counts(normalize=True)

start station name
Grand Army Plaza & Central Park S    0.006430
Central Park S & 6 Ave               0.006367
Pershing Square North                0.006247
12 Ave & W 40 St                     0.006153
West St & Chambers St                0.006120
                                       ...   
NYCBS Depot - GOW                    0.000050
Franklin Ave & Empire Blvd           0.000037
Railroad Ave & Kay Ave               0.000030
47 Ave & Skillman Ave                0.000023
Eastern Pkwy & Washington Ave        0.000020
Name: proportion, Length: 759, dtype: float64

In [291]:
citibike_df['end station name'].value_counts(normalize=True)

end station name
West St & Chambers St          0.006547
12 Ave & W 40 St               0.006367
Pershing Square North          0.006170
Central Park S & 6 Ave         0.006097
E 17 St & Broadway             0.006017
                                 ...   
Exchange Place                 0.000010
Union St                       0.000003
Montrose Ave & Bushwick Ave    0.000003
Warren St                      0.000003
Liberty Light Rail             0.000003
Name: proportion, Length: 765, dtype: float64

Теперь, когда мы познакомились с данными, настало время поработать над признаками ↓

### Задание 6.8
1 point possible (graded)
В первую очередь удалим лишнюю информацию из данных.
В наших данных присутствуют столбцы, которые дублируют информацию друг о друге: это столбцы с идентификатором и названием стартовой и конечной стоянки. Удалите признаки идентификаторов стоянок. Сколько столбцов осталось?


Ответ: 
12

In [292]:
citibike_df = citibike_df.drop(['start station id', 'end station id'], axis=1)
citibike_df.info()
citibike_df.describe




<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300000 entries, 0 to 299999
Data columns (total 12 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   starttime                300000 non-null  object 
 1   stoptime                 300000 non-null  object 
 2   start station name       299831 non-null  object 
 3   start station latitude   300000 non-null  float64
 4   start station longitude  300000 non-null  float64
 5   end station name         299831 non-null  object 
 6   end station latitude     300000 non-null  float64
 7   end station longitude    300000 non-null  float64
 8   bikeid                   300000 non-null  int64  
 9   usertype                 300000 non-null  object 
 10  birth year               300000 non-null  int64  
 11  gender                   300000 non-null  int64  
dtypes: float64(4), int64(3), object(5)
memory usage: 27.5+ MB


<bound method NDFrame.describe of                        starttime                  stoptime  \
0       2018-09-01 00:00:05.2690  2018-09-01 00:27:20.6340   
1       2018-09-01 00:00:11.2810  2018-09-01 00:02:23.4810   
2       2018-09-01 00:00:20.6490  2018-09-01 00:55:58.5470   
3       2018-09-01 00:00:21.7460  2018-09-01 00:07:38.5830   
4       2018-09-01 00:00:27.3150  2018-09-01 02:21:25.3080   
...                          ...                       ...   
299995  2018-09-05 19:08:27.8460  2018-09-05 19:15:51.4940   
299996  2018-09-05 19:08:28.3700  2018-09-05 19:20:01.5080   
299997  2018-09-05 19:08:27.5090  2018-09-05 19:13:40.5060   
299998  2018-09-05 19:08:29.2300  2018-09-05 20:04:29.3220   
299999  2018-09-05 19:08:29.7110  2018-09-05 19:12:14.7620   

                     start station name  start station latitude  \
0          MacDougal St & Washington Sq               40.732264   
1       Cadman Plaza West & Montague St               40.693830   
2                   

### Задание 6.9
1 point possible (graded)
Замените признак birth year на более понятный признак возраста клиента age. Годом отсчёта возраста выберите 2018 год. Столбец birth year удалите из таблицы. Сколько поездок совершено клиентами старше 60 лет?

Ответ:
11837

In [None]:
citibike_df['age'] = 2018 - citibike_df['birth year']

citibike_df = citibike_df.drop(['birth year'], axis=1)

display(citibike_df['age'].info())
display(citibike_df['age'].value_counts(normalize=True))



<class 'pandas.core.series.Series'>
RangeIndex: 300000 entries, 0 to 299999
Series name: age
Non-Null Count   Dtype
--------------   -----
300000 non-null  int64
dtypes: int64(1)
memory usage: 2.3 MB


None

age
49     0.146530
30     0.041837
28     0.040170
29     0.039013
27     0.038800
         ...   
109    0.000003
129    0.000003
103    0.000003
82     0.000003
111    0.000003
Name: proportion, Length: 91, dtype: float64

np.int64(11837)

In [295]:
condition_age = citibike_df['age'] > 60

display(condition_age.sum())

300000

np.int64(11837)

### Задание 6.10
1 point possible (graded)
Создайте признак длительности поездки trip duration. Для этого вычислите интервал времени между временем окончания поездки (stoptime) и её началом (starttime). Сколько целых минут длилась поездка под индексом 3 в таблице?


Ответ : 7 минут

In [298]:
citibike_df['trip duration'] = pd.to_datetime(citibike_df['stoptime']) - pd.to_datetime(citibike_df['starttime'])

display(citibike_df.loc[3, ['trip duration']])


trip duration    0 days 00:07:16.837000
Name: 3, dtype: object

### Задание 6.11
1 point possible (graded)
Создайте «признак-мигалку» weekend, который равен 1, если поездка начиналась в выходной день (суббота или воскресенье), и 0 — в противном случае. Выясните, сколько поездок начиналось в выходные.

Ответ:
115135

In [300]:

#weekday_start = pd.to_datetime(citibike_df['starttime']).dt.dayofweek


citibike_df['weekend'] = pd.to_datetime(citibike_df['starttime']).dt.weekday.apply(lambda x: 1 if x >= 5 else 0)

display(citibike_df['weekend'].value_counts())

weekend
0    184865
1    115135
Name: count, dtype: int64

### Задание 6.12
1 point possible (graded)
Создайте признак времени суток поездки time_of_day. Время суток будем определять из часа начала поездки. Условимся, что:
поездка совершается ночью (night), если её час приходится на интервал от 0 (включительно) до 6 (включительно) часов;
поездка совершается утром (morning), если её час приходится на интервал от 6 (не включительно) до 12 (включительно) часов;
поездка совершается днём (day), если её час приходится на интервал от 12 (не включительно) до 18 (включительно) часов;
поездка совершается вечером (evening), если её час приходится на интервал от 18 (не включительно) до 23 часов (включительно).
Во сколько раз количество поездок, совершённых днём, больше, чем количество поездок, совёршенных ночью, за представленный в данных период времени? Ответ округлите до целых.

Ответ:


In [305]:
def time_of_day(hour):
    if hour >= 0 and hour <= 6: return 'night'
    elif hour > 6 and hour <= 12: return 'morning'
    elif hour > 12 and hour <= 18: return 'day'
    elif hour > 18 and hour <= 23: return 'evening'
    else:
        return None


citibike_df['time_of_day'] = pd.to_datetime(citibike_df['starttime']).dt.hour.apply(time_of_day)

display(citibike_df['time_of_day'].value_counts())


# Подсчет количества значений 'day' 
count_day = citibike_df['time_of_day'].value_counts().get('day', 0) 
# Подсчет количества значений 'night' 
count_night = citibike_df['time_of_day'].value_counts().get('night', 0) 
# Вычисление отношения 'day' к 'night' 
if count_night != 0: 
    ratio = round(count_day / count_night)
else: ratio = float('inf') 
# Если нет значений 'night', отношение бесконечно 

print(f"Количество 'day': {count_day}") 
print(f"Количество 'night': {count_night}") 
print(f"Во сколько раз количество 'day' больше, чем 'night': {ratio}")


time_of_day
day        143012
morning     95530
evening     46373
night       15085
Name: count, dtype: int64

Количество 'day': 143012
Количество 'night': 15085
Во сколько раз количество 'day' больше, чем 'night': 9


✍ В этом модуле мы с вами сделали ещё один большой шаг в изучении библиотеки Pandas и её возможностей для анализа и подготовки данных.

Мы научились:

производить базовые операции со столбцами (удалять их, производить с ними математические операции и приводить таблицу к нужной структуре);
работать с датами и временем;
создавать новые столбцы на основе составляющих дат и времени;
применять собственные функции к столбцам таблицы для их преобразования и создания новых признаков;
познакомились с категориальным типом данных и научились работать с ним.
Эти навыки лежат в основе методологии Feature Engineering и помогут вам в дальнейшем развивать своё мышление в этой области и расти как специалисту по генерации данных.

В следующем модуле мы поговорим о более продвинутых методах работы с данными, а также продолжим тему предобработки данных и научимся работать с данными, представленными в нескольких таблицах.