In [1]:
import pandas as pd

In [2]:
melb_data = pd.read_csv('data/melb_data_ps.csv', sep=',')
melb_data.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019,"-37.8072, 144.9941"


На протяжении всего модуля мы будем производить множество тренировочных преобразований с нашей таблицей. Поэтому, чтобы не переопределять переменную `melb_data` и тем самым не повредить первоначальный DataFrame, создадим копию `melb_df` с помощью метода `copy()`:

In [3]:
melb_df = melb_data.copy()
melb_df.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019,"-37.8072, 144.9941"


Удалим столбцы `index` и `Coordinates` из таблицы с помощью метода `drop()`. Выведем первые пять строк таблицы и убедимся, что всё прошло успешно.

In [4]:
melb_df = melb_df.drop(['index', 'Coordinates'], axis = 1)
melb_df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067,...,1,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067,...,1,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067,...,2,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067,...,2,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067,...,1,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019


Альтернативный вариант:
(KeyError, т.к. уже удалены указанные столбцы)

In [5]:
# melb_df.drop(['index','Coordinates'], axis = 1, inplace = True)
# melb_df.head()

In [6]:
total_rooms = melb_df['Rooms'] + melb_df['Bedroom'] + melb_df['Bathroom']
display(total_rooms)

0         5
1         5
2         8
3         8
4         8
         ..
13575    10
13576     8
13577     8
13578     9
13579     9
Length: 13580, dtype: int64

А теперь введём признак `MeanRoomsSquare`, который соответствует средней площади одной комнаты для каждого объекта. Для этого разделим площадь здания на полученное ранее общее количество комнат:

In [7]:
melb_df['MeanRoomsSquare'] = melb_df['BuildingArea'] / total_rooms
display(melb_df['MeanRoomsSquare'])

0        25.200000
1        15.800000
2        18.750000
3        15.750000
4        17.750000
           ...    
13575    12.600000
13576    16.625000
13577    15.750000
13578    17.444444
13579    12.444444
Name: MeanRoomsSquare, Length: 13580, dtype: float64

Можно ввести ещё один интересный признак — `AreaRatio`, коэффициент соотношения площади здания `(BuildingArea)` и площади участка `(Landsize)`. Для этого разницу двух площадей поделим на их сумму:

In [8]:
diff_area = melb_df['BuildingArea'] - melb_df['Landsize']
sum_area = melb_df['BuildingArea'] + melb_df['Landsize']
melb_df['AreaRatio'] = diff_area/sum_area
display(melb_df['AreaRatio'])

0       -0.231707
1       -0.327660
2        0.056338
3        0.145455
4        0.083969
           ...   
13575   -0.676093
13576   -0.429185
13577   -0.551601
13578   -0.693060
13579   -0.527426
Name: AreaRatio, Length: 13580, dtype: float64

Что показывает такой коэффициент? Если присмотреться, можно увидеть, что `AreaRatio` лежит в интервале `от -1 до 1`.

Рассмотрим три случая, чтобы понять его значение:

Если рассматриваемые площади равны, то числитель дроби зануляется и коэффициент тоже равен 0.
Если одна из площадей начинает доминировать над другой, то коэффициент начинает расти в отрицательную сторону, если площадь участка больше площади здания, и в положительную сторону, если наоборот.
Наконец, в предельном случае, если площадь здания равна 0, то числитель дроби равен знаменателю со знаком минус, а коэффициент равен -1, а если площадь участка равна 0, то числитель дроби равен знаменателю со знаком плюс, а коэффициент равен 1.
Таким образом, значение в столбце AreaRatio служит своеобразным указателем соотношения площадей объекта недвижимости. Для пустырей — участков без строений — он будет равен -1, для домов без территории — 1, во всех остальных случаях мы можем увидеть, какая площадь больше — здания или участка.

ЗАДАНИЕ 2.3

Напишите функцию `delete_columns(df, col=[])`, которая удаляет столбцы из DataFrame и возвращает новую таблицу. Если одного из указанных столбцов не существует в таблице, то функция должна возвращать None. Удалите выбранные вами столбцы из таблицы `customer_df`.

In [9]:
# customer_df = pd.DataFrame({
#     'number': [0, 1, 2, 3, 4],
#     'cust_id': [128, 1201, 9832, 4392, 7472],
#     'cust_age': [13, 21, 19, 21, 60],
#     'cust_sale': [0, 0, 0.2, 0.15, 0.3],
#     'cust_year_birth': [2008, 2000, 2002, 2000, 1961],
#     'cust_order': [1400, 14142, 900, 1240, 8430]
#     })

# test_df_1 = pd.DataFrame({
#             'number': [0, 1, 2, 3, 4],
#             'cust_id': [128, 1201, 9832, 4392, 7472],
#             'cust_age': [13, 21, 19, 21, 60],
#             'cust_sale': [0, 0, 0.2, 0.15, 0.3],
#             'cust_year_birth': [2008, 2000, 2002, 2000, 1961],
#             'cust_order': [1400, 14142, 900, 1240, 8430]
#         })


test_df_2 = pd.DataFrame({
            'number2': [0, 1, 2, 3, 4],
            'cust_id2': [128, 1201, 9832, 4392, 7472],
            'cust_age2': [13, 21, 19, 21, 60],
            'cust_sale2': [0, 0, 0.2, 0.15, 0.3],
            'cust_year_birth2': [2008, 2000, 2002, 2000, 1961],
            'cust_order2': [1400, 14142, 900, 1240, 8430]
        })


def delete_columns(df, col=[]):
    for _ in col:
        if _ not in df.columns:
            return None

    new_df = df.drop(columns=col, axis = 1, inplace = False)
    return new_df

# result_df = delete_columns(df, col=['cust_id', 'cust_sale'])

# print(result_df)

# print(delete_columns(col = ['cust_sale'], df = test_df_1))
print(delete_columns(col = ['cust_age2', 'cust_sale2'], df = test_df_2))

   number2  cust_id2  cust_year_birth2  cust_order2
0        0       128              2008         1400
1        1      1201              2000        14142
2        2      9832              2002          900
3        3      4392              2000         1240
4        4      7472              1961         8430


Задание 2.4

Задан DataFrame `countries_df`, содержащий следующие столбцы: название страны, население `(population)` в миллионах человек и площадь страны (square) в квадратных километрах.

Для каждой страны рассчитайте плотность населения (количество человек на квадратный километр).

Затем по полученным данным рассчитайте среднее по плотностям населения в указанных странах. Ответ округлите до сотых.

Плотность населения рассчитывается как количество человек, проживающих на территории отдельной страны, делённое на площадь этой страны. Обратите внимание, что население в таблице представлено в миллионах.

In [10]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

In [11]:
population_density = (countries_df['population'] * 1000000) / countries_df['square']
display(population_density)

0    421.976671
1      3.810842
2     32.796595
3      8.539467
4     75.377550
5     45.761079
6      6.253436
dtype: float64

In [12]:
mean_population_density = population_density.mean()
display(mean_population_density)

84.93080566562001

ФОРМАТ DATETIME

В наших данных дата записана в виде `DD/MM/YYYY`, например `3/12/2017`. Посмотрим на это:

In [13]:
display(melb_df['Date'])

0         3/12/2016
1         4/02/2016
2         4/03/2017
3         4/03/2017
4         4/06/2016
            ...    
13575    26/08/2017
13576    26/08/2017
13577    26/08/2017
13578    26/08/2017
13579    26/08/2017
Name: Date, Length: 13580, dtype: object

Для того чтобы преобразовывать столбцы с датами, записанными в распространённых форматах, в формат `datetime`, можно воспользоваться функцией `pandas.to_datetime()`. В нашем случае в функции нужно указать параметр `dayfirst=True`, который будет обозначать, что в первоначальном признаке первым идет день. Преобразуем столбец `Date` в формат `datetime`, передав его в эту функцию:

In [14]:
melb_df['Date'] = pd.to_datetime(melb_df['Date'], dayfirst=True)
display(melb_df['Date'])

0       2016-12-03
1       2016-02-04
2       2017-03-04
3       2017-03-04
4       2016-06-04
           ...    
13575   2017-08-26
13576   2017-08-26
13577   2017-08-26
13578   2017-08-26
13579   2017-08-26
Name: Date, Length: 13580, dtype: datetime64[ns]

Например, обратившись по атрибуту `dt.year` в столбце `Date`, мы можем «достать» год продажи и понять, за какой интервал времени (в годах) представлены наши данные, а также на какой год приходится наибольшее число продаж:

In [15]:
years_sold = melb_df['Date'].dt.year
print(years_sold)
print('Min year sold:', years_sold.min())
print('Max year sold:', years_sold.max())
print('Mode year sold:', years_sold.mode()[0])

0        2016
1        2016
2        2017
3        2017
4        2016
         ... 
13575    2017
13576    2017
13577    2017
13578    2017
13579    2017
Name: Date, Length: 13580, dtype: int64
Min year sold: 2016
Max year sold: 2017
Mode year sold: 2017


Теперь попробуем понять, на какие месяцы приходится пик продаж объектов недвижимости. Для этого выделим атрибут `dt.month` и на этот раз занесём результат в столбец `MonthSale`, а затем найдём относительную частоту продаж для каждого месяца от общего количества продаж — для этого используем метод `value_counts()` с параметром `normalize` (вывод в долях):

In [16]:
melb_df['MonthSale'] = melb_df['Date'].dt.month
melb_df['MonthSale'].value_counts(normalize=True)

5     0.149411
7     0.145950
9     0.135862
6     0.134757
8     0.114138
11    0.082032
4     0.069882
3     0.049926
12    0.044698
10    0.040574
2     0.032622
1     0.000147
Name: MonthSale, dtype: float64

Часто бывает такая ситуация, что необходимо вычислять интервалы между двумя временными промежутками. Например, можно вычислить, сколько дней прошло с `1 января 2016` года до момента продажи объекта. Для этого можно просто найти разницу между датами продаж и заявленной датой, представленной в формате `datetime`:

In [17]:
delta_days = melb_df['Date'] - pd.to_datetime('2016-01-01') 
display(delta_days)

0       337 days
1        34 days
2       428 days
3       428 days
4       155 days
          ...   
13575   603 days
13576   603 days
13577   603 days
13578   603 days
13579   603 days
Name: Date, Length: 13580, dtype: timedelta64[ns]

Чтобы превратить количество дней из формата интервала в формат целого числа дней, можно воспользоваться аксессором `dt` для формата `timedelta` и извлечь из него атрибут `days`:

In [18]:
display(delta_days.dt.days)

0        337
1         34
2        428
3        428
4        155
        ... 
13575    603
13576    603
13577    603
13578    603
13579    603
Name: Date, Length: 13580, dtype: int64

Рассмотрим другой пример. Давайте создадим признак возраста объекта недвижимости в годах на момент продажи. Для этого выделим из столбца с датой продажи год и вычтем из него год постройки здания. Результат оформим в виде столбца AgeBuilding:

In [19]:
melb_df['AgeBuilding'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
display(melb_df['AgeBuilding'])

0         46
1        116
2        117
3         47
4          2
        ... 
13575     36
13576     22
13577     20
13578     97
13579     97
Name: AgeBuilding, Length: 13580, dtype: int64

На самом деле столбец AgeBuilding дублирует информацию столбца YearBuilt, так как, зная год постройки здания, мы автоматически знаем его возраст. Такие признаки не стоит оставлять вместе, поэтому оставим возраст здания, так как он является более наглядным, а год постройки удалим из таблицы:

In [20]:
melb_df = melb_df.drop('YearBuilt', axis=1)

Задание 3.3

Создайте в таблице melb_df признак WeekdaySale (день недели). Найдите, сколько объектов недвижимости было продано в выходные (суббота и воскресенье), результат занесите в переменную weekend_count. В качестве ответа введите результат вывода переменной weekend_count.

In [21]:
melb_df['WeekdaySale'] = melb_df['Date'].dt.day_name()
weekend_count = melb_df[melb_df['WeekdaySale'].isin(['Saturday', 'Sunday'])].shape[0]
display(weekend_count)

12822

Задание 3.4

В каком году отмечается наибольшее количество случаев наблюдения НЛО в США?

In [22]:
ufo_data = pd.read_csv('data/UFO.csv', sep=',')
ufo_data.head()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00
3,Abilene,,DISK,KS,6/1/1931 13:00
4,New York Worlds Fair,,LIGHT,NY,4/18/1933 19:00


In [23]:
ufo_data['Time'] = pd.to_datetime(ufo_data['Time'])
ufo_data['Year'] = ufo_data['Time'].dt.year
counts = ufo_data['Year'].value_counts()
display(counts)

1999    2774
2000    2635
1998    1743
1995    1344
1997    1237
        ... 
1936       2
1930       2
1935       1
1934       1
1933       1
Name: Year, Length: 68, dtype: int64

Задание 3.5

Найдите средний интервал времени (в днях) между двумя последовательными случаями наблюдения НЛО в штате Невада (NV).

In [24]:
# Преобразуем столбец 'Time' в тип данных datetime
ufo_data['Date'] = pd.to_datetime(ufo_data['Time'])

# Отфильтруем только наблюдения в штате Невада
ufo_nevada = ufo_data[ufo_data['State'] == 'NV']

# Сортируем данные по дате
ufo_nevada = ufo_nevada.sort_values(by='Date')

# Вычисляем разницу между соседними датами с помощью метода diff()
ufo_nevada['TimeDiff'] = ufo_nevada['Date'].diff()

# Вычисляем среднее количество дней между двумя наблюдениями
average_interval_days = ufo_nevada['TimeDiff'].mean().days

# display(ufo_nevada['TimeDiff'].mean())

# Выводим результат
print("Средний интервал времени между двумя последовательными случаями наблюдения НЛО в штате Невада (NV) составляет", average_interval_days, "дней.")

Средний интервал времени между двумя последовательными случаями наблюдения НЛО в штате Невада (NV) составляет 68 дней.


In [25]:
print(melb_df['Address'].nunique())

13378


In [26]:
display(melb_df.head())

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,MeanRoomsSquare,AreaRatio,MonthSale,AgeBuilding,WeekdaySale
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,2016-12-03,2.5,3067,...,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,25.2,-0.231707,12,46,Saturday
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,2016-02-04,2.5,3067,...,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,15.8,-0.32766,2,116,Thursday
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,2017-03-04,2.5,3067,...,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,18.75,0.056338,3,117,Saturday
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,2017-03-04,2.5,3067,...,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,15.75,0.145455,3,47,Saturday
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,2016-06-04,2.5,3067,...,Yarra,-37.8072,144.9941,Northern Metropolitan,4019,17.75,0.083969,6,2,Saturday


Обычно подобные признаки удаляют, однако можно поступить умнее: давайте извлечём из признака адреса характеристику подтипа улицы (улица, шоссе, авеню, бульвар). Для этого сначала внимательнее посмотрим на структуру адреса, выберем несколько строк столбца Address:

In [27]:
print(melb_df['Address'].loc[177])
print(melb_df['Address'].loc[1812])
print(melb_df['Address'].loc[9001])

2/119 Railway St N
9/400 Dandenong Rd
172 Danks St


Итак, адрес строится следующим образом: сначала указывается номер дома и корпус, после указывается название улицы, а в конце — подтип улицы, но в некоторых случаях к подтипу добавляется географическая отметка (N — север, S — юг и т. д.), она нам не нужна . Для того чтобы выделить подтип улицы, на которой находится объект, можно использовать следующую функцию:

In [28]:
# На вход данной функции поступает строка с адресом.
def get_street_type(address):
# Создаём список географических пометок exclude_list.
    exclude_list = ['N', 'S', 'W', 'E']
# Метод split() разбивает строку на слова по пробелу.
# В результате получаем список слов в строке и заносим его в переменную address_list.
    address_list = address.split(' ')
# Обрезаем список, оставляя в нём только последний элемент,
# потенциальный подтип улицы, и заносим в переменную street_type.
    street_type = address_list[-1]
# Делаем проверку на то, что полученный подтип является географической пометкой.
# Для этого проверяем его на наличие в списке exclude_list.
    if street_type in exclude_list:
# Если переменная street_type является географической пометкой,
# переопределяем её на второй элемент с конца списка address_list.
        street_type = address_list[-2]
# Возвращаем переменную street_type, в которой хранится подтип улицы.
    return street_type


Теперь применим эту функцию к столбцу c адресом. Для этого передадим функцию get_street_type в аргумент метода столбца apply(). В результате получим объект Series, который положим в переменную street_types:

In [29]:
street_types = melb_df['Address'].apply(get_street_type)
display(street_types)

0        St
1        St
2        St
3        La
4        St
         ..
13575    Cr
13576    Dr
13577    St
13578    St
13579    St
Name: Address, Length: 13580, dtype: object

Итак, мы смогли выделить подтип улицы. Посмотрим, сколько уникальных значений у нас получилось:

In [30]:
print(street_types.nunique())

56


У нас есть 56 уникальных значений. Однако наш результат можно улучшить. Давайте для начала посмотрим на частоту каждого подтипа улицы с помощью метода value_counts:

In [31]:
display(street_types.value_counts())

St           8012
Rd           2825
Ct            612
Dr            447
Av            321
Gr            311
Pde           211
Pl            169
Cr            152
Cl            100
La             67
Bvd            53
Tce            47
Wy             40
Avenue         40
Cct            25
Hwy            24
Parade         15
Boulevard      13
Sq             11
Crescent        9
Cir             7
Strand          7
Esplanade       6
Grove           5
Gdns            4
Grn             4
Fairway         4
Mews            4
Crossway        3
Righi           3
Victoria        2
Ridge           2
Crofts          2
Esp             2
Glade           1
Gra             1
Ave             1
Woodland        1
Outlook         1
Hts             1
Highway         1
Athol           1
Summit          1
Grand           1
Res             1
Nook            1
Eyrie           1
Dell            1
East            1
Loop            1
Grange          1
Terrace         1
Cove            1
Qy              1
Corso     

Из данного вывода можно увидеть, что есть группа наиболее популярных подтипов улиц, а дальше частота подтипов быстро падает.

В таком случае давайте применим очень распространённый метод уменьшения количества уникальных категорий — выделим n подтипов, которые встречаются чаще всего, а остальные обозначим как 'other' (другие).

Для этого к результату метода value_counts применим метод nlargest(), который возвращает n наибольших значений из Series. Зададим n=10, т. е. мы хотим отобрать десять наиболее популярных подтипов. Извлечём их названия с помощью атрибута index, а результат занесём в переменную popular_stypes:



In [32]:
popular_stypes =street_types.value_counts().nlargest(10).index
print(popular_stypes)
# Index(['St', 'Rd', 'Ct', 'Dr', 'Av', 'Gr', 'Pde', 'Pl', 'Cr', 'Cl'], dtype='object')

Index(['St', 'Rd', 'Ct', 'Dr', 'Av', 'Gr', 'Pde', 'Pl', 'Cr', 'Cl'], dtype='object')


Теперь, когда у нас есть список наиболее популярных подтипов улиц, введём lambda-функцию, которая будет проверять, есть ли строка x в этом перечне, и, если это так, lambda-функция будет возвращать x, в противном случае она будет возвращать строку 'other'. Наконец, применим такую функцию к Series street_types, полученной ранее, а результат определим в новый столбец таблицы StreetType:

In [33]:
melb_df['StreetType'] = street_types.apply(lambda x: x if x in popular_stypes else 'other')
display(melb_df['StreetType'])

0           St
1           St
2           St
3        other
4           St
         ...  
13575       Cr
13576       Dr
13577       St
13578       St
13579       St
Name: StreetType, Length: 13580, dtype: object

Посмотрим на результирующее число уникальных подтипов:

In [34]:
print(melb_df['StreetType'].nunique())

11


Теперь, у нас нет потребности хранить признак Address, так как, если конкретное местоположение объекта всё же и влияет на его стоимость, то оно определяется столбцами Longitude и Lattitude. Удалим его из нашей таблицы:

In [35]:
melb_df = melb_df.drop('Address', axis = 1)

Таким образом, с помощью написания собственных функций и их комбинирования с методом apply() из библиотеки Pandas мы смогли извлечь информацию из признака с адресом и заменить на признак подтипа улицы. 

Задание 4.2
Ранее, в задании 3.3, мы создали признак WeekdaySale в таблице melb_df — день недели продажи. Из полученных в задании результатов можно сделать вывод, что объекты недвижимости в Мельбурне продаются преимущественно по выходным (суббота и воскресенье).
Напишите функцию get_weekend(weekday), которая принимает на вход элемент столбца WeekdaySale и возвращает 1, если день является выходным, и 0 — в противном случае, и создайте столбец Weekend в таблице melb_df с помощью неё.

Примените эту функцию к столбцу и вычислите среднюю цену объекта недвижимости, проданного в выходные дни. Результат округлите до целых.

In [36]:
# melb_df['WeekdaySale'] = melb_df['Date'].dt.day_name()
# weekend_count = melb_df[melb_df['WeekdaySale'].isin(['Saturday', 'Sunday'])].shape[0]
# display(weekend_count)

# Функция, которая определяет, является ли день выходным
def get_weekend(weekday):
    if weekday in ['Saturday', 'Sunday']:
        return 1
    else: return 0

# Создание столбца "WeekdaySale"
melb_df['WeekdaySale'] = melb_df['Date'].dt.day_name()

# Применение функции get_weekend для создания столбца "Weekend"
melb_df['Weekend'] = melb_df['WeekdaySale'].apply(get_weekend)
# display(melb_df)

# Вычисление средней цены объекта недвижимости, проданного в выходные дни
average_price_weekend = melb_df[melb_df['Weekend'] == 1]['Price'].mean()

# Округление средней цены до целых
average_price_weekend_rounded = round(average_price_weekend)
display(average_price_weekend_rounded)

1081199

Задание 4.3

Преобразуйте столбец SellerG с наименованиями риелторских компаний в таблице melb_df следующим образом: оставьте в столбце только 49 самых популярных компаний, а остальные обозначьте как 'other'.
Найдите, во сколько раз минимальная цена объектов недвижимости, проданных компанией 'Nelson', больше минимальной цены объектов, проданных компаниями, обозначенными как 'other'. Ответ округлите до десятых.

In [37]:
# Определение количества наиболее популярных компаний
top_sellers = melb_df['SellerG'].value_counts().nlargest(49).index

# Преобразование значений в столбце SellerG
melb_df['SellerG'] = melb_df['SellerG'].apply(lambda x: x if x in top_sellers else 'other')

# Нахождение минимальной цены объектов недвижимости, проданных компанией 'Nelson'
min_price_nelson = melb_df[melb_df['SellerG'] == 'Nelson']['Price'].min()

# Нахождение минимальной цены объектов, проданных компаниями, обозначенными как 'other'
min_price_other = melb_df[melb_df['SellerG'] == 'other']['Price'].min()

# Вычисление во сколько раз минимальная цена объектов, проданных 'Nelson', больше минимальной цены объектов, проданных 'other'
price_ratio = round(min_price_nelson / min_price_other, 1)

# Вывод результата
print(f"Минимальная цена объектов, проданных 'Nelson', в {price_ratio} раз больше минимальной цены объектов, проданных 'other'.")

Минимальная цена объектов, проданных 'Nelson', в 1.3 раз больше минимальной цены объектов, проданных 'other'.


In [38]:
display(melb_df.head)

<bound method NDFrame.head of               Suburb  Rooms Type      Price Method   SellerG       Date  \
0         Abbotsford      2    h  1480000.0      S    Biggin 2016-12-03   
1         Abbotsford      2    h  1035000.0      S    Biggin 2016-02-04   
2         Abbotsford      3    h  1465000.0     SP    Biggin 2017-03-04   
3         Abbotsford      3    h   850000.0     PI    Biggin 2017-03-04   
4         Abbotsford      4    h  1600000.0     VB    Nelson 2016-06-04   
...              ...    ...  ...        ...    ...       ...        ...   
13575  Wheelers Hill      4    h  1245000.0      S     Barry 2017-08-26   
13576   Williamstown      3    h  1031000.0     SP  Williams 2017-08-26   
13577   Williamstown      3    h  1170000.0      S     Raine 2017-08-26   
13578   Williamstown      4    h  2500000.0     PI   Sweeney 2017-08-26   
13579     Yarraville      4    h  1285000.0     SP   Village 2017-08-26   

       Distance  Postcode  Bedroom  ...  Longtitude  \
0           2.

Задание 4.4

Представьте, что вы занимаетесь подготовкой данных о вакансиях с платформы hh.ru. В вашем распоряжении имеется таблица, в которой с помощью парсинга собраны резюме кандидатов. В этой таблице есть текстовый столбец «Опыт работы». Пример такого столбца представлен ниже в виде объекта Series. Структура текста в столбце фиксирована и не может измениться.

Напишите функцию get_experience(arg), аргументом которой является строка столбца с опытом работы. Функция должна возвращать опыт работы в месяцах. Не забудьте привести результат к целому числу.

Примечание. Обратите внимание, что опыт работы может выражаться только в годах или только в месяцах. Учтите это при построении своей функции.

При проверке мы будем применять вашу функцию к разным Series с помощью метода apply().

Пример результата работы функции get_experience:

In [39]:
#  test_series_1 = pd.Series([
#     'Опыт работы 8 лет 3 месяца',
#     'Опыт работы 3 года 5 месяцев',
#     'Опыт работы 1 год 9 месяцев',
#     'Опыт работы 3 месяца',
#     'Опыт работы 6 лет'
# ])

test_series_2 = pd.Series([
    'Опыт работы 5 лет',
    'Опыт работы 5 месяцев',
    'Опыт работы 1 год 1 месяц',
    'Опыт работы 3 месяца',
    'Опыт работы 7 лет'
])

def get_experience(arg):
    years = ['лет', 'год', 'года']
    months = ['месяц', 'месяцев', 'месяца']
    words = arg.split(' ')
    total_years = 0
    total_months = 0

    if any(year in words for year in years) and any(month in words for month in months):
        total_years = int(words[2])
        total_months = int(words[-2])
    elif any(year in words for year in years):
        total_years = int(words[2])
    elif any(month in words for month in months):
        total_months = int(words[-2])
    
    total = total_years * 12 + total_months
    return total

print(test_series_2.apply(get_experience))


0    60
1     5
2    13
3     3
4    84
dtype: int64


In [40]:
# def get_experience(arg):
#     month_key_words = ['месяц', 'месяцев', 'месяца']
#     year_key_words = ['год', 'лет', 'года']
#     args_splited = arg.split(' ')
#     month = 0
#     year = 0
#     for i in range(len(args_splited)):
#         if args_splited[i] in month_key_words:
#             month = args_splited[i-1]
#         if args_splited[i] in year_key_words:
#             year = args_splited[i-1]
#     return int(year)*12 + int(month)


КАТЕГОРИИ В ДАННЫХ О НЕДВИЖИМОСТИ

Давайте определим число уникальных категорий в каждом столбце нашей таблицы melb_df. Для этого создадим вспомогательную таблицу unique_counts:

In [41]:
# создаём пустой список
unique_list = []
# пробегаемся по именам столбцов в таблице
for col in melb_df.columns:
    # создаём кортеж (имя столбца, число уникальных значений)
    item = (col, melb_df[col].nunique(),melb_df[col].dtypes)     # добавляем кортеж в список
    unique_list.append(item) 
# создаём вспомогательную таблицу и сортируем её
unique_counts = pd.DataFrame(
    unique_list,
    columns=['Column_Name', 'Num_Unique', 'Type']
).sort_values(by='Num_Unique',  ignore_index=True)
# выводим её на экран
display(unique_counts)

Unnamed: 0,Column_Name,Num_Unique,Type
0,Weekend,2,int64
1,Type,3,object
2,Method,5,object
3,WeekdaySale,5,object
4,Regionname,8,object
5,Bathroom,9,int64
6,Rooms,9,int64
7,Car,11,int64
8,StreetType,11,object
9,Bedroom,12,int64


ТИП ДАННЫХ CATEGORY

Для хранения и оптимизации работы с категориальными признаками в Pandas предусмотрен специальный тип данных — category.

→ Этот тип данных является гибридным: внешне он выглядит как строка, но внутренне представлен массивом целых чисел. Так как данные вместо изначальных строк хранятся в памяти как число, то объём памяти, занимаемой таблицей при использовании типа category, резко уменьшается, что повышает эффективность хранения и работы с таблицей.

→ Более того, этот тип данных расширяет возможности работы с категориальными признаками: мы можем легко преобразовывать категории, строить графики по таким данным (что сложно сделать для типа данных object). Также резко повышается производительность операций, совершаемых с такими столбцами.

Самый простой способ преобразования столбцов к типу данных category — это использование уже знакомого нам метода astype(), в параметры которого достаточно передать строку 'category'.

Рассмотрим это на примере.

Для начала, выведем информацию о памяти, занимаемой текущей таблицей, с помощью метода info():

In [42]:
display(melb_df.info())
# memory usage: 2.7+ MB 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Suburb           13580 non-null  object        
 1   Rooms            13580 non-null  int64         
 2   Type             13580 non-null  object        
 3   Price            13580 non-null  float64       
 4   Method           13580 non-null  object        
 5   SellerG          13580 non-null  object        
 6   Date             13580 non-null  datetime64[ns]
 7   Distance         13580 non-null  float64       
 8   Postcode         13580 non-null  int64         
 9   Bedroom          13580 non-null  int64         
 10  Bathroom         13580 non-null  int64         
 11  Car              13580 non-null  int64         
 12  Landsize         13580 non-null  float64       
 13  BuildingArea     13580 non-null  float64       
 14  CouncilArea      12211 non-null  objec

None

#### Примечание. 
Объём занимаемой памяти и количество столбцов на вашем компьютере может отличаться в зависимости от того, выполняли ли вы код и задания из предыдущих разделов на добавление и преобразование данных в таблице.

Сделаем преобразование столбцов к типу данных category:

In [43]:
cols_to_exclude = ['Date', 'Rooms', 'Bedroom', 'Bathroom', 'Car'] # список столбцов, которые мы не берём во внимание
max_unique_count = 150 # задаём максимальное число уникальных категорий
for col in melb_df.columns: # цикл по именам столбцов
    if melb_df[col].nunique() < max_unique_count and col not in cols_to_exclude: # проверяем условие
        melb_df[col] = melb_df[col].astype('category') # преобразуем тип столбца
display(melb_df.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Suburb           13580 non-null  object        
 1   Rooms            13580 non-null  int64         
 2   Type             13580 non-null  category      
 3   Price            13580 non-null  float64       
 4   Method           13580 non-null  category      
 5   SellerG          13580 non-null  category      
 6   Date             13580 non-null  datetime64[ns]
 7   Distance         13580 non-null  float64       
 8   Postcode         13580 non-null  int64         
 9   Bedroom          13580 non-null  int64         
 10  Bathroom         13580 non-null  int64         
 11  Car              13580 non-null  int64         
 12  Landsize         13580 non-null  float64       
 13  BuildingArea     13580 non-null  float64       
 14  CouncilArea      12211 non-null  categ

None

ПОЛУЧЕНИЕ АТРИБУТОВ CATEGORY

У типа данных category есть свой специальный аксесcор cat, который позволяет получать информацию о своих значениях и преобразовывать их. Например, с помощью атрибута этого аксессора categories мы можем получить список уникальных категорий в столбце Regionname:

In [44]:
print(melb_df['Regionname'].cat.categories)

Index(['Eastern Metropolitan', 'Eastern Victoria', 'Northern Metropolitan',
       'Northern Victoria', 'South-Eastern Metropolitan',
       'Southern Metropolitan', 'Western Metropolitan', 'Western Victoria'],
      dtype='object')


А теперь посмотрим, каким образом столбец кодируется в виде чисел в памяти компьютера. Для этого можно воспользоваться атрибутом codes:

In [45]:
display(melb_df['Regionname'].cat.codes)

0        2
1        2
2        2
3        2
4        2
        ..
13575    4
13576    6
13577    6
13578    6
13579    6
Length: 13580, dtype: int8

С помощью метода аксессора rename_categories() можно легко переименовать текущие значения категорий. Для этого в данный метод нужно передать словарь, ключи которого — старые имена категорий, а значения — новые.

Рассмотрим на примере: переименуем категории признака типа постройки Type — заменим их на полные названия (напомним, u — unit, h — house, t — townhouse).

In [46]:
melb_df['Type'] = melb_df['Type'].cat.rename_categories({
    'u': 'unit',
    't': 'townhouse',
    'h': 'house'
})

display(melb_df['Type'])

0        house
1        house
2        house
3        house
4        house
         ...  
13575    house
13576    house
13577    house
13578    house
13579    house
Name: Type, Length: 13580, dtype: category
Categories (3, object): ['house', 'townhouse', 'unit']

#### ПОДВОДНЫЕ КАМНИ

А теперь представим ситуацию, что появилась новая партия домов и теперь мы продаём и квартиры (flat). Создадим объект Series new_houses_types, в котором будем хранить типы зданий новой партии домов. Преобразуем тип new_houses_types в такой же тип, как и у столбца Type в таблице melb_data, и выведем результат на экран:

In [47]:
new_houses_types = pd.Series(['unit', 'house', 'flat', 'flat', 'house'])
new_houses_types = new_houses_types.astype(melb_df['Type'].dtype)
display(new_houses_types)

0     unit
1    house
2      NaN
3      NaN
4    house
dtype: category
Categories (3, object): ['house', 'townhouse', 'unit']

Хммм... С нашими новыми объектами недвижимости произошло нечто странное. По какой-то причине вместо квартир мы получили пустые значения — NaN.

На самом деле причина проста: тип данных category хранит только категории, которые были объявлены при его инициализации. При встрече с новой, неизвестной ранее категорией, этот тип превратит её в пустое значение, так как он просто не знает о существовании этой категории.

Решить эту проблему на самом деле не сложно. Можно добавить категорию flat в столбец Type с помощью метода акссесора cat add_categories(), в который достаточно просто передать имя новой категории:

In [48]:
melb_df['Type'] = melb_df['Type'].cat.add_categories('flat')
new_houses_types = pd.Series(['unit', 'house', 'flat', 'flat', 'house'])
new_houses_types = new_houses_types.astype(melb_df['Type'].dtype)
display(new_houses_types)

0     unit
1    house
2     flat
3     flat
4    house
dtype: category
Categories (4, object): ['house', 'townhouse', 'unit', 'flat']

Примечание. Добавление новой категории в столбец Type не отразится на самом столбце — текущие категории не изменятся, однако такое преобразование позволит добавлять в таблицу новые данные о домах с новой категорией — flat.

Из данного примера можно сделать вывод, что если набор категорий в столбце жёстко не зафиксирован и может обновляться в процессе работы, то тип category не является подходящим типом данных для этого столбца или необходимо постоянно писать проверки при обновлении таблицы.

### Задание 5.2

При преобразовании столбцов таблицы о недвижимости к типу category мы оставили без внимания столбец Suburb (пригород). 
Давайте исправим это.
С помощью метода info() узнайте, сколько памяти занимает таблица melb_df.
Преобразуйте признак Suburb следующим образом: 
 - оставьте в столбце только 119 наиболее популярных пригородов, остальные замените на 'other'.
 - Приведите данные в столбце Suburb к категориальному типу.

В качестве ответа запишите разницу между объёмом занимаемой памяти до преобразования (который мы получили ранее в модуле) и после него в Мб. Ответ округлите до десятых.

In [49]:
melb_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Suburb           13580 non-null  object        
 1   Rooms            13580 non-null  int64         
 2   Type             13580 non-null  category      
 3   Price            13580 non-null  float64       
 4   Method           13580 non-null  category      
 5   SellerG          13580 non-null  category      
 6   Date             13580 non-null  datetime64[ns]
 7   Distance         13580 non-null  float64       
 8   Postcode         13580 non-null  int64         
 9   Bedroom          13580 non-null  int64         
 10  Bathroom         13580 non-null  int64         
 11  Car              13580 non-null  int64         
 12  Landsize         13580 non-null  float64       
 13  BuildingArea     13580 non-null  float64       
 14  CouncilArea      12211 non-null  categ

In [50]:
melb_df['Suburb'].nunique()

314

In [51]:
melb_df['Suburb'].value_counts()

Reservoir         359
Richmond          260
Bentleigh East    249
Preston           239
Brunswick         222
                 ... 
Sandhurst           1
Bullengarook        1
Croydon South       1
Montrose            1
Monbulk             1
Name: Suburb, Length: 314, dtype: int64

In [52]:
unique_count = 119
# Определяем наиболее популярные пригороды
top_suburbs = melb_df['Suburb'].value_counts().nlargest(unique_count).index

# Заменяем все остальные пригороды на 'other'
# for i in range(len(melb_df['Suburb'])):
#     if melb_df['Suburb'].iloc[i] not in top_suburbs:
#         melb_df.cat.rename[i, 'Suburb'] = 'other'
# melb_df['Suburb'] = melb_df['Suburb'].where(melb_df['Suburb'].isin(top_suburbs), 'other')
# melb_df['Suburb'].apply(lambda x: x if x in top_suburbs else 'other')
# Преобразуем столбец Suburb в категориальный тип
melb_df['Suburb'] = melb_df['Suburb'].astype('category')

# Вывод информации о памяти
display(melb_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Suburb           13580 non-null  category      
 1   Rooms            13580 non-null  int64         
 2   Type             13580 non-null  category      
 3   Price            13580 non-null  float64       
 4   Method           13580 non-null  category      
 5   SellerG          13580 non-null  category      
 6   Date             13580 non-null  datetime64[ns]
 7   Distance         13580 non-null  float64       
 8   Postcode         13580 non-null  int64         
 9   Bedroom          13580 non-null  int64         
 10  Bathroom         13580 non-null  int64         
 11  Car              13580 non-null  int64         
 12  Landsize         13580 non-null  float64       
 13  BuildingArea     13580 non-null  float64       
 14  CouncilArea      12211 non-null  categ

None

In [53]:
df_bike = pd.read_csv('data\citibike-tripdata.csv', sep=',')

In [54]:
df_bike.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300000 entries, 0 to 299999
Data columns (total 14 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   starttime                300000 non-null  object 
 1   stoptime                 300000 non-null  object 
 2   start station id         299831 non-null  float64
 3   start station name       299831 non-null  object 
 4   start station latitude   300000 non-null  float64
 5   start station longitude  300000 non-null  float64
 6   end station id           299831 non-null  float64
 7   end station name         299831 non-null  object 
 8   end station latitude     300000 non-null  float64
 9   end station longitude    300000 non-null  float64
 10  bikeid                   300000 non-null  int64  
 11  usertype                 300000 non-null  object 
 12  birth year               300000 non-null  int64  
 13  gender                   300000 non-null  int64  
dtypes: f

### Задание 6.1
Сколько пропусков в столбце start station id?

In [55]:
df_bike['bikeid'].count() - df_bike['start station id'].count()

169

### Задание 6.2
Какой тип данных имеют столбцы starttime и stoptime?

In [56]:
df_bike.dtypes

starttime                   object
stoptime                    object
start station id           float64
start station name          object
start station latitude     float64
start station longitude    float64
end station id             float64
end station name            object
end station latitude       float64
end station longitude      float64
bikeid                       int64
usertype                    object
birth year                   int64
gender                       int64
dtype: object

### Задание 6.3
Найдите идентификатор самой популярной стартовой стоянки. Запишите идентификатор в виде целого числа.

In [57]:
df_bike.value_counts('start station id').idxmax()

281.0

### Задание 6.4
Велосипед с каким идентификатором является самым популярным?

In [58]:
df_bike.value_counts('bikeid').idxmax()

33887

### Задание 6.5
Какой тип клиентов (столбец usertype) является преобладающим — Subscriber или Customer? В качестве ответа запишите долю клиентов преобладающего типа среди общего количества клиентов. Ответ округлите до сотых.

In [59]:
user_type_counts = df_bike.value_counts('usertype')
dominant_user_type = user_type_counts.idxmax()
dominant_user_type_fraction = user_type_counts[dominant_user_type] / user_type_counts.sum()

In [60]:
dominant_user_type_fraction

0.7740066666666666

### Задание 6.6
Кто больше занимается велоспортом — мужчины или женщины? В ответ запишите число поездок для той группы, у которой их больше.

In [61]:
df_bike.value_counts('gender').max()

183582

### Задание 6.7

Выберите утверждения,которые соответствуют нашим данным:
 - A Число уникальных стартовых и конечных стоянок, которыми воспользовались клиенты, не равны друг другу
 - B В рассматриваемые дни минимальный возраст клиента составлял 10 лет
 - C Самой непопулярной стартовой стоянкой из тех, которыми воспользовались клиенты, является стоянка с названием "Eastern Pkwy & Washington Ave"
 - D Наибольшее количество поездок завершается на стоянке под названием "Liberty Light Rail"

In [62]:
df_bike['start station id'].value_counts()

281.0     1928
2006.0    1909
519.0     1873
514.0     1845
426.0     1835
          ... 
3432.0      15
3599.0      11
2005.0       9
3704.0       7
3583.0       6
Name: start station id, Length: 759, dtype: int64

In [63]:
df_bike['end station id'].value_counts()

426.0     1963
514.0     1909
519.0     1850
2006.0    1828
497.0     1804
          ... 
3183.0       3
3191.0       1
3187.0       1
3074.0       1
3192.0       1
Name: end station id, Length: 765, dtype: int64

In [64]:
df_bike['birth year'].sort_values()

9535      1885
132655    1885
13448     1885
8904      1885
124304    1885
          ... 
51709     2002
138682    2002
247025    2002
137007    2002
38404     2002
Name: birth year, Length: 300000, dtype: int64

In [65]:
df_bike['start station name'].count()

299831

In [66]:
df_bike['start station name'].value_counts().idxmin()

'Eastern Pkwy & Washington Ave'

In [67]:
df_bike['end station name'].value_counts().idxmax()

'West St & Chambers St'

### Задание 6.8
В первую очередь удалим лишнюю информацию из данных.
В наших данных присутствуют столбцы, которые дублируют информацию друг о друге: это столбцы с идентификатором и названием стартовой и конечной стоянки. Удалите признаки идентификаторов стоянок. Сколько столбцов осталось?

In [68]:
df_bike.head(2)

Unnamed: 0,starttime,stoptime,start station id,start station name,start station latitude,start station longitude,end station id,end station name,end station latitude,end station longitude,bikeid,usertype,birth year,gender
0,2018-09-01 00:00:05.2690,2018-09-01 00:27:20.6340,252.0,MacDougal St & Washington Sq,40.732264,-73.998522,366.0,Clinton Ave & Myrtle Ave,40.693261,-73.968896,25577,Subscriber,1980,1
1,2018-09-01 00:00:11.2810,2018-09-01 00:02:23.4810,314.0,Cadman Plaza West & Montague St,40.69383,-73.990539,3242.0,Schermerhorn St & Court St,40.691029,-73.991834,34377,Subscriber,1969,0


In [69]:
df_bike.drop(['start station id', 'end station id'], axis = 1)

Unnamed: 0,starttime,stoptime,start station name,start station latitude,start station longitude,end station name,end station latitude,end station longitude,bikeid,usertype,birth year,gender
0,2018-09-01 00:00:05.2690,2018-09-01 00:27:20.6340,MacDougal St & Washington Sq,40.732264,-73.998522,Clinton Ave & Myrtle Ave,40.693261,-73.968896,25577,Subscriber,1980,1
1,2018-09-01 00:00:11.2810,2018-09-01 00:02:23.4810,Cadman Plaza West & Montague St,40.693830,-73.990539,Schermerhorn St & Court St,40.691029,-73.991834,34377,Subscriber,1969,0
2,2018-09-01 00:00:20.6490,2018-09-01 00:55:58.5470,1 Ave & E 62 St,40.761227,-73.960940,Smith St & 3 St,40.678724,-73.995991,30496,Subscriber,1975,1
3,2018-09-01 00:00:21.7460,2018-09-01 00:07:38.5830,St James Pl & Oliver St,40.713079,-73.998512,Park Pl & Church St,40.713342,-74.009355,28866,Subscriber,1984,2
4,2018-09-01 00:00:27.3150,2018-09-01 02:21:25.3080,W 13 St & 6 Ave,40.736494,-73.997044,W 4 St & 7 Ave S,40.734011,-74.002939,20943,Customer,1994,1
...,...,...,...,...,...,...,...,...,...,...,...,...
299995,2018-09-05 19:08:27.8460,2018-09-05 19:15:51.4940,W 26 St & 8 Ave,40.747348,-73.997236,W 37 St & 10 Ave,40.756604,-73.997901,19531,Subscriber,1990,2
299996,2018-09-05 19:08:28.3700,2018-09-05 19:20:01.5080,Kent Ave & N 7 St,40.720368,-73.961651,Graham Ave & Conselyea St,40.715143,-73.944507,34020,Subscriber,1982,1
299997,2018-09-05 19:08:27.5090,2018-09-05 19:13:40.5060,Gansevoort St & Hudson St,40.739448,-74.005070,W 18 St & 6 Ave,40.739713,-73.994564,33220,Subscriber,1991,1
299998,2018-09-05 19:08:29.2300,2018-09-05 20:04:29.3220,W 11 St & 6 Ave,40.735324,-73.998004,Broadway & W 60 St,40.769155,-73.981918,34744,Subscriber,1975,0


### Задание 6.9

Замените признак birth year на более понятный признак возраста клиента age. Годом отсчёта возраста выберите 2018 год. Столбец birth year удалите из таблицы. Сколько поездок совершено клиентами старше 60 лет?

In [70]:
# df_bike.rename({'borth date' : 'age'})
df_bike['age'] = 2018 - df_bike['birth year']
df_bike.drop('birth year', axis=1)


Unnamed: 0,starttime,stoptime,start station id,start station name,start station latitude,start station longitude,end station id,end station name,end station latitude,end station longitude,bikeid,usertype,gender,age
0,2018-09-01 00:00:05.2690,2018-09-01 00:27:20.6340,252.0,MacDougal St & Washington Sq,40.732264,-73.998522,366.0,Clinton Ave & Myrtle Ave,40.693261,-73.968896,25577,Subscriber,1,38
1,2018-09-01 00:00:11.2810,2018-09-01 00:02:23.4810,314.0,Cadman Plaza West & Montague St,40.693830,-73.990539,3242.0,Schermerhorn St & Court St,40.691029,-73.991834,34377,Subscriber,0,49
2,2018-09-01 00:00:20.6490,2018-09-01 00:55:58.5470,3142.0,1 Ave & E 62 St,40.761227,-73.960940,3384.0,Smith St & 3 St,40.678724,-73.995991,30496,Subscriber,1,43
3,2018-09-01 00:00:21.7460,2018-09-01 00:07:38.5830,308.0,St James Pl & Oliver St,40.713079,-73.998512,3690.0,Park Pl & Church St,40.713342,-74.009355,28866,Subscriber,2,34
4,2018-09-01 00:00:27.3150,2018-09-01 02:21:25.3080,345.0,W 13 St & 6 Ave,40.736494,-73.997044,380.0,W 4 St & 7 Ave S,40.734011,-74.002939,20943,Customer,1,24
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
299995,2018-09-05 19:08:27.8460,2018-09-05 19:15:51.4940,494.0,W 26 St & 8 Ave,40.747348,-73.997236,448.0,W 37 St & 10 Ave,40.756604,-73.997901,19531,Subscriber,2,28
299996,2018-09-05 19:08:28.3700,2018-09-05 19:20:01.5080,3016.0,Kent Ave & N 7 St,40.720368,-73.961651,3086.0,Graham Ave & Conselyea St,40.715143,-73.944507,34020,Subscriber,1,36
299997,2018-09-05 19:08:27.5090,2018-09-05 19:13:40.5060,3686.0,Gansevoort St & Hudson St,40.739448,-74.005070,168.0,W 18 St & 6 Ave,40.739713,-73.994564,33220,Subscriber,1,27
299998,2018-09-05 19:08:29.2300,2018-09-05 20:04:29.3220,254.0,W 11 St & 6 Ave,40.735324,-73.998004,499.0,Broadway & W 60 St,40.769155,-73.981918,34744,Subscriber,0,43


In [71]:
df_bike[df_bike['age'] > 60].shape[0]

11837

### Задание 6.10
Создайте признак длительности поездки trip duration. Для этого вычислите интервал времени между временем окончания поездки (stoptime) и её началом (starttime). Сколько целых минут длилась поездка под индексом 3 в таблице?

In [72]:
df_bike['trip_duration'] = (df_bike['stoptime'] - df_bike['starttime']).dt.total_seconds()

print(df_bike['trip_duration'].iloc[3] / 60)

TypeError: unsupported operand type(s) for -: 'str' and 'str'

### Задание 6.11
Создайте «признак-мигалку» weekend, который равен 1, если поездка начиналась в выходной день (суббота или воскресенье), и 0 — в противном случае. Выясните, сколько поездок начиналось в выходные.

In [73]:
df_bike['weekend'] = (df_bike['starttime'].dt.dayofweek // 5).astype(int)

df_bike['weekend'].value_counts()

AttributeError: Can only use .dt accessor with datetimelike values

### Задание 6.12
 - Создайте признак времени суток поездки time_of_day. Время суток будем определять из часа начала поездки. 
 Условимся, что:
 - поездка совершается ночью (night), если её час приходится на интервал от 0 (включительно) до 6 (включительно) часов;
 - поездка совершается утром (morning), если её час приходится на интервал от 6 (не включительно) до 12 (включительно) часов;
 - поездка совершается днём (day), если её час приходится на интервал от 12 (не включительно) до 18 (включительно) часов;
 - поездка совершается вечером (evening), если её час приходится на интервал от 18 (не включительно) до 23 часов (включительно).
Во сколько раз количество поездок, совершённых днём, больше, чем количество поездок, совёршенных ночью, за представленный в данных период времени? Ответ округлите до целых.

In [None]:
# Определение функции get_time_of_day
def get_time_of_day(hour):
    if 0 <= hour <= 6:
        return 'night'
    elif 6 < hour <= 12:
        return 'morning'
    elif 12 < hour <= 18:
        return 'day'
    else:
        return 'evening'

# Применение функции к столбцу starttime
df_bike['time_of_day'] = df_bike['starttime'].dt.hour.apply(get_time_of_day)

# Подсчет количества поездок днем и ночью
day_trips_count = df_bike[df_bike['time_of_day'] == 'day'].shape[0]
night_trips_count = df_bike[df_bike['time_of_day'] == 'night'].shape[0]

# Разделение количества поездок днем на количество поездок ночью
ratio_day_night = day_trips_count / night_trips_count if night_trips_count != 0 else 0

In [None]:
ratio_day_night

9.480411004308916