# МОДУЛЬ 35

## 36.1 Feature Engineering (генерация признаков (фичей))

Прежде чем проанализировать данные, мы должны пройти через огромный этап под названием Предобработка данных и их подготовка к анализу и подаче в модель.

Под предобработкой понимаются следующие этапы работы с данными:
   очистка данных от аномальных значений (выбросов);
   работа с пропущенными значениями;
   удаление признаков, которые не несут полезной информации;
   создание новых признаков;
   преобразование признаков и приведение данных к необходимому для анализа и модели формату.

In [4]:
import pandas as pd
melb_data = pd.read_csv('data/melb_data_ps.csv', sep=',')

## 36.2 Базовые операции со столбцами DataFrame

### СОЗДАНИЕ КОПИИ ТАБЛИЦЫ

In [16]:
melb_df = melb_data.copy()

### УДАЛЕНИЕ СТОЛБЦОВ

Основные параметры метода drop()
labels — порядковые номера или имена столбцов, которые подлежат удалению; если их несколько, то передаётся список;
axis — ось совершения операции, axis=0 — удаляются строки, axis=1 — удаляются столбцы;
inplace — если параметр выставлен на True, происходит замена изначального DataFrame на новый, при этом метод ничего не возвращает; если на False — возвращается копия DataFrame без значений, подлежащих удалению, при этом первоначальный DataFrame не изменяется; по умолчанию параметр равен False.

In [17]:
# Удалим столбцы index и Coordinates из таблицы с помощью метода drop()
melb_df = melb_df.drop(['index', 'Coordinates'], axis=1)

### МАТЕМАТИЧЕСКИЕ ОПЕРАЦИИ СО СТОЛБЦАМИ

In [23]:
# создадим переменную total_rooms, в которой будем хранить общее количество комнат в здании
total_rooms = melb_df['Rooms'] + melb_df['Bedroom'] + melb_df['Bathroom']

# введём признак MeanRoomsSquare, который соответствует средней площади одной 
# комнаты для каждого объекта
melb_df['MeanRoomsSquare'] = melb_df['BuildingArea'] / total_rooms

# введем признак — AreaRatio, коэффициент соотношения площади здания (BuildingArea) и 
# площади участка (Landsize)diff_area = melb_df['BuildingArea'] - melb_df['Landsize']
diff_area = melb_df['BuildingArea'] - melb_df['Landsize']
sum_area = melb_df['BuildingArea'] + melb_df['Landsize']
melb_df['AreaRatio'] = diff_area/sum_area

In [None]:
def delete_columns(df, col=[]):
    """
    Напишите функцию delete_columns(df, col=[]), которая удаляет столбцы из DataFrame и возвращает новую таблицу. 
    Если одного из указанных столбцов в таблице не существует, то функция должна возвращать None.
    """
    for cc in col:
        if cc not in df.columns:
            return None
    return df.drop(col, axis=1)

if __name__ == '__main__':
    customer_df = pd.DataFrame({
        'number': [0, 1, 2, 3, 4],
        'cust_id': [128, 1201, 9832, 4392, 7472],
        'cust_age': [13, 21, 19, 21, 60],
        'cust_sale': [0, 0, 0.2, 0.15, 0.3],
        'cust_year_birth': [2008, 2000, 2002, 2000, 1961],
        'cust_order': [1400, 14142, 900, 1240, 8430]
    })
    columns_for_delete= ['number','cust_age'] #выбранные вами столбцы
    new_df = delete_columns(customer_df, columns_for_delete)
    print(new_df)


In [28]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

In [42]:
countries_df.head(7)
countries_df['density'] = countries_df['population'] / countries_df['square'] * 1000000
print(round(countries_df['density'].mean(), 2))

84.93


## 36.3 Работа с датами в DataFrame

### ПРИЗНАКИ ДАТЫ И ВРЕМЕНИ

Единый способ обозначения даты и времени - формат datetime: YYYY-MM-DD HH: MM: SS, (год, месяц, день, час, минута, секунда)

 

In [None]:
# Преобразуем столбец Date в формат datetime, передав его в эту функцию:
melb_df['Date'] = pd.to_datetime(melb_df['Date'])
display(melb_df['Date'])

In [None]:
df = pd.DataFrame({'year': [2015, 2016],
                   'month': [2, 3],
                   'day': [4, 5]})
print(df)
pd.to_datetime(df)

### ВЫДЕЛЕНИЕ АТРИБУТОВ DATETIME

Тип данных datetime позволяет с помощью специального аксессора dt выделять составляющие времени из каждого элемента столбца, такие как:

Аксессор — это атрибут столбца, хранящий переменные, которые были строковым представлением времени, а затем были изменены с помощью pd.to_datetime().

Если вы попытаетесь обратиться к dt столбца, в котором лежит что-то, отличное от времени, то получите ошибку.

Обратите внимание, что вы не сможете обратиться к аксессору, если ваш столбец не приведён к типу datetime.

1)	date — дата;
2)	year, month, day — год, месяц, день;
3)	time — время;
4)	hour, minute, second — час, минута, секунда;
5)	dayofweek — номер дня недели, от 0 до 6, где 0 — понедельник, 6 — воскресенье;
6)	weekday_name — название дня недели;
7)	dayofyear — порядковый день года;
8)	quarter — квартал (интервал в три месяца).





In [None]:
# «достать» год продажи и понять, за какой интервал времени (в годах) у нас представлены 
# данные, а также на какой год приходится наибольшее число продаж:
years_sold = melb_df['Date'].dt.year
print(years_sold)
print('Min year sold:', years_sold.min())
print('Max year sold:', years_sold.max())
print('Mode year sold:', years_sold.mode()[0])

In [None]:
"""Теперь попробуем понять, на какие месяцы приходится пик продаж объектов недвижимости. 
Для этого выделим атрибут dt.month и на этот раз занесём результат в столбец MonthSale, 
а затем найдём относительную частоту продаж для каждого месяца от общего количества продаж — 
для этого используем метод value_counts() с параметром normalize (вывод в долях):"""
melb_df['MonthSale'] = melb_df['Date'].dt.month
melb_df['MonthSale'].value_counts(normalize=True)

### РАБОТА С ИНТЕРВАЛАМИ

In [None]:
# можно вычислить, сколько дней прошло с 1 января 2016 года до момента продажи объекта
delta_days = melb_df['Date'] - pd.to_datetime('2016-01-01') 
display(delta_days.dt.days)

In [None]:
# создадим признак возраста объекта недвижимости в годах на момент продажи
melb_df['AgeBuilding'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
display(melb_df['AgeBuilding'])
melb_df = melb_df.drop('YearBuilt', axis=1) # удалим дублирующий столбец

In [74]:
#Задание 36.3.3: оздайте в таблице melb_df признак WeekdaySale (день недели).
#Найдите, сколько объектов недвижимости было продано в выходные (суббота и воскресенье). 
# Результат занесите в переменную weekend_count.
melb_df['WeekdaySale'] = melb_df['Date'].dt.dayofweek
weekend_count = melb_df[(melb_df['WeekdaySale'] == 5) | (melb_df['WeekdaySale'] == 6)].shape[0]
print(weekend_count)

9226


In [76]:
df = pd.read_csv('https://raw.githubusercontent.com/justmarkham/pandas-videos/master/data/ufo.csv')
df['Time'] = pd.to_datetime(df.Time)
print(df['Time'].dt.year.mode()[0])

1999


In [78]:
# Найдите средний интервал времени (в днях) между двумя последовательными 
# случаями наблюдения НЛО в штате Невада (NV)
# .diff() - первая дискретная разница (разница между последовательными элементами)
df['Date'] = df['Time'].dt.date
print(df[df['State']=='NV']['Date'].diff().dt.days.mean())

68.92932862190813


In [None]:
# Используйте функцию diff() чтобы найти дискретную разницу по оси индекса 
# со значением периода, равным 1.
df = pd.DataFrame({"A":[5, 3, 6, 4],
                   "B":[11, 2, 4, 3], 
                   "C":[4, 3, 8, 5],
                   "D":[5, 4, 2, 8]})
# Распечатайте фрейм данных
print(df)
print(df.diff(axis = 0, periods = 1))

## 36.4 Создание и преобразование столбцов с помощью функций

Мы можем написать некоторую функцию, которая принимает на вход один элемент столбца, каким-то образом его обрабатывает и возвращает результат, после чего применить эту функцию к каждому элементу в столбце с помощью специального метода apply(). В результате применения этой функции будет возвращён объект Series, элементы которого будут представлять результат работы этой функции.

In [88]:
print(melb_df['Address'].nunique())

13378


In [91]:
# На вход данной функции поступает строка с адресом.
def get_street_type(address):
# Создаём список географических пометок exclude_list.
    exclude_list = ['N', 'S', 'W', 'E']
# Метод split() разбивает строку на слова по пробелу.
# В результате получаем список слов в строке и заносим его в переменную address_list.
    address_list = address.split(' ')
# Обрезаем список, оставляя в нём только последний элемент,
# потенциальный подтип улицы, и заносим в переменную street_type.
    street_type = address_list[-1]
# Делаем проверку на то, что полученный подтип является географической пометкой.
# Для этого проверяем его на наличие в списке exclude_list.
    if street_type in exclude_list:
# Если переменная street_type является географической пометкой,
# переопределяем её на второй элемент с конца списка address_list.
        street_type = address_list[-2]
# Возвращаем переменную street_type, в которой хранится подтип улицы.
    return street_type

In [None]:
# «достать» год продажи и понять, за какой интервал времени (в годах) у нас представлены 
# данные, а также на какой год приходится наибольшее число продаж:
years_sold = melb_df['Date'].dt.year
print(years_sold)
print('Min year sold:', years_sold.min())
print('Max year sold:', years_sold.max())
print('Mode year sold:', years_sold.mode()[0])

In [None]:
street_types = melb_df['Address'].apply(get_street_type)
display(street_types)
print(street_types.nunique())
display(street_types.value_counts())

метод nlargest(), который возвращает n наибольших значений из Series. 

In [100]:
"""Для этого к результату метода value_counts применим метод nlargest(), который 
возвращает n наибольших значений из Series. Зададим n=10, т. е. мы хотим отобрать 
десять наиболее популярных подтипов. Извлечём их названия с помощью атрибута index, 
а результат занесём в переменную popular_stypes:"""
popular_stypes =street_types.value_counts().nlargest(10).index
print(popular_stypes)

Index(['St', 'Rd', 'Ct', 'Dr', 'Av', 'Gr', 'Pde', 'Pl', 'Cr', 'Cl'], dtype='object')


In [None]:
melb_df['StreetType'] = street_types.apply(lambda x: x if x in popular_stypes else 'other')
display(melb_df['StreetType'])
print(melb_df['StreetType'].nunique())
melb_df = melb_df.drop('Address', axis=1)

In [104]:
"""Задание 36.4.2: Ранее, в задании 36.3.3, мы создали признак WeekdaySale в таблице melb_df — 
день недели продажи. Из полученных в задании результатов можно сделать вывод, что 
объекты недвижимости в Мельбурне продаются преимущественно по выходным (суббота и воскресенье).
Напишите функцию get_weekend(weekday), которая принимает на вход элемент столбца 
WeekdaySale и возвращает 1, если день является выходным, в противном случае — 0, и 
создайте столбец Weekend в таблице melb_df с помощью неё.Примените эту функцию к столбцу 
и вычислите среднюю цену объекта недвижимости, проданного в выходные дни."""
def get_weekend(weekday):
    if weekday == 5 or weekday == 6:
        return 1
    else: 
        return 0
melb_df['Weekend'] = melb_df['WeekdaySale'].apply(get_weekend)
print(round(melb_df[melb_df['Weekend']==1]['Price'].mean(), 2))


1083291.7


In [None]:
def get_experience(arg):
    month_key_words = ['месяц', 'месяцев', 'месяца']
    year_key_words = ['год', 'лет', 'года']
    args_splited = arg.split(' ')
    month = 0
    year = 0
    for i in range(len(args_splited)):
        if args_splited[i] in month_key_words:
            month = args_splited[i-1]
        if args_splited[i] in year_key_words:
            year = args_splited[i-1]
    return int(year)*12 + int(month)
if __name__ == '__main__':
    experience_col = pd.Series([
        'Опыт работы 8 лет 3 месяца',
        'Опыт работы 3 года 5 месяцев',
        'Опыт работы 1 год 9 месяцев',
        'Опыт работы 3 месяца',
        'Опыт работы 6 лет'
        ])
    experience_month = experience_col.apply(get_experience)
    print(experience_month)

## 36.5 Тип данных Category

### ПРИЗНАКИ: КАТЕГОРИАЛЬНЫЕ И ЧИСЛОВЫЕ

Под числовыми признаками обычно подразумевают признаки, которые отражают количественную меру и могут принимать значения из неограниченного диапазона.

Под категориальными признаками обычно подразумевают столбцы в таблице, которые обозначают принадлежность объекта к какому-то классу/категории.

In [None]:
""""1 Создаём пустой список, в который будем добавлять кортежи: имя столбца, 
количество уникальных значений в нём и тип столбца.
    2 В цикле перебираем имена столбцов, которые получаем с помощью атрибута columns. 
В переменной col на каждой итерации находятся имена столбцов — обращаемся к ним 
в цикле и извлекаем число уникальных элементов с помощью метода nunique(), 
а также тип столбца с помощью атрибута dtypes. Результат заносим в кортеж и 
добавляем его в список.
    3 Из списка с кортежами (имя столбца, количество уникальных значений в нём, 
тип столбца) создаём DataFrame, даём названия его столбцам: Column_Name, 
Num_unique и Type.
    4 Сортируем таблицу по столбцу Num_unique в порядке возрастания количества 
уникальных элементов с помощью метода sort_values() и выводим результат на экран."""
# создаём пустой список
unique_list = []
# пробегаемся по именам столбцов в таблице
for col in melb_df.columns:
    # создаём кортеж (имя столбца, число уникальных значений)
    item = (col, melb_df[col].nunique(),melb_df[col].dtype) 
    # добавляем кортеж в список
    unique_list.append(item) 
# создаём вспомогательную таблицу и сортируем её
unique_counts = pd.DataFrame(
    unique_list,
    columns=['Column_Name', 'Num_Unique', 'Type']
).sort_values(by='Num_Unique',  ignore_index=True)
# выводим её на экран
display(unique_counts)

### ТИП ДАННЫХ CATEGORY

In [None]:
display(melb_df.info())

In [None]:
""" 1 Задаём список столбцов, которые мы не берём в рассмотрение (cols_to_exclude), 
а также условленный нами ранее порог уникальных значений столбца max_unique_count.
    2 В цикле перебираем имена столбцов, и, если число уникальных категорий меньше 
заданного порога и имён столбцов нет в списке cols_to_exclude, то с помощью 
метода astype() приводим столбец к типу данных category.
    3 Итоговый объём памяти — 1.9 Мб. В результате такого преобразования объём 
памяти, занимаемый таблицей, уменьшился почти в 1.5 раза. Это впечатляет!"""
cols_to_exclude = ['Date', 'Rooms', 'Bedroom', 'Bathroom', 'Car'] # список столбцов, которые мы не берём во внимание
max_unique_count = 150 # задаём максимальное число уникальных категорий
for col in melb_df.columns: # цикл по именам столбцов
    if melb_df[col].nunique() < max_unique_count and col not in cols_to_exclude: # проверяем условие
        melb_df[col] = melb_df[col].astype('category') # преобразуем тип столбца
display(melb_df.info())

### ПОЛУЧЕНИЕ АТРИБУТОВ CATEGORY

In [None]:
# получать информацию о своих значениях
print(melb_df['Regionname'].cat.categories)

In [None]:
# кодируется в виде чисел в памяти компьютера
print(melb_df['Regionname'].cat.codes)

In [None]:
# переименование значений
melb_df['Type'] = melb_df['Type'].cat.rename_categories({
    'u': 'unit',
    't': 'townhouse',
    'h': 'house'
})
display(melb_df['Type'])

In [145]:
# добавление нового признака категории в имеющиеся
melb_df['Type'] = melb_df['Type'].cat.add_categories('flat') # добавляется 1 раз, при повторном запуске ошибка
new_houses_types = pd.Series(['unit', 'house', 'flat', 'flat', 'house'])
new_houses_types = new_houses_types.astype(melb_df['Type'].dtype)
display(new_houses_types)

0     unit
1    house
2     flat
3     flat
4    house
dtype: category
Categories (4, object): ['house', 'townhouse', 'unit', 'flat']

1 Необязательно каждый раз преобразовывать категориальные данные в тип данных category. Зачастую это делается исключительно для оптимизации работы с большими данными.
2 Если набор данных занимает значительный процент используемой оперативной памяти, рассмотрите возможность использования типа category.
3 Если у вас очень серьёзные проблемы с производительностью, обратите внимание на использование типа category.
4 Если вы решили использовать тип category, будьте осторожны при добавлении новой информации в вашу таблицу. Убедитесь, что вы собрали всю необходимую информацию, произведите предобработку данных и только после этого используйте преобразование типов.

In [None]:
display(melb_df.info())

In [155]:
popular_suburb =melb_df['Suburb'].value_counts().nlargest(119).index
melb_df['Suburb'] = melb_df['Suburb'].apply(lambda x: x if x in popular_suburb else 'other')
melb_df['Suburb'] = melb_df['Suburb'].astype('category')
display(melb_df.info())

In [None]:
popular_suburb =melb_df['Suburb'].value_counts().nlargest(119).index
melb_df['Suburb'] = melb_df['Suburb'].apply(lambda x: x if x in popular_suburb else 'other')
melb_df['Suburb'] = melb_df['Suburb'].astype('category')
display(melb_df.info())

## 36.6 Закрепляем знания

Датасет представляет собой таблицу с информацией о 300 тысячах поездок за первые пять дней сентября 2018 года и включает в себя следующую информацию:

starttime — время начала поездки (дата, время);
stoptime — время окончания поездки (дата, время);
start station id — идентификатор стартовой стоянки;
start station name — название стартовой стоянки;
start station latitude, start station longitude — географическая широта и долгота стартовой стоянки;
end station id — идентификатор конечной стоянки;
end station name — название конечной стоянки;
end station latitude, end station longitude — географическая широта и долгота конечной стоянки;
bikeid — идентификатор велосипеда;
usertype — тип пользователя (Customer — клиент с подпиской на 24 часа или на три дня, Subscriber — подписчик с годовой арендой велосипеда);
birth year — год рождения клиента;
gender — пол клиента (0 — неизвестный, 1 — мужчина, 2 — женщина).

In [None]:
bike_rides_orig = pd.read_csv('data/citibike-tripdata.csv', sep=',')
bike_rides = bike_rides_orig .copy()
bike_rides.shape # размерность таблицы
bike_rides.info()
bike_rides.describe()
bike_rides.head()

In [214]:
bike_rides['start station id'].mode() # Найдите идентификатор самой популярной стартовой стоянки.
bike_rides['bikeid'].mode() # Велосипед с каким идентификатором является самым популярным?

0    33887
dtype: int64

In [215]:
# Какой тип клиентов (столбец usertype) является преобладающим — Subscriber 
# или Customer? В качестве ответа запишите долю клиентов преобладающего типа 
# среди общего количества клиентов
a = bike_rides[bike_rides['usertype'] == 'Customer']['usertype'].count()
b = bike_rides[bike_rides['usertype'] == 'Subscriber']['usertype'].count()
print(round(b/(b+a),2))

0.77


In [216]:
# Кто больше занимается велоспортом — мужчины или женщины?
# В ответ запишите число поездок для той группы, у которой их больше.
a = bike_rides[bike_rides['gender'] == 1]['gender'].count()
b = bike_rides[bike_rides['gender'] == 2]['gender'].count()
print(a,b)

183582 74506


In [None]:
# удаляем столбцы с координатами
bike_rides.drop(['start station id', 'end station id'], axis=1, inplace=True)
print(bike_rides.shape[1])

In [None]:
bike_rides['start station name'].value_counts() # доля уникальных значений (структура)

In [None]:
bike_rides.describe()
bike_rides.describe(include=['object'])

In [207]:
a = bike_rides['start station id'].nunique()
a = bike_rides['end station id'].nunique()
print(a,b)

765 299831


In [None]:
bike_rides['age'] = int(2018 - bike_rides['birth year'])
bike_rides.drop(['birth year'], axis=1, inplace=True)

In [224]:
a = bike_rides[bike_rides['age'] > 60]['age'].count()
print(a)

11837


In [231]:
# Создайте признак длительности поездки trip duration. Для этого вычислите 
# интервал времени между временем окончания поездки (stoptime) и временем 
# её начала (starttime) в секундах. В качестве ответа запишите среднюю 
# длительность поездки в секундах.
bike_rides['starttime'] = pd.to_datetime(bike_rides['starttime'])
bike_rides['stoptime'] = pd.to_datetime(bike_rides['stoptime'])
bike_rides['trip duration'] = (bike_rides['stoptime'] - bike_rides['starttime']).dt.seconds
print(round(bike_rides['trip duration'].mean(), 0))

1000.0


In [232]:
# Создайте «признак-мигалку» weekend, который равен 1, если поездка 
# начиналась в выходной день (суббота или воскресенье), и 0 — в противном 
# случае. Выясните, сколько поездок начиналось в выходные.
weekday = bike_rides['starttime'].dt.dayofweek
bike_rides['weekend'] = weekday.apply(lambda x: 1 if x ==5 or x == 6 else 0)
bike_rides['weekend'].sum()

115135

In [236]:
""" Создайте признак времени суток поездки time_of_day. Время суток будем определять 
начала поездки. Условимся, что:
    поездка совершается ночью (night), если её час приходится на интервал 
от 0 (включительно) до 6 (включительно) часов;
    поездка совершается утром (morning), если её час приходится на интервал 
от 6 (не включительно) до 12 (включительно) часов;
    поездка совершается днём (day), если её час приходится на интервал 
от 12 (не включительно) до 18 (включительно) часов;
    поездка совершается вечером (evening), если её час приходится на интервал 
от 18 (не включительно) до 23 часов (включительно).
Во сколько раз количество поездок, совершённых днём, больше, чем количество 
поездок, совёршенных ночью, за представленный в данных период времени?"""

def get_time_of_day(time):
    if 0 <= time <= 6:
        return 'night'
    elif 6 < time <= 12:
        return 'morning'
    elif 12 < time <= 18:
        return 'day'
    elif 18 < time <= 23:
        return 'evening'
    else:
        return 'else'
bike_rides['time_of_day'] = bike_rides['starttime'].dt.hour.apply(get_time_of_day)
a = bike_rides[bike_rides['time_of_day'] == 'day'].shape[0]
b = bike_rides[bike_rides['time_of_day'] == 'night'].shape[0]
print(round(a / b))

9
