# Домашнее задание 2 - предобработка признаков, pandas


### О задании

Практическое задание 2 посвящено изучению основных библиотек для анализа данных, а также линейных моделей и методов их обучения. Вы научитесь:
 * применять библиотеки NumPy и Pandas для осуществления желаемых преобразований;
 * подготавливать данные для обучения линейных моделей;
 * обучать линейную, Lasso и Ridge-регрессии при помощи модуля scikit-learn;
 * реализовывать обычный и стохастический градиентные спуски;
 * обучать линейную регрессию для произвольного функционала качества.
 

### Оценивание и штрафы

Каждая из задач имеет определенную «стоимость» (указана в скобках около задачи). Максимально допустимая оценка за работу — 10 баллов. Кроме того, некоторые из заданий являются опциональными (необязательными), однако за их выполнение можно получить дополнительные баллы, которые позднее будут учитываться при проставлении оценок автоматом по курсу.

Сдавать задание после указанного срока сдачи нельзя. При выставлении неполного балла за задание в связи с наличием ошибок на усмотрение проверяющего предусмотрена возможность исправить работу на указанных в ответном письме условиях.

Задание выполняется самостоятельно. «Похожие» решения считаются плагиатом и все задействованные студенты (в том числе те, у кого списали) не могут получить за него больше 0 баллов. Если вы нашли решение какого-то из заданий (или его часть) в открытом источнике, необходимо указать ссылку на этот источник в отдельном блоке в конце Вашей работы (скорее всего вы будете не единственным, кто это нашел, поэтому чтобы исключить подозрение в плагиате, необходима ссылка на источник). 

Неэффективная реализация кода может негативно отразиться на оценке.


### Формат сдачи
Для сдачи задания получившийся файл \*.ipynb с решением необходимо выложить в свой репозиторий github.

## Библиотеки для анализа данных

### NumPy

Во всех заданиях данного раздела запрещено использовать циклы  и list comprehensions. Под вектором и матрицей в данных заданиях понимается одномерный и двумерный numpy.array соответственно.

In [1]:
import numpy as np

**1. (0.2 балла)** Реализуйте функцию, возвращающую максимальный элемент в векторе x среди элементов, перед которыми стоит нулевой. Для x = np.array([6, 2, 0, 3, 0, 0, 5, 7, 0]) ответом является 5. Если нулевых элементов нет, функция должна возвращать None.


In [5]:
def max_after_zero(x):
    # Find the indices of zero elements in the array
    zero_indices = np.where(x == 0)[0]

    # Shift the indices one position to the right to get the indices of elements after zero
    next_indices = zero_indices + 1

    # Filter out indices that are out of bounds
    valid_indices = next_indices[next_indices < len(x)]

    # Extract the elements after zero using the valid indices
    elements_after_zero = x[valid_indices]

    # Return the maximum element among the elements after zero
    if len(elements_after_zero) > 0:
        return np.max(elements_after_zero)
    else:
        return None  # Return None if there are no elements after zero

# Test the function
x = np.array([6, 2, 0, 3, 0, 0, 5, 7, 0])
result = max_after_zero(x)
print(result) 


5


**2. (0.2 балла)** Реализуйте функцию, принимающую на вход матрицу и некоторое число и возвращающую ближайший к числу элемент матрицы. Например: для X = np.arange(0,10).reshape((2, 5)) и v = 3.6 ответом будет 4.

In [6]:
def closest_element(matrix, number):
    # Calculate the absolute difference between each element and the target number
    absolute_diff = np.abs(matrix - number)
    
    # Find the indices of the element with the minimum absolute difference
    min_index = np.unravel_index(np.argmin(absolute_diff), matrix.shape)
    
    # Get the element at the found index
    closest = matrix[min_index]
    
    return closest

# Example usage:
X = np.arange(0, 10).reshape((2, 5))
v = 3.6
result = closest_element(X, v)
print(result) 


4


**3. (0.2 балла)** Реализуйте функцию scale(X), которая принимает на вход матрицу и масштабирует каждый ее столбец (вычитает выборочное среднее и делит на стандартное отклонение). Убедитесь, что в функции не будет происходить деления на ноль. Протестируйте на случайной матрице (для её генерации можно использовать, например, функцию [numpy.random.randint](http://docs.scipy.org/doc/numpy/reference/generated/numpy.random.randint.html)).

In [7]:
def scale(X):
    # Calculate the mean and standard deviation of each column
    column_means = np.mean(X, axis=0)
    column_stds = np.std(X, axis=0)
    
    # Ensure there's no division by zero, replace zeros with 1
    column_stds[column_stds == 0] = 1.0
    
    # Scale each column
    scaled_X = (X - column_means) / column_stds
    
    return scaled_X

# Generate a random matrix for testing
random_matrix = np.random.randint(1, 10, size=(5, 3))

# Scale the random matrix
scaled_matrix = scale(random_matrix)

# Display the scaled matrix
print("Original Matrix:")
print(random_matrix)
print("\nScaled Matrix:")
print(scaled_matrix)


Original Matrix:
[[8 3 6]
 [3 2 9]
 [5 8 3]
 [1 8 7]
 [6 9 8]]

Scaled Matrix:
[[ 1.40693001 -1.03509834 -0.29138576]
 [-0.66208471 -1.38013112  1.16554303]
 [ 0.16552118  0.69006556 -1.74831455]
 [-1.4896906   0.69006556  0.19425717]
 [ 0.57932412  1.03509834  0.6799001 ]]


**4. (0.2 балла)** Реализуйте функцию, которая для заданной матрицы находит:
 - определитель
 - след
 - наименьший и наибольший элементы
 - норму Фробениуса
 - собственные числа
 - обратную матрицу

Для тестирования сгенерируйте матрицу с элементами из нормального распределения $\mathcal{N}$(10,1)

In [9]:
def get_stats(X):
    # Your code here
    import numpy as np

def matrix_properties(matrix):
    # Determinant
    det = np.linalg.det(matrix)
    
    # Trace
    trace = np.trace(matrix)
    
    # Smallest and largest elements
    smallest = np.min(matrix)
    largest = np.max(matrix)
    
    # Frobenius norm
    frobenius_norm = np.linalg.norm(matrix, 'fro')
    
    # Eigenvalues
    eigenvalues = np.linalg.eigvals(matrix)
    
    # Inverse matrix
    try:
        inverse_matrix = np.linalg.inv(matrix)
    except np.linalg.LinAlgError:
        inverse_matrix = None
    
    return {
        "Determinant": det,
        "Trace": trace,
        "Smallest Element": smallest,
        "Largest Element": largest,
        "Frobenius Norm": frobenius_norm,
        "Eigenvalues": eigenvalues,
        "Inverse Matrix": inverse_matrix
    }

# Generate a random matrix with elements from a normal distribution
random_matrix = np.random.normal(10, 1, size=(4, 4))

# Calculate matrix properties
result = matrix_properties(random_matrix)

# Display the results
for key, value in result.items():
    print(f"{key}: {value}")


Determinant: -102.93816078358077
Trace: 36.20154411013948
Smallest Element: 6.977278846911732
Largest Element: 11.716428226745606
Frobenius Norm: 38.54750733616194
Eigenvalues: [38.12843156+0.j         -2.11364351+0.j          0.09337803+1.12631648j
  0.09337803-1.12631648j]
Inverse Matrix: [[ 0.29619032 -0.31318854  0.52446614 -0.3992702 ]
 [ 0.49155983 -0.42310666  0.16462284 -0.12097447]
 [-0.55793425  0.01948319 -0.09766659  0.61333581]
 [-0.14564023  0.68318274 -0.54313411 -0.07609596]]


**5. (0.2 балла)** Повторите 100 раз следующий эксперимент: сгенерируйте две матрицы размера 10×10 из стандартного нормального распределения, перемножьте их (как матрицы) и найдите максимальный элемент. Какое среднее значение по экспериментам у максимальных элементов? 95-процентная квантиль?

In [11]:
for exp_num in range(100):
    # Your code here
    import numpy as np

# Set the seed for reproducibility
np.random.seed(0)

# Number of experiments
num_experiments = 100

# Initialize an array to store the maximum elements from each experiment
max_elements = np.empty(num_experiments)

# Perform the experiment 100 times
for i in range(num_experiments):
    # Generate two 10x10 matrices from a standard normal distribution
    matrix1 = np.random.normal(0, 1, size=(10, 10))
    matrix2 = np.random.normal(0, 1, size=(10, 10))
    
    # Multiply the matrices
    product_matrix = np.dot(matrix1, matrix2)
    
    # Find the maximum element in the product matrix
    max_element = np.max(product_matrix)
    
    # Store the maximum element
    max_elements[i] = max_element

# Calculate the average and 95th percentile of the maximum elements
average_max = np.mean(max_elements)
quantile_95 = np.percentile(max_elements, 95)

# Display the results
print(f"Average Maximum Element: {average_max}")
print(f"95th Percentile Maximum Element: {quantile_95}")


Average Maximum Element: 8.227937605160266
95th Percentile Maximum Element: 11.260147599088283


In [22]:
# Set the seed for reproducibility
np.random.seed(0)

# Number of experiments
num_experiments = 100

# Generate two 10x10 matrices from a standard normal distribution for all experiments
matrix1 = np.random.normal(0, 1, size=(num_experiments, 10, 10))
matrix2 = np.random.normal(0, 1, size=(num_experiments, 10, 10))

# Multiply the matrices element-wise
product_matrices = np.matmul(matrix1, matrix2)

# Find the maximum element in each product matrix
max_elements = np.max(product_matrices, axis=(1, 2))

# Calculate the average maximum element
average_max = np.mean(max_elements)

# Display the average maximum element
print(f"Average Maximum Element: {average_max}")


Average Maximum Element: 8.302550555887155


### Pandas

![](https://metrouk2.files.wordpress.com/2015/10/panda.jpg)

#### Ответьте на вопросы о данных по авиарейсам в США за январь-апрель 2008 года.

Данные находятся в приложенном файле `2008.csv`. Их [описание](http://stat-computing.org/dataexpo/2009/the-data.html) приведено ниже:

Airline on-time performance

Have you ever been stuck in an airport because your flight was delayed or cancelled and wondered if you could have predicted it if you'd had more data? This is your chance to find out.

The data
The data set is available for download here.
The data consists of flight arrival and departure details for all commercial flights within the USA, from October 1987 to April 2008. This is a large dataset: there are nearly 120 million records in total, and takes up 1.6 gigabytes of space compressed and 12 gigabytes when uncompressed.

Understanding and preparing the data
In order to answer above questions, we are going to analyze the provided dataset, containing up to 1936758 ### different internal flights in the US for 2008 and their causes for delay, diversion and cancellation

The data comes from the U.S. Department of Transportation’s (DOT) Bureau of Transportation Statistics (BTS). Meta data explanations

This dataset is composed by the following variables:

**Year** 2008 **Month** 1-12 **DayofMonth** 1-31 **DayOfWeek** 1 (Monday) - 7 (Sunday)  
**DepTime** actual departure time (local, hhmm)  
**CRSDepTime** scheduled departure time (local, hhmm)  
**ArrTime** actual arrival time (local, hhmm)  
**CRSArrTime** scheduled arrival time (local, hhmm)  
**UniqueCarrier** unique carrier code  
**FlightNum** flight number  
**TailNum** plane tail number: aircraft registration, unique aircraft identifier  
**ActualElapsedTime** in minutes  
**CRSElapsedTime** in minutes  
**AirTime** in minutes  
**ArrDelay** arrival delay, in minutes: A flight is counted as “on time” if it operated less than 15 minutes later the scheduled time shown in the carriers’ Computerized Reservations Systems (CRS).  
**DepDelay** departure delay, in minutes  
**Origin** origin IATA airport code  
**Dest** destination IATA airport code  
**Distance** in miles  
**TaxiIn** taxi in time, in minutes  
**TaxiOut** taxi out time in minutes  
**Cancelled** *was the flight cancelled  
**CancellationCode** reason for cancellation (A = carrier, B = weather, C = NAS, D = security)  
**Diverted** 1 = yes, 0 = no  
**CarrierDelay** in minutes: Carrier delay is within the control of the air carrier. Examples of occurrences that may determine carrier delay are: aircraft cleaning, aircraft damage, awaiting the arrival of connecting passengers or crew, baggage, bird strike, cargo loading, catering, computer, outage-carrier equipment, crew legality (pilot or attendant rest), damage by hazardous goods, engineering inspection, fueling, handling disabled passengers, late crew, lavatory servicing, maintenance, oversales, potable water servicing, removal of unruly passenger, slow boarding or seating, stowing carry-on baggage, weight and balance delays.  
**WeatherDelay** in minutes: Weather delay is caused by extreme or hazardous weather conditions that are forecasted or manifest themselves on point of departure, enroute, or on point of arrival.  
**NASDelay** in minutes: Delay that is within the control of the National Airspace System (NAS) may include: non-extreme weather conditions, airport operations, heavy traffic volume, air traffic control, etc.  
**SecurityDelay** in minutes: Security delay is caused by evacuation of a terminal or concourse, re-boarding of aircraft because of security breach, inoperative screening equipment and/or long lines in excess of 29 minutes at screening areas.  
**LateAircraftDelay** in minutes: Arrival delay at an airport due to the late arrival of the same aircraft at a previous airport. The ripple effect of an earlier delay at downstream airports is referred to as delay propagation.

In [4]:
import pandas as pd
%matplotlib inline

**6. (0.3 балла)** Какая из причин отмены рейса (`CancellationCode`) была самой частой? (расшифровки кодов можно найти в описании данных)

In [23]:
# Filter the data for January to April 2008
filtered_df = df[(df['Year'] == 2008) & (df['Month'] >= 1) & (df['Month'] <= 4)]

# Count the occurrences of each CancellationCode
cancellation_counts = filtered_df['CancellationCode'].value_counts()

# Print the most frequent reason for cancellation
most_frequent_reason = cancellation_counts.idxmax()
print("The most frequent reason for flight cancellation in January-April 2008 was:", most_frequent_reason)


The most frequent reason for flight cancellation in January-April 2008 was: A


**7. (0.3 балла)** Найдите среднее, минимальное и максимальное расстояние, пройденное самолетом.

In [17]:
# Filter the data for January to April 2008
filtered_df = df[(df['Year'] == 2008) & (df['Month'] >= 1) & (df['Month'] <= 4)]

# Find the minimum distance traveled
min_distance = filtered_df['Distance'].min()

print("The minimum distance traveled by an aircraft in January-April 2008 was:", min_distance, "miles")


The minimum distance traveled by an aircraft in January-April 2008 was: 31 miles


In [18]:
# Filter the data for January to April 2008
filtered_df = df[(df['Year'] == 2008) & (df['Month'] >= 1) & (df['Month'] <= 4)]

# Calculate the average distance traveled
average_distance = filtered_df['Distance'].mean()

print("The average distance traveled by aircraft in January-April 2008 was:", average_distance, "miles")



The average distance traveled by aircraft in January-April 2008 was: 722.2696525356077 miles


In [19]:
# Filter the data for January to April 2008
filtered_df = df[(df['Year'] == 2008) & (df['Month'] >= 1) & (df['Month'] <= 4)]

# Find the maximum distance traveled
max_distance = filtered_df['Distance'].max()

print("The maximum distance traveled by an aircraft in January-April 2008 was:", max_distance, "miles")


The maximum distance traveled by an aircraft in January-April 2008 was: 4962 miles


In [20]:
# Filter the data for January to April 2008
filtered_df = df[(df['Year'] == 2008) & (df['Month'] >= 1) & (df['Month'] <= 4)]

# Calculate the average distance traveled
average_distance = filtered_df['Distance'].mean()

# Find the minimum distance traveled
min_distance = filtered_df['Distance'].min()

# Find the maximum distance traveled
max_distance = filtered_df['Distance'].max()

print("The average distance traveled by aircraft in January-April 2008 was:", average_distance, "miles")
print("The minimum distance traveled by an aircraft in January-April 2008 was:", min_distance, "miles")
print("The maximum distance traveled by an aircraft in January-April 2008 was:", max_distance, "miles")


The average distance traveled by aircraft in January-April 2008 was: 722.2696525356077 miles
The minimum distance traveled by an aircraft in January-April 2008 was: 31 miles
The maximum distance traveled by an aircraft in January-April 2008 was: 4962 miles


**8. (0.3 балла)** Не выглядит ли подозрительным минимальное пройденное расстояние? В какие дни и на каких рейсах оно было? Какое расстояние было пройдено этими же рейсами в другие дни?

In [21]:
# Filter the data for January to April 2008
filtered_df = df[(df['Year'] == 2008) & (df['Month'] >= 1) & (df['Month'] <= 4)]

# Find the minimum distance traveled
min_distance = filtered_df['Distance'].min()

# Find the flights and days associated with the minimum distance
min_distance_flights = filtered_df[filtered_df['Distance'] == min_distance]

# Find the distances covered by the same flights on other days
similar_flights = filtered_df[filtered_df['FlightNum'].isin(min_distance_flights['FlightNum'])]
similar_flights = similar_flights[similar_flights['DayofMonth'].isin(min_distance_flights['DayofMonth'])]

# Print the results
print("The minimum distance traveled by an aircraft in January-April 2008 was:", min_distance, "miles")

print("\nFlights with minimum distance:")
print(min_distance_flights[['Year', 'Month', 'DayofMonth', 'FlightNum', 'Distance']])

print("\nDistances covered by the same flights on other days:")
print(similar_flights[['Year', 'Month', 'DayofMonth', 'FlightNum', 'Distance']])


The minimum distance traveled by an aircraft in January-April 2008 was: 31 miles

Flights with minimum distance:
       Year  Month  DayofMonth  FlightNum  Distance
27534  2008      3          11         64        31
48112  2008      2          28         64        31

Distances covered by the same flights on other days:
       Year  Month  DayofMonth  FlightNum  Distance
27534  2008      3          11         64        31
48112  2008      2          28         64        31


**9. (0.3 балла)** Из какого аэропорта было произведено больше всего вылетов? В каком городе он находится?

In [22]:
# Filter the data for January to April 2008
filtered_df = df[(df['Year'] == 2008) & (df['Month'] >= 1) & (df['Month'] <= 4)]

# Find the airport with the most departures
most_departures_airport = filtered_df['Origin'].value_counts().idxmax()

print("The airport with the most departures in January-April 2008 was:", most_departures_airport)


The airport with the most departures in January-April 2008 was: ATL


**10. (0.3 балла)** Найдите для каждого аэропорта среднее время полета (`AirTime`) по всем вылетевшим из него рейсам. Какой аэропорт имеет наибольшее значение этого показателя?

In [27]:
# Создайте группировку по аэропорту и вычислите среднее значение AirTime для каждой группы
airport_avg_airtime = df.groupby('Origin')['AirTime'].mean()

# Найдите аэропорт с наибольшим средним временем полета
airport_with_max_avg_airtime = airport_avg_airtime.idxmax()
max_avg_airtime_value = airport_avg_airtime.max()

print("Аэропорт с наибольшим средним временем полета:", airport_with_max_avg_airtime)
print("Наибольшее среднее время полета:", max_avg_airtime_value)


Аэропорт с наибольшим средним временем полета: SJU
Наибольшее среднее время полета: 205.2


**11. (0.5 балла)** Найдите аэропорт, у которого наибольшая доля задержанных (`DepDelay > 0`) рейсов. Исключите при этом из рассмотрения аэропорты, из которых было отправлено меньше 1000 рейсов (используйте функцию `filter` после `groupby`).

In [29]:
# Создайте группировку по аэропорту вылета (Origin)
airport_groups = df.groupby('Origin')

# Функция для фильтрации аэропортов с менее чем 1000 рейсов
def filter_airports(group):
    return len(group) >= 1000

# Отфильтруйте аэропорты с менее чем 1000 рейсов
filtered_airports = airport_groups.filter(filter_airports)

# Сгруппируйте отфильтрованные данные по аэропорту и вычислите долю задержанных рейсов
delayed_flight_percentage = filtered_airports.groupby('Origin')['DepDelay'].apply(lambda x: (x > 0).mean())

# Найдите аэропорт с наибольшей долей задержанных рейсов
airport_with_max_delayed_percentage = delayed_flight_percentage.idxmax()
max_delayed_percentage_value = delayed_flight_percentage.max()

print("Аэропорт с наибольшей долей задержанных рейсов:", airport_with_max_delayed_percentage)
print("Наибольшая доля задержанных рейсов:", max_delayed_percentage_value)


Аэропорт с наибольшей долей задержанных рейсов: EWR
Наибольшая доля задержанных рейсов: 0.5111591072714183


## Линейная регрессия

В этой части мы разберемся с линейной регрессией, способами её обучения и измерением качества ее прогнозов. 

Будем рассматривать датасет из предыдущей части задания для предсказания времени задержки отправления рейса в минутах (DepDelay). Отметим, что под задержкой подразумевается не только опоздание рейса относительно планируемого времени вылета, но и отправление до планируемого времени.

### Подготовка данных

**12. (0.5 балла)** Считайте выборку из файла при помощи функции pd.read_csv и ответьте на следующие вопросы:
   - Имеются ли в данных пропущенные значения?
   - Сколько всего пропущенных элементов в таблице "объект-признак"?
   - Сколько объектов имеют хотя бы один пропуск?
   - Сколько признаков имеют хотя бы одно пропущенное значение?

In [32]:
# Check for missing values in the dataset
has_missing_values = df.isnull().any().any()  # True if there are any missing values, False otherwise

# Count the total number of missing values in the "object-feature" table
total_missing_values = df.isnull().sum().sum()

# Count the number of objects (rows) that have at least one missing value
objects_with_missing_values = df[df.isnull().any(axis=1)].shape[0]

# Count the number of features (columns) that have at least one missing value
features_with_missing_values = df.columns[df.isnull().any()].shape[0]

# Print the results
print("Are there any missing values in the data?", has_missing_values)
print("Total number of missing values in the 'object-feature' table:", total_missing_values)
print("Number of objects with at least one missing value:", objects_with_missing_values)
print("Number of features with at least one missing value:", features_with_missing_values)


Are there any missing values in the data? True
Total number of missing values in the 'object-feature' table: 355215
Number of objects with at least one missing value: 70000
Number of features with at least one missing value: 16


Как вы понимаете, также не имеет смысла рассматривать при решении поставленной задачи объекты с пропущенным значением целевой переменной. В связи с этим ответьте на следующие вопросы и выполните соответствующие действия:
- Имеются ли пропущенные значения в целевой переменной?
- Проанализируйте объекты с пропущенными значениями целевой переменной. Чем вызвано это явление? Что их объединяет? Можно ли в связи с этим, на ваш взгляд, исключить какие-то признаки из рассмотрения? Обоснуйте свою точку зрения.

Исключите из выборки объекты **с пропущенным значением целевой переменной и со значением целевой переменной, равным 0**, а также при необходимости исключите признаки в соответствии с вашим ответом на последний вопрос из списка и выделите целевую переменную в отдельный вектор, исключив её из матрицы "объект-признак".

In [40]:
if 2008.csv["DepDelay"].isnull().any():
    print("Есть пропуски в целевой переменной")
else:
    print("Нет пропусков в целевой переменной")
    
temp = 2008.csv[2008.csv["DepDelay"].isnull() == True]
pd.unique(temp["Cancelled"])

SyntaxError: invalid decimal literal (319367099.py, line 1)

**13. (0.5 балла)** Обратите внимание, что признаки DepTime, CRSDepTime, ArrTime, CRSArrTime приведены в формате hhmm, в связи с чем будет не вполне корректно рассматривать их как вещественные.

Преобразуйте каждый признак FeatureName из указанных в пару новых признаков FeatureName\_Hour, FeatureName\_Minute, разделив каждое из значений на часы и минуты. Не забудьте при этом исключить исходный признак из выборки. В случае, если значение признака отсутствует, значения двух новых признаков, его заменяющих, также должны отсутствовать. 

Например, признак DepTime необходимо заменить на пару признаков DepTime_Hour, DepTime_Minute. При этом, например, значение 155 исходного признака будет преобразовано в значения 1 и 55 признаков DepTime_Hour, DepTime_Minute соответственно.

In [41]:
# Your code here
import pandas as pd

# Загрузите данные из файла "2008.csv" (убедитесь, что файл находится в рабочем каталоге или укажите полный путь)
df = pd.read_csv("2008.csv")

# Список признаков, которые нужно преобразовать
features_to_transform = ['DepTime', 'CRSDepTime', 'ArrTime', 'CRSArrTime']

# Пройдите по каждому признаку и создайте новые признаки FeatureName_Hour и FeatureName_Minute
for feature in features_to_transform:
    # Создайте новые признаки с нулевыми значениями
    df[f'{feature}_Hour'] = 0
    df[f'{feature}_Minute'] = 0
    
    # Ищите ненулевые значения и обработайте их
    not_null_indices = df[df[feature].notnull()].index
    df.loc[not_null_indices, f'{feature}_Hour'] = df.loc[not_null_indices, feature] // 100
    df.loc[not_null_indices, f'{feature}_Minute'] = df.loc[not_null_indices, feature] % 100
    
# Удалите исходные признаки
df = df.drop(columns=features_to_transform)

# Теперь df содержит новые признаки FeatureName_Hour и FeatureName_Minute для указанных признаков,
# исходные признаки были удалены.


**14. (0.5 балла)** Некоторые из признаков, отличных от целевой переменной, могут оказывать чересчур значимое влияние на прогноз, поскольку по своему смыслу содержат большую долю информации о значении целевой переменной. Изучите описание датасета и исключите признаки, сильно коррелирующие с ответами. Ваш выбор признаков для исключения из выборки обоснуйте. Кроме того, исключите признаки TailNum и Year.

In [None]:
# Your code here

**15. (1 балл)** Приведем данные к виду, пригодному для обучения линейных моделей. Для этого вещественные признаки надо отмасштабировать, а категориальные — привести к числовому виду. Также надо устранить пропуски в данных.

В первую очередь поймем, зачем необходимо применять масштабирование. Следующие ячейки с кодом построят гистограммы для 3 вещественных признаков выборки.

In [None]:
X['DepTime_Hour'].hist(bins=20)

In [None]:
X['TaxiIn'].hist(bins=20)

In [None]:
X['FlightNum'].hist(bins=20)

Какую проблему вы наблюдаете на этих графиках? Как масштабирование поможет её исправить?

Некоторые из признаков в нашем датасете являются категориальными. Типичным подходом к работе с ними является бинарное, или [one-hot-кодирование](https://en.wikipedia.org/wiki/One-hot).

Реализуйте функцию transform_data, которая принимает на вход DataFrame с признаками и выполняет следующие шаги:
1. Замена пропущенных значений на нули для вещественных признаков и на строки 'nan' для категориальных.
2. Масштабирование вещественных признаков с помощью [StandardScaler](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html).
3. One-hot-кодирование категориальных признаков с помощью [DictVectorizer](http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.DictVectorizer.html) или функции [pd.get_dummies](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html).

Метод должен возвращать преобразованный DataFrame, который должна состоять из масштабированных вещественных признаков и закодированных категориальных (исходные признаки должны быть исключены из выборки).

In [None]:
def transform_data(data):
    # Your code here

Примените функцию transform_data к данным. Сколько признаков получилось после преобразования?

In [None]:
# Your code here

**16. (0.5 балла)** Разбейте выборку и вектор целевой переменной на обучение и контроль в отношении 70/30 (для этого можно использовать, например, функцию [train_test_split](http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.train_test_split.html)). 

In [None]:
# Your code here

### Scikit-learn

<img src = "https://pp.vk.me/c4534/u35727827/93547647/x_d31c4463.jpg">
Теперь, когда мы привели данные к пригодному виду, попробуем решить задачу при помощи метода наименьших квадратов. Напомним, что данный метод заключается в оптимизации функционала $MSE$:

$$MSE(X, y) = \frac{1}{l} \sum_{i=1}^l (<w, x_i> - y_i)^2 \to \min_{w},$$

где $\{ (x_i, y_i ) \}_{i=1}^l$ — обучающая выборка, состоящая из $l$ пар объект-ответ.

Заметим, что решение данной задачи уже реализовано в модуле sklearn в виде класса [LinearRegression](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression).

**17. (0.5 балла)** Обучите линейную регрессию на 1000 объектах из обучающей выборки и выведите значения $MSE$ и $R^2$ на этой подвыборке и контрольной выборке (итого 4 различных числа). Проинтерпретируйте полученный результат — насколько качественные прогнозы строит полученная модель? Какие проблемы наблюдаются в модели?

**Подсказка**: изучите значения полученных коэффициентов $w$, сохраненных в атрибуте coef_ объекта LinearRegression.

In [44]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Выберем подвыборку из обучающей выборки из 1000 объектов
X_train_subsample = X_train[:1000]
y_train_subsample = y_train[:1000]

# Создаем объект модели линейной регрессии
model = LinearRegression()

# Обучаем модель на подвыборке
model.fit(X_train_subsample, y_train_subsample)

# Делаем прогнозы на подвыборке и контрольной выборке
y_train_pred = model.predict(X_train_subsample)
y_test_pred = model.predict(X_test)

# Вычисляем MSE и R^2 на подвыборке
mse_train = mean_squared_error(y_train_subsample, y_train_pred)
r2_train = r2_score(y_train_subsample, y_train_pred)

# Вычисляем MSE и R^2 на контрольной выборке
mse_test = mean_squared_error(y_test, y_test_pred)
r2_test = r2_score(y_test, y_test_pred)

# Выводим результаты
print(f"Train MSE: {mse_train:.2f}")
print(f"Train R^2: {r2_train:.2f}")
print(f"Test MSE: {mse_test:.2f}")
print(f"Test R^2: {r2_test:.2f}")


ValueError: could not convert string to float: 'EV'

Для решения описанных вами в предыдущем пункте проблем используем L1- или L2-регуляризацию, тем самым получив Lasso и Ridge регрессии соответственно и изменив оптимизационную задачу одним из следующих образов:
$$MSE_{L1}(X, y) = \frac{1}{l} \sum_{i=1}^l (<w, x_i> - y_i)^2 + \alpha ||w||_1 \to \min_{w},$$
$$MSE_{L2}(X, y) = \frac{1}{l} \sum_{i=1}^l (<w, x_i> - y_i)^2 + \alpha ||w||_2^2 \to \min_{w},$$

где $\alpha$ — коэффициент регуляризации. Один из способов его подбора заключается в переборе некоторого количества значений и оценке качества на кросс-валидации для каждого из них, после чего выбирается значение, для которого было получено наилучшее качество.

In [None]:
# Your code here

__18. (1 балл) __ Обучение линейной регрессии.



Обучите линейную регрессию с $L_1$ (Lasso) и $L_2$ (Ridge) регуляризаторами (используйте параметры по умолчанию). Посмотрите, какое количество коэффициентов близко к 0 (степень близости к 0 определите сами из разумных пределов). Постройте график зависимости числа ненулевых коэффициентов от коэффицента регуляризации (перебирайте значения по логарифмической сетке от $10^{-3}$ до $10^3$). Согласуются ли результаты с вашими ожиданиями?

In [None]:
# Your code here
# ...

Посчитайте для Ridge-регрессии следующие метрики: $RMSE$, $MAE$, $R^2$.

In [None]:
# Your code here
# ...

Подберите на обучающей выборке для Ridge-регрессии коэффициент регуляризации (перебирайте значения по логарифмической сетке от $10^{-3}$ до $10^3$) для каждой из метрик при помощи кросс-валидации c 5 фолдами на тех же 1000 объектах. Для этого воспользуйтесь GridSearchCV и KFold из sklearn. Постройте графики зависимости фукнции потерь от коэффициента регуляризации. Посчитайте те же метрики снова. Заметно ли изменилось качество?

Для выполнения данного задания вам могут понадобиться реализованные в библиотеке объекты [LassoCV](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LassoCV.html), [RidgeCV](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RidgeCV.html) и [KFold](http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.KFold.html).

In [None]:
# Your code here
# ...

__19. (0.5 балла)__ Поиск объектов-выбросов


Как известно, MSE сильно штрафует за большие ошибки на объектах-выбросах. С помощью cross_val_predict сделайте Out-of-Fold предсказания для обучающей выборки. Посчитайте ошибки и посмотрите на их распределение (plt.hist). Что вы видите?