# **Постановка задачи**

В данном модуле вам предстоит решить настоящую задачу машинного обучения, направленную на автоматизацию бизнес-процессов. Мы построим модель, которая будет предсказывать общую продолжительность поездки на такси в Нью-Йорке.
***
![](https://lms.skillfactory.ru/assets/courseware/v1/af567888fd78abd3ee077036d148c775/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-pr5_1_1.png)

Представьте, что вы заказываете такси из одной точки Нью-Йорка в другую, причём необязательно, что конечная точка должна находиться в пределах города. Сколько вы должны будете заплатить за поездку?

Известно, что стоимость такси в США рассчитывается на основе фиксированной ставки и тарифной стоимости, величина которой зависит от времени и расстояния. Тарифы варьируются в зависимости от города.

В свою очередь, время поездки зависит от множества факторов, таких как направление поездки, время суток, погодные условия и так далее.

Таким образом, если мы разработаем алгоритм, способный определять длительность поездки, мы сможем прогнозировать её стоимость самым тривиальным образом, например, просто умножая стоимость на заданный тариф.
***
Сервисы такси хранят огромные объёмы информации о поездках, включая такие данные, как конечная и начальная точки маршрута, дата поездки и её продолжительность. Эти данные можно использовать для того, чтобы прогнозировать длительность поездки в автоматическом режиме с привлечением искусственного интеллекта.

Задача, которую мы будем решать, была представлена в качестве [**Data Science-соревнования**](https://www.kaggle.com/competitions/nyc-taxi-trip-duration/overview) с призовым фондом в 30 000 $ на платформе Kaggle в 2017 году.

Вам будет предоставлен набор данных, содержащий информацию о поездках на жёлтом такси в Нью-Йорке за 2016 год. Первоначально данные были выпущены Комиссией по Такси и Лимузинам Нью-Йорка и включают в себя информацию о времени поездки, географических координатах, количестве пассажиров и несколько других переменных.

**Бизнес-задача**: определить характеристики и с их помощью спрогнозировать длительность поездки на такси.

**Техническая задача** для вас как для специалиста в Data Science: построить модель машинного обучения, которая на основе предложенных характеристик клиента будет предсказывать числовой признак — время поездки такси, то есть решить задачу регрессии.

**ВАШИ ОСНОВНЫЕ ЦЕЛИ:**

1. Сформировать набор данных на основе нескольких источников информации.
2. Спроектировать новые признаки с помощью Feature Engineering и выявить наиболее значимые при построении модели.
3. Исследовать предоставленные данные и выявить закономерности.
4. Построить несколько моделей и выбрать из них ту, которая показывает наилучший результат по заданной метрике.
5. Спроектировать процесс предсказания длительности поездки для новых данных.
6. Загрузить своё решение на платформу Kaggle, тем самым поучаствовав в настоящем Data Science-соревновании.

Во время выполнения проекта вы отработаете навыки работы с несколькими источниками данных, генерации признаков, разведывательного анализа и визуализации данных, отбора признаков и, конечно же, построения моделей машинного обучения.

## **ОРГАНИЗАЦИОННАЯ ИНФОРМАЦИЯ**

Проект будет состоять из пяти частей:

1. **Первичная обработка данных**

В рамках этой части вам предстоит сформировать набор данных на основе предложенных нами источников информации, а также обработать пропуски и выбросы в данных.

2. **Разведывательный анализ данных (EDA)**

Вам необходимо будет исследовать данные, нащупать первые закономерности и выдвинуть гипотезы.

3. **Отбор и преобразование признаков**

На этом этапе вы перекодируете и преобразуете данные таким образом, чтобы их можно было использовать при решении задачи регрессии — для построения модели.

4. **Решение задачи регрессии: линейная регрессия и деревья решений**

На данном этапе вы построите свои первые прогностические модели и оцените их качество. Тем самым вы создадите так называемый baseline, который поможет вам ответить на вопрос: «Решаема ли вообще представленная задача?»

5. **Решение задачи регрессии: ансамбли моделей и построение прогноза**

На заключительном этапе вы сможете доработать своё предсказание с использованием более сложных алгоритмов и оценить, с помощью какой модели возможно сделать более качественные прогнозы.

Каждая из представленных частей проекта будет состоять из блока практических заданий, которые вам необходимо выполнить в своих Jupyter-ноутбуках, и контрольных вопросов на платформе, отвечая на которые вы сможете проверять верность своего решения.

**! Отправлять итоговый ноутбук на проверку ментору не требуется. Установочных встреч по этому проекту не предусмотрено, так как проект изложен максимально подробно. Возникающие вопросы вы можете задавать ментору в соответствующем канале Slack.**

Выполняйте задания строго последовательно: при нарушении последовательности выполнения заданий проверка ответов не сможет корректно оценить ваши решения.

Важно, что иногда задания не несут практической ценности (т. е. какие-то из показателей не нужно было бы рассчитывать при решении задачи в реальной ситуации), однако они отлично помогают идентифицировать правильность выполнения вами необходимых действий.

**ЧТО НЕОБХОДИМО СДЕЛАТЬ ДЛЯ УСПЕШНОГО ВЫПОЛНЕНИЯ ПРОЕКТА?**

1. Скачайте [**датасет**](https://drive.google.com/file/d/1X_EJEfERiXki0SKtbnCL9JDv49Go14lF/view?usp=sharing) и [**ноутбук-шаблон**](https://lms.skillfactory.ru/assets/courseware/v1/b7bf831cadb2f459dc66d181c30e87ae/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/Project-5._Ноутбук-шаблон.ipynb). Проверьте, что файлы скачались в корректном формате: датасет должен быть в формате CSV, а ноутбук — в формате .IPYNB.
2. Внимательно изучите детали задачи и данные. Данные реальные, без предварительной обработки. Уделите особое внимание предобработке данных, учитывайте все нюансы. От предобработки данных будет зависеть ваш результат на этапе моделирования.
3. Пользуйтесь советами и подсказками, приведёнными по ходу выполнения проекта, но не злоупотребляйте ими — сначала попытайтесь выполнить задания самостоятельно. Если вы не знаете, как решить то или иное задание из-за пробелов в знаниях по Python, не забывайте обращаться к документации, материалам курса, поиску в интернете. Представьте, что это реальный кейс, и необходимо найти всю информацию самостоятельно. Однако, если это вызовет затруднения, вы всегда можете поэтапно пользоваться подсказками.
4. Ответьте на все контрольные вопросы. Внимательно читайте вопросы и не забывайте про жёсткие требования к их последовательности: любое нарушение порядка действий может повлечь невозможность получить верные ответы.
5. Загрузите ноутбук со своим решением на GitHub, аккуратно его оформив. Несмотря на то, что ваши ответы не будут проверяться ментором, решение реального кейса может стать хорошим вкладом в ваше портфолио.

~~sssssssssssssss~~ 

> sssssssssssdfsdf

sdf s sdfs `sdf`