Пояснительная записка.

Содержание:
1) Бизнес-анализ. 
Несколько лет назад при продаже автомобиля было потрачено значительное количество времени на изучение рынка аналогичных предложений для подбора оптимальной цены. В связи с чем было решено посвятить проект использованию методов машинного обучения для прогнозирования оптимальных рыночных стоимостей на основе текущих предложений на рынке.

2) Анализ данных. 
Определив цель проекта, в качестве источника данных был выбран самый популярный сайт по продаже авто в России (auto.ru). Для первичной разработки проекта была выбрана марка KIA, как одна из самых распространенных, имющая большое количество объявлений.
Для получения данных необходимо было создать парсер, на что ушло значительное количество времени из-за наличия на сайте систем защит от парсинга. Тем не менее путем проб и ошибок, задача оказалась решена. Были выбраны необходимые с моей точки зрения переменные, влияющие на ценовые показатели автомобилей и создан черновой датафрейм (информация представлена на GitHub, файл "парсер auto_ru.ipynb")

3) Подготовка данных.
Исходный датасет содержал в себе три вида данных: количественные, категориальные и булевы. На первом этапе анализа были выделены модели машин, которые содержались менее чем в пяти объявлениях, чтобы не искажать работу модели. На следующем этапе был убран признак, который оказался одинаковым для всех строк, а именно страна сборки. Далее было проведено преобразование категоральных данных в количественные методом (.cat.codes). Заключительным этапом было преобразование булевых переменных в 0 и 1, формирование готового датасета для последующего обучения модели. (информация представлена на GitHub, файл "transform data.ipynb")

4) Моделирование.
Так как изначальная идея проекта относится к задачам регрессии было принято решение использовать 4 модели из библиотеки sklearn: RandomForestRegressor, KNeighborsRegressor, SVR, LogisticRegression, а также модель Sequential из keras. Далее оценить их точность, основываясь на коэффициенте детерминации. 
Исходные данные были разделены на 2 части 65% на обучение и 35% на тестирование.
Модели RandomForestRegressor и Sequential показали одинаково хорошие результаты около 0.9. В связи с этим было принято решение использовать обе модели и брать средневзвешанный результат. Обе модели были сохранены, для последующего использования при развертывании проекта. (информация представлена на GitHub, файл "model.ipynb")

5) Развертывание проекта (реализовано в данном блокноте).

Данная программа представлят собой Telegram-Бот.
Telegram-Бот - это интерфейс для сбора входных данных от пользователя в формате вопрос-ответ. Задача Бота выдавать оптимальную цену автомобиля по входным данным. 
Предобученные модели для бота получены командой !git clone из ссылки на мой репозиторий https://github.com/Vistakor/Attestation
Для исключения ошибок был использован метод bot.register_next_step_handler, который в случае правильного ввода переходил к следующей по очередности функции, а при ошибках возвращал в начало текущей функции.

6) Оценка результата и шаги по совершенствованию:

Телеграм-бот выполняет задуманную функцию. Прогнозные цены на тестовых данных близки к реальности. 
Следующими шагами по совершенствованию может быть расширение данных на все марки автомобилей, а также привязка к географическому признаку(в разных городах машины стоят по разному).
В целом данный проект может быть использован на сайтах по продаже автомобилей для повышения удобства пользователей.

In [None]:
!git clone https://github.com/Vistakor/Attestation

Cloning into 'Attestation'...
remote: Enumerating objects: 17, done.[K
remote: Counting objects:   5% (1/17)[Kremote: Counting objects:  11% (2/17)[Kremote: Counting objects:  17% (3/17)[Kremote: Counting objects:  23% (4/17)[Kremote: Counting objects:  29% (5/17)[Kremote: Counting objects:  35% (6/17)[Kremote: Counting objects:  41% (7/17)[Kremote: Counting objects:  47% (8/17)[Kremote: Counting objects:  52% (9/17)[Kremote: Counting objects:  58% (10/17)[Kremote: Counting objects:  64% (11/17)[Kremote: Counting objects:  70% (12/17)[Kremote: Counting objects:  76% (13/17)[Kremote: Counting objects:  82% (14/17)[Kremote: Counting objects:  88% (15/17)[Kremote: Counting objects:  94% (16/17)[Kremote: Counting objects: 100% (17/17)[Kremote: Counting objects: 100% (17/17), done.[K
remote: Compressing objects: 100% (17/17), done.[K
remote: Total 17 (delta 3), reused 0 (delta 0), pack-reused 0[K
Unpacking objects: 100% (17/17), done.


In [None]:
import pandas as pd
import sklearn
import keras
import pickle
!pip install pyTelegramBotAPI

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
from sklearn.preprocessing import StandardScaler
st = StandardScaler()

In [None]:
model_RFR = pickle.load(open('/content/Attestation/my_model_RFR', 'rb'))
model_keras = keras.models.load_model('/content/Attestation/my_model_keras')

In [None]:
import telebot
data = pd.DataFrame()
bot = telebot.TeleBot('5857505482:AAH80iF7T3GWkJXj3wyDWvIMSs5YTANaSBw')
@bot.message_handler(content_types=['text'])
def start(message):

    bot.send_message(message.from_user.id, 'Telegram-Бот для определения оптимальной рыночной цены для продажи автомобилей марки KIA, приступим?')
    bot.send_message(message.from_user.id, 'Введите число соответсвующее вашей модели авто:\
    0 - CARNIVAL;\
    1 - CEED;\
    2 - CERATO;\
    3 - K5;\
    4 - MAGENTIS;\
    5 - MOHAVES;\
    6 - PROCEED;\
    7 - OPTIMA;\
    8 - PICANTO;\
    9 - QUORIS;\
    10 - OPIRUS;\
    11 - RIO;\
    12 - SELTOS;\
    13 - SORENTO;\
    14 - SOUL;\
    15 - SPECTRA;\
    16 - SPORTAGE;\
    17 - STINGER;\
    18 - VENGA');

    data.iloc[0:0]
    bot.register_next_step_handler(message, engine);
 

def engine(message): #получаем фамилию
    try:
      mod = int(message.text)
      if mod in range(0, 19):
        data['mod'] = [mod]
        bot.send_message(message.from_user.id, 'Введите число соответсвующее типу двигателя:\
        0 - Дизельный;\
        1 - Бензиновый;\
        2 - Гибридный')
        bot.register_next_step_handler(message, get_transmission);       
      else:
        bot.send_message(message.from_user.id, 'Введите число из списка');
        bot.register_next_step_handler(message, engine);
    except:
      bot.send_message(message.from_user.id, 'Введите число из списка');
      bot.register_next_step_handler(message, engine);  
    
def get_transmission(message):
    try:
      eng = int(message.text) 
      if eng in range(0, 3):
        data['eng'] = [eng]
        bot.send_message(message.from_user.id, 'Введите число соответсвующее типу коробки передач:\
        0 - Автоматическая;\
        1 - Механическая;\
        2 - Роботизированная;\
        3 - Варитатор')
        bot.register_next_step_handler(message, get_HF);
      else:
        bot.send_message(message.from_user.id, 'Введите число из списка');
        bot.register_next_step_handler(message, get_transmission);    
    except:
      bot.send_message(message.from_user.id, 'Введите число из списка');
      bot.register_next_step_handler(message, get_transmission);

def get_HF(message):
    try:
      trans = int(message.text)
      if trans in range(0, 4):
        data['trans'] = [trans]
        bot.send_message(message.from_user.id, 'Введите количество лошадиных сил')
        bot.register_next_step_handler(message, get_own);
      else:
        bot.send_message(message.from_user.id, 'Введите число из списка');
        bot.register_next_step_handler(message, get_HF);   
    except:
      bot.send_message(message.from_user.id, 'Должно быть введено число');    
      bot.register_next_step_handler(message, get_HF);
   
def get_own(message):

    try:
      hf = int(message.text)
      data['hf'] = [hf]
      bot.send_message(message.from_user.id, 'Введите общее число владельцев')   
      bot.register_next_step_handler(message, get_year);
    except Exception:
      bot.send_message(message.from_user.id, 'Должно быть введено число');    
      bot.register_next_step_handler(message, get_own);

def get_year(message):
    try:
      own = int(message.text) 
      data['own'] = [own]
      bot.send_message(message.from_user.id, 'Введите год выпуска')
      bot.register_next_step_handler(message, get_mileage);  
    except:
      bot.send_message(message.from_user.id, 'Должно быть введено число');
      bot.register_next_step_handler(message, get_year);

def get_mileage(message):
    try:
      year = int(message.text) 
      if year in range(1980, 2023):
        data['year'] = [year]
        bot.send_message(message.from_user.id, 'Введите пробег в км')
        bot.register_next_step_handler(message, get_dtp);
      else:
        bot.send_message(message.from_user.id, 'Введите год с 1980');
        bot.register_next_step_handler(message, get_mileage);   
    except:
      bot.send_message(message.from_user.id, 'Введите год с 1980');
      bot.register_next_step_handler(message, get_mileage);

def get_dtp(message):
    try:
      mileage = int(message.text)
      data['mileage'] = [mileage]
      bot.send_message(message.from_user.id, 'Попадал ли автомобиль в дтп?:\
      0 - да;\
      1 - нет')
      bot.register_next_step_handler(message, get_sum);
    except:
      bot.send_message(message.from_user.id, 'Должно быть введено число');
      bot.register_next_step_handler(message, get_dtp);

def get_sum(message):
    try:
      dtp = int(message.text)
      if dtp in range(0, 2):
        data['dtp'] = [dtp]
        tr_data = st.fit_transform(data)
        pr1 = model_RFR.predict(data)
        pr2 = model_keras.predict(tr_data)
        result = int((pr2 * 10000000 + pr1) / 2)
        bot.send_message(message.from_user.id, 'Оптимальная рыночная цена ' + str(result) + ' рублей')
      else:
        bot.send_message(message.from_user.id, 'Введите число из списка');
        bot.register_next_step_handler(message, get_sum); 
    except:
      bot.send_message(message.from_user.id, 'Должно быть введено число');
      bot.register_next_step_handler(message, get_sum);

bot.infinity_polling()



Feature names unseen at fit time:
- dtp
- eng
- hf
- mileage
- mod
- ...
Feature names seen at fit time, yet now missing:
- без дтп
- год выпуска
- количество владельцев
- коробка передач кат
- модель кат
- ...





Feature names unseen at fit time:
- dtp
- eng
- hf
- mileage
- mod
- ...
Feature names seen at fit time, yet now missing:
- без дтп
- год выпуска
- количество владельцев
- коробка передач кат
- модель кат
- ...

2022-11-19 13:30:34,194 (__init__.py:970 MainThread) ERROR - TeleBot: "Infinity polling: polling exited"
ERROR:TeleBot:Infinity polling: polling exited
2022-11-19 13:30:34,198 (__init__.py:972 MainThread) ERROR - TeleBot: "Break infinity polling"
ERROR:TeleBot:Break infinity polling
