# 1 Sklearn

## 1.1 Методы кластеризации и их особенности

### 1.1.1 K-Means

Легко настраеваемый (по сути имеет в параметрах только количество кластеров)
Хорошо работает на больших и очень больших данных за счёт своей простоты, которая заключается в рандомной инициализации точек, а затем нахождения к ним ближайших. Однако не может находить кластеры без явных центроид, при этом также может смещать их, если кластеры имеют нестандартную форму, а также сама кластеризация сильно зависит от начального раположения точек при инициализации

### 1.1.2 AffinityPropagation

Итеративно находит схожие по параметрам точки из всех в выборки, и на основе этого создаёт кластеры. Плюс модели в том, что она сама находит оптимальное количество кластеров. Имеет настраиваемые параметры, которые влияют только на качество кластеризации, а не то как кластеры определятся. Главный минус - очень длителоное время кластеризации, что делает модель рентабельной только для маленьких датасетов

### 1.1.3 MeanShift

Также итеративный алгоритм, который путём итерации пытается добиться наименьшего изменения центроиды, где сама центроида имеет усреднённые значения координат точек кластера. По качеству кластеризации близок к Kmeans, но при этом алгоритм сам расставляет оптимальное количество кластеров, а также имеет больше параметрров настроек. По скорости намного быстрей AffinityPropagation, но также в разы медленней Kmeans. Также как и AffinityPropagation плохо справляется с большим количеством данных. Поддерживает мультипоточность

### 1.1.4 AgglomerativeClustering

Имеет большое количество параметров позволяющие настраивать модель под различные ситуации. В суте своей находит похожие точки и определяет их в группы, затем после определения одного слоя точек, принимается определять группы по группам, работает до того момента пока модель не добьётся нужного количества кластеров. Способна находить кластеры без явной центроиды. Дерево иерархии может быть визуализирована, для выявления схожих точек. Количество кластеров может как задаваться вручную, так и находиться по другим параметрам. По скорости работы практически такая же как и MeanShift. Может достаточно хорошо работать на больших данных (<~400000)

### 1.1.5 DBSCAN

Основывается на нахождении расстояния между точек (плотности), что позволяет находить кластеры без явных центроид, а также выбросы в данных. Хорошо работает даже на очень больших данных (>~400000), так же как и K-Means. Главный параметр настройки - расстояние между точек, чтобы считаться одним кластером. Поддерживает мультипоточность

### 1.1.6 OPTICS

По принципу работы схож с DBSCAN, но в параметрах вместо задания одного числа расстояния принимает диапозон растояний. Скорость адгоритма зависит от параметра диапазона, где чем меньше диапозон, тем быстрее кластеризация

### 1.1.7 Birch

Можно считать обратным алгоритмом от AgglomerativeClustering. Вместо группировки отдельных точек, для получения подгрупп, разделяет один большой кластер на подкластеры, до тех пор пока не добьётся нужного количества кластеров. Также быстрый алгоритм как и K-Means

### 1.1.8 Gaussian mixtures

Находит точки с определённым распределением, что позволяет модели находит точки нестандартной формы. Принимает в качестве главного параметра - количество компонентов / кластеров. Также быстрый алгоритм как и K-Means

## 1.2 Методы Классификации и их особенности

### 1.2.1 GradientBoostingClassifier / HistGradientBoostingClassifier

Алгоритм основаный на деревьях решений, и работающий так, что деревья последовательно обучаются учитывая ошибки предидущих деревьев. Данная модель зачастую показывает одну из самых лучших точностей предсказаний, но может работать слишком долго на больших данных. Если данных слишком много для GradientBoostingClassifier можно использовать HistGradientBoostingClassifier, который также может справляться с неизвестными значениями

### 1.2.2 RandomForestClassifier

Алгоритм также основанный на деревьях решений, но вместо последовательного обучения обучает множество деревьев на разных частях датасета и усредняет значения. Подходит для достаточно больших датасетов, однако HistGradientBoostingClassifier зачастую справляется быстрей и с большей точностью

In [1]:
### Модели основанные на деревьях не требуют большой нормализации данных

### 1.2.3 Logistic regression

В отличие от трёх предыдущих моделей, является линейной моделью и имеет в себе совершенно иной принцип работы. Классифицирует только двоичные значения, однако также может классифицорать и множество классов, путём обучения модели на каждый класс. Модель работает очень быстро и подходит для очень больших датасетов, особенно при булевой классификации или классификации с малым количеством классов

# 2 BOT

In [115]:
import re
import pymorphy2
from typing import Union

class bot:
    def __init__(self):
        self.morph = pymorphy2.MorphAnalyzer()
        commands_key_words = {
        '/help' : 'помощь справка узнать бот может привет здавствуй'.split(),
        '/exit' : 'пока прощай пошёл ухожу выйти выход'.split(),
        '/' : ''' '''.split(),
        }
        for key in commands_key_words.keys():
            commands_key_words[key] = normalize_text(' '.join(commands_key_words[key]))
        
        self.commands_key_words = commands_key_words
    
    def bot_print(self, text: str) -> None:
        return print(f'Бот: {text} \nПользователь: ', end='')
    
    def get_help(self) -> None:
        text = '''Текущий список команд:

    /help - показать это сообщение
    / - описание команд
    /exit - выход из программы

    Также я умею обрабатывать естественную речь
        '''
        self.bot_print(text)
    
    def text_preprocess(self, text: str) -> str:
        text = text.lower()
        text = re.sub('[^а-яё]', ' ', text)
        text = re.sub(' +', ' ', text).strip()
        return text
    
    def normalize_text(self, text: str) -> [str]:
        return ' '.join([self.morph.parse(word)[0].normal_form 
                         for word in self.text_preprocess(text).split(' ')]
                        )
    
    def get_command(self, text: str) -> str:
        text = self.text_preprocess(text)
        norm_text = self.normalize_text(text)
        norm_text_list = norm_text.split()
        command = ['None', 0]
        for key in commands_key_words.keys():
            index = 0
            for word in norm_text_list:
                if word in commands_key_words[key]:
                    index += 1
            if index > command[1]:
                command[0] = key
                command[1] = index
        return command[0]
    
    def nl_processing(self, text: str) -> Union[str, None]:
        
        command = self.get_command(text)

        if command == '/help':
            get_help()
        elif command == '/exit':
            return('Exit')
        # elif : комманда
        else:
            bot_print('Я не смог распознать что вы сказали')
    
    def main_bot(self) -> None:
        self.bot_print('Доброго времени суток, для пулучения справки информации введите /help')
        while True:
            try:
                user_input = str(input())   

                if user_input == '/help':
                    self.get_help()

                elif user_input == '/exit':
                    break

                elif user_input:
                    back = nl_processing(user_input)
                    if back == 'Exit':
                        break
            except KeyboardInterrupt:
                break
            except:
                self.bot_print('Произошла ошибка во время выполнения команды бота')

In [118]:
if __name__ == '__main__':
    bot().main_bot()

Бот: Доброго времени суток, для пулучения справки информации введите /help 
Пользователь: да
Бот: Я не смог распознать что вы сказали 
Пользователь: пока


In [116]:
bot_ = bot()

In [59]:
bot_.commands_key_words

{'/help': ['помощь',
  'справка',
  'узнать',
  'бот',
  'мочь',
  'привет',
  'здавствовать'],
 '/exit': ['пока', 'прощать', 'пойти', 'уходить', 'выйти', 'выход'],
 '/': ['']}

In [60]:
bot_.bot_print('hellp')

Бот: hellp 
Пользователь: 

In [75]:
bot_.get_command('пошёл ты')

'/exit'

In [76]:
bot_.get_help()

Бот: Текущий список команд:

    /help - показать это сообщение
    / - описание команд
    /exit - выход из программы

    Также я умею обрабатывать естественную речь
         
Пользователь: 

In [96]:
bot_.nl_processing('пошёл ты')

'Exit'

In [97]:
bot_.normalize_text('пошёл ты')

'пойти ты'

In [117]:
bot_.text_preprocess('1314пошёл $@$ты|')

'пошёл ты'

# 3 API

Для форм рендера страниц - файлы в папке templates. Для ввода файла - 
<!doctype html>
<html>
  <head>
    <title>File Upload</title>
  </head>
  <body>
    <h1>File Upload</h1>
    <form method="POST" action="" enctype="multipart/form-data">
      <p><input type="file" name="file" accept=".json"></p>
      <p><input type="submit" value="Submit"></p>
    </form>
  </body>
</html>

In [127]:
from flask import Flask, request, render_template

In [134]:
import pandas as pd

In [128]:
app = Flask(__name__)

In [129]:
bot_ = bot()

In [130]:
# file input
@app.route('/')
def index():
    return render_template('index.html')

In [131]:
@app.route('/', methods=['POST', 'GET'])
def upload_file():
    if request.method == 'POST':
        uploaded_file = request.files['file']
    data = pd.read_csv(uploaded_file) # открытие любого файла
    predictions = bot_.model_predict(data) 
    json = {}
    ###
    # output preparation
    ###
    return str(json)

In [135]:
if __name__ == '__main__':
    app.run()

 * Serving Flask app '__main__' (lazy loading)
 * Environment: production
[2m   Use a production WSGI server instead.[0m
 * Debug mode: off


 * Running on http://127.0.0.1:5000/ (Press CTRL+C to quit)
127.0.0.1 - - [05/Apr/2022 14:05:28] "GET / HTTP/1.1" 200 -
[2022-04-05 14:05:32,967] ERROR in app: Exception on / [POST]
Traceback (most recent call last):
  File "H:\Programms\Anaconda\envs\env420\lib\site-packages\flask\app.py", line 2073, in wsgi_app
    response = self.full_dispatch_request()
  File "H:\Programms\Anaconda\envs\env420\lib\site-packages\flask\app.py", line 1518, in full_dispatch_request
    rv = self.handle_user_exception(e)
  File "H:\Programms\Anaconda\envs\env420\lib\site-packages\flask\app.py", line 1516, in full_dispatch_request
    rv = self.dispatch_request()
  File "H:\Programms\Anaconda\envs\env420\lib\site-packages\flask\app.py", line 1502, in dispatch_request
    return self.ensure_sync(self.view_functions[rule.endpoint])(**req.view_args)
  File "C:\Users\WSR_ML\AppData\Local\Temp\ipykernel_6472\919318490.py", line 5, in upload_file
    data = pd.read_csv(uploaded_file) # открытие любого файла
  

# 4 Flask Bot 

Главная часть - index.html практически полностью скопированный с https://codinginfinite.com/chatbot-in-python-flask-tutorial/
- Чат-бот который делает запрос в апи и возвращает значения 

<!DOCTYPE html>
<html>
<head>
    <script src="https://ajax.googleapis.com/ajax/libs/jquery/3.2.1/jquery.min.js"></script>
</head>
<body>
<div class="container">
    <div class="row">
        <div class="col-sm-6 offset-sm-3">
            <div id="chatbox" class="border border-success">
                <h1 class="botText"><span>test_text</span></h1>
            </div>
            <div id="userInput">
                <input id="textInput" class="form-control" type="text" name="msg" placeholder="TEST">
                <input id="buttonInput" class="btn btn-success form-control" type="submit" value="Send">
            </div>
        </div>
    </div>

<script>
    function getResponse() {
        let userText = $("#textInput").val();
        let userHtml = '<p class="userText"><span>' + userText + '</span></p>';
        $("#textInput").val("");
        $("#chatbox").append(userHtml);
        document.getElementById('userInput').scrollIntoView({block: 'start', behavior: 'smooth'});
        $.get("http://localhost:5000/get", {msg: userText})
        .done(data => {
            var botHtml = '<p class="botText"><span>' + data + '</span></p>';
            $("#chatbox").append(botHtml);
            document.getElementById('userInput').scrollIntoView({block: 'start', behavior: 'smooth'});
        });
}
    $("#textInput").keypress(function(e) {
    //if enter key is pressed
        if(e.which == 13) {
            getResponse();
        }
    });
    $("#buttonInput").click(function() {
        getResponse();
    });
    </script>
</div>
</body>
</html>

Функции фласка уже обращаются к функциям ввода вывода бота 

In [2]:
from flask import Flask, render_template, request, after_this_request

app = Flask(__name__)

#define app routes
@app.route("/")
def index():
    return render_template("index_flask_bot.html")

@app.after_request
def after_request(response):
    header = response.headers
    header['Access-Control-Allow-Origin'] = '*'
    return response

@app.route("/get", methods=["POST", "GET"])
def get_bot_response():
    userText = request.args.get('msg')
    return userText
if __name__ == "__main__":
    app.run()

 * Serving Flask app '__main__' (lazy loading)
 * Environment: production
[2m   Use a production WSGI server instead.[0m
 * Debug mode: off


 * Running on http://127.0.0.1:5000/ (Press CTRL+C to quit)
127.0.0.1 - - [06/Apr/2022 15:55:04] "GET / HTTP/1.1" 200 -
127.0.0.1 - - [06/Apr/2022 15:55:06] "GET /get?msg=sdf HTTP/1.1" 200 -
127.0.0.1 - - [06/Apr/2022 15:55:07] "GET /get?msg=asd HTTP/1.1" 200 -
127.0.0.1 - - [06/Apr/2022 15:55:07] "GET /get?msg=f HTTP/1.1" 200 -
127.0.0.1 - - [06/Apr/2022 15:55:07] "GET /get?msg=asdf HTTP/1.1" 200 -
127.0.0.1 - - [06/Apr/2022 15:55:07] "GET /get?msg=as HTTP/1.1" 200 -
127.0.0.1 - - [06/Apr/2022 15:55:07] "GET /get?msg=df HTTP/1.1" 200 -
127.0.0.1 - - [06/Apr/2022 15:55:08] "GET /get?msg=yret HTTP/1.1" 200 -
127.0.0.1 - - [06/Apr/2022 15:55:08] "GET /get?msg=y HTTP/1.1" 200 -
127.0.0.1 - - [06/Apr/2022 15:55:08] "GET /get?msg=y HTTP/1.1" 200 -
127.0.0.1 - - [06/Apr/2022 15:55:09] "GET /get?msg= HTTP/1.1" 200 -
127.0.0.1 - - [06/Apr/2022 15:55:09] "GET /get?msg= HTTP/1.1" 200 -
127.0.0.1 - - [06/Apr/2022 15:55:09] "GET /get?msg= HTTP/1.1" 200 -
127.0.0.1 - - [06/Apr/2022 15:55:09] "GET /