# Моделирование и разработка дашборда

## Загрузка датасета

Если датасет не очень большой, то я не рекомендую загружать его через гугл диск. Самый простой способ - открыть вкладку файлы и загрузить туда датасет. Давай так и сделаем.

![](https://i.imgur.com/V19fvGv.png)

Просто перетаскиваем в это окно наш csv файл. Если не перетаскивается - нажимай на кнопку Загрузить (первая из четырех иконок сверху). Гугл предупредит, что **файлы, которые загружены в это хранилище, будут удалены после перезагрузки Colab!**

![](https://i.imgur.com/YM1uRYZ.png)

Теперь файл загружен. Давай посмотрим, как мы можем открыть его. Для начала посмотрим список файлов в хранилище.

In [None]:
! ls

LABA2_0.csv  sample_data


Видишь, то есть наш ноутбук находится в той же папке, куда мы только что загрузили файлы. Это значит, что открыть файл мы можем просто по его имени.

Обрати внимание, что в эту же папку можно сохранять картикни, модели (!). И здесь же можно будет расположить наш файл с дашбордом. Давай наконец загрузим датасет.

In [None]:
import pandas as pd

При загрузке датасета на демоэкзамене рекомендуется обращать внимание на разделитель столбцов и указывать его в качестве параметра sep; в данном случае это запятая, но на демоэкзамене могут быть подлянки.

In [None]:
data = pd.read_csv('LABA2_0.csv', sep=',')
data

Unnamed: 0.1,Unnamed: 0,est_diameter_min,est_diameter_max,relative_velocity,miss_distance,absolute_magnitude,hazardous
0,0,0.016016,0.035813,56014.078517,1.024333e+06,26.10,0.0
1,1,0.030518,0.068240,7864.348060,3.268186e+07,24.70,0.0
2,2,0.055533,0.124177,55257.544508,6.538636e+07,23.40,0.0
3,3,0.019256,0.043057,41531.404722,1.260796e+07,25.70,0.0
4,4,0.139494,0.311918,67639.394481,7.130590e+07,21.40,0.0
...,...,...,...,...,...,...,...
41078,41078,0.925881,2.070332,53401.167163,5.279098e+07,17.29,0.0
41079,41079,0.014607,0.032662,30675.903942,3.626284e+06,26.30,0.0
41080,41080,0.004023,0.008996,76430.346045,4.145901e+07,29.10,0.0
41081,41081,0.015295,0.034201,26931.983083,4.544752e+07,26.20,0.0


Сразу покажу одну штуку. Давай дропнем столбец Unnamed: 0.

In [None]:
data.drop(['Unnamed: 0'], axis=1, inplace=True)
data

Unnamed: 0,est_diameter_min,est_diameter_max,relative_velocity,miss_distance,absolute_magnitude,hazardous
0,0.016016,0.035813,56014.078517,1.024333e+06,26.10,0.0
1,0.030518,0.068240,7864.348060,3.268186e+07,24.70,0.0
2,0.055533,0.124177,55257.544508,6.538636e+07,23.40,0.0
3,0.019256,0.043057,41531.404722,1.260796e+07,25.70,0.0
4,0.139494,0.311918,67639.394481,7.130590e+07,21.40,0.0
...,...,...,...,...,...,...
41078,0.925881,2.070332,53401.167163,5.279098e+07,17.29,0.0
41079,0.014607,0.032662,30675.903942,3.626284e+06,26.30,0.0
41080,0.004023,0.008996,76430.346045,4.145901e+07,29.10,0.0
41081,0.015295,0.034201,26931.983083,4.544752e+07,26.20,0.0


Смотри, если мы теперь сохраним этот датасет в csv (например, когда сделала предобработку), то при загрузке у тебя снова появится столбец Unnamed: 0! Это может усложнить тебе задачу. Чтобы он не появлялся, нужно сохранять датасет с параметром index = False. Давай посмотрим.

In [None]:
data.to_csv('copy.csv', index=False)
data2 = pd.read_csv('copy.csv')
data2

Unnamed: 0,est_diameter_min,est_diameter_max,relative_velocity,miss_distance,absolute_magnitude,hazardous
0,0.016016,0.035813,56014.078517,1.024333e+06,26.10,0.0
1,0.030518,0.068240,7864.348060,3.268186e+07,24.70,0.0
2,0.055533,0.124177,55257.544508,6.538636e+07,23.40,0.0
3,0.019256,0.043057,41531.404722,1.260796e+07,25.70,0.0
4,0.139494,0.311918,67639.394481,7.130590e+07,21.40,0.0
...,...,...,...,...,...,...
41078,0.925881,2.070332,53401.167163,5.279098e+07,17.29,0.0
41079,0.014607,0.032662,30675.903942,3.626284e+06,26.30,0.0
41080,0.004023,0.008996,76430.346045,4.145901e+07,29.10,0.0
41081,0.015295,0.034201,26931.983083,4.544752e+07,26.20,0.0


Видишь, все чисто! **Обращаю внимание: датасет этот не предобработан - есть пропуски.**

In [None]:
data.isnull().sum()

est_diameter_min      0
est_diameter_max      0
relative_velocity     0
miss_distance         1
absolute_magnitude    1
hazardous             1
dtype: int64

Как я понял, это только в последней строке пропуск. Остальные ты заполнила) давай просто исключим из датасета последнюю строку.

In [None]:
data = data[:41082] # исключая последнюю строку
data.isnull().sum()

est_diameter_min      0
est_diameter_max      0
relative_velocity     0
miss_distance         0
absolute_magnitude    0
hazardous             0
dtype: int64

## Моделирование

Приступаем к моделированию

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import BaggingClassifier
import tensorflow as tf

from sklearn.metrics import confusion_matrix, classification_report

In [None]:
import numpy as np

In [None]:
y = data["hazardous"]
X = data.drop(['hazardous'], axis=1)
np.unique(y, return_counts=True)

(array([0., 1.]), array([37056,  4026]))

Датасет не сбалансирован. Давай сбалансируем!

In [None]:
! pip install imbalanced-learn

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


Предлагаю использовать алгоритм NearMiss (обращаю внимание - будем делать андерсемплинг - уменьшать количество объектов большего класса).

In [None]:
from imblearn.under_sampling import NearMiss

In [None]:
nm = NearMiss()
X, y = nm.fit_resample(X, y)

In [None]:
np.unique(y, return_counts=True)

(array([0., 1.]), array([4026, 4026]))

Все, теперь данные сбалансированы. Приступаем к моделированию. Гиперпараметры не будем подбирать - РГР этого не требует. Но на дэмоэкзамене надо подбирать, даже если об этом не сказано!

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.2)

### KNN

In [None]:
knn = KNeighborsClassifier().fit(X_train, y_train)
print(classification_report(y_test, knn.predict(X_test)))

              precision    recall  f1-score   support

         0.0       0.57      0.75      0.65       805
         1.0       0.63      0.43      0.51       806

    accuracy                           0.59      1611
   macro avg       0.60      0.59      0.58      1611
weighted avg       0.60      0.59      0.58      1611



Так себе, но пойдет :)

### BaggingClassifier

In [None]:
bag = BaggingClassifier().fit(X_train, y_train)
print(classification_report(y_test, bag.predict(X_test)))

              precision    recall  f1-score   support

         0.0       0.85      0.81      0.83       805
         1.0       0.82      0.86      0.84       806

    accuracy                           0.83      1611
   macro avg       0.83      0.83      0.83      1611
weighted avg       0.83      0.83      0.83      1611



Вот это уже четко. Думаю, что подбор гиперпараметров может еще улучшить результаты.

### Сверточная нейронная сеть

Параметров не так много. Не будем юзать дропауты. Я предпочитаю softmax

In [None]:
model = tf.keras.Sequential(
    [
        tf.keras.layers.Dense(64, activation='linear', input_shape=(5,)),
        tf.keras.layers.Dense(128, activation='linear'),
        tf.keras.layers.Dense(64, activation='relu'),
        tf.keras.layers.Dense(64, activation='relu'),
        tf.keras.layers.Dense(32, activation='relu'),
        tf.keras.layers.Dense(16, activation='relu'),
        tf.keras.layers.Dense(2, activation='softmax')
    ]
)
model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.0005), loss='sparse_categorical_crossentropy')

Архитектура модели тебе для отчета :)

In [None]:
model.summary()

Model: "sequential_9"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_47 (Dense)            (None, 64)                384       
                                                                 
 dense_48 (Dense)            (None, 128)               8320      
                                                                 
 dense_49 (Dense)            (None, 64)                8256      
                                                                 
 dense_50 (Dense)            (None, 64)                4160      
                                                                 
 dense_51 (Dense)            (None, 32)                2080      
                                                                 
 dense_52 (Dense)            (None, 16)                528       
                                                                 
 dense_53 (Dense)            (None, 2)                

In [None]:
model.fit(X_train, y_train, epochs=8, verbose=None)

<keras.callbacks.History at 0x7f571fab6f80>

In [None]:
y_pred = [np.argmax(pred) for pred in model.predict(X_test, verbose=None)]
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

         0.0       0.48      0.14      0.21       805
         1.0       0.50      0.85      0.63       806

    accuracy                           0.50      1611
   macro avg       0.49      0.50      0.42      1611
weighted avg       0.49      0.50      0.42      1611



Нейронка показала себя плохо :( Но по заданию, мы в любом случае будем ее использовать. Давай сохраним все модели.

In [None]:
import pickle

In [None]:
pickle.dump(knn, open('knn.sav', 'wb'))
pickle.dump(bag, open('bag.sav', 'wb'))
model.save('nn.sav')



Видим, что файлы сохранились в папке. Если сразу не появились - тыкай правой кнопкой мыши и жми Обновить.

Давай также датасет сохраним - мы же удалили последнюю строку. При сохранении не забываем index = False

In [None]:
data.to_csv('data.csv', index=False)

Итак, у нас все готово для дашборда. Есть 3 модели и файл с данными. Давай сделаем дашборд в колабе!

![](https://i.imgur.com/Fv8lby7.png)

Еще момент - в дашборде я хочу показать, как загружать файлы. Чтобы делать предсказания загружая csv файл. Давай для этого сделаем отдельный датафрейм из X_test. И этот датафрейм сохраним в csv. Из папки в колабе его можно будет скачать и использовать в дашборде.

In [None]:
X_test

Unnamed: 0,est_diameter_min,est_diameter_max,relative_velocity,miss_distance,absolute_magnitude
6346,1.181830,2.642652,23625.648360,3.877299e+07,16.760
5686,0.118728,0.265485,80399.045243,5.794365e+07,21.750
4305,0.167708,0.375008,28072.387267,2.989064e+07,21.000
1306,0.018389,0.041119,48066.003701,6.450055e+07,25.800
6820,0.506471,1.132505,88553.878223,4.047802e+07,18.600
...,...,...,...,...,...
6847,0.513517,1.148259,58157.354566,4.068174e+07,18.570
689,0.033462,0.074824,34842.209441,3.123481e+07,24.500
1099,0.725362,1.621959,51810.417972,6.905876e+07,17.820
6691,0.319415,0.714233,74373.711344,4.647963e+07,19.601


In [None]:
X_test.to_csv('test_data.csv', index = False)

## Дашборд

In [None]:
! pip install streamlit

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting streamlit
  Downloading streamlit-1.23.1-py2.py3-none-any.whl (8.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.9/8.9 MB[0m [31m54.2 MB/s[0m eta [36m0:00:00[0m
Collecting blinker<2,>=1.0.0 (from streamlit)
  Downloading blinker-1.6.2-py3-none-any.whl (13 kB)
Collecting importlib-metadata<7,>=1.4 (from streamlit)
  Downloading importlib_metadata-6.6.0-py3-none-any.whl (22 kB)
Collecting pympler<2,>=0.9 (from streamlit)
  Downloading Pympler-1.0.1-py3-none-any.whl (164 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m164.8/164.8 kB[0m [31m18.0 MB/s[0m eta [36m0:00:00[0m
Collecting validators<1,>=0.2 (from streamlit)
  Downloading validators-0.20.0.tar.gz (30 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting gitpython!=3.1.19,<4,>=3 (from streamlit)
  Downloading GitPython-3.1.31-py3-none-any.whl (184 kB)
[2K  

Пишем дашборд. Лайфхак: чтобы видеть подсветку синтаксиса Python удобнее временно удалить строку с writefile - главное, потом не забыть вернуть!

In [None]:
%%writefile app.py
import pickle
import tensorflow as tf

import pandas as pd
import numpy as np
import streamlit as st
import matplotlib.pyplot as plt
import seaborn as sns


def main():
    knn = load_model("knn.sav") # помни, что грузим из папки - файл с дашбордом будет сохранен в нее
    bag = load_model("bag.sav")
    nn = load_model_tensorflow("nn.sav")
    data = load_test_data("data.csv")

    page = st.sidebar.selectbox(
        "Выберите страницу",
        ["Описание данных", "Визуализации", "Запрос к моделям"]
    )

    # если выбрана первая страница
    if page == "Описание данных":
        st.title("Описание данных")
        st.header("Опасные космические объекты")
        st.write("Описание с сайта Kaggle: https://www.kaggle.com/datasets/sameepvani/nasa-nearest-earth-objects")
        st.write("В космосе бесконечное количество объектов. Некоторые из них ближе, чем мы думаем. Хотя мы могли бы подумать, что расстояние в 70 000 км не может потенциально нам навредить, но в астрономических масштабах это очень небольшое расстояние и может нарушить многие природные явления. Таким образом, эти объекты/астероиды могут оказаться опасными. Поэтому разумно знать, что нас окружает и что из этого может нам навредить. Таким образом, этот набор данных составляет список сертифицированных НАСА астероидов, которые классифицируются как ближайшие к Земле объекты.")
        st.write("В рамках предобработки удалены пропуски в данных")
        st.write(data)

    elif page == "Визуализации":

        st.title("Визуализации")
        st.header("Визуализации зависимостей в данных")

        st.write("Гистограмма признака absolute_magnitude")
        fig, ax = plt.subplots()
        ax.hist(data["absolute_magnitude"])
        st.pyplot(fig)

        st.write("'Ящик с усами' для признака est_diameter_min")
        fig, ax = plt.subplots()
        ax.boxplot(data["absolute_magnitude"])
        st.pyplot(fig)

        st.write("Матрица взаимной корреляции признаков")
        fig, ax = plt.subplots()
        ax = sns.heatmap(data.corr(), linewidth=0.5)
        st.pyplot(fig)

        st.write("Попарные зависимости между первыми тремя признаками (загрузка может быть долгой)")
        fig = sns.pairplot(data, vars=["est_diameter_min", "est_diameter_max", "relative_velocity"])
        st.pyplot(fig)

    elif page == "Запрос к моделям":
        st.title("Запрос к моделям")
        uploaded_data = st.file_uploader("Выберите csv файл", accept_multiple_files=False)
        if uploaded_data:
          new_data = pd.read_csv(uploaded_data.name)
          if st.button('Предсказать'):
            knn_pred = knn.predict(new_data)
            st.write("Предсказанное значение KNN")
            st.write(pd.DataFrame(knn_pred, columns=['Предсказания']))
            bag_pred = bag.predict(new_data)
            st.write("Предсказанное значение Bagging")
            st.write(pd.DataFrame(bag_pred, columns=['Предсказания']))
            nn_pred = [np.argmax(pred) for pred in nn.predict(new_data, verbose=None)]
            st.write("Предсказанное нейронной сетью значение")
            st.write(pd.DataFrame(nn_pred, columns=['Предсказания']))


# для загрузки моделей sklearn - они у нас сохранены на диск как файлы
@st.cache_data
def load_model(path_to_file):
    with open(path_to_file, 'rb') as model_file:
        model = pickle.load(model_file)
    return model

# для загрузки моделей TensorFlow - они у нас сохранены на диск как папки
@st.cache_data
def load_model_tensorflow(path_to_folder):
    model = tf.keras.models.load_model(path_to_folder)
    return model

# для загрузки датасета
@st.cache_data
def load_test_data(path_to_file):
    df = pd.read_csv(path_to_file)
    # ничего не дропаем - датасет полностью подготовлен
    return df


if __name__ == "__main__":
    main()

Overwriting app.py


Можно увидеть, что в папке появился файл app.py. Дашборд запускается командой streamlit run.

Но мы с тобой делаем дашборд в колабе, поэтому здесь при выполнении этой команды браузер не откроется. Чтобы получить доступ извне к этому дашборду нужно не только запустить сервер, но и открыть соответствующий порт

Сначала установим npm пакет, который позволит открыть туннель из интернета к порту, на котором запущен дашборд в колабе

In [None]:
!npm install localtunnel

[K[?25h[37;40mnpm[0m [0m[30;43mWARN[0m [0m[35msaveError[0m ENOENT: no such file or directory, open '/content/package.json'
[0m[37;40mnpm[0m [0m[34;40mnotice[0m[35m[0m created a lockfile as package-lock.json. You should commit this file.
[0m[37;40mnpm[0m [0m[30;43mWARN[0m [0m[35menoent[0m ENOENT: no such file or directory, open '/content/package.json'
[0m[37;40mnpm[0m [0m[30;43mWARN[0m[35m[0m content No description
[0m[37;40mnpm[0m [0m[30;43mWARN[0m[35m[0m content No repository field.
[0m[37;40mnpm[0m [0m[30;43mWARN[0m[35m[0m content No README data
[0m[37;40mnpm[0m [0m[30;43mWARN[0m[35m[0m content No license field.
[0m
+ localtunnel@2.0.2
added 22 packages from 22 contributors and audited 22 packages in 2.366s

3 packages are looking for funding
  run `npm fund` for details

found [92m0[0m vulnerabilities

[K[?25h

Теперь давай узнаем IP адрес виртуальной машины, с которой прямо сейчас мы работаем в колабе.

In [None]:
! curl https://ipinfo.io/ip

34.125.34.154

Теперь можно запустить дашборд

In [None]:
!streamlit run /content/app.py &>/content/logs.txt &

Эта команда убивает дашборд на порту 8501. Рекомендую использовать перед перезапуском.

In [None]:
! fuser -k 8501/tcp

И, наконец, откроем тунель. Выполняем команду, переходим по ссылке и вводим IP адрес, который получили выше.

In [None]:
!npx localtunnel --port 8501

[K[?25hnpx: installed 22 in 2.051s
your url is: https://warm-cobras-kick.loca.lt
^C


На этом все! :)