# Применение методов интеллектуального анализа данных для прогностического моделирования с интеграцией визуализации пространственно-временных данных

# **Общая структура работы**





### 1. Определение цели
Определим, что мы хотим предсказать.

### 2. Сбор и подготовка данных
- **Сбор данных:** Поиск источников данных
- **Предварительная обработка данных:** Очистка данных, заполнение пропущенных значений, нормализация данных.
- **Разбиение на подвыборки:** Разделение данных на тренировочный, валидационный и тестовый наборы данных.

### 3. Выбор функций и моделей
- **Инженерия признаков:** Определение наиболее важных признаков.
- **Выбор моделей:** Выбор моделей машинного обучения (например, линейная регрессия, случайный лес, градиентный бустинг, ARIMA, LSTM, NBeats, NHiTS  и т.д., подходящих для решения нашей задачи.

### 4. Разработка аналитической базы
- **Исследование данных:** Выбор и использование аналитических инструментов для анализа и визуализации данных.
- **Интеграция с сервисами интерактивного картографирования или ГИС:** При необходимости работаем с географической информационной системой (ГИС) или  сервисами интерактивного картографирования (например, Folium) и анализа пространственных данных.

### 5. Тренировка моделей
- **Настройка гиперпараметров:** Оптимизация параметров моделей для улучшения результатов.
- **Кросс-валидация:** Проверка стабильности моделей на различных подвыборках данных.
- **Оценка производительности:** Использование метрик, таких как средняя абсолютная ошибка (MAE), средняя квадратичная ошибка (MSE) и т.д. для оценки производительности моделей.

### 6. Проверка и оценка моделей
- **Валидация моделей:** Проверим качество моделей на валидационном наборе данных.
- **Тестирование моделей:** Финальное тестирование моделей на тестовом наборе данных.

### 7. Развертывание и мониторинг
- **Прототипирование приложения:** Создадим простое приложение или дэшборд для демонстрации работы модели.
- **Развертывание моделей:** Сделаем лучшие модели доступными для использования в реальном времени.
- **Мониторинг и обслуживание:** Регулярно контролируем модели на предмет ухудшения качества и обновления данных для обучения (**опционально**).

### Инструменты и технологии:
- **Язык программирования:** На Ваше усмотрение (например, Python).
- **Библиотеки для машинного обучения:** На Ваше усмотрение (например, Scikit-learn, TensorFlow, PyTorch)


## Пример структуры проекта по предсказанию курсов валют по странам с использованием методов машинного и глубокого обучения



Данный проект по предсказанию курсов валют по странам с использованием методов машинного обучения будет состоять из следующих шагов:

### 1. Определение цели
Определим, что мы хотим предсказать - курсы валют конкретных стран в будущем.

### 2. Сбор и подготовка данных
- **Сбор данных:** Найдем источники данных о курсах валют различных стран.

    - Данные о курсах валют: https://fixer.io/
    - Данные о влияющих факторах: https://cbonds.ru/api/reports/

- **Предварительная обработка данных:** Очистим данные, заполним пропущенные значения, нормализуем данные.
- **Разбиение на подвыборки:** Разделим данные на тренировочный, валидационный и тестовый наборы данных.

### 3. Выбор функций и моделей
- **Инженерия признаков:** Определим, какие данные будут являться наилучшими предикторами для предсказания курсов валют.

Пример списка предикторов после анализа:

- 1. **Экономические показатели**: Индикаторы, такие как инфляция, уровень безработицы, ВВП, могут влиять на курс валюты.

- 2. **Мировые новости**: События на мировой сцене, такие как политические решения, войны, катастрофы, могут влиять на курс валюты. Этот признак сложнее использовать, так как требует анализа текстов.

- 3. **Данные о торговле**: Объемы экспорта и импорта, а также баланс торговли могут влиять на курс валюты.

- 4. **Финансовые данные**: Данные о процентных ставках, денежной массе, государственном долге также могут быть полезны.
 и т.д.

- **Выбор модели:** Выберем подходящие модели машинного обучения (например, линейная регрессия, случайный лес, градиентный бустинг), подходящие для предсказания курсов валют.

### 4. Разработка аналитической базы
- **Исследование данных:** Используем аналитические инструменты для анализа и визуализации данных о курсах валют.
- **Интеграция с сервисами интерактивного картографирования или ГИС:** При необходимости работаем с географической информационной системой (ГИС) или  сервисами интерактивного картографирования (например, Folium) и анализа пространственных данных.

### 5. Тренировка моделей
- **Настройка гиперпараметров:** Оптимизируем параметры модели для улучшения результатов.
- **Кросс-валидация:** Проверяем стабильность модели на различных подвыборках данных.
- **Оценка производительности:** Используем метрики, такие как средняя абсолютная ошибка (MAE), средняя квадратичная ошибка (MSE) для оценки производительности модели.

### 6. Проверка и оценка модели
- **Валидация модели:** Проверим качество модели на отложенном наборе данных для валидации.
- **Тестирование модели:** Финальное тестирование модели на тестовом наборе данных.

### 7. Развертывание и мониторинг
- **Прототипирование приложения:** Создадим простое приложение или дэшборд для демонстрации работы модели и предсказания курсов валют.
- **Развертывание модели:** Сделаем модель доступной для использования в реальном времени, чтобы предсказывать курсы валют.
- **Мониторинг и обслуживание:** Регулярно контролируем модель на предмет ухудшения ее качества и обновления данных для обучения.

### Инструменты и технологии:
- **Язык программирования:** Python.
- **Библиотеки для машинного обучения:** Scikit-learn, TensorFlow.

# **Примерный печень тем**


**(Лучше выбрать свою тему, в зависимости от доступности данных в глобальной сети и удобства работы с ними)**





1. **Прогнозирование климатических изменений**  
Используйте исторические данные по климату и геоданные для создания моделей, которые могут предсказать изменения климата в различных регионах.

2. **Прогнозирование урожайности сельскохозяйственных культур**  
Обработка данных о погоде, типах почв и исторической урожайности для разработки прогностической модели, которая поможет аграриям планировать посевные площади и сорта культур.

3. **Динамика цен на недвижимость**  
Соедините геоданные с временными рядами цен на недвижимость, чтобы предсказать изменения цен в разных районах на основе экономических индикаторов и тенденций развития инфраструктуры.

4. **Мониторинг и прогнозирование засух**  
Создание модели, которая использует данные о погоде, влажности почвы и другие геоданные для предсказания возможных засух.

5. **Анализ распространения болезней**  
На основе данных о климате, населении и случаях заболевания создать модель для предсказания распространения инфекционных болезней.

6. **Оценка риска наводнений**  
Используйте геоданные и временные ряды осадков для оценки вероятности возникновения наводнений в различных районах.

7. **Мониторинг дорожного трафика**  
Разработка системы, которая использует данные GPS и другие геоспецифические данные для прогнозирования трафика и возможных заторов в реальном времени.

8. **Анализ влияния городской застройки на окружающую среду**  
Оцените, как городское разрастание влияет на местные экосистемы и климат, используя исторические и текущие геоданные.

9. **Управление ресурсами водоснабжения**  
Создайте систему предсказания для определения лучших местоположений для новых водозаборных станций в зависимости от прогнозируемых изменений климата и демографических данных.

10. **Влияние погоды на возобновляемую энергетику**  
Предсказание производительности солнечных панелей и ветровых турбин с использованием геоданных и временных рядов, связанных с погодными условиями.

11. **Анализ распространения и предсказание природных катастроф**
   - Моделирование и прогнозирование лесных пожаров.
   - Анализ риска наводнений в уязвимых районах.

12. **Умный город и планирование инфраструктуры**
   - Прогнозирование трафика и оптимизация городских транспортных потоков.
   - Разработка системы управления энергопотреблением на основе анализа потребления электроэнергии в городе.

13. **Экологический мониторинг и управление**
   - Отслеживание изменений покрова лесов и состояния растительности.
   - Картирование и мониторинг загрязнения водоёмов.

14. **Геологический анализ и поиск полезных ископаемых**
   - Предсказание местоположений нахождения полезных ископаемых с помощью анализа геоданных.
   - Моделирование изменений ландшафта в результате добычи ресурсов.

15. **Исследование водных ресурсов**
   - Мониторинг уровня загрязнения водных путей и контроль за его изменениями.
   - Прогнозирование изменений гидрологии в ответ на изменения климата.

# **Требования**







## Требования к источникам данных:
Предпочтительно, чтобы все источники данных были динамическими. Хорошей практикой является получение данных по API, как это показано на примере выше.

    - Данные о курсах валют: https://fixer.io/

>


    - Данные о влияющих факторах: https://cbonds.ru/api/reports/

Из первого источника берется целевой набор данных, из второго признаки.

## Требования к данным и визуализации:



### **Данные обязательно должны иметь пространственную привязку(!)**


Визуализация может быть выполнена в любой среде, позволяющей создавать тематическую карту с динамическим отображением данных по временным меткам, например в среде [Folium](https://python-visualization.github.io/folium/latest/user_guide.html)



### Пример №1:

[Документация](https://python-visualization.github.io/folium/latest/user_guide/plugins/timestamped_geojson.html)

In [None]:
import folium
from folium.plugins import TimestampedGeoJson

m = folium.Map(location=[35.68159659061569, 139.76451516151428], zoom_start=16)


lines = [
    {
        "coordinates": [
            [139.76451516151428, 35.68159659061569],
            [139.75964426994324, 35.682590062684206],
        ],
        "dates": ["2017-06-02T00:00:00", "2017-06-02T00:10:00"],
        "color": "red",
    },
    {
        "coordinates": [
            [139.75964426994324, 35.682590062684206],
            [139.7575843334198, 35.679505030038506],
        ],
        "dates": ["2017-06-02T00:10:00", "2017-06-02T00:20:00"],
        "color": "blue",
    },
    {
        "coordinates": [
            [139.7575843334198, 35.679505030038506],
            [139.76337790489197, 35.678040905014065],
        ],
        "dates": ["2017-06-02T00:20:00", "2017-06-02T00:30:00"],
        "color": "green",
        "weight": 15,
    },
    {
        "coordinates": [
            [139.76337790489197, 35.678040905014065],
            [139.76451516151428, 35.68159659061569],
        ],
        "dates": ["2017-06-02T00:30:00", "2017-06-02T00:40:00"],
        "color": "#FFFFFF",
    },
]

features = [
    {
        "type": "Feature",
        "geometry": {
            "type": "LineString",
            "coordinates": line["coordinates"],
        },
        "properties": {
            "times": line["dates"],
            "style": {
                "color": line["color"],
                "weight": line["weight"] if "weight" in line else 5,
            },
        },
    }
    for line in lines
]

TimestampedGeoJson(
    {
        "type": "FeatureCollection",
        "features": features,
    },
    period="PT1M",
    add_last_point=True,
).add_to(m)

m

### Пример 2

[Документация](https://python-visualization.github.io/folium/latest/user_guide/plugins/WmsTimeDimension.html)

In [None]:
!pip install owslib

Collecting owslib
  Downloading OWSLib-0.29.3-py2.py3-none-any.whl (221 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/221.1 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━[0m [32m163.8/221.1 kB[0m [31m4.9 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m221.1/221.1 kB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: owslib
Successfully installed owslib-0.29.3


In [None]:
from owslib.wms import WebMapService
from folium.plugins import TimestampedWmsTileLayers


url = "https://pae-paha.pacioos.hawaii.edu/thredds/wms/dhw_5km?service=WMS"

web_map_services = WebMapService(url)

print("\n".join(web_map_services.contents.keys()))


layer = "CRW_SST"
wms = web_map_services.contents[layer]

name = wms.title

lon = (wms.boundingBox[0] + wms.boundingBox[2]) / 2.0
lat = (wms.boundingBox[1] + wms.boundingBox[3]) / 2.0
center = lat, lon

time_interval = "{0}/{1}".format(
    wms.timepositions[0].strip(), wms.timepositions[-1].strip()
)
style = "boxfill/sst_36"

if style not in wms.styles:
    style = None

m = folium.Map(location=[-40, -50], zoom_start=5)

wms_tile_layer = folium.WmsTileLayer(
    url=url,
    name=name,
    styles=style,
    fmt="image/png",
    transparent=True,
    layers=layer,
    overlay=True,
    COLORSCALERANGE="1.2,28",
).add_to(m)

TimestampedWmsTileLayers(
    wms_tile_layer,
    period="PT1H",
    time_interval=time_interval,
).add_to(m)

folium.LayerControl().add_to(m)

m

CRW_DHW
CRW_DHW_mask
CRW_HOTSPOT
CRW_HOTSPOT_mask
CRW_SSTANOMALY
CRW_SSTANOMALY_mask
CRW_BAA
CRW_BAA_mask
CRW_BAA_7D_MAX
CRW_BAA_7D_MAX_mask
CRW_SEAICE
CRW_SST


### Готовый пример проекта с визу

In [3]:
import sys

In [4]:
from urllib import request, parse
from http.cookiejar import CookieJar
from base64 import b64encode
import getpass
import netrc
import requests
import json
import os
import pprint
from osgeo import gdal
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
import rasterio
from rasterio.plot import show
import numpy as np
import time
from netCDF4 import Dataset
from owslib.wms import WebMapService
from owslib.util import Authentication
%matplotlib inline

In [None]:
local_dir = './outputs/'
if not os.path.exists(local_dir):
  os.mkdir(local_dir)