<a href="https://colab.research.google.com/github/NadezhdaArsenteva/-3-/blob/main/Untitled11.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 3. Модель для прогнозирования общей заболеваемости
Модель для прогнозирования общей заболеваемости с использованием методов временных рядов и аналитики больших данных. Используются комбинация LSTM (для обработки временных рядов) и дополнительные методы для работы с заданными данными.

Это комплексная модель для прогнозирования общей заболеваемости с использованием методов временных рядов и анализа больших данных.
Краткое описание:


1. Генерация синтетических данных (в реальном сценарии вы бы использовали настоящие большие данные).
2. Анализ сезонности с использованием декомпозиции временного ряда.
3. Подготовка данных, включая создание дополнительных временных признаков и кодирование категориальных переменных.
4. Масштабирование признаков и создание последовательностей для LSTM.
5. Создание и обучение модели LSTM с использованием ранней остановки для предотвращения переобучения.
6. Оценка модели и визуализация результатов.
7. Анализ важности признаков.
8. Прогнозирование на будущие периоды.

Важные моменты:

1. В реальном сценарии вам нужно заменить сгенерированные данные на реальные  данные о заболеваемости и связанных факторах.

2. Модель учитывает различные факторы, такие как регион, температура, влажность, плотность населения, а также временные характеристики (день недели, месяц, день года).

3. Анализ сезонности помогает понять периодические паттерны в данных.

4. Важность признаков позволяет определить, какие факторы наиболее сильно влияют на заболеваемость.

5. Прогноз на будущие периоды демонстрирует, как модель может использоваться для планирования ресурсов здравоохранения.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.callbacks import EarlyStopping
from statsmodels.tsa.seasonal import seasonal_decompose
from sklearn.metrics import mean_squared_error, mean_absolute_error
import seaborn as sns

In [None]:
# Функция для генерации синтетических данных (замените на реальные данные)
def generate_synthetic_data(start_date, end_date, num_regions=5):
    date_range = pd.date_range(start=start_date, end=end_date, freq='D')
    data = []
    for region in range(num_regions):
        base = np.random.randint(50, 150)
        trend = np.linspace(0, 20, len(date_range))
        seasonality = 10 * np.sin(np.arange(len(date_range)) * (2 * np.pi / 365))
        noise = np.random.normal(0, 5, len(date_range))
        cases = base + trend + seasonality + noise
        cases = np.maximum(cases, 0)  # Ensure non-negative values
        region_data = pd.DataFrame({
            'date': date_range,
            'region': f'Region_{region}',
            'cases': cases.astype(int),
            'temperature': np.random.uniform(15, 30, len(date_range)),
            'humidity': np.random.uniform(40, 80, len(date_range)),
            'population_density': np.random.uniform(100, 1000, len(date_range))
        })
        data.append(region_data)
    return pd.concat(data, ignore_index=True)

In [None]:
# Генерация синтетических данных
data = generate_synthetic_data('2018-01-01', '2023-12-31')

In [None]:
# Подготовка данных
data['date'] = pd.to_datetime(data['date'])
data = data.sort_values('date')

In [None]:
# Анализ сезонности
region_0_data = data[data['region'] == 'Region_0'].set_index('date')['cases']
decomposition = seasonal_decompose(region_0_data, model='additive', period=365)

plt.figure(figsize=(12, 10))
plt.subplot(411)
plt.plot(decomposition.observed)
plt.title('Observed')
plt.subplot(412)
plt.plot(decomposition.trend)
plt.title('Trend')
plt.subplot(413)
plt.plot(decomposition.seasonal)
plt.title('Seasonal')
plt.subplot(414)
plt.plot(decomposition.resid)
plt.title('Residual')
plt.tight_layout()
plt.show()


In [None]:
# Подготовка признаков
data['day_of_week'] = data['date'].dt.dayofweek
data['month'] = data['date'].dt.month
data['day_of_year'] = data['date'].dt.dayofyear


In [None]:
# Кодирование категориальных переменных
data = pd.get_dummies(data, columns=['region'])


In [None]:
# Масштабирование числовых признаков
scaler = MinMaxScaler()
scaled_features = scaler.fit_transform(data[['cases', 'temperature', 'humidity', 'population_density',
                                             'day_of_week', 'month', 'day_of_year']])

In [None]:
# Подготовка последовательностей для LSTM
def create_sequences(data, seq_length):
    sequences = []
    targets = []
    for i in range(len(data) - seq_length):
        seq = data[i:i+seq_length]
        target = data[i+seq_length, 0]  # Прогнозируем только количество случаев
        sequences.append(seq)
        targets.append(target)
    return np.array(sequences), np.array(targets)

seq_length = 30  # Используем данные за 30 дней для прогноза
X, y = create_sequences(scaled_features, seq_length)

In [None]:
# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Создание модели LSTM
model = Sequential([
    LSTM(64, activation='relu', return_sequences=True, input_shape=(seq_length, X.shape[2])),
    Dropout(0.2),
    LSTM(32, activation='relu'),
    Dropout(0.2),
    Dense(16, activation='relu'),
    Dense(1)
])

model.compile(optimizer=Adam(learning_rate=0.001), loss='mse')

In [None]:
# Обучение модели с ранней остановкой
early_stopping = EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True)
history = model.fit(
    X_train, y_train,
    epochs=100,
    batch_size=32,
    validation_split=0.2,
    callbacks=[early_stopping],
    verbose=1
)

In [None]:
# Оценка модели
train_loss = model.evaluate(X_train, y_train, verbose=0)
test_loss = model.evaluate(X_test, y_test, verbose=0)
print(f'MSE на обучающих данных: {train_loss:.4f}')
print(f'MSE на тестовых данных: {test_loss:.4f}')


In [None]:
# Визуализация процесса обучения
plt.figure(figsize=(12, 6))
plt.plot(history.history['loss'], label='train')
plt.plot(history.history['val_loss'], label='validation')
plt.title('Ошибка модели')
plt.xlabel('Эпоха')
plt.ylabel('Mean Squared Error')
plt.legend()
plt.show()

In [None]:
# Прогнозирование
y_pred = model.predict(X_test)

In [None]:
# Обратное преобразование
y_test_inv = scaler.inverse_transform(np.column_stack((y_test, np.zeros((len(y_test), X.shape[2]-1)))))[0]
y_pred_inv = scaler.inverse_transform(np.column_stack((y_pred, np.zeros((len(y_pred), X.shape[2]-1)))))[0]


In [None]:
# Расчет метрик
mse = mean_squared_error(y_test_inv, y_pred_inv)
mae = mean_absolute_error(y_test_inv, y_pred_inv)
print(f'Mean Squared Error: {mse:.2f}')
print(f'Mean Absolute Error: {mae:.2f}')

In [None]:
# Визуализация прогнозов
plt.figure(figsize=(12, 6))
plt.plot(y_test_inv, label='Фактические данные')
plt.plot(y_pred_inv, label='Прогноз')
plt.title('Прогноз заболеваемости')
plt.xlabel('Дни')
plt.ylabel('Количество случаев')
plt.legend()
plt.show()

In [None]:
# Анализ важности признаков
feature_importance = np.abs(model.layers[0].get_weights()[0]).mean(axis=1)
feature_names = ['cases', 'temperature', 'humidity', 'population_density',
                 'day_of_week', 'month', 'day_of_year'] + [col for col in data.columns if col.startswith('region_')]

plt.figure(figsize=(10, 6))
sns.barplot(x=feature_importance, y=feature_names)
plt.title('Важность признаков')
plt.xlabel('Средняя абсолютная важность')
plt.tight_layout()
plt.show()

# Прогноз на следующие 30 дней
last_sequence = scaled_features[-seq_length:]
future_predictions = []

for _ in range(30):
    next_pred = model.predict(last_sequence.reshape(1, seq_length, -1))
    future_predictions.append(next_pred[0, 0])
    last_sequence = np.roll(last_sequence, -1, axis=0)
    last_sequence[-1, 0] = next_pred[0, 0]

future_predictions = scaler.inverse_transform(np.column_stack((future_predictions, np.zeros((len(future_predictions), X.shape[2]-1)))))[0]

plt.figure(figsize=(12, 6))
plt.plot(range(len(y_test_inv)), y_test_inv, label='Исторические данные')
plt.plot(range(len(y_test_inv), len(y_test_inv) + 30), future_predictions, label='Прогноз на 30 дней')
plt.title('Прогноз заболеваемости на следующие 30 дней')
plt.xlabel('Дни')
plt.ylabel('Количество случаев')
plt.legend()
plt.show()