## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [1]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


In [2]:
from concurrent.futures import ProcessPoolExecutor

import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression


def calc_time(func):
    def wrapper(*args, **kwargs):
        import time

        time_sum = 0
        n = 10
        for _ in range(n):
            start = time.time()
            result = func(*args, **kwargs)
            time_sum += time.time() - start
        print(f"Average execution time: {time_sum / n:.2f} seconds")
        return result

    return wrapper


def async_calc_time(func):
    async def wrapper(*args, **kwargs):
        import time

        time_sum = 0
        n = 10
        for _ in range(n):
            start = time.time()
            result = await func(*args, **kwargs)
            time_sum += time.time() - start
        print(f"Average execution time: {time_sum / n:.2f} seconds")
        return result

    return wrapper


def calculate_stats_for_city(city_df: pd.DataFrame, window_size=30):
    city_df = city_df.copy()
    city_df = city_df.sort_values(by="timestamp")
    city_df["rolling_mean"] = city_df["temperature"].rolling(window=window_size).mean()
    city_df["rolling_std"] = city_df["temperature"].rolling(window=window_size).std()
    city_df["is_anomaly"] = (
        np.abs(city_df["temperature"] - city_df["rolling_mean"]) > 2 * city_df["rolling_std"]
    ).astype(int)

    season_profile = city_df.groupby("season")["temperature"].agg(["mean", "std", "min", "max"]).reset_index()
    global_stats = city_df["temperature"].agg(["mean", "std", "min", "max"]).reset_index()

    model = LinearRegression()
    model = model.fit(np.arange(len(city_df)).reshape(-1, 1), city_df["temperature"])
    trend_info = {"trend_coef": model.coef_[0], "is_positive_trend": (model.coef_[0] > 0).astype(int)}

    return city_df, season_profile, global_stats, trend_info


def calculate_cities_stats(df: pd.DataFrame):
    cities_stats = {}
    for city in df["city"].unique():
        city_df = df[df["city"] == city]
        city_df, season_profile, global_stats, trend_info = calculate_stats_for_city(city_df)
        cities_stats[city] = {
            "city_df": city_df,
            "season_profile": season_profile,
            "global_stats": global_stats,
            "trend_info": trend_info,
        }
    return cities_stats


def parallel_calculate_cities_stats(df: pd.DataFrame, n_cores=10):
    if n_cores >= 20:
        raise ValueError("Too many cores")
    with ProcessPoolExecutor(n_cores) as executor:
        tasks = []
        for city in df["city"].unique():
            city_df = df[df["city"] == city]
            tasks.append(city_df)

        results = executor.map(calculate_stats_for_city, tasks)

        cities_stats = {}
        for city_df, season_profile, global_stats, trend_info in results:
            city = city_df["city"].iloc[0]
            cities_stats[city] = {
                "city_df": city_df,
                "season_profile": season_profile,
                "global_stats": global_stats,
                "trend_info": trend_info,
            }

    return cities_stats


def parallel_w_created_executor_calculate_cities_stats(executor: ProcessPoolExecutor, df: pd.DataFrame):
    tasks = []
    for city in df["city"].unique():
        city_df = df[df["city"] == city]
        tasks.append(city_df)

    results = executor.map(calculate_stats_for_city, tasks)

    cities_stats = {}
    for city_df, season_profile, global_stats, trend_info in results:
        city = city_df["city"].iloc[0]
        cities_stats[city] = {
            "city_df": city_df,
            "season_profile": season_profile,
            "global_stats": global_stats,
            "trend_info": trend_info,
        }

    return cities_stats


@calc_time
def test_calculate_cities_stats(df):
    cities_stats = calculate_cities_stats(data)


@calc_time
def test_parallel_calculate_cities_stats(df, n_cores):
    cities_stats = parallel_calculate_cities_stats(data, n_cores)


@calc_time
def test_parallel_w_created_executor_calculate_cities_stats(executor, df):
    cities_stats = parallel_w_created_executor_calculate_cities_stats(executor, data)


def main():
    data = pd.read_csv("temperature_data.csv")
    print("Processing data without parallelism")
    cities_stats = calculate_cities_stats(data)
    print()

    for n_cores in [1, 2, 5, 10]:
        print(f"Processing data with {n_cores} cores")
        cities_stats = test_parallel_calculate_cities_stats(data, n_cores)
        print()

    for n_cores in [1, 2, 5, 10]:
        print(f"Processing data with {n_cores} cores using created executor")
        with ProcessPoolExecutor(n_cores) as executor:
            cities_stats = test_parallel_w_created_executor_calculate_cities_stats(executor, data)
        print()


if __name__ == "__main__":
    # main()
    pass

Processing data without parallelism
Average execution time: 0.08 seconds

Processing data with 1 cores
Average execution time: 1.10 seconds

Processing data with 2 cores
Average execution time: 1.15 seconds

Processing data with 5 cores
Average execution time: 1.37 seconds

Processing data with 10 cores
Average execution time: 1.60 seconds

Processing data with 1 cores using created executor
Average execution time: 0.19 seconds

Processing data with 2 cores using created executor
Average execution time: 0.16 seconds

Processing data with 5 cores using created executor
Average execution time: 0.16 seconds

Processing data with 10 cores using created executor
Average execution time: 0.18 seconds

**Ускорения не видно, но использование непрогретого пула потоков дает сильное замедление.**

In [None]:
import requests
import httpx
import os
from datetime import datetime

OPENWEATHERMAP_API_TOKEN = os.getenv("OPENWEATHERMAP_API_TOKEN")
CURRENT_WEATHER_URL = "https://api.openweathermap.org/data/2.5/weather"

month_to_season = {
    12: "winter",
    1: "winter",
    2: "winter",
    3: "spring",
    4: "spring",
    5: "spring",
    6: "summer",
    7: "summer",
    8: "summer",
    9: "autumn",
    10: "autumn",
    11: "autumn",
}

async_client = httpx.AsyncClient()


def get_current_temperature(city, api_token):
    try:
        response = requests.get(CURRENT_WEATHER_URL, params={"q": city, "appid": api_token, "units": "metric"})
    except Exception as e:
        return None, None

    if not response.ok:
        return None, None

    temp = response.json()["main"]["temp"]
    season = month_to_season[datetime.fromtimestamp(response.json()["dt"]).month]
    return temp, season


async def async_get_current_temperature(async_client, city, api_token):
    try:
        response = await async_client.get(
            CURRENT_WEATHER_URL, params={"q": city, "appid": api_token, "units": "metric"}
        )
    except Exception as e:
        return None, None

    if response.status_code != 200:
        return None, None

    temp = response.json()["main"]["temp"]
    season = month_to_season[datetime.fromtimestamp(response.json()["dt"]).month]
    return temp, season


get_current_temperature("Moscow", api_token=OPENWEATHERMAP_API_TOKEN)

(-13.67, 'winter')

In [4]:
import asyncio


@calc_time
def test_sync_get_current_temperature(cities=data["city"].unique(), requests=10):
    cities = np.random.choice(cities, requests)
    for city in cities:
        temp, season = get_current_temperature(city, api_token=OPENWEATHERMAP_API_TOKEN)


@async_calc_time
async def test_async_get_current_temperature(cities=data["city"].unique(), requests=10):
    cities = np.random.choice(cities, requests)
    tasks = [async_get_current_temperature(async_client, city, api_token=OPENWEATHERMAP_API_TOKEN) for city in cities]
    results = await asyncio.gather(*tasks)


async def main():
    for n in [1, 10]:
        print(f"Testing {n} requests")
        test_sync_get_current_temperature(requests=n)
        print()
        print(f"Testing {n} requests asynchronously")
        await test_async_get_current_temperature(requests=n)
        print()


if __name__ == "__main__":
    await main()

Testing 1 requests
Average execution time: 0.28 seconds

Testing 1 requests asynchronously
Average execution time: 0.05 seconds

Testing 10 requests
Average execution time: 2.85 seconds

Testing 10 requests asynchronously
Average execution time: 0.06 seconds



**Добавление асинхронности дает большой прирост в скорости запросов к API, если приходится делать много запросов. Почему-то при выполнении 1 запроса асинхронный метод также быстрее, чем синхронный.**

In [8]:
cities_stats = calculate_cities_stats(data)


def get_current_temperature_stats(city_stats, temp, season):
    season_profile = city_stats["season_profile"]
    global_stats = city_stats["global_stats"]
    trend_info = city_stats["trend_info"]

    season_mean = season_profile[season_profile["season"] == season]["mean"].values[0]
    season_std = season_profile[season_profile["season"] == season]["std"].values[0]
    season_min = season_profile[season_profile["season"] == season]["min"].values[0]
    season_max = season_profile[season_profile["season"] == season]["max"].values[0]
    global_mean = global_stats[global_stats["index"] == "mean"]["temperature"].values[0]
    global_std = global_stats[global_stats["index"] == "std"]["temperature"].values[0]
    global_min = global_stats[global_stats["index"] == "min"]["temperature"].values[0]
    global_max = global_stats[global_stats["index"] == "max"]["temperature"].values[0]
    trend_coef = trend_info["trend_coef"]
    is_positive_trend = trend_info["is_positive_trend"]
    is_season_anomaly = (temp < season_mean - 2 * season_std) or (temp > season_mean + 2 * season_std)
    is_global_anomaly = (temp < global_mean - 2 * global_std) or (temp > global_mean + 2 * global_std)

    return {
        "temp": temp,
        "season": season,
        "season_mean": season_mean,
        "season_std": season_std,
        "season_min": season_min,
        "season_max": season_max,
        "global_mean": global_mean,
        "global_std": global_std,
        "global_min": global_min,
        "global_max": global_max,
        "trend_coef": trend_coef,
        "is_positive_trend": is_positive_trend,
        "is_season_anomaly": is_season_anomaly,
        "is_global_anomaly": is_global_anomaly,
    }


for city in ["Moscow", "Berlin", "Beijing"]:
    print(f"Analyzing {city} current temperature")
    temp, season = get_current_temperature(city, api_token=OPENWEATHERMAP_API_TOKEN)
    print(*get_current_temperature_stats(cities_stats[city], temp, season).items(), sep="\n")
    print()

Analyzing Moscow current temperature
('temp', -9.55)
('season', 'winter')
('season_mean', -10.140071318167621)
('season_std', 4.967601752180183)
('season_min', -25.120678303175577)
('season_max', 3.969717451113093)
('global_mean', 5.308169239935554)
('global_std', 11.232195628498031)
('global_min', -25.120678303175577)
('global_max', 33.34407167844735)
('trend_coef', 0.00021530233201746756)
('is_positive_trend', 1)
('is_season_anomaly', False)
('is_global_anomaly', False)

Analyzing Berlin current temperature
('temp', 12.5)
('season', 'winter')
('season_mean', 0.2721946372038872)
('season_std', 4.824943556787165)
('season_min', -15.712804371573094)
('season_max', 15.470873084943273)
('global_mean', 10.210027701582089)
('global_std', 8.475796110568199)
('global_min', -15.712804371573094)
('global_max', 39.7852881958202)
('trend_coef', 9.82975481725992e-05)
('is_positive_trend', 1)
('is_season_anomaly', True)
('is_global_anomaly', False)

Analyzing Beijing current temperature
('temp', -0