## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.
   - Любые графики должны быть интерактивными.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [247]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)

In [248]:
import warnings
warnings.filterwarnings('ignore')

Посмотрим на данные

In [249]:
display(data.head())
display(data.tail())

Unnamed: 0,city,timestamp,temperature,season
0,New York,2010-01-01,4.473022,winter
1,New York,2010-01-02,-6.016188,winter
2,New York,2010-01-03,-2.694637,winter
3,New York,2010-01-04,3.536404,winter
4,New York,2010-01-05,0.906117,winter


Unnamed: 0,city,timestamp,temperature,season
54745,Mexico City,2019-12-25,13.422002,winter
54746,Mexico City,2019-12-26,4.589036,winter
54747,Mexico City,2019-12-27,16.846249,winter
54748,Mexico City,2019-12-28,6.104425,winter
54749,Mexico City,2019-12-29,17.92151,winter


In [None]:
import multiprocessing
try:
    multiprocessing.set_start_method('fork', force=True)
except RuntimeError:
    pass

def rolling_mean(args):
    city, city_data = args

    city_data['rolling_mean'] = city_data['temperature'].rolling(window=30).mean()
    city_data['rolling_std'] = city_data['temperature'].rolling(window=30).std()
    city_data['is_outlier'] = (
        (city_data['temperature'] < city_data['rolling_mean'] - 2*city_data['rolling_std']) |
        (city_data['temperature'] > city_data['rolling_mean'] + 2*city_data['rolling_std'])
    )
    season_mean = city_data.groupby('season')['temperature'].mean()
    season_std = city_data.groupby('season')['temperature'].std()
    return (city, {
        'season_mean': season_mean, 
        'season_std': season_std, 
        'city_data': city_data})

In [None]:
from concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor

from psutil import Process

def seq_version():
    results = []
    for city in seasonal_temperatures:
        results.append(rolling_mean((city, data[data['city'] == city].copy())))
    return results

def async_thread_version():
    city_datasets = [(city, data[data['city'] == city].copy()) 
                     for city in seasonal_temperatures]
    with ThreadPoolExecutor(max_workers=len(seasonal_temperatures)) as executor:
        results = list(executor.map(rolling_mean, city_datasets))
    return results

def async_process_version():
    city_datasets = [(city, data[data['city'] == city].copy()) 
                     for city in seasonal_temperatures]
    with ProcessPoolExecutor(max_workers=len(seasonal_temperatures)) as executor:
        results = list(executor.map(rolling_mean, city_datasets))
    return results

In [252]:
import time

def benchmark(func, *args, **kwargs):
    start_time = time.time()
    result = func(*args, **kwargs)
    elapsed_time = time.time() - start_time
    return result, elapsed_time

results, seq_time = benchmark(seq_version)
_, async_thread_time = benchmark(async_thread_version)
_, async_process_time = benchmark(async_process_version)

print(f"Синхронная версия: {seq_time:.4f} секунд")
print(f"Асинхронная версия (многопоточная): {async_thread_time:.4f} секунд")
print(f"Асинхронная версия (многопроцессорная): {async_process_time:.4f} секунд")


Синхронная версия: 0.0583 секунд
Асинхронная версия (многопоточная): 0.0598 секунд
Асинхронная версия (многопроцессорная): 0.1322 секунд


In [253]:
New_York = results[0][1]['city_data']
New_York[New_York['is_outlier']]

Unnamed: 0,city,timestamp,temperature,season,rolling_mean,rolling_std,is_outlier
37,New York,2010-02-07,10.996497,winter,-0.144437,5.535965,True
40,New York,2010-02-10,11.737975,winter,-0.379978,5.968677,True
60,New York,2010-03-02,17.221089,spring,1.456578,6.072563,True
62,New York,2010-03-04,21.108727,spring,2.498627,7.035020,True
152,New York,2010-06-02,19.502078,summer,10.011758,4.596540,True
...,...,...,...,...,...,...,...
3535,New York,2019-09-06,4.461469,autumn,23.104540,6.724080,True
3566,New York,2019-10-07,27.879399,autumn,16.562588,5.286535,True
3621,New York,2019-12-01,-4.117164,winter,13.347993,5.837377,True
3623,New York,2019-12-03,-7.144379,winter,11.741986,6.673088,True


Мы посмотрели вариант с блокировкой GIL, многопоточностью и многопроцессностью. Из результатов видно, что многопоточная версия быстрее всего. Обратим внимание, что у нас CPU-bound задача, и ожидалось, что многопроцессность как раз позволит быстрее сделать расчеты, но у нас быстрее оказалась многопоточность.

Это связано с тем, что под капотом pandas использует Cpython, который освобождает GIL во время вычислений, и задачи выполняются параллельно в режиме многопоточности (обходя GIL) + накладные расходы на управление потоками. Многопроцессность в данном случае проигрывает, потому что накладные расходы на копирование процессов больше.

In [None]:
import requests
from datetime import datetime

API_KEY = "ваш ключ"

def get_weather(city):
    url = f"http://api.openweathermap.org/data/2.5/weather?q={city}&appid={API_KEY}&units=metric"
    response = requests.get(url)

    current_season = month_to_season[datetime.now().month]
    _, city_stats = rolling_mean((city, data[data['city'] == city].copy()))
    normal_temperature_mean = city_stats['season_mean'][current_season]
    normal_temperature_std = city_stats['season_std'][current_season]


    if response.status_code == 200:
        weather_data = response.json()
        current_temperature = weather_data['main']['temp']
        if current_temperature < normal_temperature_mean - 2*normal_temperature_std or current_temperature > normal_temperature_mean + 2*normal_temperature_std:
            return (city, 
                    current_temperature, 
                    float(f"{normal_temperature_mean - 2*normal_temperature_std:.1f}"), 
                    float(f"{normal_temperature_mean + 2*normal_temperature_std:.1f}"), 
                    "Аномальная температура")
        else:
            return (city, 
                    current_temperature, 
                    float(f"{normal_temperature_mean - 2*normal_temperature_std:.1f}"), 
                    float(f"{normal_temperature_mean + 2*normal_temperature_std:.1f}"), 
                    "Нормальная температура")
    else:
        return (city, "Ошибка при запросе данных для {city}")

def seq_version():
    results = []
    for CITY in seasonal_temperatures:
        result = get_weather(CITY)
        results.append(result)
    return results

def async_thread_version():
    with ThreadPoolExecutor(max_workers=len(seasonal_temperatures)) as executor:
        results = list(executor.map(get_weather, seasonal_temperatures))
    return results


seq_results, seq_time = benchmark(seq_version)
async_thread_results, async_thread_time = benchmark(async_thread_version)

print(f"Синхронная версия: {seq_time:.4f} секунд")
print(f"Асинхронная версия (многопоточная): {async_thread_time:.4f} секунд")

Синхронная версия: 5.4326 секунд
Асинхронная версия (многопоточная): 0.4016 секунд


In [257]:
print(*seq_results)

('New York', -3.14, -10.3, 9.8, 'Нормальная температура') ('London', 7.51, -4.5, 15.1, 'Нормальная температура') ('Paris', 1.56, -5.9, 13.9, 'Нормальная температура') ('Tokyo', 3.13, -3.9, 16.2, 'Нормальная температура') ('Moscow', -2.18, -20.0, 0.4, 'Нормальная температура') ('Sydney', 17.55, 2.2, 21.6, 'Нормальная температура') ('Berlin', 1.8, -9.8, 9.8, 'Нормальная температура') ('Beijing', -6.06, -12.3, 8.4, 'Нормальная температура') ('Rio de Janeiro', 33.05, 9.8, 30.4, 'Аномальная температура') ('Dubai', 23.96, 9.8, 29.7, 'Нормальная температура') ('Los Angeles', 9.64, 5.0, 24.8, 'Нормальная температура') ('Singapore', 26.75, 16.8, 37.2, 'Нормальная температура') ('Mumbai', 27.99, 14.9, 35.0, 'Нормальная температура') ('Cairo', 18.42, 4.8, 25.3, 'Нормальная температура') ('Mexico City', 12.43, 1.7, 22.1, 'Нормальная температура')


Асинхронная версия с многопоточностью работает быстрее всего, потому что это I/O задача и мы можем посылать параллельные запросы, не дожидаясь ответа от сервера, поэтому предпочтение стоит отдать ей.

Видим, что аномальная температура в Рио де Жанейро.