## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [None]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


#### Задание 1

In [None]:
import time
import numpy as np
import pandas as pd

In [None]:
data = pd.read_csv('temperature_data.csv')
data

Unnamed: 0,city,timestamp,temperature,season
0,New York,2010-01-01,3.734791,winter
1,New York,2010-01-02,7.423184,winter
2,New York,2010-01-03,2.949543,winter
3,New York,2010-01-04,7.489370,winter
4,New York,2010-01-05,-3.664525,winter
...,...,...,...,...
54745,Mexico City,2019-12-25,11.018217,winter
54746,Mexico City,2019-12-26,14.908677,winter
54747,Mexico City,2019-12-27,14.898354,winter
54748,Mexico City,2019-12-28,10.933800,winter


In [None]:
def handle_data(data):
  # detect anomalies
  data['temp_seasonal_mean'] = data.groupby(['city', 'season'])['temperature'].transform('mean')
  data['temp_seasonal_std'] = data.groupby(['city', 'season'])['temperature'].transform('std')
  data['anomaly'] = (data['temperature'] > data['temp_seasonal_mean'] + 2 * data['temp_seasonal_std']) | (data['temperature'] < data['temp_seasonal_mean'] - 2 * data['temp_seasonal_std'])

  # rolling mean
  data['temp_rolling_mean'] = data.groupby('city')['temperature'].transform(lambda x: x.rolling(window=30, min_periods=1).mean())

  return data


In [None]:
handle_data(data.copy())

Unnamed: 0,city,timestamp,temperature,season,temp_seasonal_mean,temp_seasonal_std,anomaly,temp_rolling_mean
0,New York,2010-01-01,3.734791,winter,0.157011,5.055866,False,3.734791
1,New York,2010-01-02,7.423184,winter,0.157011,5.055866,False,5.578987
2,New York,2010-01-03,2.949543,winter,0.157011,5.055866,False,4.702506
3,New York,2010-01-04,7.489370,winter,0.157011,5.055866,False,5.399222
4,New York,2010-01-05,-3.664525,winter,0.157011,5.055866,False,3.586473
...,...,...,...,...,...,...,...,...
54745,Mexico City,2019-12-25,11.018217,winter,12.258405,5.160195,False,12.448906
54746,Mexico City,2019-12-26,14.908677,winter,12.258405,5.160195,False,12.704273
54747,Mexico City,2019-12-27,14.898354,winter,12.258405,5.160195,False,12.996578
54748,Mexico City,2019-12-28,10.933800,winter,12.258405,5.160195,False,12.471624


In [None]:
# single-threaded version
ts = time.time()

data_single_threaded = handle_data(data.copy())

print(f"time {(time.time() - ts)*1000}ms")

print("(check) anomaly count", len(data_single_threaded[data_single_threaded['anomaly'] == True]))

time 48.13075065612793ms
(check) anomaly count 2456


In [None]:
# multi-threaded version using Pool and map
from multiprocessing import Pool, cpu_count

print(f"using cpu num: {cpu_count()}")

ts = time.time()

# split by city to remain rolling_mean correct
chunks = [group[1] for group in data.copy().groupby('city')]

with Pool(cpu_count()) as p:
    data_multi_threaded = pd.concat(p.map(handle_data, chunks))

print(f"time {(time.time() - ts)*1000}ms")

print("(check) anomaly count", len(data_multi_threaded[data_multi_threaded['anomaly'] == True]))

using cpu num: 2
time 314.0749931335449ms
(check) anomaly count 2456


Скорость после распараллеливания стала хуже, что может быть связано с несколькими факторами:
- Тест проводился в Google Colab, который выделил только 2 ядра для работы ноутбука, что может быть недостаточно
- Объем датасета не слишком большой, чтобы увидеть существенную разницу
- Появились дополнительные операции как разбиение на чанки + pd.concat, что создает дополнительный оверхед

#### Задание 2

In [135]:
import requests
import aiohttp
import asyncio
from datetime import datetime

In [136]:
TOKEN="0f34a5310045f1b50b2fffe82c1517fa" # Это отдельный токен для текущего дз

In [137]:
historical_data = handle_data(data.copy())
historical_data

Unnamed: 0,city,timestamp,temperature,season,temp_seasonal_mean,temp_seasonal_std,anomaly,temp_rolling_mean
0,New York,2010-01-01,3.734791,winter,0.157011,5.055866,False,3.734791
1,New York,2010-01-02,7.423184,winter,0.157011,5.055866,False,5.578987
2,New York,2010-01-03,2.949543,winter,0.157011,5.055866,False,4.702506
3,New York,2010-01-04,7.489370,winter,0.157011,5.055866,False,5.399222
4,New York,2010-01-05,-3.664525,winter,0.157011,5.055866,False,3.586473
...,...,...,...,...,...,...,...,...
54745,Mexico City,2019-12-25,11.018217,winter,12.258405,5.160195,False,12.448906
54746,Mexico City,2019-12-26,14.908677,winter,12.258405,5.160195,False,12.704273
54747,Mexico City,2019-12-27,14.898354,winter,12.258405,5.160195,False,12.996578
54748,Mexico City,2019-12-28,10.933800,winter,12.258405,5.160195,False,12.471624


In [138]:
def request_current_temperature_for_city(city):
  data = requests \
    .get("https://api.openweathermap.org/data/2.5/weather", {"q": city, "units": "metric", "appid": TOKEN}) \
    .json()

  return data["main"]["temp"]

In [139]:
async def request_current_temperature_for_city_async(city):
  async with aiohttp.ClientSession() as session:
        async with session.get("https://api.openweathermap.org/data/2.5/weather", params={"q": city, "units": "metric", "appid": TOKEN}) as resp:
            data = await resp.json()
            return data["main"]["temp"]

In [140]:
request_current_temperature_for_city("Moscow")

-1.78

In [141]:
await request_current_temperature_for_city_async("Moscow")

-1.78

In [142]:
def is_temperature_anomaly(city, season, temp):
  city_historical_data = historical_data[(historical_data['city'] == city) & (historical_data['season'] == season)]

  seasonal_mean = city_historical_data['temp_seasonal_mean'].values[0]
  seasonal_std = city_historical_data['temp_seasonal_std'].values[0]

  return temp > seasonal_mean + 2*seasonal_std or temp < seasonal_mean - 2*seasonal_std

Проверим, является ли текущая температура в Москве аномальной

In [143]:
city = "Moscow"
season = month_to_season[datetime.now().month]

is_temperature_anomaly(city, season, request_current_temperature_for_city(city))

False

Проверим все города из исторических данных

In [144]:
cities = [city[0] for city in historical_data.groupby('city')]
season = month_to_season[datetime.now().month]

In [148]:
ts = time.time()

rows = []

for city in cities:
  temp = request_current_temperature_for_city(city)
  is_anomaly = is_temperature_anomaly(city, season, temp)

  rows.append([city, season, temp, is_anomaly])

print(f"time {(time.time() - ts) * 1000}ms")

pd.DataFrame(rows, columns=['city', 'current season', 'current temp', 'is anomaly'])

time 1096.3835716247559ms


Unnamed: 0,city,current season,current temp,is anomaly
0,Beijing,winter,-5.06,False
1,Berlin,winter,5.76,False
2,Cairo,winter,21.42,False
3,Dubai,winter,22.96,False
4,London,winter,6.46,False
5,Los Angeles,winter,12.15,False
6,Mexico City,winter,9.97,False
7,Moscow,winter,-1.78,False
8,Mumbai,winter,25.99,False
9,New York,winter,-8.47,False


Теперь проверим все города асинхронно

In [149]:
ts = time.time()

temp_requests = [request_current_temperature_for_city_async(city) for city in cities]
temps = await asyncio.gather(*temp_requests)

rows = []

for (city, temp) in zip(cities, temps):
  is_anomaly = is_temperature_anomaly(city, season, temp)

  rows.append([city, season, temp, is_anomaly])

print(f"time {(time.time() - ts) * 1000}ms")

pd.DataFrame(rows, columns=['city', 'current season', 'current temp', 'is anomaly'])

time 247.9703426361084ms


Unnamed: 0,city,current season,current temp,is anomaly
0,Beijing,winter,-5.06,False
1,Berlin,winter,5.76,False
2,Cairo,winter,21.42,False
3,Dubai,winter,22.96,False
4,London,winter,6.46,False
5,Los Angeles,winter,12.15,False
6,Mexico City,winter,9.97,False
7,Moscow,winter,-1.78,False
8,Mumbai,winter,25.99,False
9,New York,winter,-8.47,False


Асинхронный подход лучше, так как позволяет отправлять несколько запросов параллельно, не создавая при этом дополнительных потоков, т.к. каждая асинхронная задача является I/O bound.

Также видно, что все запросы выполнились быстрее