## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [1]:
import asyncio
import httpx
import numpy as np
import pandas as pd
import polars as pl
import requests
import time

from datetime import datetime
import nest_asyncio


nest_asyncio.apply()

In [2]:
# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


In [3]:
df = pd.read_csv('temperature_data.csv')

df['timestamp'] = pd.to_datetime(df.timestamp)
df.set_index('timestamp', inplace=True)

df.shape

(54750, 3)

In [4]:
df_mean_temperature = df.groupby('city').temperature.rolling(window='30D').mean()
df_season = df.drop('temperature', axis=1).reset_index().set_index(['timestamp', 'city'])

df = df_season.join(df_mean_temperature).reset_index('city')

df.head()

Unnamed: 0_level_0,city,season,temperature
timestamp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2010-01-01,New York,winter,-0.217639
2010-01-02,New York,winter,-5.529597
2010-01-03,New York,winter,-4.910325
2010-01-04,New York,winter,-3.060881
2010-01-05,New York,winter,-2.033434


In [5]:
df_mean = df.groupby(['city', 'season']).temperature.mean().to_frame()
df_std = df.groupby(['city', 'season']).temperature.std().to_frame()

df_mean_std = df_mean.join(df_std, lsuffix='_mean', rsuffix='_std')

df_mean_std.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,temperature_mean,temperature_std
city,season,Unnamed: 2_level_1,Unnamed: 3_level_1
Beijing,autumn,17.561997,3.185788
Beijing,spring,10.710022,4.413677
Beijing,summer,24.810804,4.229176
Beijing,winter,1.077023,5.140177
Berlin,autumn,12.348761,2.804132


In [6]:
df_full = df.reset_index().set_index(['city', 'season']).join(df_mean_std)

df_full.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,timestamp,temperature,temperature_mean,temperature_std
city,season,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
New York,winter,2010-01-01,-0.217639,2.587116,4.279532
New York,winter,2010-01-02,-5.529597,2.587116,4.279532
New York,winter,2010-01-03,-4.910325,2.587116,4.279532
New York,winter,2010-01-04,-3.060881,2.587116,4.279532
New York,winter,2010-01-05,-2.033434,2.587116,4.279532


In [7]:
upper = df_full.temperature_mean + df_full.temperature_std.mul(2)
lower = df_full.temperature_mean - df_full.temperature_std.mul(2)

df_full['is_outlier'] = (df_full.temperature > upper) | (df_full.temperature < lower)

df_full.is_outlier.value_counts()

is_outlier
False    50984
True      3766
Name: count, dtype: int64

In [8]:
def time_it(func: callable, df: pd.DataFrame, count=1000):
    total = 0
    for i in range(count):
        start = time.time()
        func(df)
        end = time.time()
        total += end - start
    return total / count

In [9]:
def run_pandas(df: pd.DataFrame):
    df_mean_temperature = df.groupby('city').temperature.rolling(window='30D').mean()
    df_season = df.drop('temperature', axis=1).reset_index().set_index(['timestamp', 'city'])
    df = df_season.join(df_mean_temperature).reset_index('city')

    df_mean = df.groupby(['city', 'season']).mean()
    df_std = df.groupby(['city', 'season']).std()

    df_mean_std = df_mean.join(df_std, lsuffix='_mean', rsuffix='_std')
    df_full = df.reset_index().set_index(['city', 'season']).join(df_mean_std)

    upper = df_full.temperature_mean + df_full.temperature_std.mul(2)
    lower = df_full.temperature_mean - df_full.temperature_std.mul(2)

    return (df_full.temperature > upper) | (df_full.temperature < lower)

In [10]:
time_it(
    func=run_pandas,
    df=df,
    count=1000
)

0.03455216383934021

In [11]:
def run_polar(df: pl.DataFrame):
    df_mean_temperature = (
        df.group_by('city')
        .agg(
                pl.col('temperature').rolling_mean_by(by='timestamp', window_size='30d').mean().name.suffix('_mean'),
                pl.col('temperature').rolling_mean_by(by='timestamp', window_size='30d').std().name.suffix('_std')
        )
    )

    df_season = df.with_columns(pl.col('timestamp'))
    df = (
        df_season.join(df_mean_temperature, on='city', how='left')
    )

    upper_bound = df_full['temperature_mean'] + 2 * df_full['temperature_std']
    lower_bound = df_full['temperature_mean'] - 2 * df_full['temperature_std']

    return (df_full['temperature'] > upper_bound) | (df_full['temperature'] < lower_bound)

Параллельная обработка данных благодаря библиотеки `polar` позволяет ускорить производительность в среднем в 10 раз

In [12]:
df = pl.read_csv('temperature_data.csv', try_parse_dates=True)

time_it(
    func=run_polar,
    df=df,
    count=1000
)

0.003284123182296753

In [13]:
from pydantic_settings import BaseSettings, SettingsConfigDict

class Settings(BaseSettings):
    API_KEY: str

    model_config = SettingsConfigDict(env_file=".env")

settings = Settings()

In [14]:
class Experiment:
    def __init__(self):
        self.api_key = settings.API_KEY
        self.season = month_to_season[datetime.today().month]
        self.cities = [
            'New York',
            'London',
            'Paris',
            'Tokyo',
            'Moscow',
            'Sydney',
            'Berlin',
            'Beijing',
            'Rio de Janeiro',
            'Dubai',
            'Los Angeles',
            'Singapore',
            'Mumbai',
            'Cairo',
            'Mexico City',
        ]

    def prepare_response(self, response: dict) -> dict:
        temperature = response['main']['temp']
        item = {
            'city': response['name'],
            'season': self.season,
            'temperature': temperature,
        }
        return item

    def sync_get_request(self, city: str) -> dict:
        url = f"http://api.openweathermap.org/data/2.5/weather?q={city}&appid={self.api_key}&units=metric"
        response = requests.get(url)
        return self.prepare_response(response.json())

    def sync_requests(self) -> list[dict]:
        start = time.time()
        output = []
        for city in self.cities:
            item = self.sync_get_request(city=city)
            output.append(item)
        end = time.time()
        print(end - start)
        return output

    async def async_get_request(self, city: str, client: httpx.AsyncClient) -> dict:
        url = f"http://api.openweathermap.org/data/2.5/weather?q={city}&appid={self.api_key}&units=metric"
        response = await client.get(url)
        return self.prepare_response(response.json())

    async def async_requests(self) -> list[dict]:
        start_time = time.time()
        async with httpx.AsyncClient() as client:
            tasks = [self.async_get_request(city, client) for city in self.cities]
            output = await asyncio.gather(*tasks)
        end = time.time()
        print(end - start_time)
        return output

Если делать несколько запросов, то асинхроннонные запросы работают быстрее, чем синхронные

In [15]:
exp = Experiment()
output_list1 = exp.sync_requests()
output_list2 = asyncio.run(exp.async_requests())

1.5010120868682861
0.19321990013122559


In [16]:
df_api = pd.DataFrame(output_list1).set_index(['city', 'season']).join(df_mean_std, how='left')

upper = df_api.temperature_mean + df_api.temperature_std.mul(2)
lower = df_api.temperature_mean - df_api.temperature_std.mul(2)
df_api['is_outlier'] = (df_api.temperature > upper) | (df_api.temperature < lower)

df_api

Unnamed: 0_level_0,Unnamed: 1_level_0,temperature,temperature_mean,temperature_std,is_outlier
city,season,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
New York,winter,-7.12,2.587116,4.279532,True
London,winter,5.95,6.19996,2.411666,False
Paris,winter,5.02,5.282662,2.731734,False
Tokyo,winter,3.63,7.702937,3.631795,False
Moscow,winter,-2.41,-7.261195,5.0907,False
Sydney,winter,22.1,12.974683,2.311371,True
Berlin,winter,4.8,1.695814,3.099647,False
Beijing,winter,-7.06,1.077023,5.140177,False
Rio de Janeiro,winter,27.15,20.464144,1.904421,True
Dubai,winter,21.96,21.691787,3.072786,False
