## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.
   - Любые графики должны быть интерактивными.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

ЧАСТЬ 1.

**Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.


In [120]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
from multiprocessing import Pool, cpu_count
import time
import requests
from datetime import datetime

In [121]:
# загрузим датасет
df = pd.read_csv('temperature_data.csv')

In [122]:
# найдем скользящее среднее для каждого города по месяцу

df['ma_30_temp'] = df.groupby('city')['temperature'].rolling(
    window=30, min_periods=1).mean().reset_index(level=0, drop=True)

In [123]:
# визуализация скользящего среднего по городам
cities = df['city'].unique()
fig = go.Figure()

for city in cities:
    city_df = df[df['city'] == city]
    fig.add_trace(
        go.Scatter(
            x=city_df['timestamp'],
            y=city_df['ma_30_temp'],
            mode='lines',
            name=city,
            visible=(city == cities[0])  # виден только первый
        )
    )

buttons = []
for i, city in enumerate(cities):
    visibility = [False] * len(cities)
    visibility[i] = True
    buttons.append(
        dict(
            label=city,
            method='update',
            args=[
                {'visible': visibility},
                {'title': f'30-дневная скользящая температура — {city}'}
            ]
        )
    )

fig.update_layout(
    updatemenus=[
        dict(
            buttons=buttons,
            direction='down',
            x=1.02,
            y=1,
            showactive=True
        )
    ],
    xaxis_title='Дата',
    yaxis_title='Температура',
    title=f'30-дневная скользящая температура - {cities[0]}',
    template='plotly_white'
)

fig.show()


In [124]:
# рассчитаем среднюю температуру и стандартное отклонение для каждого сезона в каждом городе

city_seasons_stats = df.groupby(['city', 'season']).agg(
    mean_temp=('temperature', 'mean'),
    std_dev=('temperature', 'std')).reset_index()
city_seasons_stats

Unnamed: 0,city,season,mean_temp,std_dev
0,Beijing,autumn,16.07239,5.002732
1,Beijing,spring,13.209965,4.944962
2,Beijing,summer,26.724171,4.815561
3,Beijing,winter,-2.043241,5.08283
4,Berlin,autumn,11.133762,5.070433
5,Berlin,spring,9.979629,5.004307
6,Berlin,summer,19.914151,5.046892
7,Berlin,winter,0.024479,5.039039
8,Cairo,autumn,25.057466,5.118223
9,Cairo,spring,25.007362,4.945936


In [125]:
# выявим аномалии, где температура выходит за пределы 2 стандартных отклонений от среднего

def find_anomalies(city, season, df, city_seasons_stats):
    city_season_df = df[(df['city'] == city) & (df['season'] == season)]
    cur_stat = city_seasons_stats[
        (city_seasons_stats['city'] == city) &
        (city_seasons_stats['season'] == season)
    ]

    return city_season_df[abs(city_season_df['temperature'] - cur_stat['mean_temp'].iloc[0]) >
                        2 * cur_stat['std_dev'].iloc[0]]

anomalies = pd.DataFrame()
for city in city_seasons_stats['city'].unique():
    for season in ['winter', 'spring', 'summer', 'autumn']:
        city_season_df = df[(df['city'] == city) & (df['season'] == season)]
        cur_stat = city_seasons_stats[(city_seasons_stats['city'] == city) &
                                            (city_seasons_stats['season'] == season)]
        anomalies = pd.concat([anomalies, find_anomalies(city, season, df, city_seasons_stats)])
anomalies

Unnamed: 0,city,timestamp,temperature,season,ma_30_temp
25580,Beijing,2010-01-31,-15.365080,winter,-1.825266
25919,Beijing,2011-01-05,8.957573,winter,-2.062685
26263,Beijing,2011-12-15,8.560036,winter,8.570444
26274,Beijing,2011-12-26,-14.151010,winter,1.650040
26618,Beijing,2012-12-04,-13.012689,winter,13.121759
...,...,...,...,...,...
14492,Tokyo,2019-09-13,6.872153,autumn,23.544215
14505,Tokyo,2019-09-26,5.660934,autumn,17.431929
14535,Tokyo,2019-10-26,29.371479,autumn,17.873179
14538,Tokyo,2019-10-29,4.677336,autumn,17.555066


In [126]:
# теперь соберу весь проделанный анализ (кроме визуализации) в одну функцию

def analyse(orig_df):
    df = orig_df.copy(deep=True)
    df['ma_30_temp'] = df.groupby('city')['temperature'].rolling(
        window=30, min_periods=1).mean().reset_index(level=0, drop=True)
    city_seasons_stats = df.groupby(['city', 'season']).agg(
        mean_temp=('temperature', 'mean'),
        std_dev=('temperature', 'std')).reset_index()
    
    anomalies = pd.DataFrame()
    for city in city_seasons_stats['city'].unique():
        for season in ['winter', 'spring', 'summer', 'autumn']:
            city_season_df = df[(df['city'] == city) & (df['season'] == season)]
            cur_stat = city_seasons_stats[(city_seasons_stats['city'] == city) &
                                                (city_seasons_stats['season'] == season)]
            anomalies = pd.concat([anomalies, find_anomalies(city, season, df, city_seasons_stats)])
            
    return (df, city_seasons_stats, anomalies)

func_df, func_stats, func_anomalies = analyse(pd.read_csv('temperature_data.csv'))

In [127]:
# тут попробуем добавить параллельность, чтобы увидеть, как это влияет на результат
def parallel_analyse(orig_df, n_jobs=4):
    df = orig_df.copy(deep=True)
    df['ma_30_temp'] = df.groupby('city')['temperature'].rolling(
        window=30, min_periods=1).mean().reset_index(level=0, drop=True)
    city_seasons_stats = df.groupby(['city', 'season']).agg(
        mean_temp=('temperature', 'mean'),
        std_dev=('temperature', 'std')).reset_index()

    # параллельность может быть полезной только в этих вычислениях, тк мы проходимся по циклам
    tasks = [
        (city, season, df, city_seasons_stats)
        for city in city_seasons_stats['city'].unique()
        for season in ['winter', 'spring', 'summer', 'autumn']
    ]
    with Pool(processes=n_jobs or cpu_count()) as pool:
        anomalies = pool.map(find_anomalies, tasks)
    anomalies = pd.concat(anomalies, ignore_index=True)

            
    return (df, city_seasons_stats, anomalies)

# func_df, func_stats, func_anomalies = parallel_analyse(pd.read_csv('temperature_data.csv'))

In [129]:
## к сожалению, multiprocessing не работает в jupyter notebook, поэтому я перенес этот код в 
## питоновский файл (compare.py) для сравнения

# if __name__ == '__main__':
#     df = pd.read_csv('temperature_data.csv')

#     start = time.time()
#     analyse(df)
#     seq_time = time.time() - start

#     start = time.time()
#     parallel_analyse(df)
#     par_time = time.time() - start

#     print(f"Sequential: {seq_time:.2f} sec")
#     print(f"Parallel:   {par_time:.2f} sec")
#     print(f"Speedup:    {seq_time / par_time:.2f}x")

Результат такой: на данном датасете лучше работает обычная, а не параллельная версия. Это происходит из-за того, что все процедуры "инициализации" параллельности занимают больше времени, чем сами вычисления. Но при увеличении объема данных мы бы увидели более значительный прирост в скорости параллельного метода.

ЧАСТЬ 2. 

**Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

In [None]:
# API_KEY = "xxx"
# url = "https://api.openweathermap.org/data/2.5/weather"
# api_weather = {}

# for api_city in cities:
#     params = {
#         "q": api_city,
#         "appid": API_KEY,
#         "units": "metric",
#         "lang": "ru"
#     }
#     response = requests.get(url, params=params)
#     data = response.json()

#     temp = data["main"]["temp"]
#     feels_like = data["main"]["feels_like"]
#     description = data["weather"][0]["description"]
#     api_weather[api_city] = (temp, feels_like, description)

In [131]:
# анализ температуры по всем городам в сравнении с историческими данными
month = datetime.now().month
if month in (12, 1, 2):
    cur_season = "winter"
elif month in (3, 4, 5):
    cur_season = "spring"
elif month in (6, 7, 8):
    cur_season = "summer"
else:
    cur_season = "autumn"
for cur_city in api_weather:
    historic_data = dict(city_seasons_stats[(city_seasons_stats['city'] == cur_city) & 
                                                      (city_seasons_stats['season']==cur_season)].iloc[0])
    print('-'*35)
    print(f"""Текущая температура в {cur_city} составляет {api_weather[cur_city][0]} и ощущается как {api_weather[cur_city][1]}.
Погодные условия: {api_weather[cur_city][2]}
Средняя температура в {cur_city} в теущее время года {cur_season} составляет {historic_data['mean_temp']}, 
Cтандартное отклонение: {historic_data['std_dev']}""")
    if abs(api_weather[cur_city][0] - historic_data['mean_temp']) > 2 * historic_data['std_dev']:
        print("ВНИМАНИЕ! Текущая тепература АНОМАЛЬНА для данного города в этот сезон!")

-----------------------------------
Текущая температура в New York составляет 0.68 и ощущается как -1.04.
Погодные условия: снег
Средняя температура в New York в теущее время года winter составляет -0.12672258903034228, 
Cтандартное отклонение: 5.049254011597057
-----------------------------------
Текущая температура в London составляет 6.79 и ощущается как 4.6.
Погодные условия: пасмурно
Средняя температура в London в теущее время года winter составляет 5.268106269483996, 
Cтандартное отклонение: 5.177089013585353
-----------------------------------
Текущая температура в Paris составляет 6.52 и ощущается как 3.95.
Погодные условия: плотный туман
Средняя температура в Paris в теущее время года winter составляет 4.35618848020497, 
Cтандартное отклонение: 4.983430310055389
-----------------------------------
Текущая температура в Tokyo составляет 7.29 и ощущается как 6.51.
Погодные условия: облачно с прояснениями
Средняя температура в Tokyo в теущее время года winter составляет 5.9457217

In [None]:
# добавим асинхронности  

import aiohttp
import asyncio

API_KEY = "xxx"
URL = "https://api.openweathermap.org/data/2.5/weather"

async def fetch_weather(session, city):
    params = {
        "q": city,
        "appid": API_KEY,
        "units": "metric",
        "lang": "ru"
    }

    async with session.get(URL, params=params) as response:
        data = await response.json()

        return city, (
            data["main"]["temp"],
            data["main"]["feels_like"],
            data["weather"][0]["description"]
        )
    
    
async def get_weather_async(cities):
    api_weather = {}

    async with aiohttp.ClientSession() as session:
        tasks = [
            fetch_weather(session, city)
            for city in cities
        ]

        results = await asyncio.gather(*tasks)

    for city, weather in results:
        api_weather[city] = weather

    return api_weather

api_weather = await get_weather_async(cities)
print(api_weather)


{'New York': (-6.53, -13.53, 'переменная облачность'), 'London': (10.37, 9.68, 'пасмурно'), 'Paris': (5.46, 1.62, 'туман'), 'Tokyo': (9.95, 6.82, 'небольшая облачность'), 'Moscow': (-7, -11.34, 'пасмурно'), 'Sydney': (19.64, 19.46, 'пасмурно'), 'Berlin': (5.29, 1.63, 'пасмурно'), 'Beijing': (4.94, 4.94, 'ясно'), 'Rio de Janeiro': (23.98, 24.73, 'ясно'), 'Dubai': (26.96, 27.04, 'ясно'), 'Los Angeles': (14.75, 14.68, 'ясно'), 'Singapore': (25.83, 26.82, 'облачно с прояснениями'), 'Mumbai': (30.99, 29.63, 'дымка'), 'Cairo': (18.42, 17.86, 'переменная облачность'), 'Mexico City': (11.64, 10.48, 'пасмурно')}


За счет того, что наша задача (запросы к api) является I/O операцией, асинхронность действительно нам дает сильный прирост к скорости получения информации о городах. За счет асинхронности наше решение может лучше масштабироваться и гораздо быстрее собирать данные не для 15, а для 100+ городов (только нужно будет добавить ограничение на количество одновременных запросов, чтобы не выйти за рамки дозволенного OpenWeatherMap Api).