## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [1]:
# import pandas as pd
# import numpy as np

# # Реальные средние температуры (примерные данные) для городов по сезонам
# seasonal_temperatures = {
#     "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
#     "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
#     "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
#     "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
#     "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
#     "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
#     "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
#     "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
#     "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
#     "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
#     "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
#     "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
#     "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
#     "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
#     "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
# }

# # Сопоставление месяцев с сезонами
# month_to_season = {12: "winter", 1: "winter", 2: "winter",
#                    3: "spring", 4: "spring", 5: "spring",
#                    6: "summer", 7: "summer", 8: "summer",
#                    9: "autumn", 10: "autumn", 11: "autumn"}

# # Генерация данных о температуре
# def generate_realistic_temperature_data(cities, num_years=10):
#     dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
#     data = []

#     for city in cities:
#         for date in dates:
#             season = month_to_season[date.month]
#             mean_temp = seasonal_temperatures[city][season]
#             # Добавляем случайное отклонение
#             temperature = np.random.normal(loc=mean_temp, scale=5)
#             data.append({"city": city, "timestamp": date, "temperature": temperature})

#     df = pd.DataFrame(data)
#     df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
#     return df

# # Генерация данных
# data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
# data.to_csv('temperature_data.csv', index=False)


In [9]:
import nest_asyncio
import pandas as pd
import numpy as np
nest_asyncio.apply()

In [10]:
df = pd.read_csv("temperature_data.csv")
df = df.sort_values(by=["city", "timestamp"]).reset_index(drop=True)

Часть 1 - скользящее среднее за 30 дней. Думаю тут можно посмотреть, параллельно или последолвательно делать операции. 

Мой предикт - из-за того, что слишком мало данных и таска в целом оч простая, то параллелить не надо и создание джоб займет больше времени)

In [11]:
import time
from typing import Tuple
# последовательное
def calculate_rolling_mean_sequential(df: pd.DataFrame, window: int = 30) -> Tuple[pd.DataFrame, float]:
    start_time = time.time()
    df['rolling_mean'] = df.groupby('city')['temperature'].transform(lambda x: x.rolling(window=window).mean())
    end_time = time.time()  
    elapsed_time = end_time - start_time 
    return df, elapsed_time



In [12]:
df, t = calculate_rolling_mean_sequential(df, 30)

In [13]:
import pandas as pd
from joblib import Parallel, delayed

def add_rolling_mean(city_data: pd.DataFrame, window: int = 30) -> Tuple[pd.DataFrame, float]:
    city_data['rolling_mean'] = city_data['temperature'].rolling(window=window).mean()
    return city_data

def calculate_rolling_mean_parallel(df: pd.DataFrame, window: int = 30, n_jobs: int = 2) -> pd.DataFrame:
    start_time = time.time()
    out = Parallel(n_jobs=n_jobs)(delayed(add_rolling_mean)(df.loc[df.city == city], window) for city in df["city"].unique())
    result_df = pd.concat(out)
    end_time = time.time()  
    elapsed_time = end_time - start_time 
    return result_df, elapsed_time


In [14]:
df, t_2 = calculate_rolling_mean_parallel(df = df, window = 30, n_jobs = 4)

In [15]:
print(f'Время выполнения для последовательного случая: {t}с \nВремя выполнения для параллельного случая: {t_2}c')

Время выполнения для последовательного случая: 0.011967658996582031с 
Время выполнения для параллельного случая: 0.8198404312133789c


Ну, в целом я так и говорил)
Следующим шагом посчитаем аномалии

Как я понял, тут мы также должны сравнить последовательное и параллельное вычисление

In [16]:
# mean + std для каждого города и сезона отдельно 
start_time = time.time()
city_season_stats = df.groupby(["city", "season"], as_index=False).\
    agg(temperature_mean=('temperature', 'mean'), temperature_std=('temperature', 'std'))

df = df.merge(city_season_stats, on=["city", "season"], how="left")
end_time = time.time()
t_3 = end_time - start_time

In [21]:
def compute_city_season_stats(df: pd.DataFrame, n_jobs = -1) -> Tuple[pd.DataFrame, float]:
    def compute_stats(group):
        return pd.Series({
            'temperature_mean': group['temperature'].mean(),
            'temperature_std': group['temperature'].std()
        })
    start_time = time.time()
    grouped = df.groupby(["city", "season"])

    city_season_stats = Parallel(n_jobs = n_jobs)(delayed(compute_stats)(group) for name, group in grouped)
    city_season_stats = pd.DataFrame(city_season_stats)
    city_season_stats['city'] = [name[0] for name in grouped.groups.keys()]
    city_season_stats['season'] = [name[1] for name in grouped.groups.keys()]
    end_time = time.time()
    elapsed_time = end_time - start_time
    return city_season_stats, elapsed_time

In [26]:
gg, t_4 = compute_city_season_stats(df, 2)

In [27]:
gg.head(10)

Unnamed: 0,temperature_mean,temperature_std,city,season
0,15.963053,5.057114,Beijing,autumn
1,13.293879,5.008433,Beijing,spring
2,26.921842,4.895117,Beijing,summer
3,-1.996362,5.074827,Beijing,winter
4,11.351334,5.177067,Berlin,autumn
5,9.723205,5.095266,Berlin,spring
6,20.109502,4.831544,Berlin,summer
7,0.053618,4.790704,Berlin,winter
8,25.371703,5.117757,Cairo,autumn
9,24.923078,5.076493,Cairo,spring


In [28]:
print(f'Время выполнения для последовательного случая: {t_3}с \nВремя выполнения для параллельного случая: {t_4}c')

Время выполнения для последовательного случая: 0.02792525291442871с 
Время выполнения для параллельного случая: 1.0467414855957031c


In [26]:
# приношу ГЛУБОЧАЙШИЕ извенения за спагетти код...
# я надеюсь тут не надо было тоже параллелить...
df["is_anomaly"] = 0
df.loc[((df["temperature"] < df.temperature_mean - 2 * df.temperature_std) |(df["temperature"] > df.temperature_mean + 2 * df.temperature_std)), "is_anomaly"] = 1

In [25]:
# проверим что работает)
df[df.is_anomaly == 1]

Unnamed: 0,city,timestamp,temperature,season,rolling_mean,temperature_mean,temperature_std,is_anomaly
34,Beijing,2010-02-04,14.748935,winter,-1.676972,-1.996362,5.074827,1
55,Beijing,2010-02-25,-12.296174,winter,-1.660752,-1.996362,5.074827,1
105,Beijing,2010-04-16,24.263844,spring,14.775246,13.293879,5.008433,1
107,Beijing,2010-04-18,-0.487481,spring,14.513252,13.293879,5.008433,1
124,Beijing,2010-05-05,24.264878,spring,13.277249,13.293879,5.008433,1
...,...,...,...,...,...,...,...,...
54701,Tokyo,2019-11-11,4.736174,autumn,18.534091,17.952023,5.037364,1
54732,Tokyo,2019-12-12,-8.162844,winter,14.623220,5.607023,5.093227,1
54735,Tokyo,2019-12-15,-8.316906,winter,12.998559,5.607023,5.093227,1
54737,Tokyo,2019-12-17,16.295217,winter,12.526559,5.607023,5.093227,1


Теперь к OpenWeather API

In [30]:
link = "https://api.openweathermap.org/data/2.5/weather?q={city}&units=metric&appid={API_KEY}"

In [53]:
from pprint import pprint
import requests
import json
def show_current_weather(city = 'Moscow'):
    resp = requests.get(link.format(city=city, API_KEY='api_key'))
    return json.loads(resp.text)

In [54]:
pprint(show_current_weather('Moscow'))

{'base': 'stations',
 'clouds': {'all': 26},
 'cod': 200,
 'coord': {'lat': 55.7522, 'lon': 37.6156},
 'dt': 1734811052,
 'id': 524901,
 'main': {'feels_like': -6.56,
          'grnd_level': 994,
          'humidity': 95,
          'pressure': 1015,
          'sea_level': 1015,
          'temp': -2.76,
          'temp_max': -2.76,
          'temp_min': -3.71},
 'name': 'Moscow',
 'sys': {'country': 'RU',
         'id': 9027,
         'sunrise': 1734760662,
         'sunset': 1734785862,
         'type': 1},
 'timezone': 10800,
 'visibility': 10000,
 'weather': [{'description': 'scattered clouds',
              'icon': '03n',
              'id': 802,
              'main': 'Clouds'}],
 'wind': {'deg': 217, 'gust': 8.63, 'speed': 2.75}}


In [55]:
import requests
import json

def display_weather_with_anomalies(city_name=None):
    if city_name is None:
        city_name = df["city"].unique()[0] 
    response = requests.get(link.format(city=city_name, API_KEY='api_key'))
    current_temperature = json.loads(response.text)["main"]["temp"]
    winter_stats = city_season_stats.loc[
        (city_season_stats.city == city_name) & (city_season_stats.season == "winter"),["temperature_mean", "temperature_std"]].values[0]
    mean_temp, std_temp = winter_stats
    anomaly_status = "нету)"
    if (current_temperature > mean_temp + 2 * std_temp) or (current_temperature < mean_temp - 2 * std_temp):
        anomaly_status = "есть)"
    print(city_name, '\n',f"What is normal for today: ({mean_temp - 2 * std_temp} °C, {mean_temp + 2 * std_temp} °C)" 
          , '\n', f"Current temperature: {current_temperature} °C, Anomaly: {anomaly_status}")
 


In [56]:
display_weather_with_anomalies('Moscow')

Moscow 
 What is normal for today: (-19.98089993758747 °C, 0.17213841975978283 °C) 
 Current temperature: -3.76 °C, Anomaly: нету)


Не поверите - ни 1 город щас не аномальный:)

Финальная часть Марлезонского балета - синк и асинк.l.

In [58]:
def get_weather_synch(city):
    response = requests.get(link.format(city=city, API_KEY='api_key'))
    return json.loads(response.text)

start_time = time.time()
for city in df.city.unique():
    get_weather_synch(city)
end_time = time.time()
print(end_time - start_time)

2.1507821083068848


In [60]:
# %pip install aiohttp

In [61]:
import aiohttp
async def get_weather_asynch(city):
    l = link.format(city=city, API_KEY='api_key')
    async with aiohttp.ClientSession() as session:
        async with session.get(l) as response:
                content = await response.text()
                return json.loads(content)

In [63]:
import asyncio
start_time = time.time()
await asyncio.gather(*[get_weather_asynch(city) for city in df.city.unique()])
end_time = time.time()

In [64]:
print(end_time - start_time)

0.15957331657409668


Асинхронность намного намного быстрее!