## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.
   - Любые графики должны быть интерактивными.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [1]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)

###**Анализ исторических данных:**

In [2]:
!pip install streamlit

Collecting streamlit
  Downloading streamlit-1.52.2-py3-none-any.whl.metadata (9.8 kB)
Collecting pydeck<1,>=0.8.0b4 (from streamlit)
  Downloading pydeck-0.9.1-py2.py3-none-any.whl.metadata (4.1 kB)
Downloading streamlit-1.52.2-py3-none-any.whl (9.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.0/9.0 MB[0m [31m68.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pydeck-0.9.1-py2.py3-none-any.whl (6.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.9/6.9 MB[0m [31m93.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pydeck, streamlit
Successfully installed pydeck-0.9.1 streamlit-1.52.2


In [3]:
from datetime import datetime
import requests
from multiprocessing import Pool
import httpx
import time
import asyncio
import streamlit as st
import plotly.express as px
import plotly.graph_objects as go

In [4]:
data.head()

Unnamed: 0,city,timestamp,temperature,season
0,New York,2010-01-01,-7.276611,winter
1,New York,2010-01-02,-1.315348,winter
2,New York,2010-01-03,-6.043946,winter
3,New York,2010-01-04,-4.2925,winter
4,New York,2010-01-05,-2.659827,winter


In [5]:
data['timestamp'] = pd.to_datetime(data['timestamp'], format='%Y-%m-%d')
data = data.sort_values(['city', 'timestamp']).reset_index(drop=True)
data

Unnamed: 0,city,timestamp,temperature,season
0,Beijing,2010-01-01,-4.522762,winter
1,Beijing,2010-01-02,2.003238,winter
2,Beijing,2010-01-03,-1.804255,winter
3,Beijing,2010-01-04,2.869918,winter
4,Beijing,2010-01-05,6.281757,winter
...,...,...,...,...
54745,Tokyo,2019-12-25,3.919024,winter
54746,Tokyo,2019-12-26,7.327758,winter
54747,Tokyo,2019-12-27,0.125565,winter
54748,Tokyo,2019-12-28,4.898461,winter


In [6]:
data.columns

Index(['city', 'timestamp', 'temperature', 'season'], dtype='object')

In [7]:
data['temperature'] = pd.to_numeric(data['temperature'])

**Рассчет средней температуры и стандартного отклонения для каждого сезона в каждом городе, определение аномалий**

In [8]:
def rolling_mean(data):
    return data.rolling(30).mean()

def rolling_std(data):
    return data.rolling(30).std(ddof=0)

def process_data(data):
  data['upper_bound'] = data['mean'] + 2 * data['sigma']
  data['lower_bound'] = data['mean'] - 2 * data['sigma']

  data['is_anomaly'] = ((data['temperature'] > data['upper_bound']) | (data['temperature'] < data['lower_bound']))

  data.loc[data['mean'].isna(), 'is_anomaly'] = False

In [9]:
start_time = time.time()
data['mean'] = data.groupby(['city', 'season'])['temperature'].transform(rolling_mean)
data['sigma'] = data.groupby(['city', 'season'])['temperature'].transform(rolling_std)
process_data(data)
elapsed_time = time.time() - start_time
print(f"Elapsed time = {elapsed_time}")

Elapsed time = 0.1616377830505371


In [10]:
data.iloc[100:105]

Unnamed: 0,city,timestamp,temperature,season,mean,sigma,upper_bound,lower_bound,is_anomaly
100,Beijing,2010-04-11,9.41913,spring,12.31282,4.777245,21.867311,2.75833,False
101,Beijing,2010-04-12,4.378289,spring,11.771516,4.725329,21.222174,2.320857,False
102,Beijing,2010-04-13,10.860177,spring,11.617051,4.676605,20.970262,2.26384,False
103,Beijing,2010-04-14,16.453427,spring,11.766662,4.756459,21.27958,2.253744,False
104,Beijing,2010-04-15,13.797386,spring,11.816052,4.769578,21.355209,2.276896,False


**Распараллеливание анализа по городам и временам года**

In [11]:
start_time = time.time()

def one_city(task):
  city, data = task
  data['mean'] = rolling_mean(data['temperature'])
  data['sigma'] = rolling_std(data['temperature'])
  process_data(data)
  return data


with Pool() as pool:
    cities = pool.map(one_city, data.groupby(['city', 'season']))

data = pd.concat(cities, ignore_index=True)
elapsed_time = time.time() - start_time
print(f"Elapsed time = {elapsed_time}")

Elapsed time = 0.7130610942840576


In [12]:
data = data.sort_values(['city', 'timestamp']).reset_index(drop=True)

Видно, что без распараллеливания затраченное время в несколько раз лучше. Я думаю, что это происходит, так как границы для поиска скользящего среднего пересекаются. Во-вторых, мы и так знаем, что из-за GIL параллельность не очень помогает. В-третьих, задействованы дополнительные ресурсы для создания тредов и тп.

In [13]:
data.iloc[100:105]

Unnamed: 0,city,timestamp,temperature,season,mean,sigma,upper_bound,lower_bound,is_anomaly
100,Beijing,2010-04-11,9.41913,spring,12.31282,4.777245,21.867311,2.75833,False
101,Beijing,2010-04-12,4.378289,spring,11.771516,4.725329,21.222174,2.320857,False
102,Beijing,2010-04-13,10.860177,spring,11.617051,4.676605,20.970262,2.26384,False
103,Beijing,2010-04-14,16.453427,spring,11.766662,4.756459,21.27958,2.253744,False
104,Beijing,2010-04-15,13.797386,spring,11.816052,4.769578,21.355209,2.276896,False


###**Мониторинг текущей температуры**

In [14]:
api_key = ''
base_url = 'https://api.openweathermap.org/data/2.5/'

**Получить текущую температуру для выбранного города**

In [15]:
def get_temperature_by_city(url, client):
  response = client.get(url)
  if response.status_code == 200:
      return response.json()['main']['temp']
  else:
      return {"error": response.status_code}

In [21]:
temperatures = {}
cities = data['city'].unique().tolist()
urls = {city : f"{base_url}/weather/?q={city}&appid={api_key}&units=metric" for city in cities}

with httpx.Client() as client:
  start_time = time.time()
  for city, url in urls.items():
    temperatures[city] = get_temperature_by_city(url, client)
    print(f"Temperature for {city} is {temperatures[city]}")
  elapsed_time = time.time() - start_time
print(f"Elapsed time for sync method = {elapsed_time}")

Temperature for Beijing is -7.06
Temperature for Berlin is -4.04
Temperature for Cairo is 22.42
Temperature for Dubai is 23.96
Temperature for London is 5.97
Temperature for Los Angeles is 14.48
Temperature for Mexico City is 8.59
Temperature for Moscow is -2.2
Temperature for Mumbai is 27.99
Temperature for New York is 2.67
Temperature for Paris is 2.51
Temperature for Rio de Janeiro is 33.28
Temperature for Singapore is 28.65
Temperature for Sydney is 16.95
Temperature for Tokyo is 9.82
Elapsed time for sync method = 0.25984764099121094


**Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.**

In [17]:
# Найдем среднюю температуру для каждого дня в году
data['month'] = data['timestamp'].dt.month
data['day'] = data['timestamp'].dt.day

mean_temp_and_std_by_day = (data.groupby(['city', 'month', 'day'])['temperature'].agg(['mean', 'std']).reset_index())
mean_temp_and_std_by_day

Unnamed: 0,city,month,day,mean,std
0,Beijing,1,1,-1.097296,3.104222
1,Beijing,1,2,-1.393997,4.449477
2,Beijing,1,3,-2.679186,3.103077
3,Beijing,1,4,-2.946949,4.701787
4,Beijing,1,5,-0.400980,6.750731
...,...,...,...,...,...
5485,Tokyo,12,27,3.189029,4.403794
5486,Tokyo,12,28,9.452087,5.537197
5487,Tokyo,12,29,6.777929,5.310894
5488,Tokyo,12,30,8.702724,6.011838


In [20]:
day = datetime.now().day
month = datetime.now().month

for city, temp in temperatures.items():
  day_temp = mean_temp_and_std_by_day[
      (mean_temp_and_std_by_day['city'] == city) &
      (mean_temp_and_std_by_day['month'] == month) &
      (mean_temp_and_std_by_day['day'] == day)]

  mean = float(day_temp['mean'].iloc[0])
  std = float(day_temp['std'].iloc[0])
  if abs(mean - temp) >= 2 * std:
    print(f"Today temperature {temp} in {city} is anomaly")
  else:
    print(f"Today temperature {temp} in {city} is not anomaly")

Today temperature -7.06 in Beijing is not anomaly
Today temperature -4.04 in Berlin is not anomaly
Today temperature 22.42 in Cairo is not anomaly
Today temperature 23.96 in Dubai is not anomaly
Today temperature 5.92 in London is not anomaly
Today temperature 14.42 in Los Angeles is not anomaly
Today temperature 8.96 in Mexico City is not anomaly
Today temperature -2.2 in Moscow is not anomaly
Today temperature 27.99 in Mumbai is not anomaly
Today temperature 2.59 in New York is not anomaly
Today temperature 2.51 in Paris is not anomaly
Today temperature 33.28 in Rio de Janeiro is anomaly
Today temperature 28.65 in Singapore is not anomaly
Today temperature 16.98 in Sydney is not anomaly
Today temperature 9.67 in Tokyo is not anomaly


Несмотря на то, что в некоторых городах данные не совсем корректны (по условию), у нас все равно нет аномальных температур.

**Асинхронные методы**

In [23]:
# взято с материалов лекции
async def get_post_async(url, client):
    response = await client.get(url)
    if response.status_code == 200:
        data = response.json()
        return [data['name'], data['main']['temp']]
    else:
        return {"error": response}

async def fetch_posts_async(post_ids):
    start_time = time.time()

    async with httpx.AsyncClient() as client:
        tasks = [get_post_async(post_id, client) for post_id in post_ids]
        results = await asyncio.gather(*tasks)

    elapsed_time = time.time() - start_time
    return results, elapsed_time

urls = [f"{base_url}/weather/?q={city}&appid={api_key}&units=metric" for city in temperatures.keys()]
async_results, async_time = await fetch_posts_async(urls)
for city_temp in async_results:
  print(f"Temperature for {city_temp[0]} is {city_temp[1]}")
print(f"Elapsed time for async method = {async_time}")

Temperature for Beijing is -7.06
Temperature for Berlin is -4.04
Temperature for Cairo is 22.42
Temperature for Dubai is 23.96
Temperature for London is 5.92
Temperature for Los Angeles is 14.42
Temperature for Mexico City is 8.96
Temperature for Moscow is -2.2
Temperature for Mumbai is 27.99
Temperature for New York is 2.59
Temperature for Paris is 2.51
Temperature for Rio de Janeiro is 33.28
Temperature for Singapore is 28.65
Temperature for Sydney is 16.98
Temperature for Tokyo is 9.67
Elapsed time for async method = 0.1604480743408203


При нескольких запусках у меня то elapsed time для асинхронного способа больше, то наоборот. Во-первых, это может быть из-за приколов сети, которые от меня не зависят. Во-вторых, что-то может быть закешировано, и время становится меньше. Я попробую сделать несколько запусков и взять среднее:

In [32]:
temperatures = {}
cities = data['city'].unique().tolist()
urls = {city : f"{base_url}/weather/?q={city}&appid={api_key}&units=metric" for city in cities}

count = 30

start_time = time.time()
for _ in range(count):
  with httpx.Client() as client:
    for city, url in urls.items():
      temperatures[city] = get_temperature_by_city(url, client)
elapsed_time = time.time() - start_time
print(f"Mean elapsed time for sync method = {elapsed_time / count}")

Mean elapsed time for sync method = 0.24299525419871013


In [33]:
urls = [f"{base_url}/weather/?q={city}&appid={api_key}&units=metric" for city in temperatures.keys()]

start_time = time.time()
for _ in range(count):
  async_results, async_time = await fetch_posts_async(urls)
elapsed_time = time.time() - start_time
print(f"Mean elapsed time for async method = {elapsed_time / count}")

Mean elapsed time for async method = 0.22983388106028238


Все равно при нескольких запусках получается разное время, отличающееся на 0.01-0.04. Но можно увидеть, что асинхронный способ где-то на 10% быстрее.