## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [1]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


In [None]:
import requests
from datetime import datetime
import time
from joblib import Parallel, delayed
API_KEY = "..."

In [3]:
data = pd.read_csv('/content/temperature_data.csv')
data['timestamp'] = pd.to_datetime(data['timestamp'])

Вычислим скользящее среднее температуры с окном в 30 дней

In [None]:
data['rolling_mean'] =data.groupby(by='city')['temperature'].transform(lambda x: x.rolling(window=30).mean())

Рассчитем среднюю температуру и стандартное отклонение для каждого сезона в каждом городе

In [None]:
data['mean'] = data.groupby(by=['city', 'season'])['temperature'].transform(lambda x: x.mean())
data['std'] = data.groupby(by=['city', 'season'])['temperature'].transform(lambda x: x.std())

Выявить аномалии, где температура выходит за пределы  среднее±2σ .

In [None]:
data['anomaly'] = (data['temperature'] < data['mean'] - data['std'] * 2) + (data['temperature'] > data['mean'] + data['std'] * 2)

Анализ без распараллеливания и с распараллеливанием

In [None]:
def dat_transform(df):
  data['timestamp'] = pd.to_datetime(data['timestamp'])
  data['rolling_mean'] =data.groupby(by='city')['temperature'].transform(lambda x: x.rolling(window=30, min_periods=1).mean())
  data['mean'] = data.groupby(by=['city', 'season'])['temperature'].transform(lambda x: x.mean())
  data['std'] = data.groupby(by=['city', 'season'])['temperature'].transform(lambda x: x.std())
  data['anomaly'] = (data['temperature'] < data['mean'] - data['std'] * 2)
  + (data['temperature'] > data['mean'] + data['std'] * 2)
  return df

In [None]:
data = pd.read_csv('/content/temperature_data.csv')
start_time = time.time()
data = dat_transform(data)
end_time = time.time()
print(f'Время исполнения {end_time - start_time}')


data = pd.read_csv('/content/temperature_data.csv')
cities = data["city"].unique()
data_for_cities = [data[data["city"] == city] for city in cities]

start_time = time.time()
data = Parallel(n_jobs=-1)(delayed(dat_transform)(city_data) for city_data in data_for_cities)
end_time = time.time()
data = pd.concat(data)
print(f'Время исполнения {end_time - start_time}')

Время исполнения 0.12535429000854492
Время исполнения 0.39191770553588867


Разница между временем выполнения задач без распараллеливания и с распараллеливанием оказалась небольшой, возможно потому что мало данных и задача достаточно простая. Вэтом случае можно обойтись без распараллеливания.

Функция для получения сезона

In [None]:
def season_dec():
  winter = [12, 1, 2]
  spring = [3, 4, 5]
  summer = [6, 7, 8]
  autumn = [9, 10, 11]

  month = datetime.now().month
  if month in winter:
    return "winter"
  elif month in spring:
    return "spring"
  elif month in summer:
    return "summer"
  else:
    return "autumn"

Функция для получения текущей температуры

In [None]:
def get_temp(city, key):
  url = f'https://api.openweathermap.org/data/2.5/weather?q={city}&appid={API_KEY}&units=metric'
  res = requests.get(url)
  if res.status_code == 200:
    data = res.json()
    return data['main']['temp']
  else:
    print('Ошибка')
    return None

Функция для определения, является ли текущая температура нормальной

In [None]:
def is_normal(df, season, city):
  temp = get_temp(city, API_KEY)
  std = df[(df['city'] == city) & (df['season'] == season)]['std'].iloc[0]

  mean = df[(df['city'] == city) & (df['season'] == season)]['mean'].iloc[0]

  low = mean - 2 * std
  height = mean + 2 * std

  if low < temp < height:
    return f'Температура {temp} является нормой для сезона {season} в городе {city}'
  return f'Температура {temp} является аномалией для сезона {season} в городе {city}'

In [None]:
cities = data["city"].unique()
for city in cities:
  print(is_normal(data, season_dec(),city))

Температура -8.21 является нормой для сезона winter в городе New York
Температура 5.89 является нормой для сезона winter в городе London
Температура 4.63 является нормой для сезона winter в городе Paris
Температура 3.72 является нормой для сезона winter в городе Tokyo
Температура -1.78 является нормой для сезона winter в городе Moscow
Температура 23.4 является аномалией для сезона winter в городе Sydney
Температура 5.77 является нормой для сезона winter в городе Berlin
Температура -7.06 является нормой для сезона winter в городе Beijing
Температура 27.15 является нормой для сезона winter в городе Rio de Janeiro
Температура 21.96 является нормой для сезона winter в городе Dubai
Температура 11.62 является нормой для сезона winter в городе Los Angeles
Температура 26.69 является нормой для сезона winter в городе Singapore
Температура 25.99 является нормой для сезона winter в городе Mumbai
Температура 21.42 является нормой для сезона winter в городе Cairo
Температура 10.53 является нормой д

# Асинхронное получение температуры

In [None]:
import nest_asyncio
nest_asyncio.apply()

In [None]:
import aiohttp
import asyncio
import time

async def get_temp(city, key):
    url = f'https://api.openweathermap.org/data/2.5/weather?q={city}&appid={key}&units=metric'
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as res:
            if res.status == 200:
                data = await res.json()
                return data['main']['temp']
            else:
                print(f"Ошибка")
                return None

async def main(cities, API_KEY):
    start_time = time.time()
    tasks = [get_temp(city, API_KEY) for city in cities]
    results = await asyncio.gather(*tasks)
    end_time = time.time()
    for temp, city in zip(results, cities):
      print(f"В городе: {city}, температура: {temp}")
    print(f"Время выполнения: {end_time - start_time} секунд")


cities = data['city'].unique()
asyncio.run(main(cities, API_KEY))

В городе: New York, температура: -8.23
В городе: London, температура: 5.95
В городе: Paris, температура: 4.63
В городе: Tokyo, температура: 3.72
В городе: Moscow, температура: -1.78
В городе: Sydney, температура: 23.4
В городе: Berlin, температура: 5.64
В городе: Beijing, температура: -7.06
В городе: Rio de Janeiro, температура: 27.15
В городе: Dubai, температура: 21.96
В городе: Los Angeles, температура: 11.62
В городе: Singapore, температура: 26.69
В городе: Mumbai, температура: 25.99
В городе: Cairo, температура: 21.42
В городе: Mexico City, температура: 10.53
Время выполнения: 0.24872159957885742 секунд


In [None]:
def get_temp(city, key):
  url = f'https://api.openweathermap.org/data/2.5/weather?q={city}&appid={API_KEY}&units=metric'
  res = requests.get(url)
  if res.status_code == 200:
    data = res.json()
    return data['main']['temp']
  else:
    print('Ошибка')
    return None

start_time = time.time()
for city in data["city"].unique():
    print(f"В городе: {city}, температура: {get_temp(city, API_KEY)}")
end_time = time.time()
print(f"Время выполнения: {end_time - start_time} секунд")

В городе: New York, температура: -8.21
В городе: London, температура: 5.89
В городе: Paris, температура: 4.63
В городе: Tokyo, температура: 3.72
В городе: Moscow, температура: -1.78
В городе: Sydney, температура: 23.4
В городе: Berlin, температура: 5.77
В городе: Beijing, температура: -7.06
В городе: Rio de Janeiro, температура: 27.15
В городе: Dubai, температура: 21.96
В городе: Los Angeles, температура: 11.62
В городе: Singapore, температура: 26.69
В городе: Mumbai, температура: 25.99
В городе: Cairo, температура: 21.42
В городе: Mexico City, температура: 10.53
Время выполнения: 1.3721587657928467 секунд


Можно заметить что асинхронный подход быстрре, тк все запросы обрабатываются параллельно. В этом случае лучше использовать его.
