## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.
   - Любые графики должны быть интерактивными.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [None]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import time
import requests
from datetime import datetime


import multiprocessing as mp
from concurrent.futures import ProcessPoolExecutor
from multiprocessing import Pool
import asyncio
import aiohttp
import nest_asyncio
nest_asyncio.apply()

np.random.seed(42)
'''
import warnings
warnings.filterwarnings('ignore')
'''




In [2]:
# Реальные средние температуры (примерные данные) для городов по сезонам
np.random.seed(42)
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)
data.head()


Unnamed: 0,city,timestamp,temperature,season
0,New York,2010-01-01,2.483571,winter
1,New York,2010-01-02,-0.691322,winter
2,New York,2010-01-03,3.238443,winter
3,New York,2010-01-04,7.615149,winter
4,New York,2010-01-05,-1.170767,winter


## ЧАСТЬ 1: Анализ исторических данных

Информацию по временным рядам брала из этих источников:

https://habr.com/ru/articles/887940/

https://habr.com/ru/companies/otus/articles/728118/

In [3]:
# 1.1. Вычисление скользящего среднего и стандартного отклонения
df = data.copy(deep=True)
dates = pd.date_range(start="2010-01-01", periods=365 * 10, freq="D")
cities =list(seasonal_temperatures.keys())

# Без распараллеливания
def preprocessing(data, cities):
   data = data.sort_values(['city', 'timestamp']).reset_index(drop=True)
   data['mov_av'], data['mov_std'], data['anomaly'] = np.nan, np.nan, np.nan

   # Статистика по город + сезон
   pivot = data.pivot_table(values='temperature', index='city', columns='season',aggfunc=['mean', 'std'])
   pivot_final = pivot.stack(level='season', future_stack=True).reset_index()
   pivot_final.columns = ['city', 'season', 'season_city_mean', 'season_city_std']

   data = data.merge(pivot_final, on=['city', 'season'], how='left')

   # Добавим столбцы со скользящим средним и стандартным откл.
   for city in cities:
      mask = data['city'] == city
      # Чтобы по первым 29 дням в каждом городе посчитать скользящее среднее и стандартное отклонение, нужно задать min_periods=1
      data.loc[mask, 'mov_av'] = data.loc[mask, 'temperature'].rolling(window=30, min_periods=1).mean().values
      data.loc[mask, 'mov_std'] = data.loc[mask, 'temperature'].rolling(window=30, min_periods=1).std().values

   # Выявим аномалии
   data['anomaly'] = np.where((data['temperature'] > data['season_city_mean'] + 2 * data['season_city_std']) |
      (data['temperature'] < data['season_city_mean'] - 2 * data['season_city_std']), 1, 0)

   anomalies = data[data['anomaly'] == 1].reset_index(drop=True)
   return data, pivot_final, anomalies

start = time.time()
df_pd, pivot_pd, anomalies_pd = preprocessing(df, cities)
time_taken_pd = time.time() - start
print(f'Время выполнения без распараллеливания: {time_taken_pd:.2f} секунд')
df_pd.head()

Время выполнения без распараллеливания: 0.21 секунд


Unnamed: 0,city,timestamp,temperature,season,mov_av,mov_std,anomaly,season_city_mean,season_city_std
0,Beijing,2010-01-01,-1.025049,winter,-1.025049,,0,-1.951337,4.907936
1,Beijing,2010-01-02,-6.29552,winter,-3.660284,3.726786,0,-1.951337,4.907936
2,Beijing,2010-01-03,-5.294014,winter,-4.204861,2.798957,0,-1.951337,4.907936
3,Beijing,2010-01-04,0.267899,winter,-3.086671,3.197525,0,-1.951337,4.907936
4,Beijing,2010-01-05,2.667202,winter,-1.935896,3.78015,0,-1.951337,4.907936


In [4]:
# С распараллеливанием

# Функция для скользящих средних по одному городу
def process_city(args):
   city, city_data = args
   mov_av = city_data.rolling(window=30, min_periods=1).mean().values
   mov_std = city_data.rolling(window=30, min_periods=1).std().values
   return city, mov_av, mov_std

def preprocessing_pool(data, cities):
    data = data.sort_values(['city', 'timestamp']).reset_index(drop=True)
    data['mov_av'], data['mov_std'], data['anomaly'] = np.nan, np.nan, np.nan

    # Статистика по город + сезон
    pivot = data.pivot_table(values='temperature', index='city', columns='season',aggfunc=['mean', 'std'])
    pivot_final = pivot.stack(level='season', future_stack=True).reset_index()
    pivot_final.columns = ['city', 'season', 'season_city_mean', 'season_city_std']

    data = data.merge(pivot_final, on=['city', 'season'], how='left')

    city_tasks = []
    for city in cities:
        city_data = data[data['city'] == city]['temperature'].reset_index(drop=True)
        city_tasks.append((city, city_data))

    # Параллельная обработка
    with ProcessPoolExecutor() as executor:
        results = list(executor.map(process_city, city_tasks))

    for city, mov_av, mov_std in results:
        data.loc[data['city'] == city, 'mov_av'] = mov_av
        data.loc[data['city'] == city, 'mov_std'] = mov_std

    # Выявим аномалии
    data['anomaly'] = np.where((data['temperature'] > data['season_city_mean'] + 2 * data['season_city_std']) |
        (data['temperature'] < data['season_city_mean'] - 2 * data['season_city_std']), 1, 0)

    anomalies = data[data['anomaly'] == 1].reset_index(drop=True)
    return data, pivot_final, anomalies

start = time.time()
df_pool, pivot_pool, anomalies_pool = preprocessing_pool(df, cities)
time_taken_pool = time.time() - start
print(f'Время выполнения с распараллеливанием: {time_taken_pool:.2f} секунд')
print(f'Время выполнения с распараллеливанием в {time_taken_pool/time_taken_pd:.2f} раз дольше, чем при последовательном выполнении')
df_pool.head()

Время выполнения с распараллеливанием: 0.38 секунд
Время выполнения с распараллеливанием в 1.76 раз дольше, чем при последовательном выполнении


Unnamed: 0,city,timestamp,temperature,season,mov_av,mov_std,anomaly,season_city_mean,season_city_std
0,Beijing,2010-01-01,-1.025049,winter,-1.025049,,0,-1.951337,4.907936
1,Beijing,2010-01-02,-6.29552,winter,-3.660284,3.726786,0,-1.951337,4.907936
2,Beijing,2010-01-03,-5.294014,winter,-4.204861,2.798957,0,-1.951337,4.907936
3,Beijing,2010-01-04,0.267899,winter,-3.086671,3.197525,0,-1.951337,4.907936
4,Beijing,2010-01-05,2.667202,winter,-1.935896,3.78015,0,-1.951337,4.907936


In [5]:
# Сохраним csv для streamlit, чтобы не обучать по нескольку раз одно и то же
#(было бы избычтоным в streamlit еще раз вычислять скользящее среднее, например)
df_pd.to_csv('historical_data.csv', index=False)
pivot_pd.to_csv('city_season_stats.csv', index=False)
anomalies_pd.to_csv('anomalies.csv', index=False)

**Выводы:**

Параллельность не принесла повышения эффективности в плане скорости, так как:
- недостаточный объем данных для эффективного распараллеливания. Накладные расходы превышают выгоду
- в colab всего 2 ядра в бесплатной версии, а я пытаюсь распараллелить 15 городов

In [6]:
print(f'Доступно CPU: {mp.cpu_count()}')

Доступно CPU: 2


## ЧАСТЬ 2: Мониторинг текущей температуры

Информация о том, как получить температуру по названию города взята отсюда: https://openweathermap.org/current

В качестве доп. задания на бонусные баллы будем выводить в streamlit не только температуру, но и другие данные о погоде

In [7]:
# Сравнение синхронного и асинхронного подхода имеет смысл только если происходит
# одновременный запрос погоды для нескольких городов

# Получим данные о погоде для одного города. Если код равен 401, то выведем ошибку, которую запрашивают в условии
def city_weather(CITY, API_KEY):

    url = f"http://api.openweathermap.org/data/2.5/weather?q={CITY}&appid={API_KEY}&units=metric"
    response = requests.get(url)

    if response.status_code == 200:
      data = response.json()
      return {'city': CITY,
              'temperature': data['main']['temp'],
              'feels_like': data['main']['feels_like'],
              'pressure': data['main']['pressure'],
              'humidity': data['main']['humidity'],
              'wind_speed': data['wind']['speed'],
              'description': data['weather'][0]['description'],
              'current_time': datetime.now().strftime('%Y-%m-%d %H:%M:%S')}

    elif response.status_code == 401:
        return "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."

    else:
        return f'Unknown error: {response.status_code}'

# Функция для поиска аномалий
def check_anomaly(city, current_temp, pivot_pd):
    month = datetime.now().month

    month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}
    current_season = month_to_season[month]

    # Ищем статистики в pivot_pd
    city_stats = pivot_pd[(pivot_pd['city'] == city) & (pivot_pd['season'] == current_season)]

    if len(city_stats) != 1:
      print(f'Город {city} не найден в таблице со статистикой')
      return

    mean_temp = city_stats['season_city_mean'].iloc[0]
    std_temp = city_stats['season_city_std'].iloc[0]

    # Находим пределы
    min_bound = mean_temp - 2 * std_temp
    max_bound = mean_temp + 2 * std_temp

    if current_temp > max_bound:
        print(f'Аномально высокая температура')
    elif current_temp < min_bound:
        print(f'Аномально низкая температура')
    else:
        print(f'Температура в пределах нормы')

# Синхронная функция
def cities_weather_sync(cities, API_KEY):
    results = []

    start_time = time.time()

    for i, city in enumerate(cities, 1):

      output = city_weather(city, API_KEY)

      # Если запрос прошел успешно, то city_weather выдаст dict
      if isinstance(output, dict):
          results.append(output)
          print(f"Температура в городе {city} составляет {output['temperature']:.1f}C")
          check_anomaly(city, output['temperature'], pivot_pd)
      # Иначе выдаст ошибку
      else:
          print(f'{output}')

    time_taken_sync = time.time() - start_time
    print(f'Время выполнения синхронной функции: {time_taken_sync:.1f} секунд')

    return pd.DataFrame(results), time_taken_sync

In [8]:
# Асинхронная функция для одного города
async def fetch_weather(CITY, API_KEY):
    url = f"http://api.openweathermap.org/data/2.5/weather?q={CITY}&appid={API_KEY}&units=metric"

    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            data = await response.json()

            if response.status == 200:
                return {'city': CITY,
                        'temperature': data['main']['temp'],
                        'feels_like': data['main']['feels_like'],
                        'pressure': data['main']['pressure'],
                        'humidity': data['main']['humidity'],
                        'wind_speed': data['wind']['speed'],
                        'description': data['weather'][0]['description'],
                        'current_time': datetime.now().strftime('%Y-%m-%d %H:%M:%S')}
            elif response.status == 401:
               return "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."

            else:
               return 'Unknown error'

# Асинхронная функция для нескольких городов
async def cities_weather_async(cities, API_KEY):
    start_time = time.time()

    tasks = []
    for city in cities:
        task = asyncio.create_task(fetch_weather(city, API_KEY))
        tasks.append(task)

    results = await asyncio.gather(*tasks)

    succ_temps = []
    for res in results:
        if isinstance(res, dict):
            succ_temps.append(res)
            print(f"Температура в городе {res['city']} составляет {res['temperature']:.1f}C")
            check_anomaly(res['city'], res['temperature'], pivot_pd)
        else:
            print(f'{res}')

    time_taken_async = time.time() - start_time
    print(f'Время выполнения асинхронной функции: {time_taken_async:.1f} секунд')

    return pd.DataFrame(succ_temps), time_taken_async

In [None]:
# Тестируем синхронную и асинхронную версии
cities_test = ['Berlin', 'Cairo', 'Dubai', 'Beijing', 'Moscow']
API_KEY = input('Введите ваш API ключ: ')

print('Синхронная версия:')
df_sync, time_taken_sync = cities_weather_sync(cities_test, API_KEY)

print('\nАсинхронная версия:')
df_async, time_taken_async = asyncio.run(cities_weather_async(cities_test, API_KEY))
print(f'\nСинхронный подход выполняется в {time_taken_sync/time_taken_async:.2f} раз дольше, чем асинхронный')

Синхронная версия:
Температура в городе Berlin составляет 4.6C
Температура в пределах нормы
Температура в городе Cairo составляет 12.4C
Температура в пределах нормы
Температура в городе Dubai составляет 24.0C
Температура в пределах нормы
Температура в городе Beijing составляет -2.1C
Температура в пределах нормы
Температура в городе Moscow составляет -0.0C
Температура в пределах нормы
Время выполнения синхронной функции: 1.2 секунд

Асинхронная версия:
Температура в городе Berlin составляет 4.6C
Температура в пределах нормы
Температура в городе Cairo составляет 12.4C
Температура в пределах нормы
Температура в городе Dubai составляет 24.0C
Температура в пределах нормы
Температура в городе Beijing составляет -2.1C
Температура в пределах нормы
Температура в городе Moscow составляет -0.0C
Температура в пределах нормы
Время выполнения асинхронной функции: 0.0 секунд

Синхронный подход выполняется в 37.78 раз дольше, чем асинхронный


In [10]:
test = pivot_pd[(pivot_pd['season'] == 'winter') &
         (pivot_pd['city'].isin(cities_test))].copy()
test['min_b'] = test['season_city_mean'] - 2 * test['season_city_std']
test['max_b'] = test['season_city_mean'] + 2 * test['season_city_std']
test

Unnamed: 0,city,season,season_city_mean,season_city_std,min_b,max_b
3,Beijing,winter,-1.951337,4.907936,-11.767209,7.864535
7,Berlin,winter,-0.383679,4.683119,-9.749918,8.982559
11,Cairo,winter,14.970685,5.084445,4.801795,25.139575
15,Dubai,winter,19.995284,4.854135,10.287013,29.703554
31,Moscow,winter,-9.796384,5.127608,-20.051599,0.458831


**Выводы:**

В данном случае асинхронный код показывает себя гораздо лучше синхронного. Дело в том, что в асинхронном коде у нас получается экономить значительное кол-во времени, не простаивая в ожидании ответа от запроса на сайт. Асинхронный код делает запрос на все города одновременно и, соответственно, выполняется быстрее