## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [1]:
import pandas as pd
import numpy as np
import pandas as pd
import aiohttp
import multiprocessing
import tools
import asyncio

In [22]:

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df




In [None]:
# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)

In [2]:
df = pd.read_csv('temperature_data.csv')
# print(df)
df['timestamp'] = pd.to_datetime(df['timestamp'])
df = df.sort_values(by=['city', 'timestamp']).reset_index(drop=True)
df
# Set the timestamp as the index
# df.set_index('timestamp', inplace=True)

Unnamed: 0,city,timestamp,temperature,season
0,Beijing,2010-01-01,-6.174222,winter
1,Beijing,2010-01-02,-4.834096,winter
2,Beijing,2010-01-03,-1.209713,winter
3,Beijing,2010-01-04,5.825166,winter
4,Beijing,2010-01-05,-2.400848,winter
...,...,...,...,...
54745,Tokyo,2019-12-25,2.623591,winter
54746,Tokyo,2019-12-26,0.851174,winter
54747,Tokyo,2019-12-27,12.993030,winter
54748,Tokyo,2019-12-28,3.479038,winter


In [16]:
df_w = tools.rolling_mean_std(df)
df_stat = tools.seasonal_stats(df)
df_anomaly = tools.detect_anomalies(df, df_stat)
# df_anomaly
# df_stat

In [3]:
# последовательное выполнение на процессах. Параллельное выполнение на процессах дает худший результат, чем последовательное выполнение. Думаю это связанно с тем что pandas и так хорошо оптимизован, а накладные расходы на создание и синхронизацию между процессами весьма высоки.
with multiprocessing.Pool(processes=8) as pool:
    for city in df['city'].unique():
        df_city = df[df['city'] == city]

        result_future = pool.apply_async(tools.rolling_mean_std, (df_city,))
        df_stat_future = pool.apply_async(tools.seasonal_stats, (df_city,))
        df_stat = df_stat_future.get()
        df_anomaly_future = pool.apply_async(tools.detect_anomalies, (df_city, df_stat))
        df_anomaly = df_anomaly_future.get()

        print(city)
        print(df_stat.shape)
        print(df_anomaly.shape)

# Распараллеливание дает худший результат, чем последовательное выполнение.
# Скорее всего причина в том что пандас внутри хорошо оптимизирован, а создание процессов требует много ресурсов и накладывает большой оверхед по времени синхронизации


Beijing
(4, 4)
(3650, 7)
Berlin
(4, 4)
(3650, 7)
Cairo
(4, 4)
(3650, 7)
Dubai
(4, 4)
(3650, 7)
London
(4, 4)
(3650, 7)
Los Angeles
(4, 4)
(3650, 7)
Mexico City
(4, 4)
(3650, 7)
Moscow
(4, 4)
(3650, 7)
Mumbai
(4, 4)
(3650, 7)
New York
(4, 4)
(3650, 7)
Paris
(4, 4)
(3650, 7)
Rio de Janeiro
(4, 4)
(3650, 7)
Singapore
(4, 4)
(3650, 7)
Sydney
(4, 4)
(3650, 7)
Tokyo
(4, 4)
(3650, 7)


In [16]:
# последовательное выполнение на тредах. на самом деле тут нет параллельных рассчетов, т к треды работают в рамках 1 процесса и на них распространяется GIL. Это не IO операции.

with multiprocessing.pool.ThreadPool(processes=8) as pool:
    for city in df['city'].unique():
        df_city = df[df['city'] == city]

        result_future = pool.apply_async(tools.rolling_mean_std, (df_city,))
        df_stat_future = pool.apply_async(tools.seasonal_stats, (df_city,))
        df_stat = df_stat_future.get()
        df_anomaly_future = pool.apply_async(tools.detect_anomalies, (df_city, df_stat))
        df_anomaly = df_anomaly_future.get()

        print(city)
        print(df_stat.shape)
        print(df_anomaly.shape)

# Выполнение на тредах произошло гораздо быстрее чем на процессах, т к не было накладных расходов на создание процессов и их синхронизацию

Beijing
(4, 4)
(3650, 8)
Berlin
(4, 4)
(3650, 9)
Cairo
(4, 4)
(3650, 8)
Dubai
(4, 4)
(3650, 8)
London
(4, 4)
(3650, 8)
Los Angeles
(4, 4)
(3650, 9)
Mexico City
(4, 4)
(3650, 9)
Moscow
(4, 4)
(3650, 9)
Mumbai
(4, 4)
(3650, 8)
New York
(4, 4)
(3650, 9)
Paris
(4, 4)
(3650, 8)
Rio de Janeiro
(4, 4)
(3650, 8)
Singapore
(4, 4)
(3650, 9)
Sydney
(4, 4)
(3650, 8)
Tokyo
(4, 4)
(3650, 8)


In [6]:
   # - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   # - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   # - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   # - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   # - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

api_key = "9ca7f107c67aa1273e795ca7e32ee4bb"

In [None]:
# получаем статистику по городам по тестовому датасету: аномалии вычисленные по среднему и стандартному отклонению
df_stat = tools.seasonal_stats(df)

In [30]:
# последовательная обработка запросов в апи. Несмотря на работу с корутиной запросы выполняются последовательно, т к они не зворачиваются в таски и не собираются через gather

for city in df['city'].unique():
    r = await tools.fetch_async(f"https://api.openweathermap.org/data/2.5/weather?q={city}&units=metric&APPID={api_key}")
    curr_temp = r['main']['temp']
    is_anomaly_temp = tools.check_anomaly(df_stat, city, curr_temp)
    print(f"City: {city}, Temp: {curr_temp}, Anomaly: {is_anomaly_temp}")


City: Beijing, Temp: -1.06, Anomaly: False
City: Berlin, Temp: 8.89, Anomaly: False
City: Cairo, Temp: 15.42, Anomaly: False
City: Dubai, Temp: 20.96, Anomaly: False
City: London, Temp: 9.62, Anomaly: False
City: Los Angeles, Temp: 21, Anomaly: False
City: Mexico City, Temp: 22.75, Anomaly: True
City: Moscow, Temp: -0.16, Anomaly: False
City: Mumbai, Temp: 23.99, Anomaly: False
City: New York, Temp: 8.88, Anomaly: False
City: Paris, Temp: 8.31, Anomaly: False
City: Rio de Janeiro, Temp: 24.25, Anomaly: False
City: Singapore, Temp: 25.68, Anomaly: False
City: Sydney, Temp: 25.24, Anomaly: True
City: Tokyo, Temp: 5.34, Anomaly: False


In [35]:
# асинхронное выполнение запросов к апи. Запросы выполняются параллельно, т к они обернуты в таски и собраны через gather
tasks = []
for city in df['city'].unique():
    tasks.append(tools.fetch_async(f"https://api.openweathermap.org/data/2.5/weather?q={city}&units=metric&APPID={api_key}"))

res_arr = await asyncio.gather(*tasks)

for city, r in zip(df['city'].unique(), res_arr):
    is_anomaly_temp = tools.check_anomaly(df_stat, city, r['main']['temp'])
    print(f"City: {city}, Temp: {r['main']['temp']}, Anomaly: {is_anomaly_temp}")


City: Beijing, Temp: -1.06, Anomaly: False
City: Berlin, Temp: 8.89, Anomaly: False
City: Cairo, Temp: 15.42, Anomaly: False
City: Dubai, Temp: 20.96, Anomaly: False
City: London, Temp: 9.62, Anomaly: False
City: Los Angeles, Temp: 21, Anomaly: False
City: Mexico City, Temp: 22.75, Anomaly: True
City: Moscow, Temp: -0.16, Anomaly: False
City: Mumbai, Temp: 23.99, Anomaly: False
City: New York, Temp: 8.88, Anomaly: False
City: Paris, Temp: 8.31, Anomaly: False
City: Rio de Janeiro, Temp: 24.25, Anomaly: False
City: Singapore, Temp: 25.68, Anomaly: False
City: Sydney, Temp: 25.24, Anomaly: True
City: Tokyo, Temp: 5.34, Anomaly: False


In [36]:
# историно синхронный метод. никаких корутин.

for city in df['city'].unique():
    r = tools.fetch_sync(f"https://api.openweathermap.org/data/2.5/weather?q={city}&units=metric&APPID={api_key}")
    is_anomaly_temp = tools.check_anomaly(df_stat, city, r['main']['temp'])
    print(f"City: {city}, Temp: {r['main']['temp']}, Anomaly: {is_anomaly_temp}")

City: Beijing, Temp: -1.06, Anomaly: False
City: Berlin, Temp: 8.89, Anomaly: False
City: Cairo, Temp: 15.42, Anomaly: False
City: Dubai, Temp: 20.96, Anomaly: False
City: London, Temp: 9.62, Anomaly: False
City: Los Angeles, Temp: 21, Anomaly: False
City: Mexico City, Temp: 22.75, Anomaly: True
City: Moscow, Temp: -0.16, Anomaly: False
City: Mumbai, Temp: 23.99, Anomaly: False
City: New York, Temp: 8.92, Anomaly: False
City: Paris, Temp: 8.31, Anomaly: False
City: Rio de Janeiro, Temp: 24.25, Anomaly: False
City: Singapore, Temp: 25.68, Anomaly: False
City: Sydney, Temp: 25.24, Anomaly: True
City: Tokyo, Temp: 5.34, Anomaly: False


Время выполнения запросов с использованием асинхронных методов значительно меньше, чем с использованием синхронных методов. Это связано с тем, что асинхронные методы позволяют выполнять запросы параллельно т к это IO задачи.