## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

# Код создания данных

In [2]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


# Решение

In [18]:
import time

import pandas as pd
import aiohttp
import asyncio
import requests
from multiprocessing import Pool
from datetime import datetime

month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

df_temp = pd.read_csv('temperature_data.csv')

1. **Анализ исторических данных**:
   - 1.1 Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - 1.2 Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - 1.3 Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - 1.4 Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

In [20]:
# 1.1 Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
df_temp['rolling_mean_30d'] = df_temp.groupby('city')['temperature'].transform(lambda x: x.rolling(window=30).mean())
df_temp;

In [21]:
# 1.2 Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
df_temp_mean_std_agg = df_temp.groupby(['city', 'season'])['temperature'].agg(['mean', 'std']).reset_index()
display(df_temp_mean_std_agg.head(6))

df_temp = df_temp.merge(df_temp_mean_std_agg, on=['city', 'season'])

Unnamed: 0,city,season,mean,std
0,Beijing,autumn,16.031245,5.111842
1,Beijing,spring,12.938672,5.193055
2,Beijing,summer,26.889695,5.128947
3,Beijing,winter,-1.724701,4.904642
4,Berlin,autumn,10.955571,5.059808
5,Berlin,spring,10.294739,4.847039


In [22]:
# 1.3 Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
df_temp['anomaly'] = (df_temp['temperature'] < (df_temp['mean'] - 2 * df_temp['std'])) \
      | (df_temp['temperature'] > (df_temp['mean'] + 2 * df_temp['std']))
df_temp

Unnamed: 0,city,timestamp,temperature,season,rolling_mean_30d,mean,std,anomaly
0,New York,2010-01-01,2.586103,winter,,-0.012022,5.034717,False
1,New York,2010-01-02,-2.267853,winter,,-0.012022,5.034717,False
2,New York,2010-01-03,-6.244679,winter,,-0.012022,5.034717,False
3,New York,2010-01-04,-8.383763,winter,,-0.012022,5.034717,False
4,New York,2010-01-05,2.248936,winter,,-0.012022,5.034717,False
...,...,...,...,...,...,...,...,...
54745,Mexico City,2019-12-25,14.726449,winter,12.067935,12.154068,4.907275,False
54746,Mexico City,2019-12-26,4.245908,winter,11.616144,12.154068,4.907275,False
54747,Mexico City,2019-12-27,15.084138,winter,11.562683,12.154068,4.907275,False
54748,Mexico City,2019-12-28,16.949020,winter,11.792206,12.154068,4.907275,False


In [None]:
# 1.4 Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.
df_temp = pd.read_csv('temperature_data.csv')
start_time_no_multiproc = time.time()

df_temp['rolling_mean_30d'] = df_temp.groupby('city')['temperature'].transform(lambda x: x.rolling(window=30).mean())
df_temp_mean_std_agg = df_temp.groupby([ 'city', 'season'])['temperature'].agg(['mean', 'std']).reset_index()
df_temp = df_temp.merge(df_temp_mean_std_agg, on=['city', 'season'])
df_temp['anomaly'] = (df_temp['temperature'] < (df_temp['mean'] - 2 * df_temp['std'])) \
      | (df_temp['temperature'] > (df_temp['mean'] + 2 * df_temp['std']))

spent_time_no_multiproc = time.time() - start_time_no_multiproc
print(f"Потраченное время без multiprocessing: {spent_time_no_multiproc}")

# =========================================================================================================

def test_worker(data, city):
    data = data[data['city'] == city]
    data['rolling_mean_30d'] = data.groupby('city')['temperature'].transform(lambda x: x.rolling(window=30, min_periods=1).mean())
    data_mean_std_agg = data.groupby(['city', 'season'])['temperature'].agg(['mean', 'std']).reset_index()
    data = data.merge(data_mean_std_agg, on=['city', 'season'])
    data['anomaly'] = (data['temperature'] < (data['mean'] - 2 * data['std'])) \
        | (data['temperature'] > (data['mean'] + 2 * data['std']))
    return data

df_temp = pd.read_csv('temperature_data.csv')
list_cities = df_temp['city'].unique().tolist()

start_time_multiproc = time.time()

with Pool(processes=Pool()._processes) as pool:
    results = pool.starmap(test_worker, [(df_temp, city) for city in list_cities])

df_result = pd.concat(results, ignore_index=True)

spent_time_multiproc = time.time() - start_time_multiproc
print(f"Потраченное время с multiprocessing: {spent_time_multiproc}")

Потраченное время без multiprocessing: 0.043073415756225586


2. **Мониторинг текущей температуры**:
   - 2.0 Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - 2.1 Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - 2.2 Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - 2.3 Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - 2.4 Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

In [None]:
# 2.1 Получить текущую температуру для выбранного города через OpenWeatherMap API.
API_KEY = "API_KEY"

def get_current_temperature(city):
    base_url = "http://api.openweathermap.org/data/2.5/weather"
    params = {
        'q': city,
        'appid': API_KEY,
        'units': 'metric'
    }
    response = requests.get(base_url, params=params)
    data = response.json()
    if response.status_code == 200:
        return data['main']['temp']
    else:
        raise Exception(f"Error: {data['message']}")
    
start_time = time.time()
df_temp_current = pd.DataFrame(columns=['city', 'timestamp', 'temperature'])
df_temp_current['city'] = df_temp['city'].unique().tolist()
# df_temp_current['timestamp'] = datetime.now().strftime("%Y-%m-%d")
df_temp_current['timestamp'] = pd.to_datetime(datetime.now().date())
df_temp_current['temperature'] = df_temp_current['city'].apply(lambda x: get_current_temperature(x))
end_time = time.time()
print(f"Время выполнения синхронного метода: {end_time - start_time} секунд")

Время выполнения синхронного метода: 1.6593751907348633 секунд


In [24]:
# 2.2 Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
df_temp_current['season'] = df_temp_current['timestamp'].dt.month.map(lambda x: month_to_season[x])

df_temp_curr_merged = df_temp_current.merge(df_temp_mean_std_agg, on=['city', 'season'])
df_temp_curr_merged['anomaly'] = (df_temp_curr_merged['temperature'] < (df_temp_curr_merged['mean'] - 2 * df_temp_curr_merged['std'])) \
      | (df_temp_curr_merged['temperature'] > (df_temp_curr_merged['mean'] + 2 * df_temp_curr_merged['std']))
df_temp_curr_merged

Unnamed: 0,city,timestamp,temperature,season,mean,std,anomaly
0,New York,2025-01-05,-2.35,winter,-0.012022,5.034717,False
1,London,2025-01-05,11.97,winter,5.195781,4.986262,False
2,Paris,2025-01-05,12.73,winter,4.030511,5.023698,False
3,Tokyo,2025-01-05,5.77,winter,5.962995,5.056747,False
4,Moscow,2025-01-05,-3.2,winter,-9.94875,5.117784,False
5,Sydney,2025-01-05,24.26,winter,11.959927,4.881581,True
6,Berlin,2025-01-05,0.6,winter,-0.059494,4.994455,False
7,Beijing,2025-01-05,1.94,winter,-1.724701,4.904642,False
8,Rio de Janeiro,2025-01-05,28.96,winter,20.110155,5.026409,False
9,Dubai,2025-01-05,21.96,winter,19.766471,5.02351,False


2.3 Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.

Для Москвы и Пекина действитльно присутствуют аномалии на реальных данных, также стоит заметить, что для Сиднея также можно заметить присутствие аномальных значений.

In [25]:
# 2.4 Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

API_KEY = "API_KEY"

# =============================================== NO ASYNC ===============================================
def get_current_temperature(city):
    base_url = "http://api.openweathermap.org/data/2.5/weather"
    params = {
        'q': city,
        'appid': API_KEY,
        'units': 'metric'
    }
    response = requests.get(base_url, params=params)
    data = response.json()
    if response.status_code == 200:
        return data['main']['temp']
    else:
        raise Exception(f"Error: {data['message']}")
    

# =============================================== ASYNC ===============================================
async def fetch_current_temperature(session, city):
    url = "http://api.openweathermap.org/data/2.5/weather"
    params = {
        'q': city,
        'appid': API_KEY,
        'units': 'metric'
    }
    try:
        async with session.get(url, params=params) as response:
            data = await response.json()
            return data['main']['temp']
    except Exception as e:
        print(f'Error: {e}')

async def extract_current_temperatures(cities):
    async with aiohttp.ClientSession() as session:
        tasks = [fetch_current_temperature(session, city) for city in cities]
        return await asyncio.gather(*tasks)

In [26]:
start_time_sync = time.time()

df_temp_current = pd.DataFrame(columns=['city', 'timestamp', 'temperature'])
df_temp_current['city'] = df_temp['city'].unique().tolist()
df_temp_current['timestamp'] = pd.to_datetime(datetime.now().date())
df_temp_current['temperature'] = df_temp_current['city'].apply(lambda x: get_current_temperature(x))

end_time_sync = time.time() - start_time_sync
print(f"Затраченное время без использования асинхроных методов: {end_time_sync}")


start_time_async = time.time()

results_temps = await extract_current_temperatures(df_temp['city'].unique().tolist())

df_temp_current = pd.DataFrame(columns=['city', 'timestamp', 'temperature'])
df_temp_current['city'] = df_temp['city'].unique().tolist()
df_temp_current['timestamp'] = pd.to_datetime(datetime.now().date())
df_temp_current['temperature'] = results_temps

end_time_async = time.time() - start_time_async
print(f"Затраченное время с использованием асинхроных методов: {end_time_async}")

Затраченное время без использования асинхроных методов: 1.5858068466186523
Затраченное время с использованием асинхроных методов: 0.16801881790161133


Вывод: использование асинхронных методов позволило сократить скорость работы функции более чем 10 раз

3. **Создание приложения на Streamlit**:
   - 3.1 Добавить интерфейс для загрузки файла с историческими данными.
   - 3.2 Добавить интерфейс для выбора города (из выпадающего списка).
   - 3.3 Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

In [None]:
import streamlit as st
import pandas as pd
import plotly.express as px
import requests
from datetime import datetime

month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

def load_data(file):
    df = pd.read_csv(file)
    df['timestamp'] = pd.to_datetime(df['timestamp'])
    df['rolling_mean_30d'] = df.groupby('city')['temperature'].transform(lambda x: x.rolling(window=30).mean())
    df_mean_std_agg = df.groupby(['city', 'season'])['temperature'].agg(['mean', 'std']).reset_index()
    df = df.merge(df_mean_std_agg, on=['city', 'season'])
    df['anomaly'] = (df['temperature'] < (df['mean'] - 2 * df['std'])) \
        | (df['temperature'] > (df['mean'] + 2 * df['std']))
    df = df.sort_values(by='timestamp')
    return df

def get_current_temperature(city, api_key):
    base_url = "http://api.openweathermap.org/data/2.5/weather"
    params = {
        'q': city,
        'appid': api_key,
        'units': 'metric'
    }
    response = requests.get(base_url, params=params)
    data = response.json()
    if response.status_code == 200:
        return data['main']['temp']
    elif data.get('cod') == 401:
        raise Exception({"cod": data.get('cod'), 
                         "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."})
    else:
        raise Exception(f"Error: {data['message']}")

def is_temperature_anomal(city, current_temp, df):
    current_season = month_to_season[datetime.now().month]
    seasonal_data = df[(df['city'] == city) & (df['season'] == current_season)]
    mean_temp = seasonal_data['temperature'].mean()
    std_temp = seasonal_data['temperature'].std()
    if mean_temp - 2 * std_temp <= current_temp <= mean_temp + 2 * std_temp:
        return False
    else:
        return True

def display_statistics(df, city):
    city_info = df[df['city'] == city][['temperature', 'rolling_mean_30d']]
    city_stats = city_info.describe()
    st.subheader(f"Описательная статистика по историческим данным для города: {city}")
    st.write(city_stats)

def display_time_series(df, city):
    city_info = df[df['city'] == city]
    fig_ts = px.scatter(city_info, x='timestamp', y='temperature', color='anomaly',
                     color_discrete_map={True: 'red', False: 'green'},
                     title=f'Временной ряд температур с выделением аномалий для города: {city}',
                     labels={'timestamp': 'Дата', 'temperature': 'Температура в градусах Цельсия'})
    st.plotly_chart(fig_ts)

def display_seasonal_profiles(df, city):
    city_info = df[df['city'] == city]
    fig_sp = px.scatter(city_info, x='timestamp', y='temperature', color='season',
                     color_discrete_map={'summer': 'red', 'autumn': 'orange', 'winter': 'blue', 'spring': 'yellow'},
                     title=f'Сезонный температурный профиль для города: {city}',
                     labels={'timestamp': 'Дата', 'temperature': 'Температура в градусах Цельсия'})
    st.plotly_chart(fig_sp)

st.title("Веб-приложение для анализа температур различных городов мира")

uploaded_file = st.file_uploader("Загрузите файл с историческими данными", type=["csv"])

if uploaded_file is not None:
    df = load_data(uploaded_file)
    cities = df['city'].unique()

    selected_city = st.selectbox("Выберите город", cities)
    api_key = st.text_input("Введите API-ключ OpenWeatherMap", type="password")

    if api_key:
        try:
            current_temp = get_current_temperature(selected_city, api_key)
            st.write(f"Текущая температура в {selected_city}: {current_temp} градусов по Цельсию")
            st.write(f"Температура {'аномальна' if is_temperature_anomal(selected_city, current_temp, df) else 'нормальна'} для текущего сезона.")
        except Exception as error:
            st.error(str(error))

    display_statistics(df, selected_city)
    display_time_series(df, selected_city)
    display_seasonal_profiles(df, selected_city)