## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.
   - Любые графики должны быть интерактивными.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [1]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data=data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(cities=list(seasonal_temperatures.keys()))
data.to_csv(path_or_buf='temperature_data.csv', index=False)


## Этап №1. Анализ исторических данных

### Вычисление скользящего среднего

In [2]:
data[(data.season == 'winter') & (data.city == 'New York')]

Unnamed: 0,city,timestamp,temperature,season
0,New York,2010-01-01,0.408618,winter
1,New York,2010-01-02,-0.392255,winter
2,New York,2010-01-03,6.834810,winter
3,New York,2010-01-04,-7.469271,winter
4,New York,2010-01-05,-6.694826,winter
...,...,...,...,...
3645,New York,2019-12-25,4.222718,winter
3646,New York,2019-12-26,2.790352,winter
3647,New York,2019-12-27,-1.447372,winter
3648,New York,2019-12-28,6.283256,winter


In [3]:
rolling_means={}
for ct in data['city'].unique():
    rolling_means[ct]={'temperature':data[data['city']==ct]['temperature'].rolling(window=30).mean().values,'date':data[data['city']==ct]['timestamp'].values}

In [4]:
import plotly.express as px
import plotly.graph_objects as go

fig = go.Figure()

for city, values in rolling_means.items():
    fig.add_trace(
        go.Scatter(
            x=values["date"],
            y=values['temperature'],
            mode="lines",
            name=city
        )
    )

fig.update_layout(
    title="Скользящее среднее температуры по городам",
    xaxis_title="Дата",
    yaxis_title="Температура"
)

fig.show()


In [5]:
from pandas import DataFrame

def get_rolling_mean(df:DataFrame,cityname:str) -> DataFrame:
    df_sorted = df[df.city==cityname].sort_values(by='timestamp',inplace=False,ascending=True)
    rolling_dict = {'timestamp':df_sorted['timestamp'],'temperature':df_sorted['temperature'].rolling(window=30).mean()}
    return pd.DataFrame(rolling_dict)

def get_statistics(df:DataFrame) -> DataFrame:
    stats = df.groupby(['city','season'])['temperature'].agg(['mean','std'])
    return stats

def get_anomalyes(city_df:DataFrame) -> list:
    '''
    Эта функция возвращает список индексов строк из датафрейма, температура в которых является аномальной
    '''
    stats = get_statistics(city_df)
    anomalies_indx = []
    for ind,row in city_df.iterrows():
        avg = stats.loc[(row['city'],row['season']),'mean']
        std = stats.loc[(row['city'],row['season']), 'std']
        if row['temperature'] > avg+2*std or row['temperature'] < avg-2*std:
            anomalies_indx.append(ind)
    return anomalies_indx


### Распараллеливание анализа

In [14]:
# Сравнение времени работы в последоватенельном и параллельных режимах
from concurrent.futures import ProcessPoolExecutor
import time

def parallel_execution(df,n_threads=4):
    start_time = time.time()

    # Чтобы извлечь прирост к скорости из параллельности разобьём датасет на части по городам
    city_df_list = [
        city_df for _,city_df in df.groupby('city')
    ]

    with ProcessPoolExecutor(max_workers=n_threads) as executor:
        results = executor.map(get_anomalyes,city_df_list)
    
    anomalies = [idx for i in results for idx in i]
    diff = time.time()-start_time
    return anomalies,diff

res_para, dif_par = parallel_execution(data,n_threads=4)

start = time.time()
anomaly = get_anomalyes(data)
dif_seq = time.time()-start
print(f"Время последовательного выполнения {round(dif_seq,2)} с.")
print(f"Время параллельного выполнения выполнения {round(dif_par,2)} с.")
if set(anomaly)==set(res_para):
    print('Результаты вычислений совпадают')
else:
    print('Результаты вычислений разные')

Время последовательного выполнения 9.81 с.
Время параллельного выполнения выполнения 2.09 с.
Результаты вычислений совпадают


Multiprocessing ускорил вычисления почти в 4 раза, индексы записей температур, которые являются аномалиями, получены

## Запросы API

In [46]:
import os
from dotenv import load_dotenv
import requests
from datetime import date
import httpx
load_dotenv() # Подгружаем апи ключ из переменных окружения

api_key = os.getenv("API_KEY")

#sync api request
def get_response(cityname,key):
    '''
    Эта функция возвращает json response и текущую дату
    '''
    url = f"http://api.openweathermap.org/data/2.5/weather?q={cityname}&appid={key}&units=metric"
    response = requests.get(url)
    data = response.json()
    return data,date.today()

#async api request
async def get_async_response(cityname,key):
    '''
    Эта функция возвращает json response и текущую дату
    '''
    url = f"http://api.openweathermap.org/data/2.5/weather?q={cityname}&appid={key}&units=metric"
    async with  httpx.AsyncClient() as client:
        response = await client.get(url)
    data = response.json()
    return data,date.today()

def anomaly_check(temp, city, date, statistics):
    '''
    Функция для проверки текущей температуры на аномальность по историческим данным statistics
    '''
    month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}
    season = month_to_season[int(date.month)]
    season_mean = statistics.loc[(city,season),'mean']
    season_std =  statistics.loc[(city,season),'std']
    if temp > season_mean+2*season_std or temp < season_mean-2*season_std:
        return True
    return False

start = time.time()
async_res,_ = await get_async_response('Kaluga',api_key)
print(f'Время выполнения асинхронного запроса {round(time.time()-start,2)} с.')

start = time.time()
seq_res,_ = get_response('Kaluga',api_key)
print(f'Время выполнения последовательного запроса {round(time.time()-start,2)} с.')

# Пример работы anomaly_check

t,d = get_response('Moscow',api_key)
if anomaly_check(t['main']['temp'],'Moscow',d,get_statistics(data)):
    print('Температура является аномальной для сезона')
else:
    print('Температура нормальная для сезона')

Время выполнения асинхронного запроса 0.25 с.
Время выполнения последовательного запроса 0.18 с.
Температура является аномальной для сезона


Добавление асинхронности в запрос уменьшило время выполнения