## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [14]:
import time

import pandas as pd
import numpy as np

import plotly.express as px

import polars as pl
import polars_ols as pls  
import polars_ds as pds

from sklearn.linear_model import LinearRegression

import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings('ignore')

import requests
import aiohttp
import asyncio

In [2]:
# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False, )


Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

# Задание № 1

1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

In [3]:
# В первой лекции по временным рядам на 1:05:15 препод рассказывает про resample во временных рядах
def hard_function(df, city):
    """
    Необходимо создать "тяжелую функцию". В этой функции для одного города:
    1.1. Считаются скользящим окном среднее и std. Тут же ищутся все аномалии относительно скользящих средних и std. 
         Больше эти данные полученные скользящим окном мы нигде не используем.
    1.2. Далее мы делаем groupby по сезону и считаем mean std для исходной температуры. Таким образом мы получаем профиль сезона.
    1.3. Ищем тренд (регрессия или что получше). Если обучаете регрессию, смотрите на коэффициент и возвращаете положительный или отрицательный тренд.
    1.4. Считаем среднюю, min, max температуры за все время.

    Необходимо вернуть следующую информацию:
    Город,
    Average/min/max температуры, 
    профиль сезона, 
    а также уклон тренда и список аномальных точек для города.

    Далее необходимо распараллелить эту функцию.
    """
    # Берем только данные по заданному городу
    df = df[df['city'] == city].reset_index(drop=True).copy()
    # Рассчитываем mean/std скользящим окном размера 30
    df['mean_rolling30'] = df['temperature'].rolling(30).mean()#.reset_index(0, drop=True)
    df['std_rolling30'] = df['temperature'].rolling(30).std()#.reset_index(0, drop=True)
    # Заполняем NaN'ы из первого окна первым рассчитанным значением std/mean
    df['mean_rolling30'] = df['mean_rolling30'].bfill()
    df['std_rolling30'] = df['std_rolling30'].bfill()
    # Рассчитваем границы выбросов mean(+-)2std
    df['mean-2std'] = df['mean_rolling30'] - 2 * df['std_rolling30']
    df['mean+2std'] = df['mean_rolling30'] + 2 * df['std_rolling30']
    # Проставляем флаг is_outlier_sma. True - если наблюдение выходит за границы выбросов, рассчитанных по скользящему среднему
    df.loc[(df['temperature'] < df['mean-2std']) | (df['temperature'] > df['mean+2std']), 'is_outlier_sma'] = True
    df['is_outlier_sma'] = df['is_outlier_sma'].fillna(False)
    # Считаем профиль сезона и границы выбросов для сезонов
    df_season_profile = df.groupby('season')['temperature'].agg(average_season='mean', std_season='std').reset_index(0)
    df_season_profile['mean-2std_season'] = df_season_profile['average_season'] - 2 * df_season_profile['std_season']
    df_season_profile['mean+2std_season'] = df_season_profile['average_season'] + 2 * df_season_profile['std_season']
    df = df.merge(df_season_profile, how='left', on='season')
    # Выявление выбросов на основании сезонного профиля
    df.loc[(df['temperature'] < df['mean-2std_season']) | (df['temperature'] > df['mean+2std_season']), 'is_outlier_season'] = True
    df['is_outlier_season'] = df['is_outlier_season'].fillna(False)
    # Ищем уклон тренда на основании линейной регрессии (часть информации позаимствовал отсюда https://medium.com/vortechsa/detecting-trends-in-time-series-data-using-python-2752be7d1172)
    # Для поиска тренда удалим часть наблюдений, являющихся выбросами, посчитанными через сезонный профиль
    X = df[~df['is_outlier_season']].reset_index(drop=True).index.values.reshape(-1, 1)
    y = df[~df['is_outlier_season']]['temperature'].reset_index(drop=True).values.reshape(-1, 1)
    lr_model = LinearRegression().fit(X, y)
    #y_pred = lr_model.predict(X)
    # Наклон прямой тренда. Если >0, то тренд положительный. Если <0, то тренд отрицательный
    slope = lr_model.coef_[0][0]
    # Считаем avg/min/max температур за все время
    temp_mean_alltime, temp_min_alltime, temp_max_alltime = df['temperature'].mean(), df['temperature'].min(), df['temperature'].max()

    return {
        'city': city,
        'temp_mean': temp_mean_alltime,
        'temp_min': temp_min_alltime,
        'temp_max': temp_max_alltime,
        'season_profile': df_season_profile,
        'trend_slope': slope,
        'list_outliers': df[df['is_outlier_season']]['timestamp'].to_list()
    }
    


In [4]:
# Заносим в переменную список городов
list_of_cities = list(data.city.unique())

In [5]:
# Фиксируем время исполнения функции в цикле по всем городам
start_time = time.time()
for i_city in list_of_cities:
    hard_function(data, i_city)
end_time = time.time()

exec_time_pandas = end_time - start_time
print("--- %s seconds ---" % (exec_time_pandas))

--- 0.16468429565429688 seconds ---


# Попытка распаралелить вычисления с помощью polars. Сравнение двух подходов.

Перепишем функцию hard_function в нотации polars.

In [6]:
# В первой лекции по временным рядам на 1:05:15 препод рассказывает про resample во временных рядах
def hard_function_parallel(df, city):
    """
    Необходимо создать "тяжелую функцию". В этой функции для одного города:
    1.1. Считаются скользящим окном среднее и std. Тут же ищутся все аномалии относительно скользящих средних и std. 
         Больше эти данные полученные скользящим окном мы нигде не используем.
    1.2. Далее мы делаем groupby по сезону и считаем mean std для исходной температуры. Таким образом мы получаем профиль сезона.
    1.3. Ищем тренд (регрессия или что получше). Если обучаете регрессию, смотрите на коэффициент и возвращаете положительный или отрицательный тренд.
    1.4. Считаем среднюю, min, max температуры за все время.

    Необходимо вернуть следующую информацию:
    Город,
    Average/min/max температуры, 
    профиль сезона, 
    а также уклон тренда и список аномальных точек для города.
    """
    df = df.filter(pl.col("city") == city)
    # Рассчитываем mean/std скользящим окном размера 30
    df = df.with_columns(mean_rolling30 = df['temperature'].rolling_mean(30))
    df = df.with_columns(std_rolling30 = df['temperature'].rolling_std(30))
    # Заполняем NaN'ы из первого окна первым рассчитанным значением std/mean
    df = df.with_columns(pl.col('mean_rolling30').backward_fill())
    df = df.with_columns(pl.col('std_rolling30').backward_fill())
    # Рассчитваем границы выбросов mean(+-)2std
    df = df.with_columns(meanm_2std = pl.col('mean_rolling30') - 2 * pl.col('std_rolling30'))
    df = df.with_columns(meanp_2std = pl.col('mean_rolling30') + 2 * pl.col('std_rolling30'))
    # Проставляем флаг is_outlier_sma. True - если наблюдение выходит за границы выбросов, рассчитанных по скользящему среднему
    df = df.with_columns(pl.when((pl.col("temperature") < pl.col('meanm_2std')) | (pl.col("temperature") > pl.col('meanp_2std'))).then(True).otherwise(False).alias("is_outlier_sma"))
    # Считаем профиль сезона и границы выбросов для сезонов
    df_season_profile = df.group_by("season", maintain_order=False).agg(pl.mean("temperature").alias("average_season"),
                                                                        pl.std("temperature").alias("std_season"))
    df_season_profile = df_season_profile.with_columns(meanm_2std_season = pl.col('average_season') - 2 * pl.col('std_season'))
    df_season_profile = df_season_profile.with_columns(meanp_2std_season = pl.col('average_season') + 2 * pl.col('std_season'))
    df = df.join(df_season_profile, on='season', how='left')
    # Выявление выбросов на основании сезонного профиля
    df = df.with_columns(pl.when((pl.col("temperature") < pl.col('meanm_2std_season')) | (pl.col("temperature") > pl.col('meanp_2std_season'))).then(True).otherwise(False).alias("is_outlier_season"))
    # Ищем уклон тренда на основании линейной регрессии (часть информации позаимствовал отсюда https://github.com/abstractqqq/polars_ds_extension/blob/main/examples/basics.ipynb
    # Для поиска тренда удалим часть наблюдений, являющихся выбросами, посчитанными через сезонный профиль
    df_ = df.filter(pl.col('is_outlier_season')==False).with_row_index()
    df_ = df_.select(
        pds.lin_reg(
            pl.col("index"),
            target = pl.col("temperature"),
            add_bias=True
        )
    )
    # Наклон прямой тренда. Если >0, то тренд положительный. Если <0, то тренд отрицательный
    slope = df_['lstsq_coeffs'][0][0]
    # Считаем avg/min/max температур за все время
    temp_mean_alltime, temp_min_alltime, temp_max_alltime = df['temperature'].mean(), df['temperature'].min(), df['temperature'].max()
    return {
            'city': city,
            'temp_mean': temp_mean_alltime,
            'temp_min': temp_min_alltime,
            'temp_max': temp_max_alltime,
            'season_profile': df_season_profile,
            'trend_slope': slope,
            'list_outliers': list(df.filter(pl.col('is_outlier_season')==True)['timestamp'])
        }

In [7]:
# Создаем polars DataFrame на основе pandas DataFrame
data_pl = pl.from_pandas(data)

# Фиксируем время исполнения функции в цикле по всем городам
start_time = time.time()
for i_city in list_of_cities:
    hard_function_parallel(data_pl, i_city)
end_time = time.time()

exec_time_polars = end_time - start_time
print("--- %s seconds ---" % (exec_time_polars))

--- 0.03500103950500488 seconds ---


In [8]:
print('Время исполнения функции без параллелизации:', exec_time_pandas)
print('Время исполнения функции c параллелизацией:', exec_time_polars)

Время исполнения функции без параллелизации: 0.16468429565429688
Время исполнения функции c параллелизацией: 0.03500103950500488


`Вывод: функция с параллельными вычислениями работает в ~5 раз быстрее, чем функция без параллельных вычислений.`

# Задание № 2

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

In [9]:
API_KEY = '1824818bd112e614de8890e506dbabfe'

In [10]:
def get_post(api_key, city_name):
    # units={'metric'} позволяет указать шкалу Цельсия для вывода температуры
    url = f"https://api.openweathermap.org/data/2.5/weather?q={city_name}&appid={api_key}&units={'metric'}"
    response = requests.get(url)
    if response.status_code == 200:
        return response.json()
    else:
        return {"error": response.status_code}
    

def get_info_outliers(api_key, city_name, season='winter'):
	# Получаем информацию по API
	response = get_post(api_key=api_key, city_name=city_name)
	temp_curr = response['main']['temp']
	# Выгружаем информацию по границам выбросов для данного города и сезона
	df_ = hard_function(data, city_name)['season_profile']
	low_bound = df_.loc[(df_['season']==season), 'mean-2std_season'].values[0]
	high_bound = df_.loc[(df_['season']==season), 'mean+2std_season'].values[0]

	if (temp_curr < low_bound) or (temp_curr > high_bound):
		print(f"""Город: {city_name}. Сезон: {season}. Температура: {temp_curr} - аномальная. Границы нормальной температуры [{low_bound}, {high_bound}]""")
	else:
		print(f"""Город: {city_name}. Сезон: {season}. Температура: {temp_curr} - нормальная. Границы нормальной температуры [{low_bound}, {high_bound}]""")
            
		
def fetch_posts_sequential(list_city_name, api_key=API_KEY, season='winter'):
    start_time = time.time()

    for city_name in list_city_name:
        get_info_outliers(api_key=api_key, city_name=city_name, season=season)

    elapsed_time = time.time() - start_time
    return elapsed_time

In [11]:
list_city_name = ['New York', 'London', 'Paris', 'Tokyo', 'Moscow', 'Sydney',
				  'Berlin', 'Beijing', 'Rio de Janeiro', 'Dubai', 'Los Angeles',
				  'Singapore', 'Mumbai', 'Cairo', 'Mexico City']

In [12]:
sequential_time_request = fetch_posts_sequential(list_city_name, api_key=API_KEY, season='winter')

Город: New York. Сезон: winter. Температура: 1.85 - нормальная. Границы нормальной температуры [-10.029002277034635, 10.082225428481937]
Город: London. Сезон: winter. Температура: 8.6 - нормальная. Границы нормальной температуры [-5.04946779875759, 14.99141888002249]
Город: Paris. Сезон: winter. Температура: 7.05 - нормальная. Границы нормальной температуры [-6.2271280334764425, 13.861235330231466]
Город: Tokyo. Сезон: winter. Температура: 5.91 - нормальная. Границы нормальной температуры [-3.868360913745117, 15.947208367079377]
Город: Moscow. Сезон: winter. Температура: 3.13 - аномальная. Границы нормальной температуры [-20.25524488193608, 0.3426930537131003]
Город: Sydney. Сезон: winter. Температура: 16.5 - нормальная. Границы нормальной температуры [2.7622370554757314, 22.409019615407402]
Город: Berlin. Сезон: winter. Температура: 5.72 - нормальная. Границы нормальной температуры [-9.72799482169782, 9.693357284277084]
Город: Beijing. Сезон: winter. Температура: -4.06 - нормальная. Г

Асинхронная реализация функций выше.

Однозначно лучше использовать асинхронность при получении данных из API и их последующей обработке. Поскольку в данном случае наша задача является IO-bounded и гораздо быстрее будет распараллелить получение ответа от API, нежели ждать последовательно ответы от каждого запроса.

In [13]:
# Это та жа функция из первого задания, только добавил async
async def hard_function(df, city):
    """
    Необходимо создать "тяжелую функцию". В этой функции для одного города:
    1.1. Считаются скользящим окном среднее и std. Тут же ищутся все аномалии относительно скользящих средних и std. 
         Больше эти данные полученные скользящим окном мы нигде не используем.
    1.2. Далее мы делаем groupby по сезону и считаем mean std для исходной температуры. Таким образом мы получаем профиль сезона.
    1.3. Ищем тренд (регрессия или что получше). Если обучаете регрессию, смотрите на коэффициент и возвращаете положительный или отрицательный тренд.
    1.4. Считаем среднюю, min, max температуры за все время.

    Необходимо вернуть следующую информацию:
    Город,
    Average/min/max температуры, 
    профиль сезона, 
    а также уклон тренда и список аномальных точек для города.

    Далее необходимо распараллелить эту функцию.
    """
    # Берем только данные по заданному городу
    df = df[df['city'] == city].reset_index(drop=True).copy()
    # Рассчитываем mean/std скользящим окном размера 30
    df['mean_rolling30'] = df['temperature'].rolling(30).mean()#.reset_index(0, drop=True)
    df['std_rolling30'] = df['temperature'].rolling(30).std()#.reset_index(0, drop=True)
    # Заполняем NaN'ы из первого окна первым рассчитанным значением std/mean
    df['mean_rolling30'] = df['mean_rolling30'].bfill()
    df['std_rolling30'] = df['std_rolling30'].bfill()
    # Рассчитваем границы выбросов mean(+-)2std
    df['mean-2std'] = df['mean_rolling30'] - 2 * df['std_rolling30']
    df['mean+2std'] = df['mean_rolling30'] + 2 * df['std_rolling30']
    # Проставляем флаг is_outlier_sma. True - если наблюдение выходит за границы выбросов, рассчитанных по скользящему среднему
    df.loc[(df['temperature'] < df['mean-2std']) | (df['temperature'] > df['mean+2std']), 'is_outlier_sma'] = True
    df['is_outlier_sma'] = df['is_outlier_sma'].fillna(False)
    # Считаем профиль сезона и границы выбросов для сезонов
    df_season_profile = df.groupby('season')['temperature'].agg(average_season='mean', std_season='std').reset_index(0)
    df_season_profile['mean-2std_season'] = df_season_profile['average_season'] - 2 * df_season_profile['std_season']
    df_season_profile['mean+2std_season'] = df_season_profile['average_season'] + 2 * df_season_profile['std_season']
    df = df.merge(df_season_profile, how='left', on='season')
    # Выявление выбросов на основании сезонного профиля
    df.loc[(df['temperature'] < df['mean-2std_season']) | (df['temperature'] > df['mean+2std_season']), 'is_outlier_season'] = True
    df['is_outlier_season'] = df['is_outlier_season'].fillna(False)
    # Ищем уклон тренда на основании линейной регрессии (часть информации позаимствовал отсюда https://medium.com/vortechsa/detecting-trends-in-time-series-data-using-python-2752be7d1172)
    # Для поиска тренда удалим часть наблюдений, являющихся выбросами, посчитанными через сезонный профиль
    X = df[~df['is_outlier_season']].reset_index(drop=True).index.values.reshape(-1, 1)
    y = df[~df['is_outlier_season']]['temperature'].reset_index(drop=True).values.reshape(-1, 1)
    lr_model = LinearRegression().fit(X, y)
    #y_pred = lr_model.predict(X)
    # Наклон прямой тренда. Если >0, то тренд положительный. Если <0, то тренд отрицательный
    slope = lr_model.coef_[0][0]
    # Считаем avg/min/max температур за все время
    temp_mean_alltime, temp_min_alltime, temp_max_alltime = df['temperature'].mean(), df['temperature'].min(), df['temperature'].max()

    return {
        'city': city,
        'temp_mean': temp_mean_alltime,
        'temp_min': temp_min_alltime,
        'temp_max': temp_max_alltime,
        'season_profile': df_season_profile,
        'trend_slope': slope,
        'list_outliers': df[df['is_outlier_season']]['timestamp'].to_list()
    }
    


In [14]:
async def get_post(api_key, city_name):
    # units={'metric'} позволяет указать шкалу Цельсия для вывода температуры
    url = f"https://api.openweathermap.org/data/2.5/weather?q={city_name}&appid={api_key}&units={'metric'}"
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            return await response.json()
    

async def get_info_outliers(api_key, city_name, season='winter'):
	# Получаем информацию по API
	response = await get_post(api_key=api_key, city_name=city_name)
	temp_curr = response['main']['temp']
	# Выгружаем информацию по границам выбросов для данного города и сезона
	df_ = (await hard_function(data, city_name))['season_profile']
	low_bound = df_.loc[(df_['season']==season), 'mean-2std_season'].values[0]
	high_bound = df_.loc[(df_['season']==season), 'mean+2std_season'].values[0]

	if (temp_curr < low_bound) or (temp_curr > high_bound):
		print(f"""Город: {city_name}. Сезон: {season}. Температура: {temp_curr} - аномальная. Границы нормальной температуры [{low_bound}, {high_bound}]""")
	else:
		print(f"""Город: {city_name}. Сезон: {season}. Температура: {temp_curr} - нормальная. Границы нормальной температуры [{low_bound}, {high_bound}]""")
            
		
async def fetch_posts_async(list_city_name, api_key=API_KEY, season='winter'):
    start_time = time.time()
    tasks = [get_info_outliers(api_key=API_KEY, city_name=i_cn, season='winter') for i_cn in list_city_name]
    results = await asyncio.gather(*tasks)
    elapsed_time = time.time() - start_time
    return elapsed_time

In [15]:
async_time_request = await fetch_posts_async(list_city_name=list_city_name, api_key=API_KEY, season='winter')

Город: Cairo. Сезон: winter. Температура: 17.42 - нормальная. Границы нормальной температуры [4.978960236912668, 25.1089442233431]
Город: New York. Сезон: winter. Температура: 1.79 - нормальная. Границы нормальной температуры [-10.029002277034635, 10.082225428481937]
Город: Paris. Сезон: winter. Температура: 7.05 - нормальная. Границы нормальной температуры [-6.2271280334764425, 13.861235330231466]
Город: Mexico City. Сезон: winter. Температура: 16.64 - нормальная. Границы нормальной температуры [2.3328459911563293, 21.782505460833306]
Город: Singapore. Сезон: winter. Температура: 25.68 - нормальная. Границы нормальной температуры [17.302008476445895, 36.642328863119786]
Город: Dubai. Сезон: winter. Температура: 21.96 - нормальная. Границы нормальной температуры [9.951778312961988, 29.4985510270669]
Город: Beijing. Сезон: winter. Температура: -4.06 - нормальная. Границы нормальной температуры [-11.927224475591682, 7.800625791306224]
Город: Los Angeles. Сезон: winter. Температура: 20.92

In [16]:
print('Время ожидания запросов в последовательном режиме:', sequential_time_request)
print('Время ожидания запросов в асинхронном режиме:', async_time_request)

Время ожидания запросов в последовательном режиме: 11.66563868522644
Время ожидания запросов в асинхронном режиме: 0.8513901233673096


Видим, что время обработки запросов в асинронном режиме в ~10 раз быстрее чем в последовательном

# Задание №3

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

In [18]:
pip list

Package                      Version
---------------------------- ------------
absl-py                      1.4.0
adagio                       0.2.4
aiofiles                     22.1.0
aiohappyeyeballs             2.4.4
aiohttp                      3.11.10
aiosignal                    1.3.2
aiosqlite                    0.18.0
altair                       4.2.2
annotated-types              0.7.0
ansi2html                    1.8.0
antlr4-python3-runtime       4.11.1
anyio                        3.6.2
appdirs                      1.4.4
argon2-cffi                  21.3.0
argon2-cffi-bindings         21.2.0
arrow                        1.2.3
asttokens                    2.2.1
astunparse                   1.6.3
async-timeout                5.0.1
attrs                        22.2.0
Babel                        2.12.1
backcall                     0.2.0
beautifulsoup4               4.11.2
bleach                       6.0.0
blinker                      1.5
cachetools                   5.3.0
cat