*Ссылка на Colab: https://colab.research.google.com/drive/1U2KqKFCMJm-IfCgNpTl8iC5fIdUj-VlY?usp=sharing* (там можно посмотреть интерактивные графики)

## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [67]:
pip install joblib



In [68]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.graph_objects as go
from joblib import Parallel, delayed
import time

In [69]:
# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)

***Анализ исторических данных***

*Для начала преобразуем датасет к удобному виду -- и посмотрим на временные ряды.*

In [70]:
data = data.set_index(['city', 'timestamp'])

In [71]:
def time_plot_for_city(df, city, parameter='temperature', start_date=None, end_date=None):
    fig = go.Figure()

    for sym in city:
        df_sym = df.xs(sym, level='city')

        if start_date:
            start_date = pd.to_datetime(start_date)
            df_sym = df_sym[df_sym.index >= start_date]
        if end_date:
            end_date = pd.to_datetime(end_date)
            df_sym = df_sym[df_sym.index <= end_date]

        if parameter in df_sym.columns:
            fig.add_trace(go.Scatter(x=df_sym.index, y=df_sym[parameter], mode='lines',
                                     name=f"{sym} {parameter.capitalize()}", hoverinfo='x+y'))
        else:
            print(f"Параметр '{parameter}' не найден для символа '{sym}'.")

    fig.update_layout(
        title=f'Time Plot of {parameter.capitalize()}',
        xaxis_title='Date',
        yaxis_title=f'{parameter.capitalize()}',
        xaxis_tickformat='%Y-%m-%d',
        showlegend=True,
        hovermode='x unified',
    )

    fig.show()

In [72]:
data.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,temperature,season
city,timestamp,Unnamed: 2_level_1,Unnamed: 3_level_1
New York,2010-01-01,1.646734,winter
New York,2010-01-02,8.171878,winter
New York,2010-01-03,-9.868057,winter
New York,2010-01-04,1.414353,winter
New York,2010-01-05,-4.364322,winter


In [73]:
# в качестве примера можем сравнить динамику температур разных городов
time_plot_for_city(data, ['Sydney', 'Moscow'], parameter='temperature', start_date='2010-01-01', end_date='2010-12-01')

*Найдем:*
- *скользящее среднее температуры с окном в 30 дней (для сглаживания краткосрочных колебаний)*
- *аномальные температуры*
- *долгосрочные тренды изменения температуры*

In [88]:
# скользящее среднее и стандартное отклонение
data['rolling_mean_temperature'] = data.groupby('city')['temperature'].rolling(window=30).mean().reset_index(level=0, drop=True)
data['rolling_std_temperature'] = data.groupby('city')['temperature'].rolling(window=30).std().reset_index(level=0, drop=True)

# аномалии
data['anomaly'] = ((data['temperature'] > (data['rolling_mean_temperature'] + 2 * data['rolling_std_temperature'])) |
                   (data['temperature'] < (data['rolling_mean_temperature'] - 2 * data['rolling_std_temperature'])))

# долгосрочные тренды
data['long_term_trend'] = data.groupby('city')['temperature'].rolling(window=365).mean().reset_index(level=0, drop=True)  # применяем 365-дневное скользящее среднее

In [75]:
def visualize_city_temperature(data: pd.DataFrame, city: str, start_date: str = None, end_date: str = None):
    city_data = data.xs(city, level='city')

    # зададим временной промежуток
    if start_date:
        city_data = city_data[city_data.index >= pd.to_datetime(start_date)]
    if end_date:
        city_data = city_data[city_data.index <= pd.to_datetime(end_date)]

    fig = go.Figure()

    # температура
    fig.add_trace(go.Scatter(x=city_data.index, y=city_data['temperature'],
                             mode='lines', hoverinfo='y', name='Temperature',
                             line=dict(color='grey', width=2)))

    # скользящее среднее
    fig.add_trace(go.Scatter(x=city_data.index, y=city_data['rolling_mean_temperature'],
                             mode='lines', hoverinfo='y', name='Rolling Mean (30 days)',
                             line=dict(color='yellow', width=2)))

    # долгосрочный тренд
    fig.add_trace(go.Scatter(x=city_data.index, y=city_data['long_term_trend'],
                             mode='lines', hoverinfo='y', name='Long-term Trend (365 days)',
                             line=dict(color='black', width=2)))

    # аномалии
    anomalies = city_data[city_data['anomaly']]
    fig.add_trace(go.Scatter(x=anomalies.index, y=anomalies['temperature'],
                             mode='markers', name='Anomalies',
                             marker=dict(color='red', size=8)))

    fig.update_layout(
        title=f'Temperature Trends and Anomalies in {city}',
        xaxis_title='Date',
        yaxis_title='Temperature',
        xaxis_tickformat='%Y-%m-%d',
        showlegend=True,
        hovermode='x unified',
    )

    fig.show()

In [76]:
visualize_city_temperature(data, 'New York', start_date='2014-01-01', end_date='2016-01-01')

*Распараллелим проведение анализа и сравним результаты!*

In [77]:
df = data.copy()

In [78]:
def compute_rolling_statistics(city_data):
    city_data['rolling_mean_temperature'] = city_data['temperature'].rolling(window=30).mean()
    city_data['rolling_std_temperature'] = city_data['temperature'].rolling(window=30).std()
    return city_data

In [79]:
# время без распараллеливания
start_time = time.time()

df['rolling_mean_temperature'] = df.groupby('city')['temperature'].rolling(window=30).mean().reset_index(level=0, drop=True)
df['rolling_std_temperature'] = df.groupby('city')['temperature'].rolling(window=30).std().reset_index(level=0, drop=True)

df['anomaly'] = ((df['temperature'] > (df['rolling_mean_temperature'] + 2 * df['rolling_std_temperature'])) |
                   (df['temperature'] < (df['rolling_mean_temperature'] - 2 * df['rolling_std_temperature'])))

df['long_term_trend'] = df.groupby('city')['temperature'].rolling(window=365).mean().reset_index(level=0, drop=True)

end_time = time.time()
print(f"Время выполнения без распараллеливания: {end_time - start_time:.2f} секунд")

# время с распараллеливанием
start_time_parallel = time.time()

city_groups = [group for _, group in df.groupby(level='city')]

results = Parallel(n_jobs=-1)(delayed(compute_rolling_statistics)(city_data) for city_data in city_groups) # распараллеливаем вычисления

df = pd.concat(results)

df['anomaly'] = ((df['temperature'] > (df['rolling_mean_temperature'] + 2 * df['rolling_std_temperature'])) |
                   (df['temperature'] < (df['rolling_mean_temperature'] - 2 * df['rolling_std_temperature'])))

df['long_term_trend'] = df.groupby('city')['temperature'].rolling(window=365).mean().reset_index(level=0, drop=True)

end_time_parallel = time.time()
print(f"Время выполнения с распараллеливанием: {end_time_parallel - start_time_parallel:.2f} секунд")

Время выполнения без распараллеливания: 0.09 секунд
Время выполнения с распараллеливанием: 2.76 секунд


**Вывод:** с распараллеливанием дольше!

***Мониторинг текущей температуры***

In [87]:
import requests

def get_current_temperature(city: str, country_code: str, api_key: str):
    url = f"http://api.openweathermap.org/data/2.5/weather?q={city},{country_code}&APPID={api_key}&units=metric"

    response = requests.get(url)

    if response.status_code == 200:
        data = response.json()
        temperature = data['main']['temp']  # температура в Кельвинах
        return temperature
    else:
        print(f"Ошибка: {response.status_code}")
        return None

*Проверим нормальность температуры*

In [81]:
def check_temperature_normality(data: pd.DataFrame, city: str, current_temperature: float) -> str:
    city_data = data.xs(city, level='city')

    # текущие сезонное среднее и стандартное отклонение
    rolling_mean = city_data['rolling_mean_temperature'].iloc[-1]
    rolling_std = city_data['rolling_std_temperature'].iloc[-1]

    # границы для нормальной температуры
    lower_bound = rolling_mean - 2 * rolling_std
    upper_bound = rolling_mean + 2 * rolling_std

    if current_temperature < lower_bound:
        return "Температура ниже нормы (аномалия)"
    elif current_temperature > upper_bound:
        return "Температура выше нормы (аномалия)"
    else:
        return "Температура в пределах нормы"

In [82]:
city = "Moscow"
country_code = "rus"
api_key = "API_KEY"

# текущая температура
current_temperature = get_current_temperature(city, country_code, api_key)

if current_temperature is not None:
    print(f"Текущая температура в {city.title()} составляет {current_temperature}°C.")

    normality_status = check_temperature_normality(data, city, current_temperature)
    print(normality_status)

Текущая температура в Moscow составляет 2.41°C.
Температура выше нормы (аномалия)


*Решим асихронным методом*

In [86]:
import aiohttp
import asyncio
import pandas as pd
import time
import nest_asyncio

nest_asyncio.apply()

async def get_current_temperature_async(city: str, country_code: str, api_key: str) -> float:
    url = f"http://api.openweathermap.org/data/2.5/weather?q={city},{country_code}&APPID={api_key}&units=metric"

    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            if response.status == 200:
                data = await response.json()
                temperature = data['main']['temp']
                return temperature
            else:
                print(f"Ошибка: {response.status}")
                return None

async def check_temperature_async(data: pd.DataFrame, city: str, country_code: str, api_key: str):
    current_temperature = await get_current_temperature_async(city, country_code, api_key)

    if current_temperature is not None:
        print(f"Текущая температура в {city} составляет {current_temperature}°C.")
        city_data = data.xs(city, level='city')

        rolling_mean = city_data['rolling_mean_temperature'].iloc[-1]
        rolling_std = city_data['rolling_std_temperature'].iloc[-1]

        lower_bound = rolling_mean - 2 * rolling_std
        upper_bound = rolling_mean + 2 * rolling_std

        if current_temperature < lower_bound:
            print("Температура ниже нормы (аномалия)")
        elif current_temperature > upper_bound:
            print("Температура выше нормы (аномалия)")
        else:
            print("Температура в пределах нормы")
    else:
        print("Не удалось получить текущую температуру.")

In [84]:
# проверим, что работает
async def main():
    city = "London"
    country_code = "uk"
    api_key = "API_KEY"

    await check_temperature_async(data, city, country_code, api_key)

loop = asyncio.get_event_loop()
loop.run_until_complete(main())

Текущая температура в London составляет -1.47°C.
Температура в пределах нормы


*Сравним методы*

In [85]:
# синхронный метод
start_time = time.time()
for city in list(seasonal_temperatures.keys()):
    get_current_temperature(city, "usa", "API_KEY")
end_time = time.time()

print(f"Синхронный метод завершен за {end_time - start_time:.2f} секунд.")

# асинхронный метод
async def fetch_temperatures_async():
    cities = list(seasonal_temperatures.keys())
    tasks = [
        get_current_temperature_async(city, "usa", "API_KEY")
        for city in cities
    ]
    await asyncio.gather(*tasks)

start_time = time.time()
asyncio.run(fetch_temperatures_async())
end_time = time.time()

print(f"Асинхронный метод завершен за {end_time - start_time:.2f} секунд.")

Синхронный метод завершен за 0.91 секунд.
Асинхронный метод завершен за 0.32 секунд.


**Вывод**: асинхронный метод быстрее!

***Создание приложения на Streamlit***

*Смотри в отдельном файле!*