## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [None]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


# Этап 1 - Анализ исторических данных

### Загрузка данных и импорты

In [None]:
import numpy as np
from scipy.stats import zscore
import multiprocessing as mp

In [None]:
data = pd.read_csv('temperature_data.csv')

In [None]:
data

In [None]:
data.shape

In [None]:
data['timestamp'] = pd.to_datetime(data['timestamp'])

### скользящее среднее

In [None]:
data['rolling_mean'] = data.groupby('city')['temperature'].rolling(window=30, min_periods=1).mean().reset_index(0, drop=True)

In [None]:
data['rolling_mean']

In [None]:
data.shape

### Cредняя температура и стандартное отклонение

In [None]:
def calculate_seasonal_stats(group):
    group['mean_temp'] = group['temperature'].mean()
    group['std_temp'] = group['temperature'].std()
    return group

In [None]:
grouped = data.groupby(['city', 'season'])

In [None]:
grouped

In [None]:
data = grouped.apply(calculate_seasonal_stats).reset_index(drop=True)

In [None]:
data.head(2)

In [None]:
data.shape

### Выявление аномалий

In [None]:
data['z_score'] = data.groupby(['city', 'season'])['temperature'].transform(zscore)
data['anomaly'] = np.abs(data['z_score']) > 2

In [None]:
data[data['anomaly'] == True]

### Распараллеливание пайплайна

In [None]:
def process_city(city_data):
    city_data['rolling_mean'] = city_data['temperature'].rolling(window=30, min_periods=1).mean()
    city_data = city_data.groupby('season').apply(calculate_seasonal_stats).reset_index(drop=True)
    city_data['z_score'] = city_data.groupby('season')['temperature'].transform(zscore)
    city_data['anomaly'] = np.abs(city_data['z_score']) > 2
    return city_data

In [None]:
cities = data['city'].unique()
city_data_list = [data[data['city'] == city] for city in cities]

In [None]:
with mp.Pool(mp.cpu_count()) as pool:
    results = pool.map(process_city, city_data_list)
data_parallel = pd.concat(results)


### Сравним время

In [None]:
# 1 поточный подход

In [None]:
data = pd.read_csv('temperature_data.csv')
data['timestamp'] = pd.to_datetime(data['timestamp'])

In [None]:
def calculate_seasonal_stats(group):
    group['mean_temp'] = group['temperature'].mean()
    group['std_temp'] = group['temperature'].std()
    return group

In [None]:
import time

start_time = time.time()

# скользящее среднеее
data['rolling_mean'] = data.groupby('city')['temperature'].rolling(window=30, min_periods=1).mean().reset_index(0, drop=True)

# среднее и стд

grouped = data.groupby(['city', 'season'])
data = grouped.apply(calculate_seasonal_stats).reset_index(drop=True)

# аномалии
data['z_score'] = data.groupby(['city', 'season'])['temperature'].transform(zscore)
data['anomaly'] = np.abs(data['z_score']) > 2

print(f"Время выполнения без распараллеливания: {time.time() - start_time} секунд")

Время выполнения без распараллеливания: 0.3018336296081543 секунд


  data = grouped.apply(calculate_seasonal_stats).reset_index(drop=True)


In [None]:
# параллельный подход

In [None]:
data = pd.read_csv('temperature_data.csv')
data['timestamp'] = pd.to_datetime(data['timestamp'])

In [None]:
def process_city(city_data):
    # скользящее среднее
    city_data['rolling_mean'] = city_data['temperature'].rolling(window=30, min_periods=1).mean()

    # среднее и стд
    def calculate_seasonal_stats(group):
        group['mean_temp'] = group['temperature'].mean()
        group['std_temp'] = group['temperature'].std()
        return group

    city_grouped = city_data.groupby('season')
    city_data = city_grouped.apply(calculate_seasonal_stats).reset_index(drop=True)

    # аномалии
    city_data['z_score'] = city_data.groupby('season')['temperature'].transform(zscore)
    city_data['anomaly'] = np.abs(city_data['z_score']) > 2

    return city_data

In [None]:
cities = data['city'].unique()
city_data_list = [data[data['city'] == city] for city in cities]

In [None]:
mp.cpu_count()

In [None]:
start_time = time.time()
with mp.Pool(mp.cpu_count()) as pool:
    results = pool.map(process_city, city_data_list)
data_parallel = pd.concat(results)
print(f"Время выполнения с распараллеливанием: {time.time() - start_time} секунд")

# Этап 2 - Мониторинг

### Данные и импорт

In [None]:
from datetime import datetime

In [None]:
data = pd.read_csv('temperature_data.csv')
data['timestamp'] = pd.to_datetime(data['timestamp'])

In [None]:
def get_current_season():
    month = datetime.now().month
    if month in [12, 1, 2]:
        return 'winter'
    elif month in [3, 4, 5]:
        return 'spring'
    elif month in [6, 7, 8]:
        return 'summer'
    else:
        return 'fall'

### текущая температуа для выбранного города через OpenWeatherMap API

In [None]:
import requests

In [None]:
api_key = '3b65a7da68820487bfc93641f20c780b'

In [None]:
def get_current_temperature(city, api_key):
    url = f'http://api.openweathermap.org/data/2.5/weather?q={city}&units=metric&appid={api_key}'
    response = requests.get(url)
    if response.status_code == 200:
        data = response.json()
        return data['main']['temp']
    else:
        return None

In [None]:
response.content

b'{"coord":{"lon":37.6156,"lat":55.7522},"weather":[{"id":804,"main":"Clouds","description":"overcast clouds","icon":"04n"}],"base":"stations","main":{"temp":-0.19,"feels_like":-4.42,"temp_min":-0.76,"temp_max":-0.19,"pressure":1023,"humidity":63,"sea_level":1023,"grnd_level":1003},"visibility":10000,"wind":{"speed":3.86,"deg":214,"gust":10.14},"clouds":{"all":95},"dt":1733165985,"sys":{"type":2,"id":2095214,"country":"RU","sunrise":1733117822,"sunset":1733144486},"timezone":10800,"id":524901,"name":"Moscow","cod":200}'

In [None]:
get_current_temperature(city='Moscow', api_key=api_key)

-0.12

### Адекватность температуры (ха-ха)

In [None]:
def is_temperature_normal(city, current_temp, current_season, historical_data):
    season_data = historical_data[(historical_data['city'] == city) & (historical_data['season'] == current_season)]
    if not season_data.empty:
        mean_temp = season_data['mean_temp'].values[0]
        std_temp = season_data['std_temp'].values[0]
        lower_bound = mean_temp - 2 * std_temp
        upper_bound = mean_temp + 2 * std_temp
        if lower_bound <= current_temp <= upper_bound:
            return True
        else:
            return False
    else:
        return None

### Синхронный вариант

In [None]:
def monitor_temperature_sync(cities, api_key, historical_data):
    current_season = get_current_season()
    for city in cities:
        temp = get_current_temperature(city, api_key)
        if temp is not None:
            is_normal = is_temperature_normal(city, temp, current_season, historical_data)
            print(f"City: {city}, Current Temp: {temp}°C, Is Normal: {is_normal}")
        else:
            print(f"City: {city}, Unable to retrieve temperature.")

In [None]:
cities = ['Berlin', 'Cairo', 'Dubai', 'Beijing', 'Moscow']
monitor_temperature_sync(cities, api_key, data)

City: Berlin, Current Temp: 5.79°C, Is Normal: True
City: Cairo, Current Temp: 18.42°C, Is Normal: True
City: Dubai, Current Temp: 24.96°C, Is Normal: True
City: Beijing, Current Temp: -6.06°C, Is Normal: True
City: Moscow, Current Temp: -0.12°C, Is Normal: False


и правда - по Москве видно, что температура для зимы (да и для осени) аномальна

### Асинхронный вариант

In [None]:
import aiohttp
import asyncio

In [None]:
async def get_current_temperature(city, api_key):
    url = f'http://api.openweathermap.org/data/2.5/weather?q={city}&units=metric&appid={api_key}'
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            if response.status == 200:
                data = await response.json()
                return data['main']['temp']
            else:
                return None

In [None]:
async def monitor_temperature_async(cities, api_key, historical_data):
    current_season = get_current_season()
    tasks = [asyncio.create_task(get_current_temperature(city, api_key)) for city in cities]

    temperatures = await asyncio.gather(*tasks)

    for city, temp in zip(cities, temperatures):
        if temp is not None:
            is_normal = is_temperature_normal(city, temp, current_season, historical_data)
            print(f"City: {city}, Current Temp: {temp}°C, Is Normal: {is_normal}")
        else:
            print(f"City: {city}, Unable to retrieve temperature.")

In [None]:
cities = ['Berlin', 'Cairo', 'Dubai', 'Beijing', 'Moscow']

In [None]:
await monitor_temperature_async(cities, api_key, data)

City: Berlin, Current Temp: 5.49°C, Is Normal: True
City: Cairo, Current Temp: 18.42°C, Is Normal: True
City: Dubai, Current Temp: 23.96°C, Is Normal: True
City: Beijing, Current Temp: -6.06°C, Is Normal: True
City: Moscow, Current Temp: -0.12°C, Is Normal: False


Асинхронный код лучше использовать для io bound задач - в том числе для API по http - надеюсь это очевидно и мне не надо это рассписывать ; )