## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [1]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


## ДЗ №1

In [2]:
import pandas as pd
import numpy as np
from multiprocessing import Pool, cpu_count
import time
import requests
import asyncio
import aiohttp
import matplotlib.pyplot as plt
from ipywidgets import interact

## Анализ исторических данных

In [3]:
def calculate_moving_average(df, window=30):
    '''Вычисление скользящего среднего'''
    df = df.sort_values(by='timestamp')
    df['moving_avg'] = df['temperature'].rolling(window=window).mean()
    return df

def calculate_seasonal_stats(df):
    '''Расчет среднего и стандартного отклонения по сезонам'''
    stats = (df.groupby(['city', 'season'])['temperature'].agg(['mean', 'std']).reset_index())
    return stats

def detect_anomalies(df, stats):
    '''Выявление аномалий'''
    df = df.merge(stats, on=['city', 'season'], how='left')
    df['is_anomaly'] = ((df['temperature'] < df['mean'] - 2 * df['std']) | (df['temperature'] > df['mean'] + 2 * df['std']))
    return df

def parallel_analysis(city):
    '''Распараллеливание анализа по городу'''
    city_data = data[data['city'] == city]
    city_data = calculate_moving_average(city_data)
    city_stats = calculate_seasonal_stats(city_data)
    city_data = detect_anomalies(city_data, city_stats)
    return city_data

def sequential_analysis():
    '''Последовательный анализ'''
    start_time = time.time()
    all_data = []
    for city in data['city'].unique():
        city_data = parallel_analysis(city)
        all_data.append(city_data)
    result = pd.concat(all_data)
    print(f'Время выполнения (последовательно): {time.time() - start_time:.2f} сек')
    return result

def plot_trends(results, city):
    '''Построение долгосрочных температурных трендов'''
    city_data = results[results['city'] == city]

    plt.figure(figsize=(12, 6))
    plt.plot(city_data['timestamp'], city_data['temperature'], label='Температура', alpha=0.5)
    plt.plot(city_data['timestamp'], city_data['moving_avg'], label='Скользящее среднее (30 дней)', color='red')
    plt.scatter(city_data['timestamp'][city_data['is_anomaly']],
                city_data['temperature'][city_data['is_anomaly']],
                color='orange', label='Аномалия', zorder=5)

    plt.title(f'Тренды температуры - {city}')
    plt.xlabel('Дата')
    plt.ylabel('Температура (°C)')
    plt.legend()
    plt.grid()
    plt.tight_layout()
    plt.show()

def parallel_analysis_wrapper():
    '''Параллельный анализ'''
    start_time = time.time()
    with Pool(cpu_count()) as pool:
        results = pool.map(parallel_analysis, data['city'].unique())
    result = pd.concat(results)
    print(f'Время выполнения (параллельно): {time.time() - start_time:.2f} сек')
    return result

In [4]:
data = pd.read_csv('temperature_data.csv', parse_dates=['timestamp'])

In [5]:
sequential_result = sequential_analysis()
parallel_result = parallel_analysis_wrapper()

Время выполнения (последовательно): 0.71 сек
Время выполнения (параллельно): 0.87 сек


In [6]:
sequential_result

Unnamed: 0,city,timestamp,temperature,season,moving_avg,mean,std,is_anomaly
0,New York,2010-01-01,11.386925,winter,,0.130565,4.911426,True
1,New York,2010-01-02,0.157421,winter,,0.130565,4.911426,False
2,New York,2010-01-03,0.319845,winter,,0.130565,4.911426,False
3,New York,2010-01-04,11.282493,winter,,0.130565,4.911426,True
4,New York,2010-01-05,7.783915,winter,,0.130565,4.911426,False
...,...,...,...,...,...,...,...,...
3645,Mexico City,2019-12-25,8.998439,winter,14.146903,11.840224,5.174878,False
3646,Mexico City,2019-12-26,16.404272,winter,14.319278,11.840224,5.174878,False
3647,Mexico City,2019-12-27,0.885744,winter,13.634840,11.840224,5.174878,True
3648,Mexico City,2019-12-28,20.431973,winter,13.699307,11.840224,5.174878,False


In [7]:
parallel_result

Unnamed: 0,city,timestamp,temperature,season,moving_avg,mean,std,is_anomaly
0,New York,2010-01-01,11.386925,winter,,0.130565,4.911426,True
1,New York,2010-01-02,0.157421,winter,,0.130565,4.911426,False
2,New York,2010-01-03,0.319845,winter,,0.130565,4.911426,False
3,New York,2010-01-04,11.282493,winter,,0.130565,4.911426,True
4,New York,2010-01-05,7.783915,winter,,0.130565,4.911426,False
...,...,...,...,...,...,...,...,...
3645,Mexico City,2019-12-25,8.998439,winter,14.146903,11.840224,5.174878,False
3646,Mexico City,2019-12-26,16.404272,winter,14.319278,11.840224,5.174878,False
3647,Mexico City,2019-12-27,0.885744,winter,13.634840,11.840224,5.174878,True
3648,Mexico City,2019-12-28,20.431973,winter,13.699307,11.840224,5.174878,False


In [8]:
def plot_city(city):
    city_data = sequential_result[sequential_result['city'] == city]

    plt.figure(figsize=(16, 8))
    plt.plot(city_data['timestamp'], city_data['temperature'], label='Температура', color='blue', alpha=0.3)
    plt.plot(city_data['timestamp'], city_data['moving_avg'], label='Скользящее среднее', color='orange', alpha=0.8)
    anomalies = city_data[city_data['is_anomaly']]
    plt.scatter(anomalies['timestamp'], anomalies['temperature'], label='Аномалии', color='red', zorder=5)
    plt.title(f'Температура и скользящее среднее (тренды) значение с аномалиями для {city}', fontsize=14)
    plt.xlabel('Дата', fontsize=12)
    plt.ylabel('Температура', fontsize=12)
    plt.legend(loc='best')
    plt.grid(alpha=0.3)
    plt.show()

cities = sequential_result['city'].unique()
interact(plot_city, city=cities)

interactive(children=(Dropdown(description='city', options=('New York', 'London', 'Paris', 'Tokyo', 'Moscow', …

## Мониторинг текущей температуры

In [9]:
API_KEY ='ЭТО СЕКРЕТ'
API_URL = 'http://api.openweathermap.org/data/2.5/weather'

In [10]:
historical_stats = pd.read_csv('temperature_data.csv')

In [11]:
def get_current_temperature_sync(city):
    params = {'q': city, 'units': 'metric', 'appid': API_KEY}
    response = requests.get(API_URL, params=params)
    if response.status_code == 200:
        data = response.json()
        return data['main']['temp']
    else:
        raise Exception(f'Ошибка при запросе температуры для {city}: {response.status_code}')

def check_temperature_anomaly(city, current_temp, season):
    city_stats = historical_stats[(historical_stats['city'] == city) & (historical_stats['season'] == season)]
    if not city_stats.empty:
        mean_temp = city_stats['temperature'].mean()
        std_temp = city_stats['temperature'].std()
        lower_bound = mean_temp - 2 * std_temp
        upper_bound = mean_temp + 2 * std_temp
        is_anomaly = not (lower_bound <= current_temp <= upper_bound)
        return is_anomaly, lower_bound, upper_bound, mean_temp, std_temp
    else:
        raise ValueError(f'Нет данных для города {city} в сезоне {season}')

def monitor_temperature_sync(cities, season):
    for city in cities:
        try:
            current_temp = get_current_temperature_sync(city)
            is_anomalous, lower, upper, mean_temp, std_temp = check_temperature_anomaly(city, current_temp, season)
            print(f'В {city}: температура равна{current_temp} градусам по С. Аномалия: {is_anomalous}. Средняя температура: {mean_temp}, std:{std_temp}')
        except Exception as e:
            print(e)

In [12]:
cities_to_monitor = ['Berlin', 'Cairo', 'Dubai', 'Beijing', 'Moscow', 'New York']
current_season = 'winter'

monitor_temperature_sync(cities_to_monitor, current_season)

В Berlin: температура равна5.58 градусам по С. Аномалия: False. Средняя температура: 0.07443360650091525, std:4.629622407519273
В Cairo: температура равна20.42 градусам по С. Аномалия: False. Средняя температура: 15.083473696972263, std:4.965533364056982
В Dubai: температура равна21.96 градусам по С. Аномалия: False. Средняя температура: 20.166618722916784, std:4.997401203923599
В Beijing: температура равна-7.06 градусам по С. Аномалия: False. Средняя температура: -1.9832302796637151, std:4.9154104998493215
В Moscow: температура равна-1.91 градусам по С. Аномалия: False. Средняя температура: -9.963012215269016, std:4.850087649910263
В New York: температура равна-7.74 градусам по С. Аномалия: False. Средняя температура: 0.13056530909953942, std:4.91142636016603
