## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [1]:
import pandas as pd
import numpy as np
import time
from multiprocessing import Pool
import httpx
import json
import asyncio
import aiohttp
import datetime


# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


In [2]:
df = pd.read_csv('temperature_data.csv')

In [3]:
# Функция для определения аномалий
def is_anomaly(row):
    if ((row['temperature'] > row['mean_temperature'] + 2 * row['std_temperature']) or
       (row['temperature'] < row['mean_temperature'] - 2 * row['std_temperature'])):
        return 1
    else:
        return 0

In [4]:
# Функция для рассчета статистик

def process_data(df):
    df['rolling_mean_30'] = df.groupby(['city'])['temperature'].rolling(window=30).mean().reset_index(level=0, drop=True)
    mean = df.groupby(['city', 'season'])['temperature'].mean().reset_index(name='mean_temperature')
    std = df.groupby(['city', 'season'])['temperature'].std().reset_index(name='std_temperature')
    df = df.merge(mean, on=['city', 'season']).merge(std, on=['city', 'season'])
    df['is_anomaly'] = df.apply(is_anomaly, axis=1)
    return df


In [5]:
start = time.time()
df_new = process_data(df)
end = time.time()
print('Время выполнения:', end-start)
display(df_new)

Время выполнения: 2.746354341506958


Unnamed: 0,city,timestamp,temperature,season,rolling_mean_30,mean_temperature,std_temperature,is_anomaly
0,New York,2010-01-01,6.860319,winter,,0.080177,4.893601,0
1,New York,2010-01-02,7.356563,winter,,0.080177,4.893601,0
2,New York,2010-01-03,1.900260,winter,,0.080177,4.893601,0
3,New York,2010-01-04,-7.333618,winter,,0.080177,4.893601,0
4,New York,2010-01-05,-4.592934,winter,,0.080177,4.893601,0
...,...,...,...,...,...,...,...,...
54745,Mexico City,2019-12-25,20.488551,winter,13.167401,11.963256,5.102812,0
54746,Mexico City,2019-12-26,9.186707,winter,12.995058,11.963256,5.102812,0
54747,Mexico City,2019-12-27,19.078663,winter,12.887681,11.963256,5.102812,0
54748,Mexico City,2019-12-28,14.696969,winter,12.586261,11.963256,5.102812,0


Распараллеливание нужно проводить строго по городам, т.к. иначе скользящее среднее, средние значения и стандартные отклонения посчитаются неправильно (в ядро может попасть только часть данных по городу и сезону). Т.к. количество записей в каждом городе одинаково, нагрузка на ядра будет равномерной.

In [6]:
# Функция для распараллеливания по городам
def parallel_apply(df, func, n_cores=5):
    cities = df['city'].unique()

    city_dfs = [df.query(f'city == "{city}"') for city in cities]

    n_cores = min(len(cities), n_cores)

    with Pool(n_cores) as pool:
        results = pool.map(func, city_dfs)

    return pd.concat(results).reset_index(drop=True)


In [7]:
start = time.time()
df_parall = parallel_apply(df, process_data, n_cores=5)
end = time.time()
print('Время выполнения:', end-start)
display(df_parall)


Время выполнения: 2.1421992778778076


Unnamed: 0,city,timestamp,temperature,season,rolling_mean_30,mean_temperature,std_temperature,is_anomaly
0,New York,2010-01-01,6.860319,winter,,0.080177,4.893601,0
1,New York,2010-01-02,7.356563,winter,,0.080177,4.893601,0
2,New York,2010-01-03,1.900260,winter,,0.080177,4.893601,0
3,New York,2010-01-04,-7.333618,winter,,0.080177,4.893601,0
4,New York,2010-01-05,-4.592934,winter,,0.080177,4.893601,0
...,...,...,...,...,...,...,...,...
54745,Mexico City,2019-12-25,20.488551,winter,13.167401,11.963256,5.102812,0
54746,Mexico City,2019-12-26,9.186707,winter,12.995058,11.963256,5.102812,0
54747,Mexico City,2019-12-27,19.078663,winter,12.887681,11.963256,5.102812,0
54748,Mexico City,2019-12-28,14.696969,winter,12.586261,11.963256,5.102812,0


**Вывод**

При обработке датафреймов распараллеливание не всегда повышает скорость (иногда быстрее, иногда медленнее). Объем исследуемых данных небольшой и обрабатывается за 1-2 секунды и на одном ядре, поэтому сложно сделать вывод об эффективности распараллеливания. Возможно, на больших объемах данных разница была бы более очевидной.

Напишем синхронный вариант получения температуры из API

In [8]:
def get_weather(city, api_key):

    client = httpx.Client()
    try:
        response_coord = client.get(f"http://api.openweathermap.org/geo/1.0/direct?q={city}&limit=1&appid={API_KEY}")
        res = response_coord.json()
        lat = res[0]['lat']
        lon = res[0]['lon']

    except Exception as e:
        print(f"Error getting coordinates: {e}")


    try:
        response_weather = client.get(f"https://api.openweathermap.org/data/2.5/weather?lat={lat}&lon={lon}&appid={API_KEY}")
        res = response_weather.json()
        temperature_kel = res['main']['temp']
        temperature_cels = temperature_kel - 273.15
        print(f'Температура в {city}: {round(temperature_cels,2)}℃')

    except Exception as e:
        print(f"Error getting weather: {e}")

    return round(temperature_cels,2)

In [9]:
API_KEY = ''

cities = df['city'].unique()

start_time = time.time()
for city in cities:
    get_weather(city, API_KEY)
end_time = time.time()

print(f'Время выполнения: {end_time-start_time}')

Температура в New York: 4.26℃
Температура в London: 7.64℃
Температура в Paris: 4.44℃
Температура в Tokyo: 5.1℃
Температура в Moscow: -3.1℃
Температура в Sydney: 21.05℃
Температура в Berlin: 2.23℃
Температура в Beijing: 1.94℃
Температура в Rio de Janeiro: 25.94℃
Температура в Dubai: 25.02℃
Температура в Los Angeles: 12.91℃
Температура в Singapore: 27.82℃
Температура в Mumbai: 27.03℃
Температура в Cairo: 20.33℃
Температура в Mexico City: 15.94℃
Время выполнения: 4.824635028839111


Напишем асинхронный вариант

In [10]:
async def async_get_weather(session, city, API_KEY):
    async with session.get(f"http://api.openweathermap.org/geo/1.0/direct?q={city}&limit=1&appid={API_KEY}") as response_coord:
        try:
            result_coord = await response_coord.json()
            lat = result_coord[0]['lat']
            lon = result_coord[0]['lon']
        except Exception as e:
            print(f"Error getting coordinates: {e}")
            return None

    if lat is not None and lon is not None:
        async with session.get(f"https://api.openweathermap.org/data/2.5/weather?lat={lat}&lon={lon}&appid={API_KEY}") as response_weather:
            try:
                res = await response_weather.json()
                temperature_kel = res['main']['temp']
                temperature_cels = temperature_kel - 273.15

            except Exception as e:
                print(f"Error getting weather: {e}")
                return None

            return round(temperature_cels,2)
    else:
        return None


In [11]:
start_time = time.time()

async with aiohttp.ClientSession() as session:
    tasks = []

    for city in cities:
        task = async_get_weather(session, city, API_KEY)
        tasks.append(task)

    results = await asyncio.gather(*tasks)

    for city, temp in zip(cities, results):
        if temp is not None:
            print(f"Температура в {city}: {temp} °C")
        else:
            print(f"Погода для {city} недоступна.")

end_time = time.time()
print(f'Время выполнения: {end_time-start_time}')

Температура в New York: 4.26 °C
Температура в London: 7.64 °C
Температура в Paris: 4.44 °C
Температура в Tokyo: 5.1 °C
Температура в Moscow: -3.1 °C
Температура в Sydney: 21.05 °C
Температура в Berlin: 2.23 °C
Температура в Beijing: 1.94 °C
Температура в Rio de Janeiro: 25.94 °C
Температура в Dubai: 25.02 °C
Температура в Los Angeles: 12.91 °C
Температура в Singapore: 27.82 °C
Температура в Mumbai: 27.03 °C
Температура в Cairo: 20.33 °C
Температура в Mexico City: 15.94 °C
Время выполнения: 0.40618085861206055


Асинхронный вариант быстрее в десятки раз. Предпочтительнее использовать его.

Добавим выявление аномалий

In [12]:
# Создадим таблицу со средним и стандартным отклонением по городам и сезонам

df_stats = df_new[['city', 'season', 'mean_temperature', 'std_temperature']].drop_duplicates().reset_index(drop=True)


# Напишем функцию для определения границ аномалий
def get_anomaly_range(df_stats, city, day=None):
    if day is None:
        day = datetime.datetime.now()
    month = day.month

    if month in [12, 1, 2]:
        season = 'winter'
    elif month in [3, 4, 5]:
        season = 'spring'
    elif month in [6, 7, 8]:
        season = 'summer'
    else:
        season = 'autumn'

    filt = df_stats[(df_stats['city']==city) & (df_stats['season']==season)][['mean_temperature', 'std_temperature']]
    mean = filt.iloc[0]['mean_temperature']
    std = filt.iloc[0]['std_temperature']

    min = mean - 2 * std
    max = mean + 2 * std
    return min, max


In [13]:
async with aiohttp.ClientSession() as session:
    tasks = []

    for city in cities:
        task = async_get_weather(session, city, API_KEY)
        tasks.append(task)

    results = await asyncio.gather(*tasks)


    for city, temp in zip(cities, results):
        if temp is not None:
            min, max = get_anomaly_range(df_stats, city)
            if min <= temp <= max:
                print(f"Температура в {city}: {temp} °C (соответствует сезону).")
            else:
                print(f"Температура в {city}: {temp} °C (аномальная).")
        else:
            print(f"Погода для {city} недоступна.")

Температура в New York: 4.26 °C (соответствует сезону).
Температура в London: 7.64 °C (соответствует сезону).
Температура в Paris: 4.44 °C (соответствует сезону).
Температура в Tokyo: 5.1 °C (соответствует сезону).
Температура в Moscow: -3.1 °C (соответствует сезону).
Температура в Sydney: 21.05 °C (соответствует сезону).
Температура в Berlin: 2.23 °C (соответствует сезону).
Температура в Beijing: 1.94 °C (соответствует сезону).
Температура в Rio de Janeiro: 25.94 °C (соответствует сезону).
Температура в Dubai: 25.02 °C (соответствует сезону).
Температура в Los Angeles: 12.91 °C (соответствует сезону).
Температура в Singapore: 27.82 °C (соответствует сезону).
Температура в Mumbai: 27.03 °C (соответствует сезону).
Температура в Cairo: 20.33 °C (соответствует сезону).
Температура в Mexico City: 15.94 °C (соответствует сезону).
