## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [1]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


## Анализ исторических данных

In [3]:
import pandas as pd
df = pd.read_csv("temperature_data.csv")

1)

In [4]:
df['temperature 30ma'] = df['temperature'].rolling(30).mean()
df

Unnamed: 0,city,timestamp,temperature,season,temperature 30ma
0,New York,2010-01-01,4.945139,winter,
1,New York,2010-01-02,6.281791,winter,
2,New York,2010-01-03,0.800678,winter,
3,New York,2010-01-04,0.553223,winter,
4,New York,2010-01-05,-1.266278,winter,
...,...,...,...,...,...
54745,Mexico City,2019-12-25,5.691410,winter,11.610240
54746,Mexico City,2019-12-26,14.472363,winter,11.333107
54747,Mexico City,2019-12-27,14.120471,winter,11.078231
54748,Mexico City,2019-12-28,18.805543,winter,11.180400


2)

In [5]:
df.groupby(['city', 'season'])['temperature'].agg(['mean', 'std'])

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,std
city,season,Unnamed: 2_level_1,Unnamed: 3_level_1
Beijing,autumn,16.103654,5.051398
Beijing,spring,13.039328,5.026095
Beijing,summer,26.884471,5.107231
Beijing,winter,-1.953298,4.84298
Berlin,autumn,11.237264,5.216087
Berlin,spring,9.833254,4.924887
Berlin,summer,19.907825,5.13796
Berlin,winter,-0.04048,5.181684
Cairo,autumn,25.027807,4.842982
Cairo,spring,24.622416,4.992655


3.

In [6]:
df['mean temp'] = df.groupby(['city', 'season'])['temperature'].transform('mean')
df['std temp'] = df.groupby(['city', 'season'])['temperature'].transform('std')
df

Unnamed: 0,city,timestamp,temperature,season,temperature 30ma,mean temp,std temp
0,New York,2010-01-01,4.945139,winter,,-0.375942,4.929160
1,New York,2010-01-02,6.281791,winter,,-0.375942,4.929160
2,New York,2010-01-03,0.800678,winter,,-0.375942,4.929160
3,New York,2010-01-04,0.553223,winter,,-0.375942,4.929160
4,New York,2010-01-05,-1.266278,winter,,-0.375942,4.929160
...,...,...,...,...,...,...,...
54745,Mexico City,2019-12-25,5.691410,winter,11.610240,11.972814,5.019588
54746,Mexico City,2019-12-26,14.472363,winter,11.333107,11.972814,5.019588
54747,Mexico City,2019-12-27,14.120471,winter,11.078231,11.972814,5.019588
54748,Mexico City,2019-12-28,18.805543,winter,11.180400,11.972814,5.019588


In [7]:
anomalies = df[(df['temperature'] > df['mean temp'] + 2 * df['std temp']) | (df['temperature'] < df['mean temp'] - 2 * df['std temp'])]
anomalies

Unnamed: 0,city,timestamp,temperature,season,temperature 30ma,mean temp,std temp
45,New York,2010-02-15,-14.961195,winter,-0.661855,-0.375942,4.929160
90,New York,2010-04-01,-0.767250,spring,8.544077,9.947717,5.346993
92,New York,2010-04-03,-6.371102,spring,8.110795,9.947717,5.346993
97,New York,2010-04-08,21.160753,spring,8.834309,9.947717,5.346993
98,New York,2010-04-09,22.181540,spring,9.124305,9.947717,5.346993
...,...,...,...,...,...,...,...
54664,Mexico City,2019-10-05,25.547091,autumn,15.676510,14.804725,5.072267
54695,Mexico City,2019-11-05,4.571515,autumn,13.297183,14.804725,5.072267
54700,Mexico City,2019-11-10,25.638401,autumn,13.484118,14.804725,5.072267
54701,Mexico City,2019-11-11,0.734683,autumn,13.163191,14.804725,5.072267


Можно расспараллелить библиотекой Dask, или просто разделением на чанки с multiprocessing, но буду использовать polars.

In [10]:
import polars as pl

In [11]:
df_pl = pl.from_pandas(df)

df_pl = df_pl.with_columns(
    pl.col('temperature').rolling_mean(window_size=30).alias('temperature_30ma')
)
df_stats = df_pl.group_by(['city', 'season']).agg([
    pl.mean('temperature').alias('mean_temp'),
    pl.std('temperature').alias('std_temp')
])
df_pl = df_pl.join(df_stats, on=['city', 'season'], how='left')

anomalies = df_pl.filter(
    (pl.col('temperature') > pl.col('mean_temp') + 2 * pl.col('std_temp')) |
    (pl.col('temperature') < pl.col('mean_temp') - 2 * pl.col('std_temp'))
)

print(anomalies)

shape: (2_467, 10)
┌────────────┬────────────┬────────────┬────────┬───┬──────────┬────────────┬───────────┬──────────┐
│ city       ┆ timestamp  ┆ temperatur ┆ season ┆ … ┆ std temp ┆ temperatur ┆ mean_temp ┆ std_temp │
│ ---        ┆ ---        ┆ e          ┆ ---    ┆   ┆ ---      ┆ e_30ma     ┆ ---       ┆ ---      │
│ str        ┆ str        ┆ ---        ┆ str    ┆   ┆ f64      ┆ ---        ┆ f64       ┆ f64      │
│            ┆            ┆ f64        ┆        ┆   ┆          ┆ f64        ┆           ┆          │
╞════════════╪════════════╪════════════╪════════╪═══╪══════════╪════════════╪═══════════╪══════════╡
│ New York   ┆ 2010-02-15 ┆ -14.961195 ┆ winter ┆ … ┆ 4.92916  ┆ -0.661855  ┆ -0.375942 ┆ 4.92916  │
│ New York   ┆ 2010-04-01 ┆ -0.76725   ┆ spring ┆ … ┆ 5.346993 ┆ 8.544077   ┆ 9.947717  ┆ 5.346993 │
│ New York   ┆ 2010-04-03 ┆ -6.371102  ┆ spring ┆ … ┆ 5.346993 ┆ 8.110795   ┆ 9.947717  ┆ 5.346993 │
│ New York   ┆ 2010-04-08 ┆ 21.160753  ┆ spring ┆ … ┆ 5.346993 ┆ 8.83430

Сравнение скорости выполнения:

In [12]:
def process_pandas(df):
    df['temperature_30ma'] = df['temperature'].rolling(window=30, min_periods=1).mean()
    
    df['mean_temp'] = df.groupby(['city', 'season'])['temperature'].transform('mean')
    df['std_temp'] = df.groupby(['city', 'season'])['temperature'].transform('std')

    anomalies = df[
        (df['temperature'] > df['mean_temp'] + 2 * df['std_temp']) |
        (df['temperature'] < df['mean_temp'] - 2 * df['std_temp'])
    ]
    
    return anomalies

In [13]:
def process_polars(df):
    df_pl = pl.from_pandas(df)
    
    df_pl = df_pl.with_columns(
        pl.col('temperature').rolling_mean(window_size=30).alias('temperature_30ma')
    )
    
    df_stats = df_pl.group_by(['city', 'season']).agg([
        pl.col('temperature').mean().alias('mean_temp'),
        pl.col('temperature').std().alias('std_temp')
    ])
    
    df_pl = df_pl.join(df_stats, on=['city', 'season'], how='left')

    anomalies = df_pl.filter(
        (pl.col('temperature') > pl.col('mean_temp') + 2 * pl.col('std_temp')) |
        (pl.col('temperature') < pl.col('mean_temp') - 2 * pl.col('std_temp'))
    )
    
    return anomalies


In [14]:
df = pd.read_csv("temperature_data.csv")
df_pandas = df.copy()
df_polars = df.copy()

In [15]:
%timeit -n 100 anomalies_pandas = process_pandas(df_pandas)

7.22 ms ± 257 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [16]:
%timeit -n 100 anomalies_polars = process_polars(df_polars)

12.5 ms ± 269 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


## Мониторинг текущей температуры

In [18]:
import os
import requests
from dotenv import load_dotenv


# api
api_key = 

In [19]:
def get_current_temperature(city):
    url = "https://api.openweathermap.org/data/2.5/weather"
    params = {
        "q": city,
        "appid": api_key,
        "units": "metric"
    }

    try:
        response = requests.get(url, params=params, timeout=10)
        response.raise_for_status()  # Проверка на HTTP ошибки
        data = response.json()
        temperature = data['main']['temp']
        return temperature
    except (requests.exceptions.RequestException, KeyError) as e:
        print(f"Error: {e}")
        return None


In [21]:
city = "Moscow"
print(f"{city} current temperature: {get_current_temperature(city)}°C")

Moscow current temperature: -2.41°C


In [27]:
city = "Ufa"
print(f"{city} current temperature: {get_current_temperature(city)}°C")

Ufa current temperature: -4.35°C


In [26]:
df['timestamp'] = pd.to_datetime(df['timestamp'])
df['month'] = df['timestamp'].dt.month

for city in ["Moscow", "Berlin", "Cairo", "Dubai", "Beijing"]:
    print(f"{city} december average temperature: {df[(df['city'] == city) & (df['season'] == 'winter') & (df['month'] == 12)]['temperature'].mean()}°C")
    print(f"{city} current temperature: {get_current_temperature(city)}°C")
    print()

Moscow december average temperature: -9.939203006492512°C
Moscow current temperature: -2.41°C

Berlin december average temperature: -0.2539132465082155°C
Berlin current temperature: 4.78°C

Cairo december average temperature: 14.99088597359581°C
Cairo current temperature: 19.42°C

Dubai december average temperature: 20.185759015506875°C
Dubai current temperature: 21.96°C

Beijing december average temperature: -1.78665666838066°C
Beijing current temperature: -7.06°C



В целом норм, в Берлине только различия сильные

# Async

In [30]:
import asyncio, aiohttp

async def get_current_temperature(city):
    url = "https://api.openweathermap.org/data/2.5/weather"
    params = {
        "q": city,
        "appid": api_key,
        "units": "metric"
    }

    async with aiohttp.ClientSession() as session:
        async with session.get(url, params=params) as response:
            data = await response.json()
            temp = data['main']['temp']
            return city, temp

await asyncio.create_task(get_current_temperature("Moscow"))

('Moscow', -2.41)

In [32]:
def get_current_temperature_sync(city):
    url = "https://api.openweathermap.org/data/2.5/weather"
    params = {
        "q": city,
        "appid": api_key,
        "units": "metric"
    }
    response = requests.get(url, params=params)
    data = response.json()
    temp = data['main']['temp']
    return city, temp

In [35]:
import datetime
import time


start_time_sync = time.time()
cities = df['city'].unique()
results_sync = [get_current_temperature_sync(city) for city in cities]
end_time_sync = time.time()

print(f"Synchronous execution time: {end_time_sync - start_time_sync:.4f} seconds")
for city, temp in results_sync:
    print(f"Current temperature in {city}: {temp}°C")

Synchronous execution time: 5.1695 seconds
Current temperature in New York: -7.02°C
Current temperature in London: 5.95°C
Current temperature in Paris: 5.02°C
Current temperature in Tokyo: 3.44°C
Current temperature in Moscow: -2.41°C
Current temperature in Sydney: 22.1°C
Current temperature in Berlin: 4.8°C
Current temperature in Beijing: -7.06°C
Current temperature in Rio de Janeiro: 27.15°C
Current temperature in Dubai: 21.96°C
Current temperature in Los Angeles: 14.76°C
Current temperature in Singapore: 26.69°C
Current temperature in Mumbai: 24.99°C
Current temperature in Cairo: 19.42°C
Current temperature in Mexico City: 14.97°C


In [40]:
async def async_main():
    cities = df['city'].unique()
    tasks = [get_current_temperature(city) for city in cities]
    results = await asyncio.gather(*tasks)
    return results

async def main():
    start_time_async = time.time()
    results_async = await async_main()
    end_time_async = time.time()

    print(f"Asynchronous execution time: {end_time_async - start_time_async:.4f} seconds")
    for city, temp in results_async:
        print(f"Current temperature in {city}: {temp}°C")
        
if asyncio.get_event_loop().is_running():
    await main()
else:
    asyncio.run(main())

Asynchronous execution time: 1.3171 seconds
Current temperature in New York: -7.02°C
Current temperature in London: 5.95°C
Current temperature in Paris: 5.02°C
Current temperature in Tokyo: 3.28°C
Current temperature in Moscow: -2.41°C
Current temperature in Sydney: 22.1°C
Current temperature in Berlin: 4.85°C
Current temperature in Beijing: -7.06°C
Current temperature in Rio de Janeiro: 27.15°C
Current temperature in Dubai: 21.96°C
Current temperature in Los Angeles: 14.76°C
Current temperature in Singapore: 26.69°C
Current temperature in Mumbai: 24.99°C
Current temperature in Cairo: 19.42°C
Current temperature in Mexico City: 14.97°C


## Создание приложения на Streamlit

Посмотреть streamlit.py

In [44]:
import statsmodels
print('statsmodels: {}'.format(statsmodels.__version__))

statsmodels: 0.14.4
