## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [1]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


In [2]:
import time

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

In [3]:
data_copy = data.copy()
data_copy.head()

Unnamed: 0,city,timestamp,temperature,season
0,New York,2010-01-01,-1.438617,winter
1,New York,2010-01-02,-3.736018,winter
2,New York,2010-01-03,7.615752,winter
3,New York,2010-01-04,7.053128,winter
4,New York,2010-01-05,-0.387433,winter


In [4]:
import polars as pl


'''
последовательная функция (Pandas)
'''
def ts_analyze(df: pd.DataFrame):

    df = df.sort_values(by=['city', 'timestamp']).reset_index(drop=True)
    
    df['moving_average'] = df.groupby('city')['temperature'].rolling(window=30).mean().reset_index(drop=True)

    df['average_temp_season'] = df.groupby(['city', 'season'])['temperature'].transform('mean')
    df['std_temp_season'] = df.groupby(['city', 'season'])['temperature'].transform('std')

    df['is_anomaly'] = np.abs(df['temperature'] - df['average_temp_season']) > 2 * df['std_temp_season']

    return df


'''
Параллельная функция с использованием polars
'''
def ts_analyze_polars(df: pl.DataFrame):
    df = df.sort(['city', 'timestamp'])

    df = df.with_columns(
        pl.col('temperature')
        .rolling_mean(window_size=30)
        .over('city')
        .alias('moving_average')
    )

    df = df.with_columns([
        pl.col('temperature')
        .mean()
        .over(['city', 'season'])
        .alias('average_temp_season'),
        
        pl.col('temperature')
        .std()
        .over(['city', 'season'])
        .alias('std_temp_season')
    ])

    df = df.with_columns(
        ((pl.col('temperature') - pl.col('average_temp_season')).abs() > 2 * pl.col('std_temp_season'))
        .alias('is_anomaly')
    )

    return df

In [5]:
ts_analyze(data.copy())

Unnamed: 0,city,timestamp,temperature,season,moving_average,average_temp_season,std_temp_season,is_anomaly
0,Beijing,2010-01-01,2.339123,winter,,-2.208159,5.010974,False
1,Beijing,2010-01-02,4.637647,winter,,-2.208159,5.010974,False
2,Beijing,2010-01-03,5.330879,winter,,-2.208159,5.010974,False
3,Beijing,2010-01-04,-5.011447,winter,,-2.208159,5.010974,False
4,Beijing,2010-01-05,-6.273098,winter,,-2.208159,5.010974,False
...,...,...,...,...,...,...,...,...
54745,Tokyo,2019-12-25,6.553529,winter,7.026402,6.061877,5.335612,False
54746,Tokyo,2019-12-26,6.638887,winter,6.899835,6.061877,5.335612,False
54747,Tokyo,2019-12-27,10.276878,winter,6.627105,6.061877,5.335612,False
54748,Tokyo,2019-12-28,19.547929,winter,6.657921,6.061877,5.335612,True


In [6]:
# Сравнение

# Pandas (последовательно)
data_copy = data.copy()
start_time = time.time()
df_res = ts_analyze(data_copy)
print(f'Время выполнения последовательного алгоритма: {time.time() - start_time} сек')

# polars (параллельно)
data_pl = pl.from_pandas(data.copy())
start_time = time.time()
df_res_pl = ts_analyze_polars(data_pl)
print(f'Время выполнения параллельного алгоритма (polars): {time.time() - start_time} сек')

Время выполнения последовательного алгоритма: 0.030553817749023438 сек
Время выполнения параллельного алгоритма (polars): 0.006600856781005859 сек


### С помощью polars удалось достичь ускорения обработки датафрейма

In [148]:
df_res_pl.to_pandas()

Unnamed: 0,city,timestamp,temperature,season,moving_average,average_temp_season,std_temp_season,is_anomaly
0,Beijing,2010-01-01,2.068420,winter,,-1.880677,4.986630,False
1,Beijing,2010-01-02,-5.403104,winter,,-1.880677,4.986630,False
2,Beijing,2010-01-03,1.354574,winter,,-1.880677,4.986630,False
3,Beijing,2010-01-04,-2.258194,winter,,-1.880677,4.986630,False
4,Beijing,2010-01-05,2.984468,winter,,-1.880677,4.986630,False
...,...,...,...,...,...,...,...,...
54745,Tokyo,2019-12-25,12.794893,winter,8.982991,6.280429,5.068078,False
54746,Tokyo,2019-12-26,2.150389,winter,8.435764,6.280429,5.068078,False
54747,Tokyo,2019-12-27,4.331412,winter,7.931678,6.280429,5.068078,False
54748,Tokyo,2019-12-28,16.900424,winter,7.943659,6.280429,5.068078,True


2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

In [7]:
import requests
import asyncio

In [8]:
API_KEY = ''

In [9]:
cities = data['city'].unique().tolist()

In [10]:
cities

['New York',
 'London',
 'Paris',
 'Tokyo',
 'Moscow',
 'Sydney',
 'Berlin',
 'Beijing',
 'Rio de Janeiro',
 'Dubai',
 'Los Angeles',
 'Singapore',
 'Mumbai',
 'Cairo',
 'Mexico City']

In [11]:
CITY = 'Moscow'
url = f"http://api.openweathermap.org/data/2.5/weather?q={CITY}&appid={API_KEY}&units=metric"

responce_temperature = requests.get(url)
temperature_data = responce_temperature.json()

In [12]:
temperature_data

{'coord': {'lon': 37.6156, 'lat': 55.7522},
 'weather': [{'id': 804,
   'main': 'Clouds',
   'description': 'overcast clouds',
   'icon': '04d'}],
 'base': 'stations',
 'main': {'temp': -1.82,
  'feels_like': -6.39,
  'temp_min': -2.76,
  'temp_max': -1.46,
  'pressure': 1013,
  'humidity': 62,
  'sea_level': 1013,
  'grnd_level': 993},
 'visibility': 10000,
 'wind': {'speed': 3.83, 'deg': 230, 'gust': 6.23},
 'clouds': {'all': 99},
 'dt': 1734871425,
 'sys': {'type': 2,
  'id': 2095214,
  'country': 'RU',
  'sunrise': 1734847090,
  'sunset': 1734872292},
 'timezone': 10800,
 'id': 524901,
 'name': 'Moscow',
 'cod': 200}

In [13]:
temp_min = temperature_data['main']['temp_min']
temp_max = temperature_data['main']['temp_max']

In [14]:
df = ts_analyze(data.copy())
df_msk = df[(df['season']=='winter') & (df['city']=='Moscow')].iloc[0]

print(np.abs(temp_min - df_msk['average_temp_season']) > 2 * df_msk['std_temp_season'])
print(np.abs(temp_max - df_msk['average_temp_season']) > 2 * df_msk['std_temp_season'])

False
False


Температура в Москве аномальная

In [15]:
for city in ['New York','London','Paris','Moscow']:
    df = ts_analyze(data.copy())
    df_city = df[(df['season']=='winter') & (df['city']==city)].iloc[0]
    url = f"http://api.openweathermap.org/data/2.5/weather?q={city}&appid={API_KEY}&units=metric"
    responce_temperature = requests.get(url)
    temperature_data = responce_temperature.json()
    temp_min = temperature_data['main']['temp_min']
    temp_max = temperature_data['main']['temp_max']
    print(f'City: {city}')
    print('min_anomaly:', np.abs(temp_min - df_city['average_temp_season']) > 2 * df_city['std_temp_season'])
    print('max_anomaly', np.abs(temp_max - df_city['average_temp_season']) > 2 * df_city['std_temp_season'])
    print("*" * 20)

City: New York
min_anomaly: False
max_anomaly False
********************
City: London
min_anomaly: False
max_anomaly False
********************
City: Paris
min_anomaly: False
max_anomaly False
********************
City: Moscow
min_anomaly: False
max_anomaly False
********************


# Асинхронные запросы

In [16]:
import aiohttp
import nest_asyncio
nest_asyncio.apply()

In [17]:
urls = []
for city in ['New York','London','Paris','Moscow']:
    url = f"http://api.openweathermap.org/data/2.5/weather?q={city}&appid={API_KEY}&units=metric"
    urls.append(url)
urls

['http://api.openweathermap.org/data/2.5/weather?q=New York&appid=8422760300a82b441e7e77f164d82625&units=metric',
 'http://api.openweathermap.org/data/2.5/weather?q=London&appid=8422760300a82b441e7e77f164d82625&units=metric',
 'http://api.openweathermap.org/data/2.5/weather?q=Paris&appid=8422760300a82b441e7e77f164d82625&units=metric',
 'http://api.openweathermap.org/data/2.5/weather?q=Moscow&appid=8422760300a82b441e7e77f164d82625&units=metric']

## Сравнение последовательных и асинхронных запросов

In [18]:
async def fetch(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            return await response.json()

async def make_requests(urls):
    tasks = [fetch(url) for url in urls]
    responses = await asyncio.gather(*tasks)
    return responses

start_time = time.time()    
asyncio.run(make_requests(urls))
print(f'Время выполнения запросов асинхронно: {time.time() - start_time} сек')

start_time = time.time()    
for url in urls:
    responce_temperature = requests.get(url)
print(f'Время выполнения запросов последовательно: {time.time() - start_time} сек')

Время выполнения запросов асинхронно: 0.1684868335723877 сек
Время выполнения запросов последовательно: 0.6568779945373535 сек


Асинхронные запросы выполняются быстрее, лучше использовать асинхронные методы