## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [1]:
import pandas as pd
import polars as pl
import numpy as np
import time
import requests
import streamlit
import time
import asyncio
import aiohttp
from concurrent.futures import ThreadPoolExecutor
from multiprocessing import Process, Pool, Queue, Manager

In [3]:
# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


In [2]:
df = pd.read_csv(r"C:\Users\vyacheslav\PycharmProjects\HSE_python\temperature_data.csv")

In [3]:
df['скользящее среднее'] = df[df['city'] == 'New York']['temperature'].rolling(window=30).mean()

In [19]:
%%time

def use_pandas(frame):
    frame['mean'] = frame.groupby(['season', 'city'])['temperature'].transform('mean')
    frame['std'] = frame.groupby(['season', 'city'])['temperature'].transform('std')
    
    frame['аномальные данные'] = np.where(
        ((frame['mean'] + frame['std'] * 2) < frame['temperature']) | ((frame['mean'] - frame['std'] * 2) > frame['temperature']),
        True,
        False
    )
    return frame


use_pandas(df.copy())

CPU times: total: 0 ns
Wall time: 58.3 ms


Unnamed: 0,city,timestamp,temperature,season,mean,std,аномальные данные
0,New York,2010-01-01,2.195210,winter,0.033516,5.033830,False
1,New York,2010-01-02,-4.495230,winter,0.033516,5.033830,False
2,New York,2010-01-03,-5.070020,winter,0.033516,5.033830,False
3,New York,2010-01-04,5.032125,winter,0.033516,5.033830,False
4,New York,2010-01-05,-4.260883,winter,0.033516,5.033830,False
...,...,...,...,...,...,...,...
54745,Mexico City,2019-12-25,4.571449,winter,11.684650,5.042241,False
54746,Mexico City,2019-12-26,11.534023,winter,11.684650,5.042241,False
54747,Mexico City,2019-12-27,12.525010,winter,11.684650,5.042241,False
54748,Mexico City,2019-12-28,8.521927,winter,11.684650,5.042241,False


In [25]:
use_pandas(df.copy()).columns

Index(['city', 'timestamp', 'temperature', 'season', 'mean', 'std',
       'аномальные данные'],
      dtype='object')

In [None]:
# use_multiprocessing.py
"""import pandas as pd
import numpy as np
import time
from multiprocessing import Process, Pool, Queue, Manager


def count_with_multiprocessing(chunk, sharder_list):
    chunk['median'] = chunk.groupby(['season', 'city'])['temperature'].transform('median')
    chunk['std'] = chunk.groupby(['season', 'city'])['temperature'].transform('std')
    chunk['аномальные данные'] = np.where(
        ((chunk['median'] + chunk['std'] * 2) < chunk['temperature']) | (
                    (chunk['median'] - chunk['std'] * 2) > chunk['temperature']),
        True,
        False
    )
    sharder_list.append(chunk)


def run_process(frame, num_process):
    cities = frame['city'].unique()
    cities_split = np.array_split(cities, num_process)
    chunks = [frame[frame['city'].isin(chunk)].copy() for chunk in cities_split]
    with Manager() as manager:
        sharder_list = manager.list()
        processes = [Process(target=count_with_multiprocessing, args=(chunk, sharder_list)) for chunk in chunks]
        for process in processes:
            process.start()
        for process in processes:
            process.join()
        new_frame = pd.concat(list(sharder_list))
    return new_frame


if __name__ == '__main__':
    df = pd.read_csv(r'C:\Users\vyacheslav\PycharmProjects\HSE_python\temperature_data.csv')
    result = run_process(df.copy(), 3)
    print(result)"""

In [3]:
%%time

%run -i use_multiprocessing.py

              city   timestamp  temperature  season     median       std  \
0         New York  2010-01-01     2.195210  winter   0.048565  5.033830   
1         New York  2010-01-02    -4.495230  winter   0.048565  5.033830   
2         New York  2010-01-03    -5.070020  winter   0.048565  5.033830   
3         New York  2010-01-04     5.032125  winter   0.048565  5.033830   
4         New York  2010-01-05    -4.260883  winter   0.048565  5.033830   
...            ...         ...          ...     ...        ...       ...   
54745  Mexico City  2019-12-25     4.571449  winter  11.911135  5.042241   
54746  Mexico City  2019-12-26    11.534023  winter  11.911135  5.042241   
54747  Mexico City  2019-12-27    12.525010  winter  11.911135  5.042241   
54748  Mexico City  2019-12-28     8.521927  winter  11.911135  5.042241   
54749  Mexico City  2019-12-29    12.772342  winter  11.911135  5.042241   

       аномальные данные  
0                  False  
1                  False  
2     

In [4]:
%%time

def use_polars(frame):
    frame = pl.from_pandas(frame)
    grouped = frame.group_by(["season", "city"]).agg([
        pl.col("temperature").median().alias("mean"),
        pl.col("temperature").std().alias("std"),
    ])

    frame = frame.join(grouped, on=["season", "city"])

    frame = frame.with_columns(
        (
            ((frame["temperature"] > frame["mean"] + 2 * frame["std"]) |
             (frame["temperature"] < frame["mean"] - 2 * frame["std"]))
        ).alias("аномальные данные")
    )
    return frame

result = use_polars(df.copy())
print(result)

shape: (54_750, 8)
┌─────────────┬────────────┬─────────────┬────────┬────────────┬───────────┬──────────┬────────────┐
│ city        ┆ timestamp  ┆ temperature ┆ season ┆ скользящее ┆ mean      ┆ std      ┆ аномальные │
│ ---         ┆ ---        ┆ ---         ┆ ---    ┆ среднее    ┆ ---       ┆ ---      ┆ данные     │
│ str         ┆ str        ┆ f64         ┆ str    ┆ ---        ┆ f64       ┆ f64      ┆ ---        │
│             ┆            ┆             ┆        ┆ f64        ┆           ┆          ┆ bool       │
╞═════════════╪════════════╪═════════════╪════════╪════════════╪═══════════╪══════════╪════════════╡
│ New York    ┆ 2010-01-01 ┆ 2.19521     ┆ winter ┆ null       ┆ 0.048565  ┆ 5.03383  ┆ false      │
│ New York    ┆ 2010-01-02 ┆ -4.49523    ┆ winter ┆ null       ┆ 0.048565  ┆ 5.03383  ┆ false      │
│ New York    ┆ 2010-01-03 ┆ -5.07002    ┆ winter ┆ null       ┆ 0.048565  ┆ 5.03383  ┆ false      │
│ New York    ┆ 2010-01-04 ┆ 5.032125    ┆ winter ┆ null       ┆ 0.04856

Быстрее получилось использую стандартные библиотеки numpy и pandas

In [7]:
def get_latitude_and_longitude(city_name, api_key):
    url = r'http://api.openweathermap.org/geo/1.0/direct'
    params = {
        'q': city_name,
        'appid': api_key
    }
    resp = requests.get(url=url, params=params)
    json_resp = resp.json()
    geographic_coordinates = {'lat': json_resp[0]['lat'], 'lon': json_resp[0]['lon']}
    return geographic_coordinates


def get_weather_data(geographic_coordinates, api_key):
    url = r'https://api.openweathermap.org/data/2.5/weather'
    params = {
        'lat': geographic_coordinates['lat'],
        'lon': geographic_coordinates['lon'],
        'appid': api_key,
        'lang': 'ru',
        'units': 'metric'
    }
    resp = requests.get(url=url, params=params)
    json_resp = resp.json()
    return json_resp['main']['temp']


def process_task(city, api_key):
    geographic_coordinates = get_latitude_and_longitude(city, api_key)
    weather_data = get_weather_data(geographic_coordinates, api_key)
    result = {city: weather_data}
    return result

In [8]:
%%time

weather_data_in_cities = []
for city in df.city.unique():
    weather = process_task(city, API_KEY)
    weather_data_in_cities.append(weather)
print(weather_data_in_cities)

[{'New York': -4.07}, {'London': 6.28}, {'Paris': 6.66}, {'Tokyo': 4.39}, {'Moscow': -0.71}, {'Sydney': 14.52}, {'Berlin': 5.03}, {'Beijing': -7.06}, {'Rio de Janeiro': 23.23}, {'Dubai': 22.02}, {'Los Angeles': 15.9}, {'Singapore': 24.6}, {'Mumbai': 24.03}, {'Cairo': 17.33}, {'Mexico City': 16.54}]
CPU times: total: 8.09 s
Wall time: 26.1 s


In [9]:
%%time

def get_weather_data_using_threads(max_workers, api_key):
    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        futures = [
            executor.submit(process_task, city, api_key)
            for city in df.city.unique()
        ]
        results = [future.result() for future in futures]
    return results

print(get_weather_data_using_threads(3, API_KEY))

[{'New York': -4.07}, {'London': 6.28}, {'Paris': 6.66}, {'Tokyo': 4.39}, {'Moscow': -0.71}, {'Sydney': 14.52}, {'Berlin': 5.03}, {'Beijing': -7.06}, {'Rio de Janeiro': 23.23}, {'Dubai': 22.02}, {'Los Angeles': 15.9}, {'Singapore': 24.6}, {'Mumbai': 24.03}, {'Cairo': 17.33}, {'Mexico City': 16.54}]
CPU times: total: 12.2 s
Wall time: 8.31 s


In [20]:
%%time

async def get_latitude_and_longitude(city_name, api_key):
    async with aiohttp.ClientSession() as session:
        async with session.get(f'http://api.openweathermap.org/geo/1.0/direct?q={city_name}&appid={api_key}') as response:
            json_resp = await response.json()
            geographic_coordinates = {'lat': json_resp[0]['lat'], 'lon': json_resp[0]['lon']}
    return geographic_coordinates


async def get_weather_data(geographic_coordinates, api_key):
    async with aiohttp.ClientSession() as session:
        async with session.get(f'https://api.openweathermap.org/data/2.5/weather?lat={geographic_coordinates["lat"]}&lon={geographic_coordinates["lon"]}&appid={api_key}&lang=ru&units=metric') as response:
            json_resp = await response.json()
    return json_resp['main']['temp']


async def process_task(city, api_key):
    geographic_coordinates = await get_latitude_and_longitude(city, api_key)
    weather_data = await get_weather_data(geographic_coordinates, api_key)
    result = {city: weather_data}
    return result


result = asyncio.gather(*[process_task(city, API_KEY) for city in df.city.unique()])

CPU times: total: 0 ns
Wall time: 6.6 ms


In [21]:
print(result.result())

[{'New York': -4.07}, {'London': 6.28}, {'Paris': 6.66}, {'Tokyo': 4.39}, {'Moscow': 1.29}, {'Sydney': 14.52}, {'Berlin': 5.03}, {'Beijing': -7.06}, {'Rio de Janeiro': 23.23}, {'Dubai': 22.02}, {'Los Angeles': 16.03}, {'Singapore': 24.6}, {'Mumbai': 24.03}, {'Cairo': 17.33}, {'Mexico City': 16.54}]


In [27]:
df_for_today = pd.DataFrame(data=[data.values() for data in result.result()], index=[list(data.keys())[0] for data in result.result()], columns=['22.12.2024'])

df['timestamp'] = pd.to_datetime(df['timestamp'])

df_for_today = pd.merge(
    df_for_today,
    df[df['season'] == 'winter'].groupby('city')['temperature'].agg(['mean', 'std']),
    left_index=True, right_index=True, how='outer'
)

In [30]:
df_for_today['аномальные данные'] = np.where(
    ((df_for_today['mean'] + df_for_today['std'] * 2) < df_for_today['22.12.2024']) | ((df_for_today['mean'] - df_for_today['std'] * 2) > df_for_today['22.12.2024']),
    True,
    False
)

In [31]:
df_for_today

Unnamed: 0,22.12.2024,mean,std,аномальные данные
Beijing,-7.06,-1.906691,4.855098,False
Berlin,5.03,-0.137676,4.96517,False
Cairo,17.33,14.939975,4.959913,False
Dubai,22.02,19.930105,5.005282,False
London,6.28,4.90305,5.131355,False
Los Angeles,16.03,14.863209,5.078312,False
Mexico City,16.54,11.68465,5.042241,False
Moscow,1.29,-10.126967,4.993482,True
Mumbai,24.03,25.107651,5.081237,False
New York,-4.07,0.033516,5.03383,False


Как мы видим, температура является нормальной в Mumbai, Los Angeles, Singapore, Paris, London, Dubai, Tokyo...
В Moscow температура отличается от нормальных по сезону

Быстрее всего с получением информации по api, справился асинхронный подход. Подход с созданием потоков параллельного выполнения также справился значительно лучше обычного последовательного подхода.