## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [1]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)

In [2]:
data = pd.read_csv('temperature_data.csv')

In [5]:
## Функция без распараллеливания
def process_chunk_no_parallel(chunk):
    chunk['mean_temp_city'] = chunk.groupby(['city'])['temperature'].transform(lambda x: x.rolling(window=30, min_periods=0).median())
    chunk['std_temp_city'] = chunk.groupby(['city'])['temperature'].transform(lambda x: x.rolling(window=30, min_periods=0).std())
    chunk = chunk.fillna({'std_temp_city': 0})
    chunk['anomaly'] = chunk.apply(lambda row: (row.temperature < row.std_temp_city - 2 * row.mean_temp_city) or (row.temperature > row.mean_temp_city + 2 * row.std_temp_city), axis=1)

    chunk['mean_temp_season'] = chunk.groupby(['city', 'season'])['temperature'].transform(lambda x: x.rolling(window=30, min_periods=0).median())
    chunk['std_temp_season'] = chunk.groupby(['city', 'season'])['temperature'].transform(lambda x: x.rolling(window=30, min_periods=0).std())
    chunk = chunk.fillna({'std_temp_season': 0})

    chunk['mean_temp'] = chunk.groupby(['city', 'season'])['temperature'].transform('mean')
    chunk['std_temp'] = chunk.groupby(['city', 'season'])['temperature'].transform('std')

    return chunk

## Функция для распараллеливания
def process_chunk_parallel(chunk):
    chunk['mean_temp_city'] = chunk['temperature'].rolling(window=30, min_periods=0).median()
    chunk['std_temp_city'] = chunk['temperature'].rolling(window=30, min_periods=0).std()
    chunk = chunk.fillna({'std_temp_city': 0})
    chunk['anomaly'] = chunk.apply(lambda row: (row.temperature < row.std_temp_city - 2 * row.mean_temp_city) or (row.temperature > row.mean_temp_city + 2 * row.std_temp_city), axis=1)

    chunk['mean_temp_season'] = chunk.groupby(['season'])['temperature'].transform(lambda x: x.rolling(window=30, min_periods=0).median())
    chunk['std_temp_season'] = chunk.groupby(['season'])['temperature'].transform(lambda x: x.rolling(window=30, min_periods=0).std())
    chunk = chunk.fillna({'std_temp_season': 0})

    chunk['mean_temp'] = chunk.groupby(['season'])['temperature'].transform('mean')
    chunk['std_temp'] = chunk.groupby(['season'])['temperature'].transform('std')

    return chunk

In [6]:
%%time
data_no_parallel = process_chunk_no_parallel(data)

CPU times: user 2.22 s, sys: 26.6 ms, total: 2.25 s
Wall time: 2.28 s


In [7]:
from multiprocessing import Pool

def parallel_apply(df, func, n_cores=4):
    chunk_size = len(df) // n_cores
    chunks = [df[i * chunk_size:(i + 1) * chunk_size] for i in range(n_cores)]

    with Pool(n_cores) as pool:
        results = pool.map(func, chunks)

    return pd.concat(results)

In [8]:
%%time
data_parallel = parallel_apply(data, process_chunk_parallel, n_cores=15)

CPU times: user 268 ms, sys: 143 ms, total: 411 ms
Wall time: 3.21 s


`Вывод: код с распараллеливанием чуть медленнее, чем без него`

## Задание 2

In [9]:
import requests
import json
import time
from tqdm import tqdm

In [15]:
## Функция получения данных города
def get_city_params(city, limit, API_KEY):
    city_link = f'http://api.openweathermap.org/geo/1.0/direct?q={city}&limit={limit}&appid={API_KEY}'
    city_request = requests.get(city_link)
    city_result = json.loads(city_request.content)
    city_lat, city_lon = city_result[0]['lat'], city_result[0]['lon']
    city_time = time.time()

    return city_lat, city_lon, city_time

In [23]:
## Функция получения температуры в городе
def get_city_temp(city_lat, city_lon, city_time, API_KEY):
    temp_link = f'https://api.openweathermap.org/data/2.5/weather?lat={city_lat}&lon={city_lon}&appid={API_KEY}&units=metric'
    temp_request = requests.get(temp_link)
    temp_result = json.loads(temp_request.content)
    city_temp = temp_result['main']['temp']

    return city_temp

In [32]:
city_name = 'Mumbai'
cities = data['city'].unique()
limit = 1
api_key = '67873c86e138d78f41ae64680f982bc3'

city_info_link = f"http://api.openweathermap.org/geo/1.0/direct?q={city_name}&limit=1&appid={api_key}"
response = requests.get(city_info_link)

In [33]:
## Получим температуру для выбранного города
city_lat, city_lon, city_time = get_city_params(city_name, limit, api_key)
city_temp = get_city_temp(city_lat, city_lon, city_time, api_key)
city_temp

28.03

In [34]:
city_season_data = data[(data['city'] == 'Mumbai') & (data['season'] == 'winter')].copy()
mean_temp_city_season = data['mean_temp_city'].unique()[0]
std_temp_city_season = data['std_temp_city'].unique()[0]

## Определим аномальность погоды для города
min_temp = mean_temp_city_season - 2 * std_temp_city_season
max_temp =  mean_temp_city_season + 2 * std_temp_city_season
print(min_temp < city_temp < max_temp)

False


In [37]:
## Соберем данные о текущей погоде для всех городов из выборки

cities_temp = {}
for city in tqdm(cities):
    city_lat, city_lon, city_time = get_city_params(city, limit, api_key)
    city_temp = get_city_temp(city_lat, city_lon, city_time, api_key)

    cities_temp[city] = city_temp

100%|██████████| 15/15 [00:02<00:00,  5.13it/s]


In [38]:
## Словарь температур в городах выглядит так:
cities_temp

{'New York': 0.64,
 'London': 0.52,
 'Paris': 2.82,
 'Tokyo': 7.14,
 'Moscow': 1.29,
 'Sydney': 23.46,
 'Berlin': 1.77,
 'Beijing': 0.94,
 'Rio de Janeiro': 23.91,
 'Dubai': 26.02,
 'Los Angeles': 13.36,
 'Singapore': 24.6,
 'Mumbai': 28.03,
 'Cairo': 20.33,
 'Mexico City': 10.5}