## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [36]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.

In [37]:
import time
def weath_analitycs(df):
  start_time = time.time()

  cities = df['city'].unique()
  df_data = pd.DataFrame()

  for city in cities:
    df_roll = data[data['city'] == city].copy()
    df_roll["roll_mean"] = df_roll["temperature"].rolling(window=30, center=True).mean()
    df_roll["mean_season"] = df_roll["roll_mean"]
    df_roll["mean_season"] = df_roll.groupby(["season"])["mean_season"].transform('mean')
    df_roll["std_season"] = df_roll["temperature"] - df_roll["roll_mean"]
    df_roll["std_season"] = df_roll.groupby(["season"])["std_season"].transform('std')
    df_roll["is_anomaly"] = abs(df_roll["temperature"] - df_roll["mean_season"]) > 2 * df_roll["std_season"]
    df_data = pd.concat([df_data, df_roll], ignore_index=True)

  end_time = time.time()
  print(f"Время обработки данных: {end_time - start_time} c")
  return df_data

In [38]:
df_data = weath_analitycs(data)

Время обработки данных: 0.2084977626800537 c


 - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

In [39]:
from multiprocessing import Pool

# Функция для обработки одной части DataFrame
def process_chunk(chuck):
    chuck["roll_mean"] = chuck["temperature"].rolling(window=30, center=True).mean()
    chuck["mean_season"] = chuck["roll_mean"]
    chuck["mean_season"] = chuck.groupby(["season"])["mean_season"].transform('mean')
    chuck["std_season"] = chuck["temperature"] - chuck["roll_mean"]
    chuck["std_season"] = chuck.groupby(["season"])["std_season"].transform('std')
    chuck["is_anomaly"] = abs(chuck["temperature"] - chuck["mean_season"]) > 2 * chuck["std_season"]
    return chuck

# Разделение DataFrame на части
def parallel_apply(df, func):
    cities = df['city'].unique()
    chunks = [df[df['city'] == city] for city in cities]

    with Pool(2) as pool:
        results = pool.map(func, chunks)

    return pd.concat(results)

In [40]:
# Применение функции параллельно
start_time = time.time()
result_df = parallel_apply(data, process_chunk)
end_time = time.time()
print(f"Время обработки данных: {end_time - start_time} c")

Время обработки данных: 0.3691227436065674 c


Распараллеливание multiprocessing не привело к ускорению обработки данных в Google Colab, однако на ПК обработка ускоряется на 10-15%



In [41]:
result_df

Unnamed: 0,city,timestamp,temperature,season,roll_mean,mean_season,std_season,is_anomaly
0,New York,2010-01-01,2.618294,winter,,1.140461,5.236441,False
1,New York,2010-01-02,-0.031326,winter,,1.140461,5.236441,False
2,New York,2010-01-03,-0.910324,winter,,1.140461,5.236441,False
3,New York,2010-01-04,-4.821047,winter,,1.140461,5.236441,False
4,New York,2010-01-05,-7.021204,winter,,1.140461,5.236441,False
...,...,...,...,...,...,...,...,...
54745,Mexico City,2019-12-25,14.875367,winter,,12.411702,4.878170,False
54746,Mexico City,2019-12-26,19.998553,winter,,12.411702,4.878170,False
54747,Mexico City,2019-12-27,14.986027,winter,,12.411702,4.878170,False
54748,Mexico City,2019-12-28,17.959902,winter,,12.411702,4.878170,False


In [42]:
from joblib import Parallel, delayed

# Обработка частей DataFrame
def process_chunk(chunk):
    chunk["roll_mean"] = chunk["temperature"].rolling(window=30, center=True).mean()
    chunk["mean_season"] = chunk["roll_mean"]
    chunk["mean_season"] = chunk.groupby(["season"])["mean_season"].transform('mean')
    chunk["std_season"] = chunk["temperature"] - chunk["roll_mean"]
    chunk["std_season"] = chunk.groupby(["season"])["std_season"].transform('std')
    chunk["is_anomaly"] = abs(chunk["temperature"] - chunk["mean_season"]) > 2 * chunk["std_season"]
    return chunk

# Распараллеливание по частям DataFrame
def parallel_apply_chunks(df, func, n_jobs=4):
    cities = df['city'].unique()
    chunks = [df[df['city'] == city] for city in cities]

    results = Parallel(n_jobs=2)(delayed(func)(chunk) for chunk in chunks)
    return pd.concat(results)


In [43]:
# Применение функции параллельно
start_time = time.time()
result_df_joblib = parallel_apply_chunks(data, process_chunk)
end_time = time.time()
print(f"Время обработки данных: {end_time - start_time} c")

Время обработки данных: 1.341076374053955 c


Использование joblib приводит к еще большей эффективности на ПК, но в Google Colab результаты сопоставимы с синхронной обработкой

In [44]:
! pip install "modin[dask]"



In [45]:
import modin.pandas as mpd
import time

# Преобразование pandas DataFrame в modin DataFrame
# modin_df = mpd.DataFrame(df)

# Выполнение вычислений
# modin_df['result'] = modin_df['col1'] * modin_df['col2'] + modin_df['col3']

def weath_analitycs_modin(df):
  start_time = time.time()

  cities = df['city'].unique()
  df_data = mpd.DataFrame()

  for city in cities:
    df_roll = mpd.DataFrame(df[df['city'] == city].copy())
    df_roll["roll_mean"] = df_roll["temperature"].rolling(window=30, center=True).mean()
    df_roll["mean_season"] = df_roll["roll_mean"]
    df_roll["mean_season"] = df_roll.groupby(["season"])["mean_season"].transform('mean')
    df_roll["std_season"] = df_roll["temperature"] - df_roll["roll_mean"]
    df_roll["std_season"] = df_roll.groupby(["season"])["std_season"].transform('std')
    df_roll["is_anomaly"] = abs(df_roll["temperature"] - df_roll["mean_season"]) > 2 * df_roll["std_season"]
    df_data = mpd.concat([df_data, df_roll], ignore_index=True)
  end_time = time.time()
  print(f"Время обработки данных: {end_time - start_time} c")
  return df_data

In [46]:
df_modin = mpd.DataFrame(data)

In [47]:
weath_analitycs_modin(df_modin)

Время обработки данных: 28.620538473129272 c


Unnamed: 0,city,timestamp,temperature,season,roll_mean,mean_season,std_season,is_anomaly
0,New York,2010-01-01,2.618294,winter,,1.140461,5.236441,False
1,New York,2010-01-02,-0.031326,winter,,1.140461,5.236441,False
2,New York,2010-01-03,-0.910324,winter,,1.140461,5.236441,False
3,New York,2010-01-04,-4.821047,winter,,1.140461,5.236441,False
4,New York,2010-01-05,-7.021204,winter,,1.140461,5.236441,False
...,...,...,...,...,...,...,...,...
54745,Mexico City,2019-12-25,14.875367,winter,,12.411702,4.878170,False
54746,Mexico City,2019-12-26,19.998553,winter,,12.411702,4.878170,False
54747,Mexico City,2019-12-27,14.986027,winter,,12.411702,4.878170,False
54748,Mexico City,2019-12-28,17.959902,winter,,12.411702,4.878170,False


Для используемых функций обработки данных в modin.pandas приводит к значительному увеличению времени обработки данных (в сотню раз)

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.


In [48]:
from datetime import date

def is_anomaly(temp, city):
  month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

  season = month_to_season[date.today().month]
  record = df_data[(df_data["city"] == city) & (df_data["season"] == season)].iloc[0, :]
  anomaly = abs(temp - record["mean_season"]) > 2 * record["std_season"]

  return city, temp, anomaly

In [49]:
import requests
import time

def get_temp(API_KEY, CITY):
  url = f"http://api.openweathermap.org/data/2.5/weather?q={CITY}&appid={API_KEY}&units=metric"
  response = requests.get(url)
  if response.status_code == 200:
      data_weat = response.json()
      temp = data_weat['main']['temp']
  elif response.status_code == 401:
      return str({"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."})
  else:
      return str("Ошибка при запросе данных")
  return is_anomaly(temp, CITY)

In [50]:
API_KEY = ""
CITY = "Dubai"
get_temp(API_KEY, CITY)

('Dubai', 22.96, False)

In [51]:
cities = data['city'].unique()

start_time = time.time()

for city in cities:
  print(f'город: {city:14} температура: {get_temp(API_KEY, city)[1]:6} аномальная: {get_temp(API_KEY, city)[2]}')

end_time = time.time()
print(f"Время обработки данных: {end_time - start_time} c")

город: New York       температура:  -8.21 аномальная: False
город: London         температура:   5.69 аномальная: False
город: Paris          температура:   7.98 аномальная: False
город: Tokyo          температура:   3.81 аномальная: False
город: Moscow         температура:  -1.78 аномальная: False
город: Sydney         температура:  23.74 аномальная: True
город: Berlin         температура:   5.91 аномальная: False
город: Beijing        температура:  -4.06 аномальная: False
город: Rio de Janeiro температура:  25.99 аномальная: False
город: Dubai          температура:  22.96 аномальная: False
город: Los Angeles    температура:  11.57 аномальная: False
город: Singapore      температура:  28.42 аномальная: False
город: Mumbai         температура:  24.46 аномальная: False
город: Cairo          температура:  21.42 аномальная: False
город: Mexico City    температура:  11.64 аномальная: False
Время обработки данных: 3.8978962898254395 c


   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

In [52]:
import nest_asyncio
nest_asyncio.apply()

In [54]:
import asyncio

async def is_anomaly_cor(temp, city):
    month_to_season = {12: "winter", 1: "winter", 2: "winter",
                       3: "spring", 4: "spring", 5: "spring",
                       6: "summer", 7: "summer", 8: "summer",
                       9: "autumn", 10: "autumn", 11: "autumn"}

    season = month_to_season[date.today().month]
    record = df_data[(df_data["city"] == city) & (df_data["season"] == season)].iloc[0, :]
    anomaly = abs(temp - record["mean_season"]) > 2 * record["std_season"]

    return f'город: {city:14} температура: {temp:6} аномальная: {anomaly}'

async def get_temp(API_KEY, CITY):
  url = f"http://api.openweathermap.org/data/2.5/weather?q={CITY}&appid={API_KEY}&units=metric"
  response = requests.get(url)
  if response.status_code == 200:
      data_weat = response.json()
      temp = data_weat['main']['temp']
  elif response.status_code == 401:
      return await f'("cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info.")'
  else:
      return await f'город: {city:14} Ошибка при запросе данных'
  return await is_anomaly_cor(temp, CITY)

async def main():

    cities = data['city'].unique()

    tasks = [get_temp(API_KEY, city) for city in cities]

    for task in asyncio.as_completed(tasks):
        result = await task
        print(result)

start_time = time.time()
asyncio.run(main())
end_time = time.time()
print(f"Время обработки данных: {end_time - start_time} c")

город: Cairo          температура:  21.42 аномальная: False
город: London         температура:   5.69 аномальная: False
город: New York       температура:  -8.21 аномальная: False
город: Rio de Janeiro температура:  25.99 аномальная: False
город: Los Angeles    температура:  11.57 аномальная: False
город: Moscow         температура:  -1.78 аномальная: False
город: Tokyo          температура:   3.81 аномальная: False
город: Dubai          температура:  22.96 аномальная: False
город: Berlin         температура:   5.75 аномальная: False
город: Paris          температура:   7.98 аномальная: False
город: Mumbai         температура:  24.46 аномальная: False
город: Beijing        температура:  -4.06 аномальная: False
город: Singapore      температура:  28.42 аномальная: False
город: Sydney         температура:  23.74 аномальная: True
город: Mexico City    температура:  11.64 аномальная: False
Время обработки данных: 1.745650291442871 c


Применение асинхронности привело к значительному сокращению времени обработки (почти в два раза).