## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [46]:
!pip install streamlit

Collecting streamlit
  Downloading streamlit-1.41.1-py2.py3-none-any.whl.metadata (8.5 kB)
Collecting watchdog<7,>=2.1.5 (from streamlit)
  Downloading watchdog-6.0.0-py3-none-manylinux2014_x86_64.whl.metadata (44 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.3/44.3 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
Collecting pydeck<1,>=0.8.0b4 (from streamlit)
  Downloading pydeck-0.9.1-py2.py3-none-any.whl.metadata (4.1 kB)
Downloading streamlit-1.41.1-py2.py3-none-any.whl (9.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.1/9.1 MB[0m [31m51.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pydeck-0.9.1-py2.py3-none-any.whl (6.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.9/6.9 MB[0m [31m94.2 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading watchdog-6.0.0-py3-none-manylinux2014_x86_64.whl (79 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.1/79.1 kB[0m [31m9.1 MB/s[0m eta [36m0:00:00[0m
[

In [1]:
import threading
from time import time
from joblib import Parallel, delayed
from multiprocessing import Pool
import requests
import aiohttp
import asyncio

In [2]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


In [3]:
data.head()

Unnamed: 0,city,timestamp,temperature,season
0,New York,2010-01-01,5.449572,winter
1,New York,2010-01-02,-1.907835,winter
2,New York,2010-01-03,-7.040295,winter
3,New York,2010-01-04,3.332616,winter
4,New York,2010-01-05,-9.923399,winter


Вычислить скользящее среднее температуры с окном в 30 дней для сглаживания краткосрочных колебаний.

In [4]:
data = data.sort_values(by=["city", "season", "timestamp"])

In [5]:
data["temperature_30d_avg"] = data.groupby(["city", "season"])["temperature"].rolling(window=30, min_periods=1).mean().reset_index(level=[0, 1], drop=True)
data.tail()

Unnamed: 0,city,timestamp,temperature,season,temperature_30d_avg
14595,Tokyo,2019-12-25,8.93692,winter,4.376073
14596,Tokyo,2019-12-26,5.86361,winter,4.529595
14597,Tokyo,2019-12-27,6.107107,winter,4.251167
14598,Tokyo,2019-12-28,4.092938,winter,4.32999
14599,Tokyo,2019-12-29,6.376478,winter,4.12926


Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.

In [6]:
data['avg_temperature'] = data.groupby(["city", "season"])["temperature"].transform('mean')

In [7]:
data['std_temperature'] = data.groupby(["city", "season"])["temperature"].transform('std')

In [8]:
data.sample(5)

Unnamed: 0,city,timestamp,temperature,season,temperature_30d_avg,avg_temperature,std_temperature
37369,Los Angeles,2012-05-19,17.588366,spring,19.254904,18.372791,5.054576
1168,New York,2013-03-14,1.200491,spring,11.115974,10.012965,5.071926
39094,Los Angeles,2017-02-07,14.996334,winter,15.06197,15.081369,4.875851
37638,Los Angeles,2013-02-12,12.92008,winter,14.775837,15.081369,4.875851
21362,Sydney,2018-07-10,22.607795,summer,26.150443,24.960209,5.014361


Выявить аномалии, где температура выходит за пределы  среднее±2σ .

In [9]:
data['lower'] = data["avg_temperature"] - 2 * data["std_temperature"]
data['upper'] = data["avg_temperature"] + 2 * data["std_temperature"]
data['anomaly'] = (data['temperature'] < data['lower']) | (data['temperature'] > data['upper'])

Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

In [10]:
def for_multi(df):
  df = df.sort_values(by=["city", "season", "timestamp"])
  df["temperature_30d_avg"] = df.groupby(["city", "season"])["temperature"].rolling(window=30, min_periods=1).mean().reset_index(level=[0, 1], drop=True)

  df['avg_temperature'] = df.groupby(["city", "season"])["temperature"].transform('mean')
  df['std_temperature'] = df.groupby(["city", "season"])["temperature"].transform('std')

  df['lower'] = df["avg_temperature"] - 2 * df["std_temperature"]
  df['upper'] = df["avg_temperature"] + 2 * df["std_temperature"]
  df['anomaly'] = (df['temperature'] < df['lower']) | (df['temperature'] > df['upper'])
  return df

In [11]:
start = time()
result = for_multi(data)
end = time()

In [12]:
print(f"Время без распараллеливания: {end - start:.2f} секунд")

Время без распараллеливания: 0.06 секунд


In [13]:
def parallel_for_multi(df, func, n_jobs=4):
    chunks = np.array_split(df, n_jobs)
    results = Parallel(n_jobs=n_jobs)(delayed(func)(chunk) for chunk in chunks)
    return pd.concat(results)

In [14]:
start = time()
result_2 = parallel_for_multi(data, for_multi, n_jobs=4)
end = time()

  return bound(*args, **kwds)


In [15]:
print(f"Время c распараллеливанием: {end - start:.2f} секунд")

Время c распараллеливанием: 2.60 секунд


С распараллеливанием скорость даже упала

In [16]:
def parallel_for_multi_2(df, func, n_cores=4):
    chunk_size = len(df) // n_cores
    chunks = [df[i * chunk_size:(i + 1) * chunk_size] for i in range(n_cores)]

    with Pool(n_cores) as pool:
        results = pool.map(func, chunks)

    return pd.concat(results)

In [17]:
start = time()
result_3 = parallel_for_multi_2(data, for_multi, n_cores=4)
end = time()

In [18]:
print(f"Время c распараллеливанием: {end - start:.2f} секунд")

Время c распараллеливанием: 0.24 секунд


Тут получше, но все равно без распараллеливания получается быстрее

Получить текущую температуру для выбранного города через OpenWeatherMap API.

In [19]:
data['city'].unique()

array(['Beijing', 'Berlin', 'Cairo', 'Dubai', 'London', 'Los Angeles',
       'Mexico City', 'Moscow', 'Mumbai', 'New York', 'Paris',
       'Rio de Janeiro', 'Singapore', 'Sydney', 'Tokyo'], dtype=object)

In [None]:
data.head(3)

Unnamed: 0,city,timestamp,temperature,season,temperature_30d_avg,avg_temperature,std_temperature,lower,upper,anomaly
25793,Beijing,2010-09-01,21.451149,autumn,21.451149,16.045712,5.050561,5.94459,26.146835,False
25794,Beijing,2010-09-02,22.948419,autumn,22.199784,16.045712,5.050561,5.94459,26.146835,False
25795,Beijing,2010-09-03,29.462873,autumn,24.620813,16.045712,5.050561,5.94459,26.146835,True


In [50]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 54750 entries, 25793 to 14599
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   city                 54750 non-null  object        
 1   timestamp            54750 non-null  datetime64[ns]
 2   temperature          54750 non-null  float64       
 3   season               54750 non-null  object        
 4   temperature_30d_avg  54750 non-null  float64       
 5   avg_temperature      54750 non-null  float64       
 6   std_temperature      54750 non-null  float64       
 7   lower                54750 non-null  float64       
 8   upper                54750 non-null  float64       
 9   anomaly              54750 non-null  bool          
dtypes: bool(1), datetime64[ns](1), float64(6), object(2)
memory usage: 4.2+ MB


In [20]:
api_key = 'a113b'
city = 'Singapore'
url = f"http://api.openweathermap.org/data/2.5/weather?q={city}&appid={api_key}&units=metric"

In [21]:
response = requests.get(url)
if response.status_code == 200:
    df = response.json()
    print(f"Погода в {city}: {df['main']['temp']}°C")
else:
    print("Ошибка")

Погода в Singapore: 27.75°C


Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.

In [22]:
def is_normal(city, curr_temp, df, season):
    df_grouped = df[(df['city'] == city) & (df['season'] == season)]
    if len(df_grouped) > 0:
        avg_temp = df_grouped['avg_temperature'].iloc[0]
        std_temp = df_grouped['std_temperature'].iloc[0]
        lower = avg_temp - 2 * std_temp
        upper = avg_temp + 2 * std_temp
        if lower <= curr_temp <= upper:
            return "В норме"
        else:
            return "Аномальная"

In [23]:
api_key = 'a11e03105'

def anomaly_temp(city):
  url = f"http://api.openweathermap.org/data/2.5/weather?q={city}&appid={api_key}&units=metric"
  response = requests.get(url)
  if response.status_code == 200:
    df = response.json()
    curr_temp = df['main']['temp']
    result = is_normal(city, curr_temp, data, 'winter')
    return f"Температура в {city}: {curr_temp} - {result}"
  else:
    return "Ошибка в данных"

anomaly_temp('Singapore')

'Температура в Singapore: 27.75 - В норме'

Протестируйте свое решение для разных городов

In [24]:
for c in data['city'].unique():
  print(anomaly_temp(c))

Температура в Beijing: -5.06 - В норме
Температура в Berlin: 5.59 - В норме
Температура в Cairo: 21.42 - В норме
Температура в Dubai: 22.96 - В норме
Температура в London: 6.53 - В норме
Температура в Los Angeles: 12.24 - В норме
Температура в Mexico City: 9.97 - В норме
Температура в Moscow: -1.78 - В норме
Температура в Mumbai: 25.99 - В норме
Температура в New York: -8.52 - В норме
Температура в Paris: 4.87 - В норме
Температура в Rio de Janeiro: 26.26 - В норме
Температура в Singapore: 27.75 - В норме
Температура в Sydney: 23.45 - Аномальная
Температура в Tokyo: 3.88 - В норме


Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

In [32]:
def get_temp(city, api_key):
  url = f"http://api.openweathermap.org/data/2.5/weather?q={city}&appid={api_key}&units=metric"
  response = requests.get(url)
  if response.status_code == 200:
    df = response.json()
    return f"Погода в {city}: {df['main']['temp']}°C"
  else:
    return "Ошибка"

In [33]:
start = time()
print(get_temp('Cairo', 'a11e03105ddb6afb317b14a697be3c3b'))
end = time()
print(f"Время при использовании синхронного метода: {end - start:.2f} сек")

Погода в Cairo: 21.42°C
Время при использовании синхронного метода: 0.10 сек


In [43]:
async def get_temp_async(city, api_key):
    url = f"http://api.openweathermap.org/data/2.5/weather?q={city}&appid={api_key}&units=metric"
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            res = await response.json()
            return res["main"]["temp"] if response.status == 200 else None

In [44]:
async def main():
    city = 'Cairo'
    api_key = 'a11e03105ddb6afb317b14a697be3c3b'
    curr_temp = await get_temp_async(city, api_key)
    print(f"Погода в {city}: {df['main']['temp']}°C")

In [45]:
start = time()
await main()
end = time()
print(f"Время при использовании ассинхронного метода: {end - start:.2f} сек")

Погода в Cairo: 27.75°C
Время при использовании ассинхронного метода: 0.10 сек
