## Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [142]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


In [44]:
data.describe()

Unnamed: 0,timestamp,temperature
count,54750,54750.0
mean,2014-12-30 12:00:00,18.254029
min,2010-01-01 00:00:00,-27.633922
25%,2012-07-01 00:00:00,11.197975
50%,2014-12-30 12:00:00,18.707665
75%,2017-06-30 00:00:00,26.065402
max,2019-12-29 00:00:00,55.362367
std,,11.019572


In [45]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54750 entries, 0 to 54749
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   city         54750 non-null  object        
 1   timestamp    54750 non-null  datetime64[ns]
 2   temperature  54750 non-null  float64       
 3   season       54750 non-null  object        
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 1.7+ MB


### Вычислим скользящее среднее температуры с окном в 30 дней для сглаживания краткосрочных колебаний.


In [46]:
def simple_moving_average(temperature, window_size):
    k = temperature.copy()
    k.rename('sma_temperature', inplace=True)
    k.iloc[:window_size] = np.nan
    for i in range(len(temperature) - window_size):
      p = temperature.iloc[i: window_size+i].mean()
      k.iloc[i+window_size]  = p
    return k

In [47]:
k = pd.DataFrame(columns=['sma_temperature'])
for i in data["city"].unique():
  p = simple_moving_average(data[data['city'] == i]['temperature'], int(30) )
  k = pd.concat([k,p])

  k = pd.concat([k,p])


In [50]:
data_sma = pd.merge(data, k, left_index=True, right_index=True, how='left')

In [77]:
data_sma.tail(10)

Unnamed: 0,city,timestamp,temperature,season,sma_temperature
54740,Mexico City,2019-12-20,14.280636,winter,12.459637
54741,Mexico City,2019-12-21,8.697861,winter,12.44707
54742,Mexico City,2019-12-22,13.905399,winter,12.367971
54743,Mexico City,2019-12-23,6.024143,winter,12.312641
54744,Mexico City,2019-12-24,14.757236,winter,12.377394
54745,Mexico City,2019-12-25,14.734767,winter,12.487144
54746,Mexico City,2019-12-26,15.68924,winter,12.470742
54747,Mexico City,2019-12-27,12.004865,winter,12.478652
54748,Mexico City,2019-12-28,11.237168,winter,12.354575
54749,Mexico City,2019-12-29,11.23239,winter,12.193187


### Рассчитаем среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.

In [52]:
p = []
for i in data["city"].unique():
  for k in data['season'].unique():
    p.append([i, k, data[(data["city"] == i) & (data["season"] == k)]["temperature"].mean(), data[(data["city"] == i) & (data["season"] == k)]["temperature"].std()])
data_mean = pd.DataFrame(data=p, columns = ['city', 'season', 'mean_temperature', 'std'] )

In [53]:
data_mean.head()

Unnamed: 0,city,season,mean_temperature,std
0,New York,winter,0.117533,4.941761
1,New York,spring,9.950725,5.073269
2,New York,summer,24.793777,4.943083
3,New York,autumn,14.804955,5.020329
4,London,winter,4.991953,4.879762


In [54]:
merged_df = pd.merge(data, data_mean, on=['city', 'season'], how='left')

In [55]:
def anomal(x):
  if (x['temperature'] > x['mean_temperature'] + 2*x['std']) or (x['temperature'] < x['mean_temperature'] - 2*x['std']):
    return 1
  else:
    return 0

In [56]:
merged_df.loc[:,'anomal'] = merged_df[['temperature','mean_temperature', 'std']].apply(anomal, axis = 1)

#### Аномальные температуры у следующих строк

In [57]:
merged_df[merged_df['anomal'] == 1]

Unnamed: 0,city,timestamp,temperature,season,mean_temperature,std,anomal
33,New York,2010-02-03,10.758668,winter,0.117533,4.941761,1
36,New York,2010-02-06,-10.241635,winter,0.117533,4.941761,1
70,New York,2010-03-12,-0.240783,spring,9.950725,5.073269,1
74,New York,2010-03-16,-2.306983,spring,9.950725,5.073269,1
83,New York,2010-03-25,-1.314815,spring,9.950725,5.073269,1
...,...,...,...,...,...,...,...
54571,Mexico City,2019-07-04,8.863194,summer,20.119857,4.956801,1
54592,Mexico City,2019-07-25,8.461275,summer,20.119857,4.956801,1
54595,Mexico City,2019-07-28,32.968346,summer,20.119857,4.956801,1
54665,Mexico City,2019-10-06,26.428210,autumn,15.071906,5.041503,1


## Мониторинг текущей температуры:

In [58]:
import requests
import datetime

In [65]:
API_KEY = '....'

In [113]:
%%time
def request_temp(city):
  a = []
  for i in city:
    params = {'q': i, 'appid': API_KEY, 'units': 'metric', 'lang': 'ru'}
    request = requests.get('https://api.openweathermap.org/data/2.5/weather', params=params)
    if request.status_code == 200:
      a.append([i, request.json()['main']['temp'], request.json()['main']['temp_min'],  request.json()['main']['temp_max']])
    else:
      print(f"Ошибка при запросе для города {city}: {response.status}")
  return a
current_temp_1 = pd.DataFrame(data = request_temp(data['city'].unique()), columns = ['city', 'temp_now', 'temp_min', 'temp_max'])

CPU times: user 117 ms, sys: 9.24 ms, total: 126 ms
Wall time: 1.01 s


#### Попробуем сделать то же самое только в асинхронном стиле

In [94]:
import asyncio
import aiohttp
import time

async def fetch_temp(session, city):
    params = {'q': city, 'appid': API_KEY, 'units': 'metric', 'lang': 'ru'}
    try:
      async with session.get('https://api.openweathermap.org/data/2.5/weather', params=params) as response:
        if response.status == 200:
            data = await response.json()
            return [city, data['main']['temp'], data['main']['temp_min'], data['main']['temp_max']]
        else:
            print(f"Ошибка при запросе для города {city}: {response.status}")
            return None
    except aiohttp.ClientError as e:
      print(f"Ошибка при запросе для города {city}: {e}")
      return None

async def request_temp_async(cities):
  async with aiohttp.ClientSession() as session:
      tasks = [fetch_temp(session, city) for city in cities]
      results = await asyncio.gather(*tasks)
      return results

async def main():
    start_time = time.perf_counter()
    cities = data['city'].unique()

    temp_data = await request_temp_async(cities)

    if temp_data:
        current_temp = pd.DataFrame(data = temp_data, columns = ['city', 'temp_now', 'temp_min', 'temp_max'])
        end_time = time.perf_counter()
        print(f"Время выполнения: {end_time - start_time:.4f} секунд")
        return current_temp

In [96]:
current_temp = await main()

Время выполнения: 0.2359 секунд


In [97]:
current_temp

Unnamed: 0,city,temp_now,temp_min,temp_max
0,New York,-1.46,-2.84,-0.44
1,London,9.73,9.06,10.44
2,Paris,9.92,9.1,10.6
3,Tokyo,8.23,6.48,8.69
4,Moscow,-2.76,-3.71,-2.76
5,Sydney,20.53,19.66,20.94
6,Berlin,6.27,5.59,6.66
7,Beijing,-3.06,-3.06,-3.06
8,Rio de Janeiro,27.17,26.65,30.0
9,Dubai,19.96,19.96,20.14


*Асинхронный код дал выигрыш примерно в 5 раз*

## Посмотрим являются ли полученные температуры аномальными в рамках сезона:

In [78]:
def anomal_test(x, data_mean):
  current_time = datetime.datetime.now().month
  if current_time in (1,12,2):
    month = 'winter'
  elif current_time in (3,4,5):
    month = 'spring'
  elif current_time in (6,7,8):
    month = 'summer'
  else:
    month = 'autumn'
  if ((x['temp_now'] > data_mean[(data_mean['city'] == x['city']) & (data_mean['season'] == month)]['mean_temperature'].iloc[0] + 2 * data_mean[(data_mean['city'] == x['city']) & (data_mean['season'] == month)]['std'].iloc[0])) or (x['temp_now'] < data_mean[(data_mean['city'] == x['city']) & (data_mean['season'] == month)]['mean_temperature'].iloc[0] - 2 * data_mean[(data_mean['city'] == x['city']) & (data_mean['season'] == month)]['std'].iloc[0]):
    return 1
  else:
    return 0

In [98]:
current_temp['anomal_season'] = current_temp[['city', 'temp_now']].apply(lambda x: anomal_test(x, data_mean), axis = 1)

In [99]:
current_temp

Unnamed: 0,city,temp_now,temp_min,temp_max,anomal_season
0,New York,-1.46,-2.84,-0.44,0
1,London,9.73,9.06,10.44,0
2,Paris,9.92,9.1,10.6,0
3,Tokyo,8.23,6.48,8.69,0
4,Moscow,-2.76,-3.71,-2.76,0
5,Sydney,20.53,19.66,20.94,0
6,Berlin,6.27,5.59,6.66,0
7,Beijing,-3.06,-3.06,-3.06,0
8,Rio de Janeiro,27.17,26.65,30.0,0
9,Dubai,19.96,19.96,20.14,0


## Посмотрим являются ли полученные температуры аномальными в рамках месяца:

In [100]:
data['month']  = data['timestamp'].apply(lambda x: x.month)

In [102]:
p = []
for i in data["city"].unique():
  for k in data['month'].unique():
    p.append([i, k, data[(data["city"] == i) & (data["month"] == k)]["temperature"].mean(), data[(data["city"] == i) & (data["month"] == k)]["temperature"].std()])
data_mean_2 = pd.DataFrame(data=p, columns = ['city', 'month', 'mean_temperature', 'std'] )

In [115]:
def anomal_test_month(x, data_mean):
  month = datetime.datetime.now().month
  if ((x['temp_now'] > data_mean[(data_mean['city'] == x['city']) & (data_mean['month'] == month)]['mean_temperature'].iloc[0] + 2 * data_mean[(data_mean['city'] == x['city']) & (data_mean['month'] == month)]['std'].iloc[0])) or (x['temp_now'] < data_mean[(data_mean['city'] == x['city']) & (data_mean['month'] == month)]['mean_temperature'].iloc[0] - 2 * data_mean[(data_mean['city'] == x['city']) & (data_mean['month'] == month)]['std'].iloc[0]):
    return 1
  else:
    return 0

In [116]:
current_temp['anomal_season_month'] = current_temp[['city', 'temp_now']].apply(lambda x: anomal_test_month(x, data_mean_2), axis = 1)

In [106]:
current_temp

Unnamed: 0,city,temp_now,temp_min,temp_max,anomal_season,anomal_season_month
0,New York,-1.46,-2.84,-0.44,0,0
1,London,9.73,9.06,10.44,0,0
2,Paris,9.92,9.1,10.6,0,0
3,Tokyo,8.23,6.48,8.69,0,0
4,Moscow,-2.76,-3.71,-2.76,0,0
5,Sydney,20.53,19.66,20.94,0,0
6,Berlin,6.27,5.59,6.66,0,0
7,Beijing,-3.06,-3.06,-3.06,0,0
8,Rio de Janeiro,27.17,26.65,30.0,0,0
9,Dubai,19.96,19.96,20.14,0,0


*Аномальной температуры на 21.12 нет*

## Попробуем распараллелить вычисления

In [133]:
%%time

def simple_moving_average(temperature, window_size):
    k = temperature.copy()
    k.rename('sma_temperature', inplace=True)
    k.iloc[:window_size] = np.nan
    for i in range(len(temperature) - window_size):
      p = temperature.iloc[i: window_size+i].mean()
      k.iloc[i+window_size]  = p
    return k

k = pd.DataFrame(columns=['sma_temperature'])
for i in data["city"].unique():
  p = simple_moving_average(data[data['city'] == i]['temperature'], int(30) )
  k = pd.concat([k,p])



CPU times: user 7.39 s, sys: 13.9 ms, total: 7.41 s
Wall time: 7.53 s


In [134]:
%%time
from multiprocessing import Pool

# Функция для обработки одной части DataFrame
def simple_moving_average(temperature, window_size=30):
    k = temperature.copy()
    k.rename('sma_temperature', inplace=True)
    k.iloc[:window_size] = np.nan
    for i in range(len(temperature) - window_size):
      p = temperature.iloc[i: window_size+i].mean()
      k.iloc[i+window_size]  = p
    return k

# Разделение DataFrame на части
def parallel_apply(data, func, n_cores=4):
  chunks = []
  for i in data["city"].unique():
    chunks.append(data[data['city'] == i]['temperature'])

  with Pool(n_cores) as pool:
    results = pool.map(func, chunks)
  return pd.concat(results, axis=0).to_frame()

# Применение функции параллельно
result_df = parallel_apply(data, simple_moving_average, n_cores=4)

CPU times: user 209 ms, sys: 63.2 ms, total: 272 ms
Wall time: 7.39 s


In [135]:
%%time
from joblib import Parallel, delayed

# Функция для обработки одной части DataFrame
def simple_moving_average(temperature, window_size=30):
    k = temperature.copy()
    k.rename('sma_temperature', inplace=True)
    k.iloc[:window_size] = np.nan
    for i in range(len(temperature) - window_size):
      p = temperature.iloc[i: window_size+i].mean()
      k.iloc[i+window_size]  = p
    return k

# Распараллеливание по частям DataFrame
def parallel_apply_chunks(df, func, n_jobs=4):
  chunks = []
  for i in data["city"].unique():
    chunks.append(data[data['city'] == i]['temperature'])
  results = Parallel(n_jobs=n_jobs)(delayed(func)(chunk) for chunk in chunks)
  return pd.concat(results)

# Применение
result_df = parallel_apply_chunks(data, simple_moving_average, 4)

CPU times: user 206 ms, sys: 28.6 ms, total: 234 ms
Wall time: 7.68 s


In [137]:
%%time
def anomal(x):
  if (x['temperature'] > x['mean_temperature'] + 2*x['std']) or (x['temperature'] < x['mean_temperature'] - 2*x['std']):
    return 1
  else:
    return 0
merged_df.loc[:,'anomal'] = merged_df[['temperature','mean_temperature', 'std']].apply(anomal, axis = 1)

CPU times: user 1.77 s, sys: 15.9 ms, total: 1.78 s
Wall time: 2.08 s


In [141]:
%%time
from multiprocessing import Pool

def anomal(x):
  if (x['temperature'] > x['mean_temperature'] + 2*x['std']) or (x['temperature'] < x['mean_temperature'] - 2*x['std']):
    return 1
  else:
    return 0

# Вспомогательная функция для pool.map
def apply_func(chunk, func):
    return chunk.apply(func, axis=1)

# Разделение DataFrame на части
def parallel_apply(df, func, n_cores=4):
    chunk_size = len(df) // n_cores
    chunks = [df[i * chunk_size:(i + 1) * chunk_size] for i in range(n_cores)]

    with Pool(n_cores) as pool:
        results = pool.starmap(apply_func, [(chunk, func) for chunk in chunks])
    return pd.concat(results, axis=0).to_frame(name='anomaly')



# Применение функции параллельно
result_df = parallel_apply(merged_df[['temperature','mean_temperature', 'std']], anomal, n_cores=4)

CPU times: user 45.6 ms, sys: 74.3 ms, total: 120 ms
Wall time: 1.32 s


*multiprocessing дал небольшой прирост в скорости обработки датафрейма*