## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [None]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)

**1.1 Анализ исторических данных**

In [None]:
data.head()

Unnamed: 0,city,timestamp,temperature,season
0,New York,2010-01-01,-3.148088,winter
1,New York,2010-01-02,3.944326,winter
2,New York,2010-01-03,-1.990337,winter
3,New York,2010-01-04,-2.597109,winter
4,New York,2010-01-05,1.644587,winter


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54750 entries, 0 to 54749
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   city         54750 non-null  object        
 1   timestamp    54750 non-null  datetime64[ns]
 2   temperature  54750 non-null  float64       
 3   season       54750 non-null  object        
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 1.7+ MB


In [None]:
data['moving_avg'] = data.groupby('city')['temperature'].transform(lambda x: x.rolling(window=30, min_periods=1).mean())
data.head(10)

Unnamed: 0,city,timestamp,temperature,season,moving_avg
0,New York,2010-01-01,-3.148088,winter,-3.148088
1,New York,2010-01-02,3.944326,winter,0.398119
2,New York,2010-01-03,-1.990337,winter,-0.398033
3,New York,2010-01-04,-2.597109,winter,-0.947802
4,New York,2010-01-05,1.644587,winter,-0.429324
5,New York,2010-01-06,-1.527125,winter,-0.612291
6,New York,2010-01-07,-2.327406,winter,-0.857308
7,New York,2010-01-08,-2.525887,winter,-1.06588
8,New York,2010-01-09,5.941446,winter,-0.287288
9,New York,2010-01-10,1.696994,winter,-0.08886


In [None]:
# Функция для вычисления среднего и стандартного отклонения для города
def calculate_seasonal_stats(df):
    return df.groupby(['city', 'season']).agg(mean_temp=('temperature', 'mean'), std_temp=('temperature', 'std')).reset_index()

seasonal_stats = calculate_seasonal_stats(data)
seasonal_stats.head(10)

Unnamed: 0,city,season,mean_temp,std_temp
0,Beijing,autumn,16.10168,4.991358
1,Beijing,spring,12.779623,4.915762
2,Beijing,summer,26.882117,5.028847
3,Beijing,winter,-2.256614,4.767339
4,Berlin,autumn,10.812399,4.867002
5,Berlin,spring,10.180328,4.989761
6,Berlin,summer,20.212059,4.960651
7,Berlin,winter,0.064869,5.238283
8,Cairo,autumn,24.952069,4.886457
9,Cairo,spring,24.777796,4.940491


In [None]:
# Объединение данных с расчетами для определения аномалий
data = data.merge(seasonal_stats, on=['city', 'season'])
data.head()

Unnamed: 0,city,timestamp,temperature,season,moving_avg,mean_temp,std_temp
0,New York,2010-01-01,-3.148088,winter,-3.148088,-0.052041,5.073087
1,New York,2010-01-02,3.944326,winter,0.398119,-0.052041,5.073087
2,New York,2010-01-03,-1.990337,winter,-0.398033,-0.052041,5.073087
3,New York,2010-01-04,-2.597109,winter,-0.947802,-0.052041,5.073087
4,New York,2010-01-05,1.644587,winter,-0.429324,-0.052041,5.073087


In [None]:
# Находим аномальные температуры (более чем 2 стандартных отклонения от среднего)
data['is_anomaly'] = np.where(
    (data['temperature'] > (data['mean_temp'] + 2 * data['std_temp'])) |
    (data['temperature'] < (data['mean_temp'] - 2 * data['std_temp'])),
    True,
    False
)

In [None]:
# Выводим строки, где температура является аномальной
anomalies = data[data['is_anomaly']]
anomalies[['city', 'timestamp', 'temperature', 'season', 'mean_temp', 'std_temp']]

Unnamed: 0,city,timestamp,temperature,season,mean_temp,std_temp
57,New York,2010-02-27,10.679782,winter,-0.052041,5.073087
64,New York,2010-03-06,20.479668,spring,10.050019,4.920658
78,New York,2010-03-20,-1.680859,spring,10.050019,4.920658
92,New York,2010-04-03,-0.918237,spring,10.050019,4.920658
94,New York,2010-04-05,19.924947,spring,10.050019,4.920658
...,...,...,...,...,...,...
54630,Mexico City,2019-09-01,3.627411,autumn,14.936259,4.960845
54656,Mexico City,2019-09-27,4.220305,autumn,14.936259,4.960845
54672,Mexico City,2019-10-13,25.835965,autumn,14.936259,4.960845
54684,Mexico City,2019-10-25,25.136130,autumn,14.936259,4.960845


**1.2 Анализ исторических данных с распараллеливанием**

In [None]:
from concurrent.futures import ProcessPoolExecutor
import time

In [None]:
# Основной код
start_time_serial = time.time()

# Генерация данных
data_serial = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
# Расчет сезонной статистики без распараллеливания
seasonal_stats_serial = calculate_seasonal_stats(data_serial)
# Объединение данных с расчетами для определения аномалий
data_serial = data_serial.merge(seasonal_stats_serial, on=['city', 'season'])
# Находим аномальные температуры (более чем 2 стандартных отклонения от среднего)
data_serial['is_anomaly'] = np.where(
    (data_serial['temperature'] > (data_serial['mean_temp'] + 2 * data_serial['std_temp'])) |
    (data_serial['temperature'] < (data_serial['mean_temp'] - 2 * data_serial['std_temp'])),
    True,
    False
)
end_time_serial = time.time()
print(f"Время выполнения БЕЗ распараллеливания: {end_time_serial - start_time_serial:.4f} секунд")

Время выполнения БЕЗ распараллеливания: 0.3561 секунд


In [None]:
# С распараллеливанием
start_time_parallel = time.time()

# Генерация данных
data_parallel = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
# Разделяем данные по городам
city_groups = [data_parallel[data_parallel['city'] == city] for city in data_parallel['city'].unique()]

with ProcessPoolExecutor() as executor:
    seasonal_stats_parallel = executor.map(calculate_seasonal_stats, city_groups)

# Объединение результатов в один DataFrame
seasonal_stats_parallel = pd.concat(seasonal_stats_parallel).reset_index(drop=True)

# Объединение данных с расчетами для определения аномалий
data_parallel = data_parallel.merge(seasonal_stats_parallel, on=['city', 'season'])

# Находим аномальные температуры
data_parallel['is_anomaly'] = np.where(
    (data_parallel['temperature'] > (data_parallel['mean_temp'] + 2 * data_parallel['std_temp'])) |
    (data_parallel['temperature'] < (data_parallel['mean_temp'] - 2 * data_parallel['std_temp'])),
    True,
    False
)
end_time_parallel = time.time()
print(f"Время выполнения с распараллеливанием: {end_time_parallel - start_time_parallel:.4f} секунд")

Время выполнения с распараллеливанием: 0.6441 секунд


Без распараллеливания у нас более хорошие результаты.

**2. Мониторинг текущей температуры**

In [None]:
import requests
import datetime

In [None]:
API_KEY = ''

In [None]:
# Подключаем OpenWeatherMap API для получения текущей температуры города
%%time
def request_temp(city):
  a = []
  for i in city:
    params = {'q': i, 'appid': API_KEY, 'units': 'metric', 'lang': 'ru'}
    request = requests.get('https://api.openweathermap.org/data/2.5/weather', params=params)
    if request.status_code == 200:
      a.append([i, request.json()['main']['temp'], request.json()['main']['temp_min'],  request.json()['main']['temp_max']])
    else:
      print(f"Ошибка при запросе для города {city}: {request.status}")
  return a
current_temp = pd.DataFrame(data = request_temp(data['city'].unique()), columns = ['city', 'temp_now', 'temp_min', 'temp_max'])

CPU times: user 118 ms, sys: 12.2 ms, total: 130 ms
Wall time: 2.54 s


In [None]:
# Выводим результат
current_temp

Unnamed: 0,city,temp_now,temp_min,temp_max
0,New York,-1.85,-2.95,-1.02
1,London,4.75,3.43,5.64
2,Paris,7.83,6.32,8.38
3,Tokyo,5.47,4.79,5.86
4,Moscow,-5.2,-6.9,-4.76
5,Sydney,20.8,20.2,21.51
6,Berlin,9.48,7.4,11.01
7,Beijing,-0.06,-0.06,-0.06
8,Rio de Janeiro,27.87,27.76,30.0
9,Dubai,20.54,18.16,20.96


In [None]:
import aiohttp
import asyncio

In [None]:
# Для получения текущей температуры попробуем использовать асинхронные методы
async def fetch_temperature(session, city):
    params = {'q': city, 'appid': API_KEY, 'units': 'metric', 'lang': 'ru'}
    async with session.get('https://api.openweathermap.org/data/2.5/weather', params=params) as response:
        if response.status == 200:
            data = await response.json()
            return city, data['main']['temp'], data['main']['temp_min'], data['main']['temp_max']
        else:
            print(f"Ошибка при запросе для города {city}: {response.status}")
            return city, None, None, None

async def get_temperatures(cities):
    async with aiohttp.ClientSession() as session:
        tasks = [fetch_temperature(session, city) for city in cities]
        return await asyncio.gather(*tasks)

# Основной код
async def main():
    start_time = time.perf_counter()
    cities = data['city'].unique()
    temperatures = await get_temperatures(cities)

    results = [(city, temp_now, temp_min, temp_max) for city, temp_now, temp_min, temp_max in temperatures if temp_now is not None]
    current_temp_df = pd.DataFrame(data=results, columns=['city', 'temp_now', 'temp_min', 'temp_max'])

    end_time = time.perf_counter()
    print(f"Время выполнения: {end_time - start_time:.4f} секунд")
    return current_temp_df

In [None]:
# Запуск асинхронной функции
current_temp_a = await main()

Время выполнения: 0.3833 секунд


Как можно заметить, асинхронная функция дала выигрыш по времени больше, чем в 6.6 раз

In [None]:
# Выводим результат
current_temp_a

Unnamed: 0,city,temp_now,temp_min,temp_max
0,New York,-1.73,-2.87,-1.02
1,London,5.24,3.92,5.99
2,Paris,7.95,6.77,8.38
3,Tokyo,5.44,5.35,5.86
4,Moscow,-4.76,-5.71,-4.76
5,Sydney,20.86,20.2,21.51
6,Berlin,9.56,7.77,11.01
7,Beijing,-0.06,-0.06,-0.06
8,Rio de Janeiro,27.87,27.76,30.0
9,Dubai,20.96,19.14,20.96


In [None]:
# Определение нормальности температуры
def anomal_season(data_now, seasonal_stats):
    month_map = {
        (1, 2, 12): 'winter',
        (3, 4, 5): 'spring',
        (6, 7, 8): 'summer',
        (9, 10, 11): 'autumn'
    }
    for months, season in month_map.items():
        if datetime.datetime.now().month in months:
            current_season = season
            break

    city_data = seasonal_stats[(seasonal_stats['city'] == data_now['city']) & (seasonal_stats['season'] == current_season)]
    if city_data.empty:
        return 0  # Возвращаем 0, если нет данных для этого города и сезона

    mean_temp = city_data['mean_temp'].iloc[0]
    std_dev = city_data['std_temp'].iloc[0]

     # Условие для определения аномальной температуры
    if (data_now['temp_now'] > mean_temp + 2 * std_dev) or (data_now['temp_now'] < mean_temp - 2 * std_dev):
        return 'Аномалия'
    else:
        return 'Норма'

In [None]:
current_temp['anomal_season'] = current_temp[['city', 'temp_now']].apply(lambda x: anomal_season(x, seasonal_stats), axis = 1)
current_temp

Unnamed: 0,city,temp_now,temp_min,temp_max,anomal_season
0,New York,-1.85,-2.95,-1.02,Норма
1,London,4.75,3.43,5.64,Норма
2,Paris,7.83,6.32,8.38,Норма
3,Tokyo,5.47,4.79,5.86,Норма
4,Moscow,-5.2,-6.9,-4.76,Норма
5,Sydney,20.8,20.2,21.51,Норма
6,Berlin,9.48,7.4,11.01,Норма
7,Beijing,-0.06,-0.06,-0.06,Норма
8,Rio de Janeiro,27.87,27.76,30.0,Норма
9,Dubai,20.54,18.16,20.96,Норма


Как видно, текущая температура во всех городах находится в пределах нормы, исходя из исторических данных для данного сезона.