## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [36]:
import time
import pandas as pd
import numpy as np
import plotly.graph_objects as go
import requests
from sklearn.linear_model import LinearRegression
from joblib import Parallel, delayed

In [2]:
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)

# Генерация датасета

In [3]:
# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
# data.to_csv('temperature_data.csv', index=False)


# Анализ

In [8]:
data = pd.read_csv("/content/temperature_data.csv")
data.head()

Unnamed: 0,city,timestamp,temperature,season
0,New York,2010-01-01,1.626927,winter
1,New York,2010-01-02,5.741201,winter
2,New York,2010-01-03,-5.667959,winter
3,New York,2010-01-04,-9.490718,winter
4,New York,2010-01-05,2.071892,winter


In [9]:
data.shape

(54750, 4)

In [10]:
# посчитаю скользящее среднее и стандартное отклонение
data['rolling_mean'] = data.groupby('city')['temperature'].rolling(window=30, min_periods=1).mean().reset_index(drop=True)
data['rolling_std'] = data.groupby('city')['temperature'].rolling(window=30, min_periods=1).std().reset_index(drop=True)

In [11]:
data.head()

Unnamed: 0,city,timestamp,temperature,season,rolling_mean,rolling_std
0,New York,2010-01-01,1.626927,winter,2.955329,
1,New York,2010-01-02,5.741201,winter,2.398275,0.787794
2,New York,2010-01-03,-5.667959,winter,-0.371214,4.829131
3,New York,2010-01-04,-9.490718,winter,-2.555472,5.884805
4,New York,2010-01-05,2.071892,winter,-2.189498,5.161674


In [12]:
# задетектим аномалии - булев флаг
data['anomaly'] = (
    (data['temperature'] > data['rolling_mean'] + 2 * data['rolling_std']) |
    (data['temperature'] < data['rolling_mean'] - 2 * data['rolling_std'])
)

In [14]:
data.head()

Unnamed: 0,city,timestamp,temperature,season,rolling_mean,rolling_std,anomaly
0,New York,2010-01-01,1.626927,winter,2.955329,,False
1,New York,2010-01-02,5.741201,winter,2.398275,0.787794,True
2,New York,2010-01-03,-5.667959,winter,-0.371214,4.829131,False
3,New York,2010-01-04,-9.490718,winter,-2.555472,5.884805,False
4,New York,2010-01-05,2.071892,winter,-2.189498,5.161674,False


In [32]:
# аномалий почти 30%
data['anomaly'].value_counts(normalize=True)

Unnamed: 0_level_0,proportion
anomaly,Unnamed: 1_level_1
False,0.700877
True,0.299123


In [17]:
seasonal_profile = data.groupby(['city', 'season'])['temperature'].agg(['mean', 'std']).reset_index()
seasonal_profile[['mean', 'std']] = seasonal_profile[['mean', 'std']].apply(lambda x: round(x, 2))

In [19]:
# получаем профиль сезона по городу - его исторические mean и std по температуре
seasonal_profile.head()

Unnamed: 0,city,season,mean,std
0,Beijing,autumn,16.05,4.91
1,Beijing,spring,12.7,4.9
2,Beijing,summer,26.78,5.13
3,Beijing,winter,-2.01,5.0
4,Berlin,autumn,11.07,5.17


In [38]:
# возьмем один город для анализа
data_city = data[data['city'] == 'Beijing']

In [39]:
# его аномалии по температуре
anomalies = data_city[data_city['anomaly']]

In [42]:
fig = go.Figure()
fig.add_trace(go.Scatter(x=data_city['timestamp'], y=data_city['temperature'], mode='lines', name='Температура'))
fig.add_trace(go.Scatter(x=data_city['timestamp'], y=data_city['rolling_mean'], mode='lines', name='Скользящее среднее'))
fig.add_trace(go.Scatter(x=anomalies['timestamp'], y=anomalies['temperature'], mode='markers', name='Аномалии', marker=dict(color='red')))
fig.update_layout(width=1200, height=800, title="Температура, скользящее среднее и аномалии", xaxis_title="Дата", yaxis_title="Температура")

In [43]:
# попробуем выявить направление тренда по наблюдениям и температуре
data_city = data[data['city'] == 'Beijing']
X = np.arange(len(data_city)).reshape(-1, 1)
y = data_city['temperature'].values

model = LinearRegression()
model.fit(X, y)
trend = model.coef_[0]

In [44]:
# тренд температуры Пекина около нулевой
trend

0.00017248107916893152

# Текущая температура по API

In [21]:
def get_current_weather(api_key, city):
    url = f"http://api.openweathermap.org/data/2.5/weather?q={city}&appid={api_key}&units=metric"
    response = requests.get(url)
    if response.status_code == 200:
        data = response.json()
        return data
    else:
        return None

In [22]:
get_current_weather('My_API_Key', 'New York')

{'coord': {'lon': -74.006, 'lat': 40.7143},
 'weather': [{'id': 800,
   'main': 'Clear',
   'description': 'clear sky',
   'icon': '01d'}],
 'base': 'stations',
 'main': {'temp': 14.93,
  'feels_like': 13.94,
  'temp_min': 13.79,
  'temp_max': 15.75,
  'pressure': 1020,
  'humidity': 56,
  'sea_level': 1020,
  'grnd_level': 1018},
 'visibility': 10000,
 'wind': {'speed': 5.66, 'deg': 250},
 'clouds': {'all': 0},
 'dt': 1734465802,
 'sys': {'type': 2,
  'id': 2037026,
  'country': 'US',
  'sunrise': 1734437679,
  'sunset': 1734471012},
 'timezone': -18000,
 'id': 5128581,
 'name': 'New York',
 'cod': 200}

Плохо, что не возвращает текущий сезон или месяц, в стримлите нужно будет определять текущий сезон и сравнивать с историческими температурами, но по
датасету повезло, что последние наблюдения зимние и из API мы тянем текущую дату в декабре, так что можно сделать допущение, что последнее наблюдение совпадает с текущим сезоном

In [29]:
data['season'].iloc[-1]

'winter'

In [27]:
get_current_weather('My_API_Key', 'New York')['main']['temp']

14.93

In [28]:
get_current_weather('My_API_Key', 'Dubai')['main']['temp']

21.96

# Бенчмарки - с распараллеливанием и без

так как в рамках Streamlit мы делаем запрос по одному городу - там нет смысла параллелить, а в рамках анализа датасет достаточно небольшой, чтобы что-то паралеллить, но ради интереса можно посмотреть

In [62]:
data = pd.read_csv("/content/temperature_data.csv")

# Без распараллеливания
start_time = time.time()
data['rolling_mean'] = data.groupby('city')['temperature'].rolling(window=30, min_periods=1).mean().reset_index(drop=True)
data['rolling_std'] = data.groupby('city')['temperature'].rolling(window=30, min_periods=1).std().reset_index(drop=True)

data['anomaly'] = (
    (data['temperature'] > data['rolling_mean'] + 2 * data['rolling_std']) |
    (data['temperature'] < data['rolling_mean'] - 2 * data['rolling_std'])
)
print(f"Время выполнения без распараллеливания: {time.time() - start_time}")

Время выполнения без распараллеливания: 0.037287235260009766


In [63]:
def process_city(city_data):
    city_data['rolling_mean'] = city_data['temperature'].rolling(window=30, min_periods=1).mean()
    city_data['rolling_std'] = city_data['temperature'].rolling(window=30, min_periods=1).std()

    city_data['anomaly'] = (
        (city_data['temperature'] > city_data['rolling_mean'] + 2 * city_data['rolling_std']) |
        (city_data['temperature'] < city_data['rolling_mean'] - 2 * city_data['rolling_std'])
    )
    return city_data

In [64]:
data = pd.read_csv("/content/temperature_data.csv")

# С распараллеливанием
start_time = time.time()
df_parallel = Parallel(n_jobs=-1)(delayed(process_city)(group) for name, group in data.groupby('city'))
df_parallel = pd.concat(df_parallel)
print(f"Время выполнения с распараллеливанием: {time.time() - start_time}")

Время выполнения с распараллеливанием: 0.16654443740844727


**Вывод**: как и ожидалось на таких песочных примерах распараллеливание не лучше, а
даже хуже