## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [3]:
import pandas as pd
import numpy as np
from multiprocessing import Pool
import time

In [4]:


# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


# Загрузка данных

In [5]:
df = pd.read_csv('temperature_data.csv')

In [6]:
df.head()

Unnamed: 0,city,timestamp,temperature,season
0,New York,2010-01-01,6.882167,winter
1,New York,2010-01-02,-5.137642,winter
2,New York,2010-01-03,-0.830522,winter
3,New York,2010-01-04,-6.848073,winter
4,New York,2010-01-05,7.755222,winter


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54750 entries, 0 to 54749
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   city         54750 non-null  object 
 1   timestamp    54750 non-null  object 
 2   temperature  54750 non-null  float64
 3   season       54750 non-null  object 
dtypes: float64(1), object(3)
memory usage: 1.7+ MB


# Приведение типа

In [8]:
df['timestamp'] = pd.to_datetime(df['timestamp'])

# Анализ исторических данных:
Вычислим скользящее среднее температуры с окном в 30 дней для сглаживания краткосрочных колебаний.

In [9]:

df['rolling_mean'] = df.groupby('city')['temperature'].transform(lambda x: x.rolling(window=30, min_periods=1).mean())
df['rolling_std'] = df.groupby('city')['temperature'].transform(lambda x: x.rolling(window=30, min_periods=1).std())

df.head()


Unnamed: 0,city,timestamp,temperature,season,rolling_mean,rolling_std
0,New York,2010-01-01,6.882167,winter,6.882167,
1,New York,2010-01-02,-5.137642,winter,0.872263,8.499288
2,New York,2010-01-03,-0.830522,winter,0.304668,6.089782
3,New York,2010-01-04,-6.848073,winter,-1.483517,6.124872
4,New York,2010-01-05,7.755222,winter,0.364231,6.723571


Теперь определим аномалии, где температура выходит за пределы μ±2σ

In [10]:
df['is_anomaly'] = abs(df['temperature'] - df['rolling_mean']) > 2 * df['rolling_std']

anomalies = df[df['is_anomaly'] == True]
anomalies_summary = anomalies.groupby('city').size()

anomalies.head(), anomalies_summary


(        city  timestamp  temperature  season  rolling_mean  rolling_std  \
 43  New York 2010-02-13    -8.241209  winter      0.717485     4.206392   
 59  New York 2010-03-01     9.995066  spring      0.295167     4.655158   
 61  New York 2010-03-03    14.379407  spring      1.102487     5.528014   
 64  New York 2010-03-06    14.077254  spring      1.980958     5.953004   
 66  New York 2010-03-08    19.298444  spring      2.742189     6.633341   
 
     is_anomaly  
 43        True  
 59        True  
 61        True  
 64        True  
 66        True  ,
 city
 Beijing           239
 Berlin            194
 Cairo             185
 Dubai             214
 London            161
 Los Angeles       178
 Mexico City       143
 Moscow            228
 Mumbai            157
 New York          209
 Paris             197
 Rio de Janeiro    164
 Singapore         149
 Sydney            169
 Tokyo             189
 dtype: int64)

- Скользящее среднее и стандартное отклонение
- Сезонные средние температуры и стандартные отклонения
- Аномалии

In [11]:
seasonal_stats = df.groupby(['city', 'season'])['temperature'].agg(['mean', 'std']).reset_index()

df = pd.merge(df, seasonal_stats, on=['city', 'season'], suffixes=('', '_season'))

df['seasonal_anomaly'] = abs(df['temperature'] - df['mean']) > 2 * df['std']

seasonal_anomalies = df[df['seasonal_anomaly'] == True]

print(" Seasonal Temperature Statistics:")
print(seasonal_stats.head())


print("\n Anomalies:")
print(seasonal_anomalies.head())


 Seasonal Temperature Statistics:
      city  season       mean       std
0  Beijing  autumn  16.045746  4.868950
1  Beijing  spring  13.348723  5.212440
2  Beijing  summer  26.926635  5.030811
3  Beijing  winter  -1.985699  4.892709
4   Berlin  autumn  10.961984  5.095462

 Anomalies:
         city  timestamp  temperature  season  rolling_mean  rolling_std  \
203  New York 2010-07-23    15.127766  summer     25.234068     3.772708   
308  New York 2010-11-05    25.267027  autumn     15.567173     5.044490   
331  New York 2010-11-28    25.168107  autumn     15.581902     4.976478   
337  New York 2010-12-04    -9.895790  winter     12.558730     8.371146   
344  New York 2010-12-11     9.970804  winter      9.473060     9.191552   

     is_anomaly       mean       std  seasonal_anomaly  
203        True  25.096202  4.930429              True  
308       False  14.856676  5.018620              True  
331       False  14.856676  5.018620              True  
337        True  -0.127094  

In [12]:
import pandas as pd
import time
from multiprocessing import Pool

# Функция для обработки одной части DataFrame
def process_chunk(chunk):
    """
    Обрабатывает часть данных: расчёт скользящего среднего, сезонных характеристик и аномалий.
    """
    chunk = chunk.copy()
    chunk["roll_mean"] = chunk["temperature"].rolling(window=30, center=True).mean()
    chunk["mean_season"] = chunk.groupby("season")["roll_mean"].transform("mean")
    chunk["std_season"] = chunk.groupby("season")["temperature"].transform("std")
    chunk["is_anomaly"] = abs(chunk["temperature"] - chunk["mean_season"]) > 2 * chunk["std_season"]
    return chunk

# Разделение DataFrame на части и параллельная обработка
def parallel_apply(df, func, num_processes=2):
    """
    Выполняет параллельную обработку DataFrame, разбивая его по городам.
    """
    # Разделяем данные по городам
    cities = df['city'].unique()
    chunks = [df[df['city'] == city] for city in cities]

    # Используем Pool для параллельной обработки
    with Pool(num_processes) as pool:
        results = pool.map(func, chunks)

    # Объединяем результаты
    return pd.concat(results)



In [None]:

print("Последовательная обработка:")
start_time = time.time()
result_sequential = pd.concat([
    process_chunk(group) for _, group in df.groupby("city")
])
sequential_time = time.time() - start_time
print(f"Время последовательной обработки: {sequential_time:.2f} секунд")

# Параллельная обработка
print("\nПараллельная обработка:")
start_time = time.time()
result_parallel = parallel_apply(df, process_chunk, num_processes=4)  # Используем 4 процесса
parallel_time = time.time() - start_time
print(f"Время параллельной обработки: {parallel_time:.2f} секунд")

Последовательная обработка:
Время последовательной обработки: 0.04 секунд

Параллельная обработка:
