## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [130]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}


# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df


# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


### 1. Анализ исторических данных

In [131]:
df = pd.read_csv('temperature_data.csv')

In [132]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54750 entries, 0 to 54749
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   city         54750 non-null  object 
 1   timestamp    54750 non-null  object 
 2   temperature  54750 non-null  float64
 3   season       54750 non-null  object 
dtypes: float64(1), object(3)
memory usage: 1.7+ MB


In [133]:
df.head()

Unnamed: 0,city,timestamp,temperature,season
0,New York,2010-01-01,-0.800916,winter
1,New York,2010-01-02,3.130357,winter
2,New York,2010-01-03,2.80194,winter
3,New York,2010-01-04,-3.846097,winter
4,New York,2010-01-05,-1.614275,winter


#### Вычисление скользящего среднего температуры с окном в 30 дней для сглаживания краткосрочных колебаний

In [134]:
import pandas as pd
import time

df['timestamp'] = pd.to_datetime(df['timestamp'])
df.set_index('timestamp', inplace=True)


def analyze_city(city_data):
    city_data['rolling_mean'] = city_data['temperature'].rolling(window=30, min_periods=1).mean()
    city_data['rolling_std'] = city_data['temperature'].rolling(window=30, min_periods=1).std()

    seasonal_stats = city_data.groupby('season')['temperature'].agg(['mean', 'std']).reset_index()
    city_data = city_data.merge(seasonal_stats, on='season', suffixes=('', '_season'))

    city_data['is_anomaly'] = (city_data['temperature'] > city_data['rolling_mean'] + 2 * city_data['rolling_std']) | \
                              (city_data['temperature'] < city_data['rolling_mean'] - 2 * city_data['rolling_std'])
    return city_data


In [135]:
# Последовательный анализ данных
start_time = time.time()
results_non_parallel = [analyze_city(group) for _, group in df.copy().groupby('city')]
non_parallel_time = time.time() - start_time

print("Non-parallel time:", non_parallel_time)
not_parallel_results = pd.concat(results_non_parallel)
print(not_parallel_results[not_parallel_results['is_anomaly'] == True].shape)
not_parallel_results[not_parallel_results['is_anomaly'] == True].head()

Non-parallel time: 0.05740499496459961
(2771, 8)


Unnamed: 0,city,temperature,season,rolling_mean,rolling_std,mean,std,is_anomaly
9,Beijing,10.44031,winter,-2.424945,5.568372,-2.31441,4.913169,True
59,Beijing,14.621026,spring,-1.755015,5.752854,12.98483,4.910381,True
62,Beijing,17.587433,spring,-0.528129,6.526667,12.98483,4.910381,True
63,Beijing,17.714677,spring,0.16632,7.303624,12.98483,4.910381,True
70,Beijing,28.256653,spring,3.431789,9.296064,12.98483,4.910381,True


In [136]:
import multiprocess as mp

# Параллельный анализ данных
city_data = [group for _, group in df.copy().groupby('city')]
start_time = time.time()
with mp.Pool() as pool:
    results_parallel = pool.map(analyze_city, city_data)
parallel_time = time.time() - start_time

print("Parallel time:", parallel_time)
parallel_results = pd.concat(results_parallel)
print(parallel_results[parallel_results['is_anomaly'] == True].shape)
parallel_results[parallel_results['is_anomaly'] == True].head()

Parallel time: 0.3067808151245117
(2771, 8)


Unnamed: 0,city,temperature,season,rolling_mean,rolling_std,mean,std,is_anomaly
9,Beijing,10.44031,winter,-2.424945,5.568372,-2.31441,4.913169,True
59,Beijing,14.621026,spring,-1.755015,5.752854,12.98483,4.910381,True
62,Beijing,17.587433,spring,-0.528129,6.526667,12.98483,4.910381,True
63,Beijing,17.714677,spring,0.16632,7.303624,12.98483,4.910381,True
70,Beijing,28.256653,spring,3.431789,9.296064,12.98483,4.910381,True


Видно, что на в данном случае распалларерирование анализа не помогло. Связано это с достаточно мощной машиной, на котором запускался данный код блока. Таким образом, больше времени уходило на создание потоков и объектов Pool, чем на подсчет результата в методе analyze_city

### 2.Мониторинг текущей температуры

In [137]:
import pandas as pd
import requests
import aiohttp

In [138]:
api_key = '7e5088025d0806335ab52095fa032651'

In [139]:
# Синхронный вызво для получения текущей температуры через API OpenWeatherMap
def get_current_temperature(city, api_key):
    url = f"http://api.openweathermap.org/data/2.5/weather?q={city}&appid={api_key}&units=metric"
    response = requests.get(url)
    if response.status_code == 200:
        data = response.json()
        return data['main']['temp']
    else:
        print(f"Error: {response.status_code}, {response.json()}.")
        return None

In [140]:
# Acинхронный вызво для получения текущей температуры через API OpenWeatherMap
async def get_current_temperature_async(city, api_key):
    url = f"http://api.openweathermap.org/data/2.5/weather?q={city}&appid={api_key}&units=metric"
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            if response.status == 200:
                data = await response.json()
                return data['main']['temp']
            else:
                print(f"Error: {response.status}, {await response.json()}.")
                return None

In [141]:
# Функция для определения, нормальна ли текущая температура для сезона
def is_temperature_normal(temperature, season_stat, city, season):
    if city in season_stat.city.unique() and season in season_stat.season.unique():
        mean = season_stat[(season_stat['city'] == city) & (season_stat['season'] == season)]['mean'].iloc[0]
        std = season_stat[(season_stat['city'] == city) & (season_stat['season'] == season)]['std'].iloc[0]
        lower_bound = mean - 2 * std
        upper_bound = mean + 2 * std
        return lower_bound <= temperature <= upper_bound
    else:
        print(f"No historical data for {city} in {season}.")
        return None

In [142]:
city = 'Dubai'
season = 'winter'

In [143]:
# Синхронный вызов и сравнение
current_temp = get_current_temperature(city, api_key)
if current_temp is not None:
    is_normal = is_temperature_normal(current_temp, parallel_results, city, season)
    print(f"Current temperature in {city}: {current_temp}°C.")
    print(f"Temperature normal for the season: {'Yes' if is_normal else 'No'}.")

Current temperature in Dubai: 25.96°C.
Temperature normal for the season: Yes.


In [144]:
# Асинхронный вызов и сравнение
current_temp = await get_current_temperature_async(city, api_key)
if current_temp is not None:
    is_normal = is_temperature_normal(current_temp, parallel_results, city, season)
    print(f"Current temperature in {city}: {current_temp}°C.")
    print(f"Temperature normal for the season: {'Yes' if is_normal else 'No'}.")

Current temperature in Dubai: 25.96°C.
Temperature normal for the season: Yes.


В данном случае, так как мы работаем с сетью, то необходимо делать данные операции асинхронно, чтобы долгий ответ и возможное ожидаение таймаута не блокировало основной поток и программа была более юзерфрендли.

In [145]:
# Проверим для всех городов
for city in parallel_results.city.unique():
    current_temp = await get_current_temperature_async(city, api_key)
    if current_temp is not None:
        is_normal = is_temperature_normal(current_temp, parallel_results, city, season)
        print(f"Current temperature in {city}: {current_temp}°C.")
        print(f"Temperature normal for the season: {'Yes' if is_normal else 'No'}.")

Current temperature in Beijing: -4.06°C.
Temperature normal for the season: Yes.
Current temperature in Berlin: 4.66°C.
Temperature normal for the season: Yes.
Current temperature in Cairo: 19.42°C.
Temperature normal for the season: Yes.
Current temperature in Dubai: 25.96°C.
Temperature normal for the season: Yes.
Current temperature in London: 10.65°C.
Temperature normal for the season: Yes.
Current temperature in Los Angeles: 12.12°C.
Temperature normal for the season: Yes.
Current temperature in Mexico City: 12.28°C.
Temperature normal for the season: Yes.
Current temperature in Moscow: 2.61°C.
Temperature normal for the season: No.
Current temperature in Mumbai: 25.99°C.
Temperature normal for the season: Yes.
Current temperature in New York: -0.9°C.
Temperature normal for the season: Yes.
Current temperature in Paris: 7.38°C.
Temperature normal for the season: Yes.
Current temperature in Rio de Janeiro: 25.48°C.
Temperature normal for the season: Yes.
Current temperature in Sing