## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [None]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


### 1. Анализ исторических данных

In [3]:
df = pd.read_csv('temperature_data.csv')

In [4]:
df.head()

Unnamed: 0,city,timestamp,temperature,season
0,New York,2010-01-01,12.195928,winter
1,New York,2010-01-02,-3.830342,winter
2,New York,2010-01-03,-2.816514,winter
3,New York,2010-01-04,1.817052,winter
4,New York,2010-01-05,0.147015,winter


#### Вычисление скользящего среднего температуры с окном в 30 дней для сглаживания краткосрочных колебаний

In [5]:
df['timestamp'] = pd.to_datetime(df['timestamp'])
df.set_index('timestamp', inplace=True)

In [6]:
df['rolling_mean'] = df.groupby('city')['temperature'].transform(lambda x: x.rolling(window=30).mean())

In [7]:
df.tail()

Unnamed: 0_level_0,city,temperature,season,rolling_mean
timestamp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2019-12-25,Mexico City,10.602022,winter,12.070448
2019-12-26,Mexico City,7.680637,winter,11.884468
2019-12-27,Mexico City,10.334227,winter,12.006662
2019-12-28,Mexico City,15.116176,winter,12.015464
2019-12-29,Mexico City,10.786249,winter,12.024318


#### Рассчет средней температуры и стандартного отклонения для каждого сезона в каждом городе.

In [8]:
season_stat = df.groupby(['city', 'season'])['temperature'].agg(['mean', 'std']).reset_index()

In [9]:
season_stat.head()

Unnamed: 0,city,season,mean,std
0,Beijing,autumn,16.012767,4.985812
1,Beijing,spring,13.369094,4.917115
2,Beijing,summer,27.25486,4.877447
3,Beijing,winter,-2.170935,5.050283
4,Berlin,autumn,10.582401,4.919256


#### Выявление аномалии

In [10]:
def take_anomalies(group):
    mean = group['mean'].values[0]
    std = group['std'].values[0]
    lower_bound = mean - 2 * std
    upper_bound = mean + 2 * std
    return group[(group['temperature'] < lower_bound) | (group['temperature'] > upper_bound)]

In [11]:
anomals = season_stat.merge(df, on=['city', 'season'])
anomals_df = anomals.groupby(['city', 'season']).apply(take_anomalies).reset_index(drop=True)

  anomals_df = anomals.groupby(['city', 'season']).apply(take_anomalies).reset_index(drop=True)


In [12]:
anomals_df.shape

(2448, 6)

#### Распараллелим проведение анализа

In [13]:
from concurrent.futures import ThreadPoolExecutor

In [14]:
def stat_city(city_data):
    seasonal_stats = city_data.groupby('season')['temperature'].agg(['mean', 'std']).reset_index()
    city_data = city_data.merge(seasonal_stats, on='season', suffixes=('', '_stats'))
    anomalies = city_data[(city_data['temperature'] < (city_data['mean'] - 2 * city_data['std'])) | 
                          (city_data['temperature'] > (city_data['mean'] + 2 * city_data['std']))]
    return seasonal_stats, anomalies

# Получаем уникальные города
cities = df['city'].unique()
city_data_list = [df[df['city'] == city] for city in cities]

# Используем ThreadPoolExecutor для многопоточности
with ThreadPoolExecutor() as executor:
    results = list(executor.map(stat_city, city_data_list))

# Объединяем результаты
season_stats_parallel = pd.concat([result[0] for result in results])
anomals_parallel = pd.concat([result[1] for result in results])

In [15]:
anomals_parallel.shape

(2448, 6)

#### Сравним время выполнения 

In [16]:
import time

In [17]:
# Без распараллеливания
start_time = time.time()

cities = df['city'].unique()
city_data_list = [df[df['city'] == city] for city in cities]

with ThreadPoolExecutor() as executor:
    results = list(executor.map(stat_city, city_data_list))
season_stats_parallel = pd.concat([result[0] for result in results])
anomals_parallel = pd.concat([result[1] for result in results])

end_time = time.time()
print(f"Время выполнения без распараллеливания: {end_time - start_time} секунд")


start_time = time.time()

cities = df['city'].unique()
city_data_list = [df[df['city'] == city] for city in cities]
results = [stat_city(city_data) for city_data in city_data_list]
season_stats = pd.concat([result[0] for result in results])
anomals = pd.concat([result[1] for result in results])

end_time = time.time()
print(f"Время выполнения с распараллеливанием: {end_time - start_time} секунд")

Время выполнения без распараллеливания: 0.06664347648620605 секунд
Время выполнения с распараллеливанием: 0.0570521354675293 секунд


### 2.Мониторинг текущей температуры

In [18]:
import requests

In [19]:
api_key = '79fdea10559bb7f0457f44e9bfc4a9d3'

In [20]:
city = 'Berlin'

#### Синхронный метод получения температуры

In [None]:
def get_current_temperature(city, api_key):
    url = f"http://api.openweathermap.org/data/2.5/weather?q={city}&appid={api_key}&units=metric"
    response = requests.get(url)
    data = response.json()
    
    if response.status_code == 200:
        return data['main']['temp']
    else:
        print(f"Error: {data['message']}")
        return None

In [22]:
temperature = get_current_temperature(city, api_key)
print(f"Температура в {city}: {temperature}°C")

Температура в Berlin: 4.55°C


#### Асинхронный метод получения температуры

In [23]:
import aiohttp
import asyncio

In [24]:
async def get_current_temperature_async(city, api_key):
    url = f"http://api.openweathermap.org/data/2.5/weather?q={city}&appid={api_key}&units=metric"
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            data = await response.json()
            if response.status == 200:
                return data['main']['temp']
            else:
                print(f"Error: {data['message']}")
                return None

In [25]:
temperature = await get_current_temperature_async(city, api_key)
print(f"Температура в {city}: {temperature}°C")

Температура в Berlin: 4.55°C


Вывод: 
1) Cинхронный метод проще в реализации, но может блокировать выполнение программы, ожидая ответа от API.
2) Асинхронный метод позволяет выполнять расчеты во время ожидания ответа от API, что может значительно повысить производительность.
3) Исходя из (1), (2) далее я буду использовать асинхронный метод.

#### Определим, является ли текущая температура нормальной

Используем правило трех сигм: если температура попадает в диапазон от средней температуры минус три стандартных отклонения до средней температуры плюс три стандартных отклонения, то ее можно считать нормальной.

Проверяем, является ли температура нормальной

In [137]:
def is_temperature_normal(temperature, season_stat, city, season):
    if city in season_stat.city.unique() and season in season_stat.season.unique():
        mean = season_stat[(season_stat['city'] == city) & (season_stat['season'] == season)]['mean'].iloc[0]
        std = season_stat[(season_stat['city'] == city) & (season_stat['season'] == season)]['std'].iloc[0]
        lower_bound = mean - 3 * std
        upper_bound = mean + 3 * std
        return lower_bound <= temperature <= upper_bound
    else:
        print(f"No historical data for {city} in {season}.")
        return None

In [118]:
async def cur_temp(city, season, api_key):
    current_temp = await get_current_temperature_async(city, api_key)
    if current_temp is not None:
        if is_temperature_normal(current_temp, season_stat, city, season):
            print(f"Температура в {city}: {current_temp}°C (нормальная)")
        else:
            print(f"Температура в {city}: {current_temp}°C (ненормальная)")

In [139]:
city = 'Beijing'
season = 'winter' # т.к. текущий сезон - зима
result = await cur_temp(city, season, api_key)

Температура в Beijing: -7.06°C (нормальная)


Протестируем температуру для всех городов:

In [142]:
season = 'winter'
api_key = '79fdea10559bb7f0457f44e9bfc4a9d3'

In [141]:
for town in season_stat.city.unique():
    res = await cur_temp(town, season, api_key)
    print(res)

Температура в Beijing: -7.06°C (нормальная)
None
Температура в Berlin: 3.96°C (нормальная)
None
Температура в Cairo: 23.42°C (нормальная)
None
Температура в Dubai: 27.96°C (нормальная)
None
Температура в London: 7.2°C (нормальная)
None
Температура в Los Angeles: 13.19°C (нормальная)
None
Температура в Mexico City: 7.96°C (нормальная)
None
Температура в Moscow: -2.84°C (нормальная)
None
Температура в Mumbai: 24.99°C (нормальная)
None
Температура в New York: 5.73°C (нормальная)
None
Температура в Paris: 7.98°C (нормальная)
None
Температура в Rio de Janeiro: 29.29°C (нормальная)
None
Температура в Singapore: 27.97°C (нормальная)
None
Температура в Sydney: 18.74°C (нормальная)
None
Температура в Tokyo: 5.98°C (нормальная)
None
