## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [1]:
import time
import asyncio
from axiluary_functions import *

dotenv_path = '.env'
if os.path.exists(dotenv_path):
    load_dotenv(dotenv_path)

DATA_PATH = os.getenv('DATA_PATH')
API_KEY = os.getenv('API_KEY')
# Выберем единицы: температура в градусах Цельсия, ветер в м/с
UNITS = os.getenv('UNITS')

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv(os.path.join(DATA_PATH, 'temperature_data.csv'), index=False)


# **Анализ исторических данных**

   В данном разделе:
   - вычислим **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе (по скользящим средним значениям и по всем значениям).
   - выявим аномалии, где температура выходит за пределы скользящих средних $ \text{среднее} \pm 2\sigma $.
   - попробуем распараллелить проведение этого анализа. Сравним скорость выполнения анализа с распараллеливанием и без него.

## Загрузка данных

In [2]:
# Загрузим датасет
df = pd.read_csv(os.path.join(DATA_PATH, 'temperature_data.csv'))

In [3]:
# Рассмотрим первые строки
df.head()

Unnamed: 0,city,timestamp,temperature,season
0,New York,2010-01-01,4.392725,winter
1,New York,2010-01-02,-2.185858,winter
2,New York,2010-01-03,1.876412,winter
3,New York,2010-01-04,7.846638,winter
4,New York,2010-01-05,0.157972,winter


In [4]:
# Рассмотрим общие сведения
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54750 entries, 0 to 54749
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   city         54750 non-null  object 
 1   timestamp    54750 non-null  object 
 2   temperature  54750 non-null  float64
 3   season       54750 non-null  object 
dtypes: float64(1), object(3)
memory usage: 1.7+ MB


Каждый объект в наборе данных — это информация о температуре в городе в определённый день. Столбцы содержат следующую информацию (признаки):
- `city` - наименование города,
- `timestamp` — дата,
- `temperature` — температура в градусах Цельсия,
- `season` - сезон, соответствующий дате.  
Пропуски отсутствуют. Тип данных метки времени приведём к необходимому типу.

## Приведение типа и смена индекса

In [5]:
# Преобразуем тип данных в столбце с датой и временем
df['timestamp'] = pd.to_datetime(df['timestamp'], format='%Y-%m-%d')

In [6]:
# Проверим столбец с датой и временем на упорядоченность
df['timestamp'].is_monotonic_increasing

False

In [7]:
# Отсортируем по дате
df = df.sort_values(by='timestamp')
df['timestamp'].is_monotonic_increasing

True

In [8]:
# Cтолбец с датой и временем используем для индесации данных
df.set_index(['timestamp'], inplace=True)

In [9]:
# Рассмотрим общие сведения после преобразований
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 54750 entries, 2010-01-01 to 2019-12-29
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   city         54750 non-null  object 
 1   temperature  54750 non-null  float64
 2   season       54750 non-null  object 
dtypes: float64(1), object(2)
memory usage: 1.7+ MB


## Анализ погоды в городах

In [10]:
# Проверим работу функции на примере одного из городов
city_weather_report(df[df['city']=='New York'])

{'city': 'New York',
 'avg': np.float64(12.44),
 'min': np.float64(-15.28),
 'max': np.float64(42.74),
 'anomal_values': timestamp
 2010-02-27     8.713577
 2010-03-02    15.344701
 2010-03-03    17.414126
 2010-03-04    25.049146
 2010-03-06    18.467591
                 ...    
 2019-11-14     6.766359
 2019-11-16    28.022032
 2019-12-01     3.786671
 2019-12-02    -4.489312
 2019-12-04    -2.723106
 Name: temperature, Length: 212, dtype: float64,
 'season_profile_roll30': {'winter_avg': np.float64(2.27),
  'winter_std': np.float64(4.55),
  'spring_avg': np.float64(8.2),
  'spring_std': np.float64(2.83),
  'summer_avg': np.float64(22.75),
  'summer_std': np.float64(4.41),
  'autumn_avg': np.float64(16.4),
  'autumn_std': np.float64(2.84)},
 'season_profile': {'winter_avg': np.float64(-0.19),
  'winter_std': np.float64(4.85),
  'spring_avg': np.float64(9.8),
  'spring_std': np.float64(5.16),
  'summer_avg': np.float64(25.08),
  'summer_std': np.float64(5.01),
  'autumn_avg': np.float

Попробуем распараллелить проведение этого анализа. Сравним скорость выполнения
анализа с распараллеливанием и без него. В эксперименте с параллельным выполнением получился результат ~1.4 c.

In [11]:
# Выполнение без распараллеливания
start = time.time()
reports = []
for city in df['city'].unique():
    reports.append(city_weather_report(df[df['city']==city]))
print(f'Выполнение завершено за {time.time() - start: .3f} с')
pd.DataFrame(reports).info()

Выполнение завершено за  0.081 с
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   city                   15 non-null     object 
 1   avg                    15 non-null     float64
 2   min                    15 non-null     float64
 3   max                    15 non-null     float64
 4   anomal_values          15 non-null     object 
 5   season_profile_roll30  15 non-null     object 
 6   season_profile         15 non-null     object 
 7   trend                  15 non-null     float64
dtypes: float64(4), object(4)
memory usage: 1.1+ KB


Как видим выигрыш от распараллеливания при такой незначительной задаче отсутствует. Наоборот, получилось на порядок медленнее. Это связано с накладными расходами на создание процессов и относительно слабой задачей.

# **Мониторинг текущей температуры**

   В данном разделе:
   - подключим OpenWeatherMap API,
   - получим текущую температуру для выбранного города через OpenWeatherMap API,
   - определим, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона (профиль сезона будем брать не по скользящим средним, а по всем значениям),
   - протестируем свое решение для разных городов,
   - попробуем для получения текущей температуры использовать синхронные и асинхронные методы. Здесь I/O задача, лучше использовать асинхронные методы.

## API OpenWeatherMap

Описание [API openweathermap](https://openweathermap.org/current)  
В нашем случае будем использовать для запросов шаблон `https://api.openweathermap.org/data/2.5/weather?lat={lat}&lon={lon}&units={units}&appid={API_KEY}`, где:
- `lat` - широта [-90, 90],
- `lon` - долгота [-180, 180],
- `units` - единицы измерения,
- `API_KEY` - ключ доступа к API.  
Для получения координат по названию города, почтовому коду или, наоборот, по координатам получить название/кода, используем сервис Geocoding API, выполняя запросы по шаблону `http://api.openweathermap.org/geo/1.0/direct?q={city name}&appid={API key}`, где:
- `city_name` - название города,
- `API_KEY` - ключ доступа к API.

In [12]:
# Посмотрим на примере одного города. Выполним запрос координат
geo_info = requests.get(
    f'http://api.openweathermap.org/geo/1.0/direct?q=New York&appid={API_KEY}'
    ).json()
geo_info

[{'name': 'New York',
  'local_names': {'he': 'ניו יורק',
   'es': 'Nueva York',
   'is': 'Nýja Jórvík',
   'pl': 'Nowy Jork',
   'kn': 'ನ್ಯೂಯೊರ್ಕ್',
   'no': 'New York',
   'vi': 'New York',
   'pa': 'ਨਿਊਯਾਰਕ',
   'ga': 'Nua-Eabhrac',
   'fr': 'New York',
   'en': 'New York',
   'ru': 'Нью-Йорк',
   'br': 'New York',
   'de': 'New York',
   'fa': 'نیویورک',
   'ko': '뉴욕',
   'tt': 'Ниюрык',
   'uk': 'Нью-Йорк',
   'oc': 'Nòva York',
   'el': 'Νέα Υόρκη',
   'te': 'న్యూయొర్క్',
   'tr': 'New York',
   'pt': 'Nova Iorque',
   'be': 'Нью-Ёрк',
   'bn': 'নিউ ইয়র্ক',
   'ar': 'نيويورك',
   'hi': 'न्यूयॊर्क्',
   'ja': 'ニューヨーク',
   'cy': 'Efrog Newydd',
   'cs': 'New York',
   'gl': 'Nova York',
   'zh': '纽约',
   'eo': 'Novjorko',
   'hr': 'New York',
   'it': 'New York',
   'ur': 'نیو یارک',
   'ca': 'Nova York',
   'sr': 'Њујорк',
   'eu': 'New York'},
  'lat': 40.7127281,
  'lon': -74.0060152,
  'country': 'US',
  'state': 'New York'}]

In [13]:
# Получим широту и долготу
lat = geo_info[0]['lat']
lon = geo_info[0]['lon']
lat, lon

(40.7127281, -74.0060152)

In [14]:
# Запросим текущие данные о погоде
weather_data = requests.get(
f'https://api.openweathermap.org/data/2.5/weather?lat={lat}&lon={lon}&units={UNITS}&appid={API_KEY}'
).json()
weather_data

{'coord': {'lon': -74.006, 'lat': 40.7127},
 'weather': [{'id': 800,
   'main': 'Clear',
   'description': 'clear sky',
   'icon': '01n'}],
 'base': 'stations',
 'main': {'temp': 3.61,
  'feels_like': -0.72,
  'temp_min': 1.99,
  'temp_max': 4.43,
  'pressure': 1026,
  'humidity': 56,
  'sea_level': 1026,
  'grnd_level': 1024},
 'visibility': 10000,
 'wind': {'speed': 5.66, 'deg': 360},
 'clouds': {'all': 0},
 'dt': 1734656413,
 'sys': {'type': 1,
  'id': 4610,
  'country': 'US',
  'sunrise': 1734610549,
  'sunset': 1734643857},
 'timezone': -18000,
 'id': 5128581,
 'name': 'New York',
 'cod': 200}

In [15]:
# Получим текущую температуру
weather_data['main']['temp']

3.61

## Синхронный подход

In [16]:
# Определим сезон
season = month_to_season[time.gmtime().tm_mon]

In [17]:
anomality_check = {}
start = time.time()
for report in reports:
     anomality_check[report['city']] =  is_anomalistic(season, report)
print(f'Выполнение завершено за {time.time() - start: .3f} с')
anomality_check

Выполнение завершено за  3.622 с


{'New York': False,
 'Tokyo': False,
 'Singapore': False,
 'Mexico City': False,
 'Dubai': False,
 'Berlin': False,
 'Mumbai': False,
 'Moscow': False,
 'Sydney': True,
 'London': False,
 'Cairo': False,
 'Beijing': False,
 'Rio de Janeiro': False,
 'Paris': False,
 'Los Angeles': False}

## Асинхронный подход

In [18]:
# Асинхронно получаем данные по нескольким городам
import nest_asyncio
nest_asyncio.apply()
async def check():
    tasks = [async_is_anomalistic(season, report) for report in reports]
    results = await asyncio.gather(*tasks)
    anomality_check = dict(zip([report['city'] for report in reports],
                               results))
    return anomality_check
    
    
start = time.time()
anomality_check = asyncio.get_event_loop().run_until_complete(check())
print(f'Выполнение завершено за {time.time() - start: .3f} с')
anomality_check

Выполнение завершено за  0.283 с


{'New York': False,
 'Tokyo': False,
 'Singapore': False,
 'Mexico City': False,
 'Dubai': False,
 'Berlin': False,
 'Mumbai': False,
 'Moscow': False,
 'Sydney': True,
 'London': False,
 'Cairo': False,
 'Beijing': False,
 'Rio de Janeiro': False,
 'Paris': False,
 'Los Angeles': False}

Как видим, асинхронный подход при запросе данных с сайта позволяет получить информацию быстрее.