## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [190]:
import pandas as pd
import numpy as np
import time
from multiprocessing import Pool
import requests
import aiohttp
import asyncio
from typing import Dict, List
import nest_asyncio
nest_asyncio.apply()

In [None]:

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


In [191]:
# запустим датасет
data = pd.read_csv('temperature_data.csv')

In [193]:
# выведим три первых значения
data.head(3)

Unnamed: 0,city,timestamp,temperature,season
0,New York,2010-01-01,-6.275857,winter
1,New York,2010-01-02,5.753531,winter
2,New York,2010-01-03,5.381143,winter


In [194]:
# выведим три послоедних значения
data.tail(3)

Unnamed: 0,city,timestamp,temperature,season
54747,Mexico City,2019-12-27,11.641006,winter
54748,Mexico City,2019-12-28,10.287287,winter
54749,Mexico City,2019-12-29,6.873774,winter


In [195]:
# выведим три случайных значения
data.sample(3)

Unnamed: 0,city,timestamp,temperature,season
424,New York,2011-03-01,11.955546,spring
8173,Paris,2012-05-23,12.468774,spring
48611,Cairo,2013-03-07,17.057508,spring


In [196]:
data['city'].unique()

array(['New York', 'London', 'Paris', 'Tokyo', 'Moscow', 'Sydney',
       'Berlin', 'Beijing', 'Rio de Janeiro', 'Dubai', 'Los Angeles',
       'Singapore', 'Mumbai', 'Cairo', 'Mexico City'], dtype=object)

In [197]:
data['timestamp'] = pd.to_datetime(data['timestamp'])

In [198]:
# выведим инфу про наш датасет
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54750 entries, 0 to 54749
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   city         54750 non-null  object        
 1   timestamp    54750 non-null  datetime64[ns]
 2   temperature  54750 non-null  float64       
 3   season       54750 non-null  object        
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 1.7+ MB


In [199]:
# выведим уникальные значения
data['city'].value_counts()

Unnamed: 0_level_0,count
city,Unnamed: 1_level_1
New York,3650
London,3650
Paris,3650
Tokyo,3650
Moscow,3650
Sydney,3650
Berlin,3650
Beijing,3650
Rio de Janeiro,3650
Dubai,3650


In [200]:
# описательные статистики
data.describe(), data.describe(include = 'object')

(                 timestamp   temperature
 count                54750  54750.000000
 mean   2014-12-30 12:00:00     18.341434
 min    2010-01-01 00:00:00    -25.138923
 25%    2012-07-01 00:00:00     11.247144
 50%    2014-12-30 12:00:00     18.821424
 75%    2017-06-30 00:00:00     26.101949
 max    2019-12-29 00:00:00     55.200431
 std                    NaN     10.999636,
             city  season
 count      54750   54750
 unique        15       4
 top     New York  spring
 freq        3650   13800)

In [201]:
# Функция для расчёта скользящего среднего
data['roll_temp'] = data.groupby(['city', 'season'])['temperature'].transform(lambda x: x.rolling(window=30).mean()).fillna(data['temperature'])

In [202]:
data.head()

Unnamed: 0,city,timestamp,temperature,season,roll_temp
0,New York,2010-01-01,-6.275857,winter,-6.275857
1,New York,2010-01-02,5.753531,winter,5.753531
2,New York,2010-01-03,5.381143,winter,5.381143
3,New York,2010-01-04,3.461338,winter,3.461338
4,New York,2010-01-05,-2.408739,winter,-2.408739


In [203]:
start = time.time()

In [204]:
# Среднее отлонение
data_t = data.groupby(['city', 'season'])['roll_temp'].agg(['mean', 'std']).reset_index()

In [205]:
data_t.head()

Unnamed: 0,city,season,mean,std
0,Beijing,autumn,15.940986,1.278563
1,Beijing,spring,13.120726,1.114324
2,Beijing,summer,26.782704,1.153221
3,Beijing,winter,-1.985897,1.377862
4,Berlin,autumn,10.658161,1.385786


In [206]:
# объединяем датасет со стастистиками по mean и std
data = data.merge(data_t, on=['city', 'season'])
data['lower'] = data['mean'] - 2 * data['std']
data['upper'] = data['mean'] + 2 * data['std']
data['anomaly'] = (data['temperature'] < data['lower']) | (data['temperature'] > data['upper'])

In [207]:
data.head()

Unnamed: 0,city,timestamp,temperature,season,roll_temp,mean,std,lower,upper,anomaly
0,New York,2010-01-01,-6.275857,winter,-6.275857,-0.178738,1.224758,-2.628254,2.270777,True
1,New York,2010-01-02,5.753531,winter,5.753531,-0.178738,1.224758,-2.628254,2.270777,True
2,New York,2010-01-03,5.381143,winter,5.381143,-0.178738,1.224758,-2.628254,2.270777,True
3,New York,2010-01-04,3.461338,winter,3.461338,-0.178738,1.224758,-2.628254,2.270777,True
4,New York,2010-01-05,-2.408739,winter,-2.408739,-0.178738,1.224758,-2.628254,2.270777,False


In [208]:
end = time.time()
timing = end - start
print(timing)


2.4690420627593994


In [213]:
# Попробуйте распараллелить
def process_chunk(chunk):
    chunk['roll_temp'] = chunk.groupby(['city', 'season'])['temperature'].transform(lambda x: x.rolling(window=30).mean())
    chunk['roll_temp'] = chunk['roll_temp'].fillna(chunk['temperature'])
    data_t = chunk.groupby(['city', 'season'])['temperature'].agg(['mean', 'std']).reset_index()
    chunk = chunk.merge(data_t, on=['city', 'season'])
    chunk['lower'] = chunk['mean'] - 2 * chunk['std']
    chunk['upper'] = chunk['mean'] + 2 * chunk['std']
    chunk['anomaly'] = (chunk['temperature'] < chunk['lower']) | (chunk['temperature'] > chunk['upper'])
    return chunk[['city', 'season', 'timestamp', 'temperature', 'anomaly']]



In [214]:
df = pd.read_csv('temperature_data.csv')
df['timestamp'] = pd.to_datetime(data['timestamp'])

num_cores = 4
chunks = np.array_split(df, num_cores)
with Pool(num_cores) as pool:
  results = pool.map(process_chunk, chunks)

result_df = pd.concat(results)
anomalies = result_df[result_df['anomaly']]
anomalies = anomalies[['city', 'season', 'timestamp', 'temperature']]

  return bound(*args, **kwds)


In [217]:
end = time.time()
paral_times = end - start
print(paral_times)

285.1344904899597


In [218]:
# Получаем температуру по ключу API черех функцию запроса
def temp_api(name_city):
  key = "e0414d0b50fcf9e18781a0553a82c263"
  name = "http://api.openweathermap.org/data/2.5/weather?"

  url = name + "q=" + name_city + "&appid=" + key + "&units=metric"
  response = requests.get(url)
  if response.status_code == 200:
      data_res = response.json()
      current_temp = data_res["main"]["temp"]
      print(f"температура в {name_city}: {current_temp}°C")

  return current_temp

In [219]:
temper_api = temp_api(input("Город "))

Город Dubai
температура в Dubai: 21.96°C


In [220]:
# Проверяем аномальную температуру
def normal_temp(data, name_city, season, temp_api):
  temp_lim = data[(data['city']==name_city) & (data['season']==season)][['lower', 'upper']]
  first_row = temp_lim.iloc[0]
  low_temp = first_row['lower']
  upp_temp = first_row['upper']

  if low_temp < temper_api < upp_temp:
    return print(f'Нормальная температура {name_city} {season}')
  else:
    return print(f'Аномальная темпаратура {name_city}  {season}')


In [None]:
city_name = input("Город ")
season_name = input("Время года ")

temper_api = temp_api(city_name)
normal_temp(data, city_name, season_name, temp_api)

Город Dubai
Время года winter
температура в Dubai: 21.96°C
Нормальная температура Dubai winter


In [None]:
city_name = input("Город ")
season_name = input("Время года ")

temper_api = temp_api(city_name)
normal_temp(data, city_name, season_name, temp_api)

Город Moscow
Время года summer
температура в Moscow: -2.96°C
Аномальная темпаратура Moscow  summer


In [None]:
city_name = input("Город ")
season_name = input("Время года ")

temper_api = temp_api(city_name)
normal_temp(data, city_name, season_name, temp_api)

Город London
Время года summer
температура в London: 6.29°C
Аномальная темпаратура London  summer


In [None]:
city_name = input("Город ")
season_name = input("Время года ")

temper_api = temp_api(city_name)
normal_temp(data, city_name, season_name, temp_api)

Город Singapore
Время года summer
температура в Singapore: 26.69°C
Нормальная температура Singapore summer


In [221]:
# без синхронного метода
start_sync = time.time()

city_temp_dict = {}
for city in data['city'].unique():
    temper_api = temp_api(city)
    city_temp_dict[city] = temper_api

end_sync = time.time()
times_sync = end_sync - start_sync
print(times_sync)

температура в New York: -6.31°C
температура в London: 6.87°C
температура в Paris: 5.06°C
температура в Tokyo: 3.05°C
температура в Moscow: -2.96°C
температура в Sydney: 21.25°C
температура в Berlin: 4.6°C
температура в Beijing: -7.06°C
температура в Rio de Janeiro: 26.01°C
температура в Dubai: 21.96°C
температура в Los Angeles: 16.22°C
температура в Singapore: 26.69°C
температура в Mumbai: 24.99°C
температура в Cairo: 17.42°C
температура в Mexico City: 17.75°C
0.9303696155548096


In [225]:
# ассинхронный код
async def temp_api_async(name_city, key):
    name = "http://api.openweathermap.org/data/2.5/weather?"
    url = name + "q=" + name_city + "&appid=" + key + "&units=metric"

    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            if response.status == 200:
                data_res = await response.json()
                current_temperature = data_res["main"]["temp"]

                print(f"Температура в {name_city}: {current_temperature}°C")
                return current_temperature
            else:
                print(await response.text())
                return None

In [226]:
async def gather_temp(key, cities):
    coroutin = [temp_api_async(city, key) for city in cities]
    results = await asyncio.gather(*coroutin)
    return {city: temperature for city, temperature in zip(cities, results) if temperature is not None}

In [227]:
# запуск
if __name__ == "__main__":
    api_key = "e0414d0b50fcf9e18781a0553a82c263"
    unique_cities = list(data['city'].unique())

    start_async = time.time()

    loop = asyncio.get_event_loop()
    temp_dict = loop.run_until_complete(gather_temp(api_key, unique_cities))

    end_async= time.time()
    async_time = end_async - start_async
    print(async_time)

Температура в Sydney: 21.25°C
Температура в Paris: 5.06°C
Температура в Rio de Janeiro: 26.01°C
Температура в London: 6.97°C
Температура в Singapore: 26.69°C
Температура в Dubai: 21.96°C
Температура в Berlin: 4.6°C
Температура в New York: -6.27°C
Температура в Beijing: -7.06°C
Температура в Mumbai: 24.99°C
Температура в Moscow: -2.96°C
Температура в Cairo: 17.42°C
Температура в Los Angeles: 16.55°C
Температура в Mexico City: 17.75°C
Температура в Tokyo: 3.31°C
0.10695409774780273


По нашей работе можем сообщить следующее: применение ассинхронности приводит к ускорению выполнения запросов в разы, также распаралелливание может ускорить нашуй работу, в зависимости от данных. Произвели небольшой EDA для удобства рыботы в дальнейшем
