## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [1]:
import pandas as pd
import numpy as np
import time
from multiprocessing import Pool
import requests
import aiohttp
import asyncio
from typing import Dict, List

#### Генерация данных

In [2]:
# # Реальные средние температуры (примерные данные) для городов по сезонам
# seasonal_temperatures = {
#     "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
#     "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
#     "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
#     "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
#     "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
#     "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
#     "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
#     "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
#     "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
#     "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
#     "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
#     "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
#     "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
#     "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
#     "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
# }

# # Сопоставление месяцев с сезонами
# month_to_season = {12: "winter", 1: "winter", 2: "winter",
#                    3: "spring", 4: "spring", 5: "spring",
#                    6: "summer", 7: "summer", 8: "summer",
#                    9: "autumn", 10: "autumn", 11: "autumn"}

# # Генерация данных о температуре
# def generate_realistic_temperature_data(cities, num_years=10):
#     dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
#     data = []

#     for city in cities:
#         for date in dates:
#             season = month_to_season[date.month]
#             mean_temp = seasonal_temperatures[city][season]
#             # Добавляем случайное отклонение
#             temperature = np.random.normal(loc=mean_temp, scale=5)
#             data.append({"city": city, "timestamp": date, "temperature": temperature})

#     df = pd.DataFrame(data)
#     df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
#     return df

# # Генерация данных
# data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
# data.to_csv('temperature_data.csv', index=False)


### Чтение данных

In [3]:
data = pd.read_csv('/content/temperature_data.csv')

In [4]:
data.head()

Unnamed: 0,city,timestamp,temperature,season
0,New York,2010-01-01,-0.843994,winter
1,New York,2010-01-02,4.005086,winter
2,New York,2010-01-03,2.938331,winter
3,New York,2010-01-04,4.227276,winter
4,New York,2010-01-05,0.790257,winter


In [5]:
data['timestamp'] = pd.to_datetime(data['timestamp'])

In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54750 entries, 0 to 54749
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   city         54750 non-null  object        
 1   timestamp    54750 non-null  datetime64[ns]
 2   temperature  54750 non-null  float64       
 3   season       54750 non-null  object        
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 1.7+ MB


In [7]:
data.describe()

Unnamed: 0,timestamp,temperature
count,54750,54750.0
mean,2014-12-30 12:00:00,18.301712
min,2010-01-01 00:00:00,-25.471041
25%,2012-07-01 00:00:00,11.243485
50%,2014-12-30 12:00:00,18.742404
75%,2017-06-30 00:00:00,26.064424
max,2019-12-29 00:00:00,56.710697
std,,10.982758


In [8]:
data.describe(include='object')

Unnamed: 0,city,season
count,54750,54750
unique,15,4
top,New York,spring
freq,3650,13800


## 1. Анализ исторических данных

#### 1.1. Вычислим скользящее среднее температуры с окном в 30 дней для сглаживания краткосрочных колебаний:

In [9]:
start_time = time.time()

In [10]:
data['rolling_mean_temperature'] = data.groupby(['city', 'season'])['temperature'].transform(lambda x: x.rolling(window=30).mean())

Т.к. окно достатончо большое (30 дней), то для первых 30-ти значений среднее не посчитается, потому что данных не хватает. Заполним такие значения соответсвующей температурой в этот день:

In [11]:
data['rolling_mean_temperature'] = data['rolling_mean_temperature'].fillna(data['temperature'])

In [12]:
data

Unnamed: 0,city,timestamp,temperature,season,rolling_mean_temperature
0,New York,2010-01-01,-0.843994,winter,-0.843994
1,New York,2010-01-02,4.005086,winter,4.005086
2,New York,2010-01-03,2.938331,winter,2.938331
3,New York,2010-01-04,4.227276,winter,4.227276
4,New York,2010-01-05,0.790257,winter,0.790257
...,...,...,...,...,...
54745,Mexico City,2019-12-25,11.148909,winter,12.976573
54746,Mexico City,2019-12-26,11.811619,winter,13.255160
54747,Mexico City,2019-12-27,17.863530,winter,12.962218
54748,Mexico City,2019-12-28,7.761930,winter,12.719268


#### 1.2. Рассчитаем среднюю температуру и стандартное отклонение для каждого сезона в каждом городе:

In [13]:
temp_data = data.groupby(['city', 'season'])['rolling_mean_temperature'].agg(['mean', 'std']).reset_index()
temp_data

Unnamed: 0,city,season,mean,std
0,Beijing,autumn,15.958955,1.232447
1,Beijing,spring,13.082867,1.218277
2,Beijing,summer,27.008467,1.186089
3,Beijing,winter,-1.873663,1.323232
4,Berlin,autumn,11.00488,1.211845
5,Berlin,spring,10.178766,1.248133
6,Berlin,summer,20.005917,1.286994
7,Berlin,winter,0.143031,1.050111
8,Cairo,autumn,24.952533,1.145269
9,Cairo,spring,24.936327,1.266933


#### 1.3. Выявим аномалии, где температура выходит за пределы ***среднее* ± 2σ**

In [14]:
# объединяем датасет со стастистиками по mean и std
data = data.merge(temp_data, on=['city', 'season'])

data['lower_temp'] = data['mean'] - 2 * data['std']
data['upper_temp'] = data['mean'] + 2 * data['std']

data['anomaly'] = (data['temperature'] < data['lower_temp']) | (data['temperature'] > data['upper_temp'])

In [15]:
data.head()

Unnamed: 0,city,timestamp,temperature,season,rolling_mean_temperature,mean,std,lower_temp,upper_temp,anomaly
0,New York,2010-01-01,-0.843994,winter,-0.843994,0.096568,1.336644,-2.57672,2.769857,False
1,New York,2010-01-02,4.005086,winter,4.005086,0.096568,1.336644,-2.57672,2.769857,True
2,New York,2010-01-03,2.938331,winter,2.938331,0.096568,1.336644,-2.57672,2.769857,True
3,New York,2010-01-04,4.227276,winter,4.227276,0.096568,1.336644,-2.57672,2.769857,True
4,New York,2010-01-05,0.790257,winter,0.790257,0.096568,1.336644,-2.57672,2.769857,False


Посмотрим на аномалии:

In [16]:
data.query("anomaly == True")[['city', 'season', 'timestamp', 'temperature']]

Unnamed: 0,city,season,timestamp,temperature
1,New York,winter,2010-01-02,4.005086
2,New York,winter,2010-01-03,2.938331
3,New York,winter,2010-01-04,4.227276
5,New York,winter,2010-01-06,-15.382064
6,New York,winter,2010-01-07,4.559142
...,...,...,...,...
54742,Mexico City,winter,2019-12-22,15.712562
54743,Mexico City,winter,2019-12-23,16.227253
54747,Mexico City,winter,2019-12-27,17.863530
54748,Mexico City,winter,2019-12-28,7.761930


In [17]:
end_time = time.time()
serial_execution_time = end_time - start_time
print(f"Время выполнения без распараллеливания: {serial_execution_time:.2f} секунд")

Время выполнения без распараллеливания: 0.86 секунд


#### 1.4. Попробуем распараллелить проведение этого анализа. Сравним скорость выполнения анализа с распараллеливанием и без него:

In [18]:
def process_chunk(chunk):
    chunk['rolling_mean_temperature'] = chunk.groupby(['city', 'season'])['temperature'].transform(lambda x: x.rolling(window=30).mean())

    chunk['rolling_mean_temperature'] = chunk['rolling_mean_temperature'].fillna(chunk['temperature'])

    temp_data = chunk.groupby(['city', 'season'])['temperature'].agg(['mean', 'std']).reset_index()
    chunk = chunk.merge(temp_data, on=['city', 'season'])

    chunk['lower_temp'] = chunk['mean'] - 2 * chunk['std']
    chunk['upper_temp'] = chunk['mean'] + 2 * chunk['std']

    chunk['anomaly'] = (chunk['temperature'] < chunk['lower_temp']) | (chunk['temperature'] > chunk['upper_temp'])

    return chunk[['city', 'season', 'timestamp', 'temperature', 'anomaly']]


df = pd.read_csv('/content/temperature_data.csv')
df['timestamp'] = pd.to_datetime(data['timestamp'])

num_cores = 4
chunks = np.array_split(df, num_cores)

with Pool(num_cores) as pool:
  results = pool.map(process_chunk, chunks)

result_df = pd.concat(results)

anomalies = result_df[result_df['anomaly']]
anomalies = anomalies[['city', 'season', 'timestamp', 'temperature']]

  return bound(*args, **kwds)


In [19]:
end_time = time.time()
parallel_execution_time = end_time - start_time
print(f"Время выполнения с распараллеливанием: {parallel_execution_time:.2f} секунд")

Время выполнения с распараллеливанием: 1.34 секунд


>С распараллеливанием время анализа увеличислось. Могу предположить, что это связано с тем, что данных не так много и вычисления достаточно простые и быстрые. При распараллеливании мы больше тратим рессурсов и времени на управлением потоками.



## 2. Мониторинг текущей температуры

#### 2.1. Подключаем OpenWeatherMap API

[Weather API](https://openweathermap.org/api)

#### 2.2. Получаем текущую температуру для выбранного города через OpenWeatherMap API

In [20]:
# список городов в датасете
city = data['city'].unique()

In [21]:
city

array(['New York', 'London', 'Paris', 'Tokyo', 'Moscow', 'Sydney',
       'Berlin', 'Beijing', 'Rio de Janeiro', 'Dubai', 'Los Angeles',
       'Singapore', 'Mumbai', 'Cairo', 'Mexico City'], dtype=object)

In [22]:
# Получаем температуру в городе по API
def get_temp_api(name_sity):
  api_key = "3xxxb"

  url_name = "http://api.openweathermap.org/data/2.5/weather?"

  url = url_name + "q=" + name_sity + "&appid=" + api_key + "&units=metric"

  response = requests.get(url)

  if response.status_code == 200:
      data_res = response.json()
      current_temperature = data_res["main"]["temp"]

      print(f"Current temperature in {name_sity}: {current_temperature}°C")
  else:
      print(f"Error: {response.text}")

  return current_temperature

In [23]:
temp_api = get_temp_api(input('Enter city name: '))

Enter city name: London
Current temperature in London: 3.86°C


#### 2.3. Определим, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона

In [24]:
# Проверяем является ли температура аномальной
def chek_abnormal_temp(data, name_city, season, temp_api):
  temp_limits = data[(data['city']==name_city) & (data['season']==season)][['lower_temp', 'upper_temp']]
  first_row = temp_limits.iloc[0]
  l_temp = first_row['lower_temp']
  upp_temp = first_row['upper_temp']

  if l_temp < temp_api < upp_temp:
    return print(f'Normal temperature for {name_city} in {season}')
  else:
    return print(f'Abnormal temperatures for {name_city} in {season}')

In [25]:
city_name = input('Enter city name: ')
season_name = input('Enter the season of the year: ')
print()
temp_api = get_temp_api(city_name)
print(40*'-')
chek_abnormal_temp(data, city_name, season_name, temp_api)

Enter city name: London
Enter the season of the year: winter

Current temperature in London: 3.86°C
----------------------------------------
Normal temperature for London in winter


#### 2.4. Проверим другие города на аномальность:

In [26]:
city_name = input('Enter city name: ')
season_name = input('Enter the season of the year: ')
print()
temp_api = get_temp_api(city_name)
print(40*'-')
chek_abnormal_temp(data, city_name, season_name, temp_api)

Enter city name: Moscow
Enter the season of the year: winter

Current temperature in Moscow: -9°C
----------------------------------------
Normal temperature for Moscow in winter


In [27]:
city_name = input('Enter city name: ')
season_name = input('Enter the season of the year: ')
print()
temp_api = get_temp_api(city_name)
print(40*'-')
chek_abnormal_temp(data, city_name, season_name, temp_api)

Enter city name: Dubai
Enter the season of the year: winter

Current temperature in Dubai: 23.96°C
----------------------------------------
Abnormal temperatures for Dubai in winter


In [28]:
city_name = input('Enter city name: ')
season_name = input('Enter the season of the year: ')
print()
temp_api = get_temp_api(city_name)
print(40*'-')
chek_abnormal_temp(data, city_name, season_name, temp_api)

Enter city name: Cairo
Enter the season of the year: winter

Current temperature in Cairo: 16.42°C
----------------------------------------
Normal temperature for Cairo in winter


>В каки-то городах температура на данный момент аномальная.

#### 2.5. Использовать синхронные и асинхронные методы для получения текущей температуры для всех городов из датасета

In [29]:
start_time = time.time()

city_temp_dict = {}
for city in data['city'].unique():
    temp_api = get_temp_api(city)
    city_temp_dict[city] = temp_api

end_time = time.time()
execution_time = end_time - start_time
print(f"Время получение температуры по API без синхронного подхода: {execution_time:.2f} секунд")

Current temperature in New York: 0.84°C
Current temperature in London: 3.9°C
Current temperature in Paris: 0.79°C
Current temperature in Tokyo: 4.51°C
Current temperature in Moscow: -9°C
Current temperature in Sydney: 21.56°C
Current temperature in Berlin: 1.18°C
Current temperature in Beijing: -5.06°C
Current temperature in Rio de Janeiro: 26.26°C
Current temperature in Dubai: 23.96°C
Current temperature in Los Angeles: 16.75°C
Current temperature in Singapore: 25.97°C
Current temperature in Mumbai: 23.99°C
Current temperature in Cairo: 16.42°C
Current temperature in Mexico City: 23.86°C
Время получение температуры по API без синхронного подхода: 0.64 секунд


In [30]:
import nest_asyncio
nest_asyncio.apply()

In [31]:
# Получаем температуру в городе по API асинхронно
async def get_temp_api_async(name_city, api_key):
    url_name = "http://api.openweathermap.org/data/2.5/weather?"
    url = url_name + "q=" + name_city + "&appid=" + api_key + "&units=metric"

    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            if response.status == 200:
                data_res = await response.json()
                current_temperature = data_res["main"]["temp"]

                print(f"Current temperature in {name_city}: {current_temperature}°C")
                return current_temperature
            else:
                print(f"Error: {await response.text()}")
                return None

async def gather_temperatures(api_key, cities):
    coroutines = [get_temp_api_async(city, api_key) for city in cities]
    results = await asyncio.gather(*coroutines)
    return {city: temp for city, temp in zip(cities, results) if temp is not None}

if __name__ == "__main__":
    api_key = "3b02a662c4e9cc9e8b5a2ec78af3fb6b"
    unique_cities = list(data['city'].unique())

    start_time = time.time()

    loop = asyncio.get_event_loop()
    city_temp_dict = loop.run_until_complete(gather_temperatures(api_key, unique_cities))

    end_time = time.time()
    execution_time = end_time - start_time
    print(f"Время получение температуры по API с использованием асинхронного подхода: {execution_time:.2f} секунд")

Current temperature in Paris: 0.79°C
Current temperature in London: 3.9°C
Current temperature in Tokyo: 4.51°C
Current temperature in Moscow: -9°C
Current temperature in New York: 0.83°C
Current temperature in Berlin: 1.18°C
Current temperature in Sydney: 21.56°C
Current temperature in Beijing: -5.06°C
Current temperature in Cairo: 16.42°C
Current temperature in Singapore: 25.97°C
Current temperature in Dubai: 23.96°C
Current temperature in Mumbai: 23.99°C
Current temperature in Mexico City: 23.86°C
Current temperature in Los Angeles: 16.76°C
Current temperature in Rio de Janeiro: 26.26°C
Время получение температуры по API с использованием асинхронного подхода: 0.07 секунд


>Асинхронный подход работает быстрее примерно в 10 раз.

## 3.Создание приложения на Streamlit

>Код на Streamlit и ссылка на GitHub