## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{'cod':401, 'message': 'Invalid API key. Please see https://openweathermap.org/faq#error401 for more info.'}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [1]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    'New York': {'winter': 0, 'spring': 10, 'summer': 25, 'autumn': 15},
    'London': {'winter': 5, 'spring': 11, 'summer': 18, 'autumn': 12},
    'Paris': {'winter': 4, 'spring': 12, 'summer': 20, 'autumn': 13},
    'Tokyo': {'winter': 6, 'spring': 15, 'summer': 27, 'autumn': 18},
    'Moscow': {'winter': -10, 'spring': 5, 'summer': 18, 'autumn': 8},
    'Sydney': {'winter': 12, 'spring': 18, 'summer': 25, 'autumn': 20},
    'Berlin': {'winter': 0, 'spring': 10, 'summer': 20, 'autumn': 11},
    'Beijing': {'winter': -2, 'spring': 13, 'summer': 27, 'autumn': 16},
    'Rio de Janeiro': {'winter': 20, 'spring': 25, 'summer': 30, 'autumn': 25},
    'Dubai': {'winter': 20, 'spring': 30, 'summer': 40, 'autumn': 30},
    'Los Angeles': {'winter': 15, 'spring': 18, 'summer': 25, 'autumn': 20},
    'Singapore': {'winter': 27, 'spring': 28, 'summer': 28, 'autumn': 27},
    'Mumbai': {'winter': 25, 'spring': 30, 'summer': 35, 'autumn': 30},
    'Cairo': {'winter': 15, 'spring': 25, 'summer': 35, 'autumn': 25},
    'Mexico City': {'winter': 12, 'spring': 18, 'summer': 20, 'autumn': 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: 'winter', 1: 'winter', 2: 'winter',
                   3: 'spring', 4: 'spring', 5: 'spring',
                   6: 'summer', 7: 'summer', 8: 'summer',
                   9: 'autumn', 10: 'autumn', 11: 'autumn'}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start='2010-01-01', periods=365 * num_years, freq='D')
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({'city': city, 'timestamp': date, 'temperature': temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


In [3]:
df = pd.read_csv('temperature_data.csv')
df.head()

Unnamed: 0,city,timestamp,temperature,season
0,New York,2010-01-01,1.46786,winter
1,New York,2010-01-02,4.070043,winter
2,New York,2010-01-03,11.282383,winter
3,New York,2010-01-04,9.380893,winter
4,New York,2010-01-05,-5.776923,winter


## Анализ исторических данных

* Вычислить скользящее среднее температуры с окном в 30 дней для сглаживания краткосрочных колебаний.

In [5]:
df_expanded = pd.DataFrame()

for city in df.city.unique():
    data = df[(df.city == city)].sort_values('timestamp')
    data['rolling_temperature'] = data['temperature'].rolling(window = 30).mean()
    df_expanded = pd.concat([df_expanded, data])

* Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.

In [7]:
df_means = df_expanded.groupby(by = ['season', 'city']).rolling_temperature.mean().to_frame().reset_index()
df_std = df_expanded.groupby(by = ['season', 'city']).rolling_temperature.std().to_frame().reset_index()

* Выявить аномалии, где температура выходит за пределы среднее.

In [9]:
df_expanded = df_expanded.merge(df_means, how='left', left_on=['city', 'season'], right_on=['city', 'season']) 
df_expanded = df_expanded.merge(df_std, how='left', left_on=['city', 'season'], right_on=['city', 'season']) 
df_expanded = df_expanded.set_axis(['city', 'timestamp',
                                    'temperature', 'season', 'rolling_temperature', 'temperature_mean', 'temperature_std'], axis='columns')
# df_expanded
df_expanded['anomaly_criteria_high'] = df_expanded.temperature_mean + 2 * df_expanded.temperature_std
df_expanded['anomaly_criteria_low'] = df_expanded.temperature_mean - 2 * df_expanded.temperature_std
# df_expanded
df_expanded['anomaly_flg'] = ((df_expanded['temperature'] <= df_expanded['anomaly_criteria_low']) | 
                              (df_expanded['temperature'] >= df_expanded['anomaly_criteria_high'])).astype(int)
df_expanded

Unnamed: 0,city,timestamp,temperature,season,rolling_temperature,temperature_mean,temperature_std,anomaly_criteria_high,anomaly_criteria_low,anomaly_flg
0,New York,2010-01-01,1.467860,winter,,2.267695,4.367733,11.003161,-6.467772,0
1,New York,2010-01-02,4.070043,winter,,2.267695,4.367733,11.003161,-6.467772,0
2,New York,2010-01-03,11.282383,winter,,2.267695,4.367733,11.003161,-6.467772,1
3,New York,2010-01-04,9.380893,winter,,2.267695,4.367733,11.003161,-6.467772,0
4,New York,2010-01-05,-5.776923,winter,,2.267695,4.367733,11.003161,-6.467772,0
...,...,...,...,...,...,...,...,...,...,...
54745,Mexico City,2019-12-25,11.145216,winter,10.816612,12.341540,1.075995,14.493530,10.189551,0
54746,Mexico City,2019-12-26,12.064803,winter,11.306010,12.341540,1.075995,14.493530,10.189551,0
54747,Mexico City,2019-12-27,18.609254,winter,11.663592,12.341540,1.075995,14.493530,10.189551,1
54748,Mexico City,2019-12-28,13.381677,winter,11.706283,12.341540,1.075995,14.493530,10.189551,0


* Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

In [None]:
#### для этого надо будет немного переделать код 

In [11]:
def analyze_city(city, df):
    data = df[(df.city == city)].sort_values('timestamp')
    data['rolling_temperature'] = data['temperature'].rolling(window = 30).mean()
    grouped = data.groupby(by='season')['rolling_temperature']
    data['temperature_mean'] = grouped.transform('mean')
    data['temperature_std'] = grouped.transform('std')
    data['anomaly_criteria_high'] = data['temperature_mean'] + 2 * data['temperature_std']
    data['anomaly_criteria_low'] = data['temperature_mean'] - 2 * data['temperature_std']
    data['anomaly_flg'] = ((data['temperature'] <= data['anomaly_criteria_low']) |
                           (data['temperature'] >= data['anomaly_criteria_high'])).astype(int)
    return data

In [13]:
from concurrent.futures import ProcessPoolExecutor
import time

сравним время

In [15]:
import time
from concurrent.futures import ThreadPoolExecutor

start_time = time.time()
results = []
for city in df.city.unique():
    results.append(analyze_city(city, df))
df_analyzed = pd.concat(results)
print(f'''Без распараллеливания: {time.time() - start_time}''')


start_time = time.time()
cities = df.city.unique()
results = []
with ThreadPoolExecutor() as executor:
    futures = {executor.submit(analyze_city, city, df): city for city in cities}
    for future in futures:
        results.append(future.result())
df_analyzed = pd.concat(results)
print(f'''C распараллеливанием: {time.time() - start_time}''')

Без распараллеливания: 0.0511629581451416
C распараллеливанием: 0.04900097846984863


## Мониторинг текущей температуры

- Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
- Получить текущую температуру для выбранного города через OpenWeatherMap API.

In [63]:
import requests
import asyncio
import aiohttp
import nest_asyncio 

In [65]:
nest_asyncio.apply() 

In [67]:
my_key = '...'

In [97]:
for city in df_expanded.city.unique():
    url = f'https://api.openweathermap.org/data/2.5/weather?q={city}&appid={my_key}&units=metric'
    response = requests.get(url)
    if response.status_code == 200:
        data = response.json()
        print (f'''Current temperature in {city}: {data['main']['temp']}''')
    else:
        print(f'Error {city}: {response.json()}')


Current temperature in New York: -7.22
Current temperature in London: 6.09
Current temperature in Paris: 5.17
Current temperature in Tokyo: 3.7
Current temperature in Moscow: -1.85
Current temperature in Sydney: 22.08
Current temperature in Berlin: 5.34
Current temperature in Beijing: -6.06
Current temperature in Rio de Janeiro: 27.88
Current temperature in Dubai: 21.96
Current temperature in Los Angeles: 14.4
Current temperature in Singapore: 26.69
Current temperature in Mumbai: 24.99
Current temperature in Cairo: 20.42
Current temperature in Mexico City: 13.86


   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.

In [141]:
current_season = 'winter'
for city in df_expanded.city.unique():
    url = f'https://api.openweathermap.org/data/2.5/weather?q={city}&appid={my_key}&units=metric'
    response = requests.get(url)
    if response.status_code == 200:
        data = response.json()
        temp = data['main']['temp']
        if temp >= df_expanded[(df_expanded.city == city)&(df_expanded.season == current_season)].anomaly_criteria_high.unique()[0]:
            normality = 'anomaly, too high'
        if temp <= df_expanded[(df_expanded.city == city)&(df_expanded.season == current_season)].anomaly_criteria_low.unique()[0]:
            normality = 'anomaly, too low'
        else:
            normality = 'normal temperature'
        print (f'''Current temperature in {city}: {data['main']['temp']}, {normality}''')
    else:
        print(f'Error {city}: {response.json()}')


Current temperature in New York: -7.22, anomaly, too low
Current temperature in London: 6.05, normal temperature
Current temperature in Paris: 5.17, normal temperature
Current temperature in Tokyo: 3.99, normal temperature
Current temperature in Moscow: -2.41, normal temperature
Current temperature in Sydney: 22.25, normal temperature
Current temperature in Berlin: 5.31, normal temperature
Current temperature in Beijing: -6.06, normal temperature
Current temperature in Rio de Janeiro: 27.88, normal temperature
Current temperature in Dubai: 21.96, normal temperature
Current temperature in Los Angeles: 13.97, normal temperature
Current temperature in Singapore: 26.69, normal temperature
Current temperature in Mumbai: 24.99, normal temperature
Current temperature in Cairo: 20.42, normal temperature
Current temperature in Mexico City: 13.86, normal temperature


   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

In [228]:
def get_city(city):
    url = f'https://api.openweathermap.org/data/2.5/weather?q={city}&appid={my_key}&units=metric'
    response = requests.get(url)
    if response.status_code == 200:
        data = response.json()
        frame = pd.DataFrame({
            'City': [city],
            'Temperature': [data['main']['temp']]
        })
        return frame
    else:
        return pd.DataFrame(columns=['City', 'Temperature'])


In [232]:
start_time = time.time()
results = []
for city in df_expanded.city.unique():
    results.append(get_city(city))
df_analyzed = pd.concat(results)
print(f'''Без распараллеливания: {time.time() - start_time}''')

start_time = time.time()
cities = df_expanded.city.unique()
results = []
with ThreadPoolExecutor() as executor:
    futures = {executor.submit(get_city, city): city for city in cities}
    for future in futures:
        results.append(future.result())
df_analyzed = pd.concat(results)
print(f'''C распараллеливанием: {time.time() - start_time}''')

Без распараллеливания: 6.348952054977417
C распараллеливанием: 0.7156639099121094


Распараллеливание опять выигрывает по времени

## Создание приложения на Streamlit 


   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{'cod':401, 'message': 'Invalid API key. Please see https://openweathermap.org/faq#error401 for more info.'}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.



In [236]:
pip install streamlit

Note: you may need to restart the kernel to use updated packages.


In [238]:
import streamlit as st

In [247]:
df_expanded

Unnamed: 0,city,timestamp,temperature,season,rolling_temperature,temperature_mean,temperature_std,anomaly_criteria_high,anomaly_criteria_low,anomaly_flg
0,New York,2010-01-01,1.467860,winter,,2.267695,4.367733,11.003161,-6.467772,0
1,New York,2010-01-02,4.070043,winter,,2.267695,4.367733,11.003161,-6.467772,0
2,New York,2010-01-03,11.282383,winter,,2.267695,4.367733,11.003161,-6.467772,1
3,New York,2010-01-04,9.380893,winter,,2.267695,4.367733,11.003161,-6.467772,0
4,New York,2010-01-05,-5.776923,winter,,2.267695,4.367733,11.003161,-6.467772,0
...,...,...,...,...,...,...,...,...,...,...
54745,Mexico City,2019-12-25,11.145216,winter,10.816612,12.341540,1.075995,14.493530,10.189551,0
54746,Mexico City,2019-12-26,12.064803,winter,11.306010,12.341540,1.075995,14.493530,10.189551,0
54747,Mexico City,2019-12-27,18.609254,winter,11.663592,12.341540,1.075995,14.493530,10.189551,1
54748,Mexico City,2019-12-28,13.381677,winter,11.706283,12.341540,1.075995,14.493530,10.189551,0


In [263]:
df_expanded.to_csv('df_temp_expanded.csv')

In [261]:
def get_weather(city, api_key):
    url = f'https://api.openweathermap.org/data/2.5/weather?q={city}&appid={api_key}&units=metric'
    response = requests.get(url)
    if response.status_code == 200:
        return response.json()
    else:
        return {'cod': response.status_code, 'message': response.json().get('message', 'Error')}

st.title('Temperature Data Analysis')
uploaded_file = st.file_uploader('Load historical data', type='csv')

if uploaded_file:
    df = pd.read_csv(uploaded_file)
    city_list = df['city'].unique()
    selected_city = st.selectbox('Choose a city', df['city'].unique())
    city_data = df[df['city'] == selected_city]
    st.write(f'Данные для {selected_city}:', city_data)
    
    st.write('Description:')
    st.write(df['temperature'].describe())
    
    st.subheader('Time Series')
    plt.figure(figsize=(10, 5))
    plt.plot(city_data['timestamp'], city_data['temperature'], label='Temperature', color='blue')
    
    anomalies = df[df.anomaly_flg == 1]
    plt.scatter(anomalies['timestamp'], anomalies['temperature'], color='red', label='Anomalies')
    plt.xlabel('Date')
    plt.ylabel('Temperature')
    plt.legend()
    st.pyplot(plt)
    
    st.subheader('Seasonal profiles')
    city_data['Month'] = pd.to_datetime(city_data['timestamp']).dt.month
    seasonal_profile = city_data.groupby('Month')['Temperature'].agg(['mean', 'std'])
    st.write('Average Seasonal Temperature:', seasonal_profile)
    seasonal_profile.plot(kind='bar', y='mean', yerr='std', color='skyblue', legend=False)
    plt.xlabel('Month')
    plt.ylabel('Temperature')
    st.pyplot(plt)

api_key = st.text_input('API key requred')
current_season = st.text_input('Season')

if api_key:
    st.subheader('Current Temperature')
    if selected_city:
        weather = get_weather(selected_city, api_key)
        if weather.get('cod') == 200:
            current_temp = weather['main']['temp']
            st.write(f'''Current temperature in {city}: {current_temp}''')
            if current_temp >= df[(df.city == selected_city)&(df.season == current_season)].anomaly_criteria_high.unique()[0]:
                normality = 'anomaly, too high'
            if current_temp <= df[(df.city == selected_city)&(df.season == current_season)].anomaly_criteria_low.unique()[0]:
                normality = 'anomaly, too low'
            else:
                normality = 'normal temperature'
            print (f'''Temperature status: {normality}''')
        else:
            st.error({'cod':401, 'message': 'Invalid API key. Please see https://openweathermap.org/faq#error401 for more info.'})
