
## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [16]:
import pandas as pd
import numpy as np
from multiprocessing import Pool
import matplotlib.pyplot as plt
import time

In [3]:
# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


##**Задача 1: Анализ исторчиеских данных**

In [18]:
data = pd.read_csv('temperature_data.csv')

In [6]:
data.head(5)

Unnamed: 0,city,timestamp,temperature,season
0,New York,2010-01-01,5.047765,winter
1,New York,2010-01-02,3.357407,winter
2,New York,2010-01-03,-0.126273,winter
3,New York,2010-01-04,-10.968647,winter
4,New York,2010-01-05,7.851905,winter


In [26]:
season_cities = data.groupby(['city', 'season'])['temperature'].agg(['mean', 'std']).reset_index()

In [29]:
season_cities.head(10)

Unnamed: 0,city,season,mean,std
0,Beijing,autumn,16.010018,5.118192
1,Beijing,spring,13.462991,5.098755
2,Beijing,summer,26.937191,5.003207
3,Beijing,winter,-1.840982,4.820594
4,Berlin,autumn,11.22177,4.910294
5,Berlin,spring,10.060907,4.903657
6,Berlin,summer,20.146345,4.823241
7,Berlin,winter,-0.33724,4.927704
8,Cairo,autumn,25.025803,5.061973
9,Cairo,spring,25.038105,5.139594


In [110]:
def is_anomaly(temperature, mean, std):
    return (temperature < mean - 2 * std) or (temperature > mean + 2 * std)

def anomaly_search(data):
    season_cities = data.groupby(['city', 'season'])['temperature'].agg(['mean', 'std']).reset_index()
    data = data.merge(season_cities, on=['city', 'season'], how='left')
    data['anomaly'] = data.apply(lambda row: is_anomaly(row['temperature'], row['mean'], row['std']), axis=1)

    return data

In [66]:
data['rolling_avg'] = data.groupby('city')['temperature'].rolling(window=30, min_periods=1).mean().reset_index(level=0, drop=True)

In [67]:
data.head(5)

Unnamed: 0,city,timestamp,temperature,season,rolling_avg
0,New York,2010-01-01,5.047765,winter,5.047765
1,New York,2010-01-02,3.357407,winter,4.202586
2,New York,2010-01-03,-0.126273,winter,2.759633
3,New York,2010-01-04,-10.968647,winter,-0.672437
4,New York,2010-01-05,7.851905,winter,1.032432


In [70]:
start = time.time()
data_single_proccesed = anomaly_search(data.copy())
print(f"Время работы однопоточного анализа: {time.time()-start:.2f} секунд")
print(f"Количество найденных аномалий: {data_single_proccesed['anomaly'].sum()}")

Время работы однопоточного анализа: 1.06 секунд
Количество найденных аномалий: 2450


In [71]:
start = time.time()

with Pool() as pool:
    data_multi_proccesed_list = pool.map(anomaly_search, [data[data['city'] == city] for city in data['city'].unique()])

data_multi_proccesed = pd.concat(data_multi_proccesed_list)

print(f"Время работы многопоточного анализа: {time.time()-start:.5f} секунд")
print(f"Количество найденных аномалий: {data_multi_proccesed['anomaly'].sum()}")

Время работы многопоточного анализа: 1.36233 секунд
Количество найденных аномалий: 2450


In [74]:
data_multi_proccesed.groupby(['city', 'season'])['anomaly'].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,anomaly
city,season,Unnamed: 2_level_1
Beijing,autumn,41
Beijing,spring,39
Beijing,summer,41
Beijing,winter,45
Berlin,autumn,43
Berlin,spring,43
Berlin,summer,37
Berlin,winter,34
Cairo,autumn,34
Cairo,spring,42


Время работы через Pool получилось больше, чем однопоточное преобразование датасета, что может быть связано с рядом причин, в частности с достаточно малым объемом исходного датасета, а также наличие дополнительной операции конкатенации в случае параллельных вычислений.

## Задача 2

In [62]:
import requests
import aiohttp
import asyncio
from datetime import datetime

In [78]:
data_proccesed = data_multi_proccesed.copy()

In [91]:
API_KEY = "2eac24c3079df61dc47e59f2acc26e83"
BASE_URL = "http://api.openweathermap.org/data/2.5/weather"

def get_current_temperature(city):
    response = requests.get(BASE_URL, params={'q': city,'appid': API_KEY,'units': 'metric' })
    if response.status_code == 401:
        return None, "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."
    if response.status_code == 200:
        data = response.json()
        return data['main']['temp']
    else:
        print(f"Ошибка получения погоды в {city}. Код ошибки: {response.status_code}")
        return None

In [95]:
async def get_current_temperature_async(city):
    async with aiohttp.ClientSession() as session:
        async with session.get(BASE_URL, params={"q": city, "units": "metric", "appid": API_KEY}) as response:
            if response.status == 200:
                data = await response.json()
                return data['main']['temp']
            else:
                print(f"Ошибка получения погоды в {city}. Код ошибки: {response.status_code}")
                return None

In [86]:
current_temperature = get_current_temperature("Moscow")
print(f"Температура воздуха в Moscow: {current_temperature}°C")

Температура воздуха в Moscow: -2.84°C


In [87]:
city = "Dubaisk"
current_temperature = get_current_temperature(city)
print(f"Температура воздуха в {city}: {current_temperature}°C")

Ошибка получения погоды в Dubaisk. Код ошибки: 404
Температура воздуха в Dubaisk: None°C


In [90]:
def is_anomaly_temperature(current_temp, city, season, season_cities):
    season_data = season_cities[(season_cities['city'] == city) & (season_cities['season'] == season)]

    if not season_data.empty:
        mean_temp = season_data['mean'].iloc[0]
        std_temp = season_data['std'].iloc[0]
        if current_temp < mean_temp - 2*std_temp or current_temp > mean_temp + 2*std_temp:
            return True
        else:
            return False
    else:
        print(f"Не найдено информации о погоде в {city}, сезон: {season}.")
        return None

In [94]:
season = 'winter'
city = 'Moscow'
temp = get_current_temperature(city)
if get_current_temperature(city) is not None:
    if is_anomaly_temperature(temp, city, season, season_cities):
        print(f"Температура в {city}, в сезоне {season} аномальна.")
    else:
        print(f"Температура в {city}, в сезоне {season} в пределах нормы.")

Температура в Moscow, в сезоне winter в пределах нормы.


In [111]:
def create_temperature_df(cities, temperatures, data):
    results = []
    for city in cities:
        current_temp = temperatures.get(city)
        anomaly = None
        if current_temp is not None:
            season_data = data[(data['city'] == city) & (data['season'] == 'winter')]
            if not season_data.empty:
                anomaly = is_anomaly(current_temp, season_data['mean'].values[0], season_data['std'].values[0])
        results.append({
            'city': city,
            'current_temp': current_temp,
            'is_anomaly': anomaly
        })

    return pd.DataFrame(results)


In [117]:
def get_temperatures(cities, data):
    start = time.time()
    temperatures = {}

    for city in cities:
        temp = get_current_temperature(city)
        if temp is not None:
            temperatures[city] = temp

    end = time.time()

    df = create_temperature_df(cities, temperatures, data)
    print(f"Время выполнения синхронной функции: {end - start:.2f} секунд")
    return df

async def get_temperatures_async(cities, data):
    start = time.time()
    temperatures = {}
    tasks = []

    for city in cities:
        tasks.append(get_current_temperature_async(city))

    results = await asyncio.gather(*tasks)

    for city, temp in zip(cities, results):
        if temp is not None:
            temperatures[city] = temp

    end = time.time()

    df = create_temperature_df(cities, temperatures, data)
    print(f"Время выполнения асинхронной функции: {end - start:.2f} секунд")
    return df


In [118]:
async def compare_times(cities, data):
    start = time.time()
    df_sync = get_temperatures(cities, data)
    print(f"Время для синхронной функции: {time.time() - start:.2f} секунд")

    start = time.time()
    df_async = await get_temperatures_async(cities, data)
    print(f"Время для асинхронной функции: {time.time() - start:.2f} секунд")

    return df_sync, df_async

df_sync, df_async = await compare_times(data_proccesed['city'].unique(), data_proccesed)

Время выполнения синхронной функции: 0.64 секунд
Время для синхронной функции: 0.78 секунд
Время выполнения асинхронной функции: 0.11 секунд
Время для асинхронной функции: 0.26 секунд


In [116]:
df_sync

Unnamed: 0,city,current_temp,is_anomaly
0,New York,-5.95,False
1,London,7.29,False
2,Paris,5.27,False
3,Tokyo,3.71,False
4,Moscow,-2.84,False
5,Sydney,21.35,False
6,Berlin,3.96,False
7,Beijing,-7.06,False
8,Rio de Janeiro,25.11,False
9,Dubai,20.96,False


In [115]:
df_async

Unnamed: 0,city,current_temp,is_anomaly
0,New York,-5.95,False
1,London,7.29,False
2,Paris,5.27,False
3,Tokyo,3.71,False
4,Moscow,-2.84,False
5,Sydney,21.35,False
6,Berlin,3.96,False
7,Beijing,-7.06,False
8,Rio de Janeiro,25.11,False
9,Dubai,20.96,False


Как мы видим, асинхронные методы показывают себя гораздо быстрее, отправляя параллельно несколько запросов на сервер.