## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [9]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)

In [10]:
from multiprocessing import Pool
import time

def analyze_city_data(city_data):
    # Вычисление скользящего среднего
    rolling_mean = city_data['temperature'].rolling(window=30, center=True).mean()

    # Расчет статистик по сезонам
    seasonal_stats = city_data.groupby('season').agg({
        'temperature': ['mean', 'std']
    }).round(2)

    # Выявление аномалий
    mean = city_data['temperature'].mean()
    std = city_data['temperature'].std()
    anomalies = city_data[
        (city_data['temperature'] > mean + 2*std) |
        (city_data['temperature'] < mean - 2*std)
    ]

    return {
        'city': city_data['city'].iloc[0],
        'rolling_mean': rolling_mean,
        'seasonal_stats': seasonal_stats,
        'anomalies': anomalies
    }

def parallel_analysis(data):
    cities = data['city'].unique()
    city_data_list = [data[data['city'] == city].copy() for city in cities]

    with Pool() as pool:
        results = pool.map(analyze_city_data, city_data_list)

    return {result['city']: result for result in results}

def sequential_analysis(data):
    cities = data['city'].unique()
    results = {}

    for city in cities:
        city_data = data[data['city'] == city].copy()
        results[city] = analyze_city_data(city_data)

    return results

def make_results(parallel_results, data):
    all_city_data = []

    for city, result in parallel_results.items():
        city_data = data[data['city'] == city].copy()

        city_data['rolling_mean'] = result['rolling_mean']

        anomalies_mask = city_data.index.isin(result['anomalies'].index)
        city_data['is_anomaly'] = anomalies_mask

        seasonal_stats = result['seasonal_stats']
        seasonal_stats = seasonal_stats.reset_index()
        seasonal_stats.columns = ['season', 'mean_temp', 'std_temp']

        city_data = city_data.merge(seasonal_stats, on='season', how='left')

        city_data['deviation_from_mean'] = city_data['temperature'] - city_data['mean_temp']
        city_data['deviation_in_std'] = city_data['deviation_from_mean'] / city_data['std_temp']

        all_city_data.append(city_data)

    unified_data = pd.concat(all_city_data, axis=0)

    unified_data = unified_data.sort_values(['city', 'timestamp'])

    numeric_columns = [
        'temperature', 'rolling_mean', 'mean_temp', 'std_temp',
        'deviation_from_mean', 'deviation_in_std'
    ]

    unified_data[numeric_columns] = unified_data[numeric_columns].round(2)

    return unified_data



data = pd.read_csv('temperature_data.csv', parse_dates=['timestamp'])

# Измерение времени выполнения последовательного анализа
start_time = time.time()
sequential_results = sequential_analysis(data)
sequential_time = time.time() - start_time

# Измерение времени выполнения параллельного анализа
start_time = time.time()
parallel_results = parallel_analysis(data)
parallel_time = time.time() - start_time

# Вывод результатов анализа для первого города
first_city = list(parallel_results.keys())[0]
print(f"\nРезультаты анализа для города {first_city}:")
print("\nСезонная статистика:")
print(parallel_results[first_city]['seasonal_stats'])
print("\nКоличество аномалий:", len(parallel_results[first_city]['anomalies']))

# Сравнение времени выполнения
print(f"\nВремя выполнения:")
print(f"Последовательный анализ: {sequential_time:.2f} секунд")
print(f"Параллельный анализ: {parallel_time:.2f} секунд")
print(f"Ускорение: {sequential_time/parallel_time:.2f}x")

results = make_results(parallel_results, data)


Результаты анализа для города New York:

Сезонная статистика:
       temperature      
              mean   std
season                  
autumn       15.10  4.91
spring        9.90  4.85
summer       25.20  5.06
winter        0.02  5.22

Количество аномалий: 106

Время выполнения:
Последовательный анализ: 0.14 секунд
Параллельный анализ: 0.22 секунд
Ускорение: 0.61x


В данном случае параллельный анализ медленнее

In [11]:
print("\nСтатистика по городам:")

summary = results.groupby('city').agg({
    'temperature': ['mean', 'min', 'max'],
    'is_anomaly': 'sum'
}).round(2)

print(summary)


Статистика по городам:
               temperature               is_anomaly
                      mean    min    max        sum
city                                               
Beijing              13.60 -17.59  45.12         85
Berlin               10.26 -19.00  38.74        134
Cairo                25.07  -4.03  51.23        136
Dubai                30.16   5.99  56.04        119
London               11.33  -9.51  32.78        155
Los Angeles          19.40  -3.48  39.54        174
Mexico City          16.25  -1.94  38.00        158
Moscow                5.28 -25.61  31.70         96
Mumbai               29.96   8.69  51.03        170
New York             12.62 -21.66  38.74        106
Paris                12.27  -9.55  41.28        139
Rio de Janeiro       24.95   5.09  48.94        170
Singapore            27.44   9.88  45.58        161
Sydney               18.70  -3.46  41.66        141
Tokyo                16.33 -12.38  45.27        120


In [12]:
!pip install nest_asyncio



In [13]:
import nest_asyncio

In [14]:
nest_asyncio.apply()

In [16]:
import requests
import asyncio
import aiohttp
from datetime import datetime

API_KEY = ""
BASE_URL = "http://api.openweathermap.org/data/2.5/weather"

class WeatherAnalyzer:
    def __init__(self, historical_data_path):
        self.historical_data = pd.read_csv(historical_data_path, parse_dates=['timestamp'])
        self.current_season = self.get_season(datetime.now().month)

    @staticmethod
    def get_season(month):
        season_map = {
            12: "winter", 1: "winter", 2: "winter",
            3: "spring", 4: "spring", 5: "spring",
            6: "summer", 7: "summer", 8: "summer",
            9: "autumn", 10: "autumn", 11: "autumn"
        }
        return season_map[month]

    def get_historical_stats(self, city):
        city_season_data = self.historical_data[
            (self.historical_data['city'] == city) &
            (self.historical_data['season'] == self.current_season)
        ]['temperature']

        mean = city_season_data.mean()
        std = city_season_data.std()
        return mean, std

    def analyze_temperature(self, city, current_temp):
        mean, std = self.get_historical_stats(city)

        is_anomaly = abs(current_temp - mean) > 2 * std

        return {
            'city': city,
            'current_temperature': round(current_temp, 2),
            'historical_mean': round(mean, 2),
            'historical_std': round(std, 2),
            'is_anomaly': is_anomaly,
            'season': self.current_season
        }

    def get_current_weather_sync(self, city):
        params = {
            'q': city,
            'appid': API_KEY,
            'units': 'metric'
        }

        response = requests.get(BASE_URL, params=params)
        if response.status_code == 200:
            data = response.json()
            return data['main']['temp']
        else:
            raise Exception(f"Error getting weather for {city}: {response.status_code}")

    async def get_current_weather_async(self, city, session):
        params = {
            'q': city,
            'appid': API_KEY,
            'units': 'metric'
        }

        async with session.get(BASE_URL, params=params) as response:
            if response.status == 200:
                data = await response.json()
                return city, data['main']['temp']
            else:
                raise Exception(f"Error getting weather for {city}: {response.status}")

    def analyze_cities_sync(self, cities):
        results = []
        start_time = time.time()

        for city in cities:
            current_temp = self.get_current_weather_sync(city)
            analysis = self.analyze_temperature(city, current_temp)
            results.append(analysis)

        execution_time = time.time() - start_time
        return results, execution_time

    async def analyze_cities_async(self, cities):
        start_time = time.time()
        async with aiohttp.ClientSession() as session:
            tasks = [self.get_current_weather_async(city, session) for city in cities]
            weather_results = await asyncio.gather(*tasks, return_exceptions=True)

            results = []
            for city, temp in weather_results:
                if isinstance(temp, Exception):
                    print(f"Error for {city}: {temp}")
                    continue
                analysis = self.analyze_temperature(city, temp)
                results.append(analysis)

        execution_time = time.time() - start_time
        return results, execution_time


test_cities = ['Berlin', 'Cairo', 'Dubai', 'Beijing', 'Moscow']

analyzer = WeatherAnalyzer('temperature_data.csv')

# Синхронный анализ
print("\nЗапуск синхронного анализа...")
sync_results, sync_time = analyzer.analyze_cities_sync(test_cities)

# Асинхронный анализ
print("\nЗапуск асинхронного анализа...")
async def run_async_analysis():
    return await analyzer.analyze_cities_async(test_cities)

async_results, async_time = asyncio.run(run_async_analysis())

# Вывод результатов
print("\nРезультаты анализа:")
print(f"{'Город':15} {'Текущая t°C':12} {'Сред. t°C':10} {'Аномалия':8}")
print("-" * 50)

for result in async_results:
    anomaly_status = "Да" if result['is_anomaly'] else "Нет"
    print(f"{result['city']:15} {result['current_temperature']:12.2f} "
          f"{result['historical_mean']:10.2f} {anomaly_status:8}")

print("\nВремя выполнения:")
print(f"Синхронный метод: {sync_time:.2f} секунд")
print(f"Асинхронный метод: {async_time:.2f} секунд")
print(f"Ускорение: {sync_time/async_time:.2f}x")


Запуск синхронного анализа...

Запуск асинхронного анализа...

Результаты анализа:
Город           Текущая t°C  Сред. t°C  Аномалия
--------------------------------------------------
Berlin                  4.14      -0.16 Нет     
Cairo                  17.42      15.13 Нет     
Dubai                  20.96      20.14 Нет     
Beijing                -7.06      -1.99 Нет     
Moscow                 -2.84     -10.13 Нет     

Время выполнения:
Синхронный метод: 0.54 секунд
Асинхронный метод: 0.15 секунд
Ускорение: 3.47x


Скорость асинхронного анализа гораздо выше (отличается от запуска к запуску)