## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [3]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


In [4]:
import aiohttp
import time 
from sklearn.linear_model import LinearRegression
import requests
import datetime
import asyncio

In [5]:
df = pd.read_csv('temperature_data.csv')
df

Unnamed: 0,city,timestamp,temperature,season
0,New York,2010-01-01,0.986924,winter
1,New York,2010-01-02,2.721420,winter
2,New York,2010-01-03,4.949889,winter
3,New York,2010-01-04,0.582659,winter
4,New York,2010-01-05,-1.441494,winter
...,...,...,...,...
54745,Mexico City,2019-12-25,16.486765,winter
54746,Mexico City,2019-12-26,11.225357,winter
54747,Mexico City,2019-12-27,-1.087347,winter
54748,Mexico City,2019-12-28,10.338773,winter


In [6]:
cities = df['city'].unique()
cities

array(['New York', 'London', 'Paris', 'Tokyo', 'Moscow', 'Sydney',
       'Berlin', 'Beijing', 'Rio de Janeiro', 'Dubai', 'Los Angeles',
       'Singapore', 'Mumbai', 'Cairo', 'Mexico City'], dtype=object)

In [7]:
from sklearn.linear_model import LinearRegression

In [8]:
def analysis_temperature_of_city(df, city):
    # Фильтр по городу
    df_city = df.loc[df['city'] == city].copy()

    #Основные показатели
    avg_temp = df_city['temperature'].mean()
    min_temp = df_city['temperature'].min()
    max_temp = df_city['temperature'].max()


    # Скользящее среднее и стандартное отклонение за 30 дней
    df_city['roll_mean_30_days'] = df_city['temperature'].rolling(window=30).mean()
    df_city['roll_std_30_days'] = df_city['temperature'].rolling(window=30).std()

    # Поиск аномалий
    df_city['anomaly'] = (
        (df_city["temperature"] < 
         (df_city["roll_mean_30_days"] - 2 * df_city["roll_std_30_days"])) |
        (df_city["temperature"] > 
         (df_city["roll_mean_30_days"] + 2 * df_city["roll_std_30_days"]))
    )
    
    anomalies = df_city.loc[df_city['anomaly']]
    # Профиль по сезонам
    profile_of_season = df_city.groupby('season', as_index=False).agg(
        temperature_mean=('temperature', 'mean'),
        temperature_std=('temperature', 'std')
    )
    
    
    df_city['timestamp'] = pd.to_datetime(df_city['timestamp'])
    df_city['days'] = (df_city['timestamp'] - df_city['timestamp'].min()).dt.days
    X = df_city[['days']]
    y = df_city['temperature']
    model = LinearRegression()
    model.fit(X, y)
    trend_slope = model.coef_[0]



    return {
        "city": city,
        "df_city": df_city,
        "avg_temp": avg_temp,
        "min_temp": min_temp,
        "max_temp": max_temp,
        "anomalies": anomalies,
        "profile_of_season": profile_of_season,
        "trend_slope": trend_slope

    }






***Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него***



In [9]:
# Последовательно
def analyze_cities_default(df, cities):
    results = []
    start_time = time.time()

    for city in cities:
        result = analysis_temperature_of_city(df, city)
        results.append(result)

    end_time = time.time() - start_time
    return results, end_time




In [10]:
# Параллельно
from concurrent.futures import ThreadPoolExecutor

def analyze_cities_threading(df, cities, n_threads=4):
    start_time = time.time()
    with ThreadPoolExecutor(max_workers=n_threads) as executor:
        results = list(executor.map(lambda city: analysis_temperature_of_city(df, city), cities))
    duration = time.time() - start_time
    return results, duration

In [11]:
results_1, duration_1  = analyze_cities_threading(df, cities, n_threads = 4)
results_2, duration_2 = analyze_cities_default(df, cities)
print("Время выполнения паралльного анализа", duration_1)
print("Время выполнения последовательного анализа", duration_2)

Время выполнения паралльного анализа 0.0882723331451416
Время выполнения последовательного анализа 0.05658864974975586


***Вывод: Последовательное выполнение анализа исторических данных оказался чуть быстре***

***Мониториг текущей температуры***


In [12]:
month_to_season_mapping = {
    1: "winter",
    2: "winter",
    3: "spring",
    4: "spring",
    5: "spring",
    6: "summer",
    7: "summer",
    8: "summer",
    9: "autumn",
    10: "autumn",
    11: "autumn",
    12: "winter",
}

In [14]:
def get_current_temp_of_city(API_KEY, city):
    URL = f'https://api.openweathermap.org/data/2.5/weather?q={city}&appid={API_KEY}&units=metric'
    response = requests.get(URL)
    current_datetime = datetime.datetime.now()
    month_of_temp = current_datetime.month

    if response.status_code == 200:
        data = response.json()
        temperature = data['main']['temp']
        return temperature, month_of_temp
    else:
        raise Exception(f" Ошибка при получении данных с сайта OpenWeather: {response.status_code}, {response.text}")
    

In [15]:
city = data['city'].unique()
results = []
start_time = time.time()
for city in cities:
    cur_temp, cur_month = get_current_temp_of_city(API_KEY, city)
    results.append({"city": city, "temperature": cur_temp, "month": cur_month})
                   
end_time = time.time() - start_time

print('Время выполнения через последовательное получение данных', end_time)

Время выполнения через последовательное получение данных 3.4547441005706787


In [16]:
#Проверка результата
results

[{'city': 'New York', 'temperature': 4.38, 'month': 1},
 {'city': 'London', 'temperature': 2.45, 'month': 1},
 {'city': 'Paris', 'temperature': 4.2, 'month': 1},
 {'city': 'Tokyo', 'temperature': 4.98, 'month': 1},
 {'city': 'Moscow', 'temperature': -0.82, 'month': 1},
 {'city': 'Sydney', 'temperature': 21.29, 'month': 1},
 {'city': 'Berlin', 'temperature': 1.23, 'month': 1},
 {'city': 'Beijing', 'temperature': -4.06, 'month': 1},
 {'city': 'Rio de Janeiro', 'temperature': 25.43, 'month': 1},
 {'city': 'Dubai', 'temperature': 22.96, 'month': 1},
 {'city': 'Los Angeles', 'temperature': 14.55, 'month': 1},
 {'city': 'Singapore', 'temperature': 23.26, 'month': 1},
 {'city': 'Mumbai', 'temperature': 24.99, 'month': 1},
 {'city': 'Cairo', 'temperature': 19.42, 'month': 1},
 {'city': 'Mexico City', 'temperature': 16.64, 'month': 1}]

In [17]:

# Асинхронная функция получения температуры города
async def get_current_temp_of_city_async(API_KEY, city, session):
    URL = f'https://api.openweathermap.org/data/2.5/weather?q={city}&appid={API_KEY}&units=metric'
    async with session.get(URL) as response:
        if response.status == 200:
            data = await response.json()
            temperature = data['main']['temp']
            current_datetime = datetime.datetime.now()
            month_of_temp = current_datetime.month
            return {"city": city, "temperature": temperature, "month": month_of_temp}
        else:
            return {"city": city, "temperature": None, "month": None, "error": await response.text()}

# Асинхронная функция для обработки списка городов
async def get_weather_for_cities_async(API_KEY, cities):
    async with aiohttp.ClientSession(connector=aiohttp.TCPConnector(ssl=False)) as session:
        tasks = [get_current_temp_of_city_async(API_KEY, city, session) for city in cities]
        results = await asyncio.gather(*tasks, return_exceptions=True)
        return results



In [18]:
cities = data['city'].unique()

# Замер времени выполнения
start_time = time.time()

results_async = await get_weather_for_cities_async(API_KEY, cities)

duration = time.time() - start_time
print(f"Асинхронное выполнение заняло: {duration:.2f} секунд")


Асинхронное выполнение заняло: 0.24 секунд


In [19]:
#Результат асинхронного парсинга
results_async

[{'city': 'New York', 'temperature': 4.59, 'month': 1},
 {'city': 'London', 'temperature': 2.45, 'month': 1},
 {'city': 'Paris', 'temperature': 4.2, 'month': 1},
 {'city': 'Tokyo', 'temperature': 4.98, 'month': 1},
 {'city': 'Moscow', 'temperature': -0.82, 'month': 1},
 {'city': 'Sydney', 'temperature': 21.29, 'month': 1},
 {'city': 'Berlin', 'temperature': 1.23, 'month': 1},
 {'city': 'Beijing', 'temperature': -4.06, 'month': 1},
 {'city': 'Rio de Janeiro', 'temperature': 25.43, 'month': 1},
 {'city': 'Dubai', 'temperature': 22.96, 'month': 1},
 {'city': 'Los Angeles', 'temperature': 14.55, 'month': 1},
 {'city': 'Singapore', 'temperature': 23.26, 'month': 1},
 {'city': 'Mumbai', 'temperature': 24.99, 'month': 1},
 {'city': 'Cairo', 'temperature': 19.42, 'month': 1},
 {'city': 'Mexico City', 'temperature': 16.64, 'month': 1}]

***Вывод:Асинхронное обращение к апи осуществляется гораздо быстрее, чем последовательное***

In [20]:
def temperature_is_normal_or_not(city, profile_of_season, temperature, month_of_temp):
    current_season = month_to_season_mapping.get(month_of_temp)
    profile_of_season = profile_of_season.query('season == @current_season')

    
    mean_temp = profile_of_season['temperature_mean'].iloc[0]
    std_temp = profile_of_season['temperature_std'].iloc[0]

    lower_bound = mean_temp - 2 * std_temp
    upper_bound = mean_temp + 2 * std_temp 

    if lower_bound <= temperature <= upper_bound:
        return f"The temperature {temperature}°C in {city} is NORMAL for {current_season}."
    else:
        return f"The temperature {temperature}°C in {city} is NOT NORMAL for {current_season}."

In [21]:
# Посмотрим есть ли аномальная температура по городам
city_results, _ = analyze_cities_default(df, cities)

for result in city_results:
    city = result['city']
    profile_of_season = result['profile_of_season']
    temperature, month_of_temp = get_current_temp_of_city(API_KEY, city)

    # Проверка на нормальность температуры
    is_temp_normal = temperature_is_normal_or_not(city, profile_of_season, temperature, month_of_temp)
    print(is_temp_normal)

The temperature 4.38°C in New York is NORMAL for winter.
The temperature 2.45°C in London is NORMAL for winter.
The temperature 4.2°C in Paris is NORMAL for winter.
The temperature 4.98°C in Tokyo is NORMAL for winter.
The temperature -0.82°C in Moscow is NORMAL for winter.
The temperature 21.29°C in Sydney is NORMAL for winter.
The temperature 1.23°C in Berlin is NORMAL for winter.
The temperature -4.06°C in Beijing is NORMAL for winter.
The temperature 25.43°C in Rio de Janeiro is NORMAL for winter.
The temperature 22.96°C in Dubai is NORMAL for winter.
The temperature 14.55°C in Los Angeles is NORMAL for winter.
The temperature 23.26°C in Singapore is NORMAL for winter.
The temperature 24.99°C in Mumbai is NORMAL for winter.
The temperature 19.42°C in Cairo is NORMAL for winter.
The temperature 16.64°C in Mexico City is NORMAL for winter.
