## Лялин. ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [1]:
import pandas as pd
import numpy as np
import time
import requests
import asyncio
import aiohttp
import nest_asyncio
from concurrent.futures import ProcessPoolExecutor

In [2]:
# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)

In [3]:
data.shape

(54750, 4)

In [4]:
data.head()

Unnamed: 0,city,timestamp,temperature,season
0,New York,2010-01-01,1.801412,winter
1,New York,2010-01-02,0.707933,winter
2,New York,2010-01-03,1.087855,winter
3,New York,2010-01-04,-4.327533,winter
4,New York,2010-01-05,-8.753138,winter


In [5]:
df = data.copy()

Скользящее среднее на 30 дней

In [6]:
df['rolling_mean_30'] = df.groupby('city')['temperature'].transform(lambda x: x.rolling(30, min_periods=1).mean())

In [7]:
df[['city', 'timestamp', 'temperature', 'rolling_mean_30']].head()

Unnamed: 0,city,timestamp,temperature,rolling_mean_30
0,New York,2010-01-01,1.801412,1.801412
1,New York,2010-01-02,0.707933,1.254673
2,New York,2010-01-03,1.087855,1.199067
3,New York,2010-01-04,-4.327533,-0.182583
4,New York,2010-01-05,-8.753138,-1.896694


Средняя температура и стандартное отклонение для каждого сезона в каждом городе

In [8]:
grouped_stats = df.groupby(['city', 'season'])['temperature'].agg(['mean', 'std']).reset_index()
grouped_stats.columns = ['city', 'season', 'mean_temp', 'std_temp']

In [9]:
grouped_stats.head()

Unnamed: 0,city,season,mean_temp,std_temp
0,Beijing,autumn,15.991388,5.103733
1,Beijing,spring,12.687558,5.145566
2,Beijing,summer,27.029329,4.838268
3,Beijing,winter,-2.327455,5.084363
4,Berlin,autumn,10.806441,4.787302


In [10]:
grouped_stats.shape

(60, 4)

Аномалии, где температура выходит за пределы (среднее +/- 2 сигма)

In [11]:
merged = pd.merge(df, grouped_stats, on=['city', 'season'], how='left')
merged['is_anomaly'] = (merged['temperature'] < merged['mean_temp'] - 2 * merged['std_temp']) | \
                       (merged['temperature'] > merged['mean_temp'] + 2 * merged['std_temp'])
anomalies = merged[merged['is_anomaly']]

In [12]:
len(anomalies)

2543

In [13]:
anomalies[['city', 'timestamp', 'temperature', 'season']].head()

Unnamed: 0,city,timestamp,temperature,season
44,New York,2010-02-14,-15.891696,winter
91,New York,2010-04-02,-2.495192,spring
153,New York,2010-06-03,15.285117,summer
164,New York,2010-06-14,38.603772,summer
167,New York,2010-06-17,15.556566,summer


Распараллеливание анализа. Сравним время выполнения.

In [14]:
def calculate_stats_for_season(city_season_df):
    g = city_season_df.groupby(['city', 'season'])['temperature'].agg(['mean', 'std']).reset_index()
    return g

In [15]:
def sequential_processing(data):
    start_time = time.time()
    results = []
    for group_name, group_df in data.groupby(['city', 'season']):
        result = calculate_stats_for_season(group_df)
        results.append(result)
    final = pd.concat(results)
    end_time = time.time()
    return final, end_time - start_time

In [16]:
def parallel_processing(data):
    start_time = time.time()
    grouped_data = [group for _, group in data.groupby(['city', 'season'])]
    with ProcessPoolExecutor() as executor:
        results = list(executor.map(calculate_stats_for_season, grouped_data))
    final = pd.concat(results)
    end_time = time.time()
    return final, end_time - start_time

In [17]:
seq_stats, seq_time = sequential_processing(df)
par_stats, par_time = parallel_processing(df)

In [18]:
seq_time, seq_time

(0.28916478157043457, 0.28916478157043457)

Интересно. В гугл колабе время получилось одинаковым...

Мониторинг текущей температуры. Подключение к OpenWeatherMap API.

In [19]:
api_key = "my_api_key"

Сопоставление месяца сезону (простейший вариант)

In [20]:
def get_current_season():
    current_month = pd.Timestamp.now().month
    return month_to_season[current_month]

Получить текущую температуру города (синхронно)

In [21]:
def get_current_temperature_sync(city):
    url = "http://api.openweathermap.org/data/2.5/weather"
    params = {
        "q": city,
        "appid": api_key,
        "units": "metric"
    }
    resp = requests.get(url, params=params)
    if resp.status_code == 200:
        data = resp.json()
        return data['main']['temp']
    else:
        return None

Определить, является ли текущая температура нормальной для сезона

In [22]:
def is_temperature_normal_for_season(city, current_temp, season_stats_df):
    current_season = get_current_season()
    row = season_stats_df[(season_stats_df['city'] == city) & (season_stats_df['season'] == current_season)]
    if len(row) == 0:
        return None
    mean_t = row['mean_temp'].values[0]
    std_t = row['std_temp'].values[0]
    low = mean_t - 2 * std_t
    high = mean_t + 2 * std_t
    return low <= current_temp <= high

Тестируем несколько городов

In [23]:
cities_to_test = ["Berlin", "Cairo", "Dubai", "Beijing", "Moscow"]
for city in cities_to_test:
    temp_now = get_current_temperature_sync(city)
    if temp_now is not None:
        normal = is_temperature_normal_for_season(city, temp_now, grouped_stats)
        if normal:
            print(city, "— текущая температура в норме:", temp_now, "°C")
        else:
            print(city, "— текущая температура аномальна:", temp_now, "°C")
    else:
        print(city, "— не удалось получить данные.")

Berlin — текущая температура в норме: 5.7 °C
Cairo — текущая температура в норме: 21.42 °C
Dubai — текущая температура в норме: 22.96 °C
Beijing — текущая температура в норме: -5.06 °C
Moscow — текущая температура в норме: -1.78 °C


Асинхронный метод получения текущей температуры

In [24]:
async def get_current_temperature_async(session, city):
    url = "http://api.openweathermap.org/data/2.5/weather"
    params = {
        "q": city,
        "appid": api_key,
        "units": "metric"
    }
    async with session.get(url, params=params) as resp:
        if resp.status == 200:
            data = await resp.json()
            return city, data['main']['temp']
        else:
            return city, None

In [25]:
async def run_async_requests(cities):
    async with aiohttp.ClientSession() as session:
        tasks = []
        for c in cities:
            tasks.append(asyncio.create_task(get_current_temperature_async(session, c)))
        return await asyncio.gather(*tasks)

In [26]:
nest_asyncio.apply()

results = asyncio.run(run_async_requests(cities_to_test))

for city, temp in results:
    if temp is not None:
        normal = is_temperature_normal_for_season(city, temp, grouped_stats)
        if normal:
            print(city, "— (async) текущая температура в норме:", temp, "°C")
        else:
            print(city, "— (async) текущая температура аномальна:", temp, "°C")
    else:
        print(city, "— (async) не удалось получить данные.")

Berlin — (async) текущая температура в норме: 5.7 °C
Cairo — (async) текущая температура в норме: 21.42 °C
Dubai — (async) текущая температура в норме: 22.96 °C
Beijing — (async) текущая температура в норме: -5.06 °C
Moscow — (async) текущая температура в норме: -1.78 °C


Streamlit

In [27]:
pip install streamlit -q

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.3/44.3 kB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.1/9.1 MB[0m [31m17.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.9/6.9 MB[0m [31m28.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.1/79.1 kB[0m [31m3.0 MB/s[0m eta [36m0:00:00[0m
[?25h

In [28]:
import streamlit as st
import pandas as pd
import numpy as np
import requests
import altair as alt

st.title("Анализ исторических данных о температуре")

uploaded_file = st.file_uploader("Загрузите CSV-файл с историческими данными", type=["csv"])
if uploaded_file:
    df = pd.read_csv(uploaded_file)
    cities = sorted(df["city"].unique())
    city_choice = st.selectbox("Выберите город", cities)
    api_key = st.text_input("Введите ваш API Key OpenWeatherMap (опционально)", type="password")
    filtered = df[df["city"] == city_choice].copy()
    if len(filtered) > 0:
        grouped_stats = filtered.groupby(["city", "season"])["temperature"].agg(["mean", "std"]).reset_index()
        grouped_stats.columns = ["city", "season", "mean_temp", "std_temp"]
        merged = pd.merge(filtered, grouped_stats, on=["city", "season"], how="left")
        merged["is_anomaly"] = (merged["temperature"] < merged["mean_temp"] - 2 * merged["std_temp"]) | \
                               (merged["temperature"] > merged["mean_temp"] + 2 * merged["std_temp"])
        st.subheader("Описательная статистика")
        st.write(filtered.describe())

        st.subheader("Временной ряд с аномалиями")
        base = alt.Chart(merged).encode(x="timestamp:T", y="temperature:Q")
        normal_line = base.mark_line(color="blue").transform_filter("datum.is_anomaly == false")
        anomaly_points = base.mark_circle(color="red").transform_filter("datum.is_anomaly == true")
        st.altair_chart((normal_line + anomaly_points).interactive(), use_container_width=True)

        st.subheader("Сезонный профиль (среднее и стандартное отклонение)")
        bars = alt.Chart(grouped_stats[grouped_stats["city"] == city_choice]).mark_bar().encode(
            x="season:N",
            y="mean_temp:Q",
            color="season:N"
        )
        error_bars = alt.Chart(grouped_stats[grouped_stats["city"] == city_choice]).mark_errorbar().encode(
            x="season:N",
            y=alt.Y("mean_temp:Q"),
            yError="std_temp:Q"
        )
        st.altair_chart((bars + error_bars).interactive(), use_container_width=True)

        if api_key:
            current_month = pd.Timestamp.now().month
            month_to_season = {12: "winter", 1: "winter", 2: "winter",
                               3: "spring", 4: "spring", 5: "spring",
                               6: "summer", 7: "summer", 8: "summer",
                               9: "autumn", 10: "autumn", 11: "autumn"}
            current_season = month_to_season[current_month]
            url = "http://api.openweathermap.org/data/2.5/weather"
            params = {
                "q": city_choice,
                "appid": api_key,
                "units": "metric"
            }
            resp = requests.get(url, params=params)
            if resp.status_code == 200:
                data_json = resp.json()
                current_temp = data_json["main"]["temp"]
                row = grouped_stats[(grouped_stats["city"] == city_choice) & (grouped_stats["season"] == current_season)]
                if len(row) > 0:
                    mean_t = row["mean_temp"].values[0]
                    std_t = row["std_temp"].values[0]
                    low = mean_t - 2 * std_t
                    high = mean_t + 2 * std_t
                    if low <= current_temp <= high:
                        st.write("Текущая температура в норме:", current_temp, "°C")
                    else:
                        st.write("Текущая температура аномальная:", current_temp, "°C")
                else:
                    st.write("Нет данных по текущему сезону в исторической выборке.")
            else:
                if resp.status_code == 401:
                    st.error("Неверный API ключ OpenWeatherMap.")
                else:
                    st.error(f"Ошибка при получении данных (код {resp.status_code}).")

2024-12-22 14:14:56.670 
  command:

    streamlit run /usr/local/lib/python3.10/dist-packages/colab_kernel_launcher.py [ARGUMENTS]
