## ДЗ 1 (ОБЯЗАТЕЛЬНОЕ): Анализ температурных данных и мониторинг текущей температуры через OpenWeatherMap API

**Описание задания:**  
Вы аналитик в компании, занимающейся изучением климатических изменений и мониторингом температур в разных городах. Вам нужно провести анализ исторических данных о температуре для выявления сезонных закономерностей и аномалий. Также необходимо подключить API OpenWeatherMap для получения текущей температуры в выбранных городах и сравнить её с историческими данными.


### Цели задания:
1. Провести **анализ временных рядов**, включая:
   - Вычисление скользящего среднего и стандартного отклонения для сглаживания температурных колебаний.
   - Определение аномалий на основе отклонений температуры от $ \text{скользящее среднее} \pm 2\sigma $.
   - Построение долгосрочных трендов изменения температуры.
   - Любые дополнительные исследования будут вам в плюс.

2. Осуществить **мониторинг текущей температуры**:
   - Получить текущую температуру через OpenWeatherMap API.
   - Сравнить её с историческим нормальным диапазоном для текущего сезона.

3. Разработать **интерактивное приложение**:
   - Дать пользователю возможность выбрать город.
   - Отобразить результаты анализа температур, включая временные ряды, сезонные профили и аномалии.
   - Провести анализ текущей температуры в контексте исторических данных.


### Описание данных
Исторические данные о температуре содержатся в файле `temperature_data.csv`, включают:
  - `city`: Название города.
  - `timestamp`: Дата (с шагом в 1 день).
  - `temperature`: Среднесуточная температура (в °C).
  - `season`: Сезон года (зима, весна, лето, осень).

Код для генерации файла вы найдете ниже.

### Этапы выполнения

1. **Анализ исторических данных**:
   - Вычислить **скользящее среднее** температуры с окном в 30 дней для сглаживания краткосрочных колебаний.
   - Рассчитать среднюю температуру и стандартное отклонение для каждого сезона в каждом городе.
   - Выявить аномалии, где температура выходит за пределы $ \text{среднее} \pm 2\sigma $.
   - Попробуйте распараллелить проведение этого анализа. Сравните скорость выполнения анализа с распараллеливанием и без него.

2. **Мониторинг текущей температуры**:
   - Подключить OpenWeatherMap API для получения текущей температуры города. Для получения API Key (бесплатно) надо зарегистрироваться на сайте. Обратите внимание, что API Key может активироваться только через 2-3 часа, это нормально. Посему получите ключ заранее.
   - Получить текущую температуру для выбранного города через OpenWeatherMap API.
   - Определить, является ли текущая температура нормальной, исходя из исторических данных для текущего сезона.
   - Данные на самом деле не совсем реальные (сюрпрайз). Поэтому на момент эксперимента погода в Берлине, Каире и Дубае была в рамках нормы, а в Пекине и Москве аномальная. Протестируйте свое решение для разных городов.
   - Попробуйте для получения текущей температуры использовать синхронные и асинхронные методы. Что здесь лучше использовать?

3. **Создание приложения на Streamlit**:
   - Добавить интерфейс для загрузки файла с историческими данными.
   - Добавить интерфейс для выбора города (из выпадающего списка).
   - Добавить форму для ввода API-ключа OpenWeatherMap. Когда он не введен, данные для текущей погоды не показываются. Если ключ некорректный, выведите на экран ошибку (должно приходить `{"cod":401, "message": "Invalid API key. Please see https://openweathermap.org/faq#error401 for more info."}`).
   - Отобразить:
     - Описательную статистику по историческим данным для города, можно добавить визуализации.
     - Временной ряд температур с выделением аномалий (например, точками другого цвета).
     - Сезонные профили с указанием среднего и стандартного отклонения.
   - Вывести текущую температуру через API и указать, нормальна ли она для сезона.

### Критерии оценивания

- Корректное проведение анализа данных – 1 балл.
- Исследование распараллеливания анализа – 1 балл.
- Корректный поиск аномалий – 1 балл.
- Подключение к API и корректность выполнения запроса – 1 балл.
- Проведение эксперимента с синхронным и асинхронным способом запроса к API – 1 балл.
- Создание интерфейса приложения streamlit в соответствии с описанием – 3 балла.
- Корректное отображение графиков и статистик, а также сезонных профилей – 1 балл.
- Корректный вывод текущей температуры в выбранном городе и проведение проверки на ее аномальность – 1 балл.
- Любая дополнительная функциональность приветствуется и оценивается бонусными баллами (не более 2 в сумме) на усмотрение проверяющего.

### Формат сдачи домашнего задания

Решение нужно развернуть в Streamlit Cloud (бесплатно)

*   Создаем новый репозиторий на GitHub.  
*   Загружаем проект.
*   Создаем аккаунт в [Streamlit Cloud](https://streamlit.io/cloud).
*   Авторизуемся в Streamlit Cloud.
*   Создаем новое приложение в Streamlit Cloud и подключаем GitHub-репозиторий.
*   Deploy!

Сдать в форму необходимо:
1. Ссылку на развернутое в Streamlit Cloud приложение.
2. Ссылку на код. Все выводы про, например, использование параллельности/асинхронности опишите в комментариях.

Не забудьте удалить ключ API и иную чувствительную информацию.

### Полезные ссылки
*   [Оформление задачи Титаник на Streamlit](https://github.com/evgpat/streamlit_demo)
*   [Документация Streamlit](https://docs.streamlit.io/)
*   [Блог о Streamlit](https://blog.streamlit.io/)

In [19]:
import pandas as pd
import numpy as np

# Реальные средние температуры (примерные данные) для городов по сезонам
seasonal_temperatures = {
    "New York": {"winter": 0, "spring": 10, "summer": 25, "autumn": 15},
    "London": {"winter": 5, "spring": 11, "summer": 18, "autumn": 12},
    "Paris": {"winter": 4, "spring": 12, "summer": 20, "autumn": 13},
    "Tokyo": {"winter": 6, "spring": 15, "summer": 27, "autumn": 18},
    "Moscow": {"winter": -10, "spring": 5, "summer": 18, "autumn": 8},
    "Sydney": {"winter": 12, "spring": 18, "summer": 25, "autumn": 20},
    "Berlin": {"winter": 0, "spring": 10, "summer": 20, "autumn": 11},
    "Beijing": {"winter": -2, "spring": 13, "summer": 27, "autumn": 16},
    "Rio de Janeiro": {"winter": 20, "spring": 25, "summer": 30, "autumn": 25},
    "Dubai": {"winter": 20, "spring": 30, "summer": 40, "autumn": 30},
    "Los Angeles": {"winter": 15, "spring": 18, "summer": 25, "autumn": 20},
    "Singapore": {"winter": 27, "spring": 28, "summer": 28, "autumn": 27},
    "Mumbai": {"winter": 25, "spring": 30, "summer": 35, "autumn": 30},
    "Cairo": {"winter": 15, "spring": 25, "summer": 35, "autumn": 25},
    "Mexico City": {"winter": 12, "spring": 18, "summer": 20, "autumn": 15},
}

# Сопоставление месяцев с сезонами
month_to_season = {12: "winter", 1: "winter", 2: "winter",
                   3: "spring", 4: "spring", 5: "spring",
                   6: "summer", 7: "summer", 8: "summer",
                   9: "autumn", 10: "autumn", 11: "autumn"}

# Генерация данных о температуре
def generate_realistic_temperature_data(cities, num_years=10):
    dates = pd.date_range(start="2010-01-01", periods=365 * num_years, freq="D")
    data = []

    for city in cities:
        for date in dates:
            season = month_to_season[date.month]
            mean_temp = seasonal_temperatures[city][season]
            # Добавляем случайное отклонение
            temperature = np.random.normal(loc=mean_temp, scale=5)
            data.append({"city": city, "timestamp": date, "temperature": temperature})

    df = pd.DataFrame(data)
    df['season'] = df['timestamp'].dt.month.map(lambda x: month_to_season[x])
    return df

# Генерация данных
data = generate_realistic_temperature_data(list(seasonal_temperatures.keys()))
data.to_csv('temperature_data.csv', index=False)


In [20]:
data

Unnamed: 0,city,timestamp,temperature,season
0,New York,2010-01-01,-1.480409,winter
1,New York,2010-01-02,-10.396028,winter
2,New York,2010-01-03,5.979181,winter
3,New York,2010-01-04,-4.025636,winter
4,New York,2010-01-05,-2.047680,winter
...,...,...,...,...
54745,Mexico City,2019-12-25,17.869161,winter
54746,Mexico City,2019-12-26,5.024027,winter
54747,Mexico City,2019-12-27,6.442176,winter
54748,Mexico City,2019-12-28,16.797690,winter


In [2]:
df = data.sort_values(['city', 'timestamp'])
df['timestamp'] = pd.to_datetime(df['timestamp'])

def rolling_for_city(subdf):
    subdf = subdf.set_index('timestamp')
    subdf['rolling_temp_30d'] = subdf['temperature'].rolling('30D').mean()
    return subdf.reset_index()

df = (
    df.groupby('city', group_keys=False)
      .apply(rolling_for_city)
)


  .apply(rolling_for_city)


In [3]:
df

Unnamed: 0,timestamp,city,temperature,season,rolling_temp_30d
0,2010-01-01,Beijing,-6.255616,winter,-6.255616
1,2010-01-02,Beijing,-0.807888,winter,-3.531752
2,2010-01-03,Beijing,0.961135,winter,-2.034123
3,2010-01-04,Beijing,-1.670540,winter,-1.943227
4,2010-01-05,Beijing,0.112081,winter,-1.532166
...,...,...,...,...,...
3645,2019-12-25,Tokyo,2.726084,winter,7.204147
3646,2019-12-26,Tokyo,12.612406,winter,7.152109
3647,2019-12-27,Tokyo,-2.992634,winter,6.178785
3648,2019-12-28,Tokyo,15.014285,winter,6.128462


In [4]:
import pandas as pd

grouped = (
    df.groupby(['city', 'season'])['temperature']
      .agg(['mean', 'std'])
      .reset_index()
)

grouped.columns = ['city', 'season', 'avg_temp', 'std_temp']

df_merged = df.merge(grouped, on=['city', 'season'], how='left')

print(df_merged.head())

   timestamp     city  temperature  season  rolling_temp_30d  avg_temp  \
0 2010-01-01  Beijing    -6.255616  winter         -6.255616  -2.14335   
1 2010-01-02  Beijing    -0.807888  winter         -3.531752  -2.14335   
2 2010-01-03  Beijing     0.961135  winter         -2.034123  -2.14335   
3 2010-01-04  Beijing    -1.670540  winter         -1.943227  -2.14335   
4 2010-01-05  Beijing     0.112081  winter         -1.532166  -2.14335   

   std_temp  
0  4.929432  
1  4.929432  
2  4.929432  
3  4.929432  
4  4.929432  


In [5]:
df_merged['anomaly'] = (
    (df_merged['temperature'] < df_merged['avg_temp'] - 2 * df_merged['std_temp']) |
    (df_merged['temperature'] > df_merged['avg_temp'] + 2 * df_merged['std_temp'])
).astype(int)

print(df_merged[['city', 'season', 'temperature', 'avg_temp', 'std_temp', 'anomaly']].head())

      city  season  temperature  avg_temp  std_temp  anomaly
0  Beijing  winter    -6.255616  -2.14335  4.929432        0
1  Beijing  winter    -0.807888  -2.14335  4.929432        0
2  Beijing  winter     0.961135  -2.14335  4.929432        0
3  Beijing  winter    -1.670540  -2.14335  4.929432        0
4  Beijing  winter     0.112081  -2.14335  4.929432        0


In [6]:
import requests

def get_weather(city_name):
    base_url = "https://api.openweathermap.org/data/2.5/weather"
    params = {
        'q': city_name,
        'appid': 'a843fe50075e6a68409b54b3722d5301',
        'units': 'metric'
    }

    try:
        response = requests.get(base_url, params=params)
        response.raise_for_status()
        data = response.json()

        city = data['name']
        temp = data['main']['temp']
        weather_desc = data['weather'][0]['description']

        return temp

    except requests.exceptions.RequestException as e:
        return f"Ошибка при запросе данных: {e}"
    except KeyError:
        return "Невозможно извлечь данные о погоде."

In [7]:
unique_cities = df['city'].unique()


In [8]:
unique_cities = pd.DataFrame(unique_cities).rename(columns={0:'city'})

In [9]:
unique_cities['current_temp'] = unique_cities['city'].apply(lambda city: get_weather(city))

In [10]:
unique_cities

Unnamed: 0,city,current_temp
0,Beijing,0.94
1,Berlin,2.46
2,Cairo,23.42
3,Dubai,24.96
4,London,2.09
5,Los Angeles,12.55
6,Mexico City,10.53
7,Moscow,-0.29
8,Mumbai,26.99
9,New York,-0.12


In [11]:
df_merged = df_merged.merge(unique_cities, how='left', on='city')

In [12]:
df_merged

Unnamed: 0,timestamp,city,temperature,season,rolling_temp_30d,avg_temp,std_temp,anomaly,current_temp
0,2010-01-01,Beijing,-6.255616,winter,-6.255616,-2.143350,4.929432,0,0.94
1,2010-01-02,Beijing,-0.807888,winter,-3.531752,-2.143350,4.929432,0,0.94
2,2010-01-03,Beijing,0.961135,winter,-2.034123,-2.143350,4.929432,0,0.94
3,2010-01-04,Beijing,-1.670540,winter,-1.943227,-2.143350,4.929432,0,0.94
4,2010-01-05,Beijing,0.112081,winter,-1.532166,-2.143350,4.929432,0,0.94
...,...,...,...,...,...,...,...,...,...
54745,2019-12-25,Tokyo,2.726084,winter,7.204147,6.017683,4.936027,0,6.23
54746,2019-12-26,Tokyo,12.612406,winter,7.152109,6.017683,4.936027,0,6.23
54747,2019-12-27,Tokyo,-2.992634,winter,6.178785,6.017683,4.936027,0,6.23
54748,2019-12-28,Tokyo,15.014285,winter,6.128462,6.017683,4.936027,0,6.23


In [13]:
#текущий сезон – зима

In [18]:
winter_df = df_merged[df_merged['season'] == 'winter']

winter_avg_temp = winter_df.groupby('city')['temperature'].mean().reset_index()
winter_avg_temp.columns = ['city', 'winter_avg_temp']

winter_df = winter_df.merge(winter_avg_temp, on='city', how='left')

winter_df['within_range'] = (
    (winter_df['current_temp'] < winter_df['winter_avg_temp'] - 2 * winter_df['std_temp']) |
    (winter_df['current_temp'] > winter_df['winter_avg_temp'] + 2 * winter_df['std_temp'])
).astype(int)

winter_df[['city', 'winter_avg_temp', 'current_temp', 'std_temp', 'within_range']]

unique_winter_df = winter_df[['city', 'within_range']].drop_duplicates()
unique_winter_df

Unnamed: 0,city,within_range
0,Beijing,0
900,Berlin,0
1800,Cairo,0
2700,Dubai,0
3600,London,0
4500,Los Angeles,0
5400,Mexico City,0
6300,Moscow,0
7200,Mumbai,0
8100,New York,0


у меня получилось, что только температура в Сиднее выбивается из нормальной зимней температуры