# Погодные условия во время Второй мировой войны

## Текстовое описание выбранного набора данных

В качестве набора данных мы будем использовать [Weather Conditions in World War Two](https://www.kaggle.com/smid80/weatherww2/data) - ежедневные сводки погоды за 1940-1945 годы.

Существует ли связь между дневным минимумом и максимальной температурой? Можете ли вы предсказать максимальную температуру, учитывая минимальную температуру?

Датасет состоит из:

* `STA` - Метеостанция
* `Date` - Самоочевидный
* `Precip` - Осадки в мм
* `WindGustSpd` - Максимальная скорость порывов ветра в км/ч
* `maxTemp` - Максимальная температура в градусах Цельсия
* `minTemp` - Минимальная температура в градусах Цельсия
* `MeanTemp` - Средняя температура в градусах Цельсия
* `Snowfall` - Осадки снега и льда в мм
* `Poor` -  повторение столбца `TSHDSBRSGF` с плохой погодой
* `YR` - Год наблюдения
* `MO` - Месяц наблюдения
* `DA` - День наблюдения
* `PRCP` - Осадки в дюймах и сотых долях
* `DR` - Пиковое направление порывов ветра в десятках градусов
* `SPD` - Пиковая скорость порывов ветра в узлах
* `MAX` - Максимальная температура в градусах Фаренгейта
* `MIN` - Минимальная температура в градусах Фаренгейта
* `MEA` - Средняя температура в градусах Фаренгейта
* `SNF` - Снегопад в дюймах и десятых долях
* `SND` - Глубина снега (включая ледяные гранулы), зафиксированная в 1200 по Гринвичу, за исключением 0000 по Гринвичу в районе Дальневосточной Азии, в дюймах и десятых долях
* `FT` - Верхняя часть мерзлого грунта (глубина в дюймах)
* `FB` - Основание мерзлого грунта (глубина в дюймах)
* `FTI` - Толщина мерзлого грунта (толщина в дюймах)
* `ITHv` - Толщина льда на воде (дюймы и десятые доли)
* `PGT` - Пиковое время порывов ветра (часы и десятые доли)
* `TSHDSBRSGF` - День с: Громом; Мокрым снегом; Градом; Пылью или Песком; Дымом или Дымкой; Метелью; Дождем; Снегом; Гололедицей; Туманом; 0 = Нет, 1 = Да
* `SD3` - Глубина снега в 00:30 по Гринвичу включает ледяные гранулы в дюймах и десятых долях
* `RHX` - 24-часовая максимальная относительная влажность, в целом процентах
* `RHN` - 24-часовая минимальная относительная влажность, в целом процентах
* `RVG` - Размер реки в футах и десятых долях
* `WTE` - Водный эквивалент снега и льда на земле в дюймах и сотых долях


## Загрузка git-репозитория в текущее окружение

In [None]:
%cd /content/
!mkdir gitrepos
%cd /content/gitrepos/
!git clone https://github.com/anondigriz/inginirium-course-ai

In [None]:
!ls '/content/gitrepos/inginirium-course-ai/src/05-02-2022/datasets/Weather Conditions in World War Two' -l

## Загрузка датасета

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 'Магическая' функция matplotlib
%matplotlib inline 

# Есть пять предустановленная тем Seaborn: darkgrid, whitegrid, dark, white, 
# и ticks. Каждый из них подходит для различных приложений и личных предпочтений.
sns.set(style="ticks")

In [None]:
# Если запуск блокнота не в Google Colab, то указать здесь папку, в которой располагается загруженный датасет
CURENT_DIR = '/content/gitrepos/inginirium-course-ai/src/05-02-2022/datasets/Weather Conditions in World War Two'

In [None]:
# загрузка данных из csv
data = pd.read_csv(CURENT_DIR+'/Summary of Weather.csv', sep=',')

# изучение типа объекта, создаваемого функцией pd.read_csv
print(type(data))

# вывод первых 5 строк из датасета
data.head()

## Исследование основных характеристик датасета

### Исследование внешних признаков датасета

In [None]:
data.dtypes

In [None]:
data.shape

In [None]:
data.isna().sum()

Обработка пропусков в данных. Про удаление стобцов см. [здесь](https://riptutorial.com/ru/pandas/example/5621/%D1%83%D0%B4%D0%B0%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5-%D1%81%D1%82%D0%BE%D0%BB%D0%B1%D1%86%D0%B0-%D0%B2-dataframe).

In [None]:
data_new = data.drop(['WindGustSpd', 'PoorWeather', 'DR', 'SPD', 'SND', 'FT','FTI','FB','ITH','PGT','TSHDSBRSGF','SD3','RHX','RHN','RVG','WTE'], axis=1)

In [None]:
data_new.isna().sum()

In [None]:
data_new.dtypes

Данные попали не чистые и в них встречаются мешающие данные, например значения `#VALUE!`:

In [None]:
data["Snowfall"].unique()

Приводим колонки к нужному типу за:

In [None]:
data_new.Snowfall = pd.to_numeric(data_new.Snowfall, downcast="float", errors='coerce')
data_new.PRCP = pd.to_numeric(data_new.PRCP, downcast="float", errors='coerce')
data_new.SNF = pd.to_numeric(data_new.SNF, downcast="float", errors='coerce')
data_new.Precip = pd.to_numeric(data_new.Precip, downcast="float", errors='coerce')

In [None]:
data_new['Date'] =  pd.to_datetime(data_new['Date'], format="%Y-%m-%d",
                           utc=True)

In [None]:
data_new.dtypes

In [None]:
data_new = data_new.dropna(axis=0, how='any')
data_new.isna().sum()

In [None]:
print(data_new.shape)
print(data.shape)

In [None]:
data = data_new