# Погода в Сегеде 2006-2016

## Текстовое описание выбранного набора данных

В качестве набора данных [Weather in Szeged 2006-2016](https://www.kaggle.com/budincsevity/szeged-weather) - почасовая / ежедневная сводка с температурой, давлением, скоростью ветра и многое другое.

Существует ли связь между влажностью и температурой? Как насчет между влажностью и кажущейся температурой? Можете ли вы предсказать кажущуюся температуру, учитывая влажность?

Данные, доступные в ежечасном ответе:

* time
* summary
* precipType
* temperature
* apparentTemperature
* humidity
* windSpeed
* windBearing
* visibility
* loudCover
* pressure

## Загрузка git-репозитория в текущее окружение

In [None]:
%cd /content/
!mkdir gitrepos
%cd /content/gitrepos/
!git clone https://github.com/anondigriz/inginirium-course-ai

In [None]:
!ls '/content/gitrepos/inginirium-course-ai/src/05-02-2022/datasets/Weather in Szeged 2006-2016' -l

## Загрузка датасета

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 'Магическая' функция matplotlib
%matplotlib inline 

# Есть пять предустановленная тем Seaborn: darkgrid, whitegrid, dark, white, 
# и ticks. Каждый из них подходит для различных приложений и личных предпочтений.
sns.set(style="ticks")

In [None]:
# Если запуск блокнота не в Google Colab, то указать здесь папку, в которой располагается загруженный датасет
CURENT_DIR = '/content/gitrepos/inginirium-course-ai/src/05-02-2022/datasets/Weather in Szeged 2006-2016'

In [None]:
# загрузка данных из csv
data = pd.read_csv(CURENT_DIR+'/weatherHistory.csv', sep=',')

# изучение типа объекта, создаваемого функцией pd.read_csv
print(type(data))

# вывод первых 5 строк из датасета
data.head()

## Исследование основных характеристик датасета

### Исследование внешних признаков датасета

In [None]:
data.dtypes

In [None]:
data.shape

In [None]:
data.isna().sum()

Обработка пропусков в данных:

In [None]:
data = data.dropna(axis=0, how='any')
data.isna().sum()

Кодирование категорий целочисленными значениями - label encoding:

In [None]:
from sklearn.preprocessing import LabelEncoder

LebEncoders = {'Summary' : LabelEncoder(), 'Precip Type' : LabelEncoder(),
               'Daily Summary' : LabelEncoder()}

# Заменяем столбцы нашим энкодером
for col in LebEncoders:
    data[col] = LebEncoders[col].fit_transform(data[col])

data.head()

Преобразуем к нужному типу колонку `date`:

In [None]:
data_new = data.copy()
data_new['Formatted Date'] =  pd.to_datetime(data_new['Formatted Date'], format="%Y-%m-%d %H:%M:%S.%f %z",
                           utc=True)
data_new.dtypes

In [None]:
data_new.head()

In [None]:
data = data_new