# Первичный анализ данных

**Pandas** — это библиотека Python, предоставляющая широкие возможности для анализа данных. Данные часто хранятся в форме табличек — например, в форматах .csv, .tsv или .xlsx.

+ Основными структурами данных - классы Series и DataFrame. 

+ Первый из них представляет собой одномерный индексированный массив данных некоторого фиксированного типа.

+ Второй – это двухмерная структура данных, представляющая собой таблицу, каждый столбец которой содержит данные одного типа. 

+ Структура DataFrame отлично подходит для представления реальных данных: строки соответствуют признаковым описаниям отдельных объектов, а столбцы соответствуют признакам.

### **0. Импорт необходимых пакетов**

In [None]:
import pandas as pd
import numpy as np

### **1. Загрузка данных**

С помощью метода **read_csv** в Pandas загрузим необходимый файл.

**head(n)** - выводит первые n строк таблицы

In [None]:
data = pd.read_csv('kama_kosa.csv')

In [None]:
?pd.read_csv

In [None]:
data.to_csv('example.csv')

In [None]:
data.head()

Видим, что все плохо, потому что установили не те разделители (параметр sep).

In [None]:
df = pd.read_csv('kama_kosa.csv', sep=";")
df.date = pd.to_datetime(df.date, format="%d.%m.%Y")
df.head()

### **2. Посмотрим, что у нас за данные и какого типа**

Функция **shape** позволяет узнать размер данных

In [None]:
a = df.shape

In [None]:
type(a)

In [None]:
a[0]

Функция **info** дает описание по всем признакам таблицы

In [None]:
df.info()

Изменить тип колонки можно с помощью метода astype 

### **3. Извлечение основных статистических характеристик**

Функция **describe**:

число непропущенных значений, среднее, стандартное отклонение, диапазон, медиану, 0.25 и 0.75 квартили для признаков типа int и float

In [None]:
df.describe()

In [None]:
data = df[['T', 'P', 'Q_obs', 'Q_sim']].describe()

In [None]:
data['T'][0]

Смотреть среднее за все время довольно таки странно (для месячных наблюдений норм). Что же делать?

### **4. Извлечение информации**

Для извлечения отдельного столбца и работы с ним используется достаточно простая конструкция **df['Название столбца']**

In [None]:
df['T'].mean()

Для чего это может быть полезно? Например, для того, чтобы отфильтровать таблицу (вытащить только необходимые нам строки (за определенный год или месяц))

**1 способ извлечения подтаблицы.**

Извлечем данные за 2015 год

In [None]:
df[df['year'] == 2015].head()

Если условие более сложное, то конструкция будет выглядеть довольно громоздкой.

Например, извлечем данные за март 2014 года, когда температура была больше 0 

In [None]:
(df['year'] == 2014) & (df['month'] == 3) & (df['T']> 0)

In [None]:
df[(df['year'] > 2014) & (df['year'] < 2016) 
       & (df['month'] == 3) & (df['T']> 0)]

**2 способ**, как можно это сделать - функция **query**. Мне такая конструкция, если честно, нравится больше, но тут дело вкусов

In [None]:
df.query('year >= 2014 & year<= 2016 & month == 3')

### **!!! Задание 1.** 
Чему равна среднемесячная температура в августе 2014 года?

In [None]:
# Ваш код
df1 = df.query('year == 2014 & month == 8')


### 5. Группировка данных

Посчитать среднее за отдельный месяц это конечно хорошо, но хотелось бы за все месяцы и сразу =)

Можно это сделать с помощью цикла по номеру месяца. А можно воспользоваться уже готовыми функциями и пакетами

Для этого нам понадобится функция groupby, в качестве аргумента которой указывается признак или группа признаков, по которым будет происходить группировка (grouping_columns).

*Выведем максимальный расход воды за каждый год*

In [None]:
df.groupby(by = ['year'])['Q_obs'].max()

Следующий код выведет средние значения по двум переменным за каждый год

In [None]:
df.groupby(by = ['year'])['Q_obs','Q_sim'].mean()

Точно так же можно произвести вывод нескольких статистик для всех признаков 

In [None]:
df_1 = df.groupby(by = ['year'])['Q_obs','Q_sim'].describe()

In [None]:
df_1.to_csv('stat.csv')

Либо тоже самое можно было сделать с помощью функции **agg([набор применяемых функций])**

In [None]:
df.groupby(by = ['year'])['Q_obs','Q_sim'].agg([np.mean, np.std, np.min, np.max])

### **!!! Задание 2.** 

Чему равны средние, максимальные и минимальные значения температур и осадков в каждом месяце за 2011 год?

# Визуализация данных

### 0. Импортируем необходимые пакеты

In [None]:
# так как мы еще будем визуализировать, то нам нужны и такие пакеты)
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns


## 1. Простейшие графики

Построим графики реальных и смоделированных расходов воды.

В общем случае надо сначала **отфильтровать данные**, при необходимости **сгруппировать**, выбрать нужные столбцы, посчитать требуемые величины и построить график с помощью функции plot()

In [None]:
df[['Q_obs', 'Q_sim']].plot()

Чтобы сделать график чуть симпатичнее можно накрутить всяких условий

In [None]:
with plt.style.context('bmh'):
    fig = plt.figure(figsize=(12,7)) # отвечает за размер 
    plt.plot(df[['Q_obs', 'Q_sim']])
    plt.legend(('Observed', 'Simulated'))
    plt.title('Наблюдаемые и смоделированные расходы воды')


In [None]:
# По умолчанию в качестве переменной х идет индекс таблицы. Но если задать в качестве х дату, то получается совсем красиво
with plt.style.context('bmh'):
    fig = plt.figure(figsize=(10,7)) # отвечает за размер 
    plt.plot(df.date, df[['Q_obs', 'Q_sim']])
    plt.legend(('Observed', 'Simulated'))
    plt.title('Наблюдаемые и смоделированные расходы воды')

С помощью функции GROUPBY можно найти найти интересующие нас характеристики и точно так же построить график

### !!! Задание 3.
а) Построить средний расход воды за каждый месяц за 2014 год

б) Построить максимальные расходы в апреле месяце за каждый год

In [None]:
# a
with plt.style.context('bmh'):
    fig = plt.figure(figsize=(10,7))
    # вставьте свой код
    
    #
    
    plt.legend('m')
    plt.title('Средний расход воды')

In [None]:
# b
# вставьте свой код

# 2. Распределение признака

**а.** С помощью seaborn можно построить распределение конкретных признаков с помощью функции distplot

In [None]:
sns.distplot(df['Q_sim'])

### !!! Задание 4.
Постройте график распределения температур (1 балл). Как можно объяснить его форму? Обоснуйте свою гипотезу (1 балл).

In [None]:
# Ваш код здесь

**b.** Ящики с усами.
Если интересно посмотреть, как менялось рапределение в течении времени, то будет полезен box plot

In [None]:
f, ax = plt.subplots(figsize=(10, 5))
sns.boxplot(x="month", y="T", data=df, ax = ax)

## 2. Совместное распределение параметров

Для того, чтобы посмотреть, как совместно ведут себя признаки полезно пользоваться функцией pair plot пакета seaborn.

Как можно видеть, на диагонали матрицы графиков расположены гистограммы распределений признака. Остальные же графики — это обычные scatter plots для соответствующих пар признаков.

При построении модели классификации бывает удобно добавить еще и сам таргет, но об этом на следующем семинаре.


In [None]:
sns.pairplot(df[['T',
                 'P',
                 'Q_obs',
                 'Q_sim',
                 #'target'
                   ]]
                    #, hue = 'target'
            )



На данном графике можно видеть, что смоделированные и фактические расходы имеют явную зависимость. Поэтому интересно посмотреть на сколько скоррелированы признаки. Для рассмотрения какой-то конкретной пары нам будет нужен **joint plot** - некий симбиоз между dist и pair plot

In [None]:
sns.jointplot(df['Q_sim'], df['Q_obs'])

И напоследок о совместном распределении признаков))

seaborn дает возможность очень красиво проиллюстрировать корреляционную матрицу

In [None]:
# характеристики графика и раскраски
f, ax = plt.subplots(figsize=(9, 7))
cmap = sns.diverging_palette(220, 10, as_cmap = True)


corr = df[['T','P', 'Q_sim', 'Q_obs']].corr()
sns.heatmap(corr, cmap = cmap, center  = 0, ax = ax, vmax = 1.0, vmin = -1.0, linewidths = 0.5, annot = True)
plt.title('Covariance Matrix')
plt.show()

## ЧУТЬ-ЧУТЬ УСЛОЖНЯЕМ ЗАДАЧУ

В этой части семинара будем работать с несколько иными данными. 
И сразу в качестве индекса зададим дату наблюдения с помощью функции **set_index**

In [None]:
df2 = pd.read_csv('kosa_Inva.csv', sep=";")
df2.date = pd.to_datetime(df2.date, format="%d.%m.%Y")
df2 = df2.set_index('date')
df2.head()


In [None]:
df2.info()

**Появился еще один столбец с гидропостами. Давайте посмотрим, сколько там различных гидропостов**

In [None]:
df2['GP'].value_counts()

## 1. Простейшие графики

Построим график расходов для каждого из поста. 
В общем случае надо сначала отфильтровать данные, выбрать необходимые столбцы, посчитать необходимые величины и построить график с помощью функции plot()

In [None]:

with plt.style.context('bmh'):
    fig = plt.figure(figsize=(15,7)) # отвечает за размер 
    df2[['GP', 'Q_obs']].groupby('GP')['Q_obs'].plot()
    plt.legend()

Какие выводы можно сделать по данному графику?

### !!! Задание 5. 
1. С помощью параметра hue функций pairplot постройте совместное распределение признаков для двух гидропостов.
2. С помощью параметра hue функций boxplot постройте распределения температур по месяцам за 2011 год для двух гидропостов (либо за весь период).

In [None]:
sns.pairplot(df2[['T',

                 'Q_obs',
                 'Q_sim',
                 #'target'
                   ]]
                    #, hue = 'target'
            )

### Задание 6.

Напишите функции, считающие среднеквадратичное отклонение и коэффициент Нэша-Сатклиффа. 
Чему они равны для смоделированных и наблюдаемых расходов для каждого из гидропостов.

In [None]:
def RMSE(q_obs, q_sim):
    # ваш код здесь
    return 

def NS(q_obs, q_sim):
    # ваш код здесь
    return 

q_obs_kos = #  Ваш код здесь
q_sim_kos = # Ваш код здесь

print('Коса:')
print('NS:', NS(q_obs_kos, q_sim_kos))
print('RMSE:', RMSE(q_obs_kos, q_sim_kos))



q_obs_sl = #  Ваш код здесь
q_sim_sl = # Ваш код здесь

print('Слудка:')
print('NS:', NS(q_obs_sl, q_sim_sl))
print('RMSE:', RMSE(q_obs_sl, q_sim_sl))