# Прогнозирование содержания водорослей

Используем в качестве примера для дальнейших упражнений таблицу, содержащую данные гидробиологических исследований обилия водорослей в различных реках. Каждое из наблюденийсодержит информацию  о 18 переменных, в том числе:

+ три номинальных переменных, описывающих размеры size = c("large", "medium", "small") и скорость течения реки speed = c("high", "low", "medium"), а также время года season = c("autumn", "spring", "summer", "winter"), сопряженное с моментом взятия проб;
+ 8 переменных, составляющих комплекс наблюдаемых гидрохимических показателей: максимальное значение рН mxPH , минимальное содержание кислорода mnO2 , хлориды Cl , нитраты NO3 , ионы аммония NH4, орто-фосфаты oPO4 , общий минеральный фосфор PO4 и количество хлорофилла а Chla;
+ средняя численность каждой из 7 групп водорослей a1 - a7 (видовой состав не идентифицировался).


Нашей задачей будет научиться предсказывать численность хотя бы одной из групп водорослей


### **0. Импорт необходимых пакетов**

In [None]:
import pandas as pd
import numpy as np

# нам понадобится отрисовка графиков

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

### **1. Загрузка данных**



In [None]:
df = pd.read_csv('analysisdata.csv', sep = ',', header = None, 
                   names = ['season','size','speed','mxPH','mnO2','Cl',
                            'NO3','NH4','oPO4','PO4','Chla','a1','a2','a3','a4',
                            'a5','a6','a7'])


### 2. Небольшая предобработка данных

Посмотрим, все ли мы правильно скачали

In [None]:
df.head()

In [None]:
df.describe()

In [None]:
df.info()

Практически все признаки у нас типа object. Надо привести их к числовому формату

**Перекодируем пропуски**

In [None]:
df.loc[df['mxPH']=='XXXXXXX', 'mxPH'] = np.nan
df.loc[df['mnO2']=='XXXXXXX', 'mnO2'] = np.nan
df.loc[df['Cl']=='XXXXXXX', 'Cl'] = np.nan
df.loc[df['NO3']=='XXXXXXX', 'NO3'] = np.nan
df.loc[df['NO3']=='XXXXXXX', 'NO3'] = np.nan
df.loc[df['NH4']=='XXXXXXX', 'NH4'] = np.nan
df.loc[df['oPO4']=='XXXXXXX', 'oPO4'] = np.nan
df.loc[df['PO4']=='XXXXXXX', 'PO4'] = np.nan
df.loc[df['Chla']=='XXXXXXX', 'Chla'] = np.nan

In [None]:
# приведение к числовому формату
df['mxPH']= df['mxPH'].astype('float')
df['mnO2']= df['mnO2'].astype('float')
df['Cl']= df['Cl'].astype('float')
df['NO3']= df['NO3'].astype('float')
df['NH4']= df['NH4'].astype('float')
df['oPO4']= df['oPO4'].astype('float')
df['PO4']= df['PO4'].astype('float')
df['Chla']= df['Chla'].astype('float')


In [None]:
df.info()

In [None]:
df.describe()

Пока что выкинем a7 из рассмотрения

In [None]:
df.drop(['a7'], axis=1, inplace=True)

### **3. Простейшие модели без настройки параметров**


Посмотрим, что будет, если мы особо не напрягаясь, просто удалим все пропуски, забудем про категориальные переменные и попробуем построить линейную регрессию прогнозирования признака 'a4' просто на всех оставшихся данных

In [None]:
df_first = df.dropna()
df_first.info()

In [None]:
y = df_first['a1']
X = df_first.drop(['a1','season','size', 'speed'], axis=1)

**Разделение данных**

Разделим данные на тестовую и обучающую выборку (70% к 30%)

In [None]:
# подгрузим необходимые пакеты.
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 42)

**Что будет если мы просто предскажем средним значением?**

In [None]:
from sklearn.metrics import r2_score, mean_squared_error
pred =  [y_train.mean() for i in range(len(y_test))]

print("Правильность на константном наборе R^2: {:.2f}".format(r2_score(y_test, pred )))
print("СКО на тестовом наборе: {:.2f}".format(np.sqrt(mean_squared_error(y_test, pred))))

# ничего хорошего

**Линейная регрессия**

In [None]:
# Задаем модель lr, с помощью функции fit обучаем ее на тренировочных данных
lr = LinearRegression()
lr.fit(X_train, y_train)

print("Веса регрессии:",  lr.coef_ )
print("Свободное слагаемое: {:.2f}".format(lr.intercept_))

**Посмотрим, на сколько хорошая самая первая примитивная модель**

In [None]:
# Загрузим соответствующие метрики
from sklearn.metrics import r2_score, mean_squared_error

# Спрогнозируем для тестовых и тренировочных данных

y_train_pred = lr.predict(X_train)
y_test_pred = lr.predict(X_test)

# Вывод результата
print("Правильность на обучающем наборе R^2: {:.2f}".format(r2_score(y_train, y_train_pred)))
print("СКО на обучающем наборе: {:.2f}".format(np.sqrt(mean_squared_error(y_train, y_train_pred))))
print("Правильность на тестовом наборе R^2: {:.2f}".format(r2_score(y_test, y_test_pred)))
print("СКО на тестовом наборе: {:.2f}".format(np.sqrt(mean_squared_error(y_test, y_test_pred))))

In [None]:
data = pd.concat([X_train, X_test], ignore_index = True)

In [None]:
data['a7'] = data['a2']+data['a4']

In [None]:
data

**Как мы видим, качество не очень хорошее. Но лезть и что-то менять в данных нам все еще лень и мы пытаемся исхитриться дальше** 

### 0. Полиномиальная регрессия
Можем попробовать применить полиномиальную регрессию соответствующей степени

In [None]:
# Загрузка соответствующего пакета
from sklearn.preprocessing import PolynomialFeatures


# превратили каждый признак в два - он, квадрат и куб, и их возможные комбинации
polynomial_features= PolynomialFeatures(degree=3)
X_train_poly = polynomial_features.fit_transform(X_train)
X_test_poly = polynomial_features.transform(X_test)


In [None]:
# Обучим модель на новых данных

model = LinearRegression()
model.fit(X_train_poly, y_train)

y_train_pred = model.predict(X_train_poly)
y_test_pred = model.predict(X_test_poly)
print("Правильность на обучающем наборе R^2: {:.2f}".format(r2_score(y_train, y_train_pred)))
print("СКО на обучающем наборе: {:.2f}".format(np.sqrt(mean_squared_error(y_train, y_train_pred))))
print("Правильность на тестовом наборе R^2: {:.2f}".format(r2_score(y_test, y_test_pred)))
print("СКО на тестовом наборе: {:.2f}".format(np.sqrt(mean_squared_error(y_test, y_test_pred))))

**Мы очень сильно переобучились( Количество переменных стало слишком большим для такого маленького набора данных.
Но можно будет попробовать сделать это с каким-то конкретным признаком. Либо воспользоваться гребневой или лассо регрессией**

### 1. Гребневая регрессия



In [None]:
# загружаем функцию гребневой регрессии
from sklearn.linear_model import Ridge

# Обучаем модель
ridge = Ridge() # по умолчанию альфа = 1
ridge.fit(X_train_poly, y_train)

# Результаты работы модели
y_train_pred = ridge.predict(X_train_poly)
y_test_pred = ridge.predict(X_test_poly)
print("Правильность на обучающем наборе R^2: {:.2f}".format(r2_score(y_train, y_train_pred)))
print("СКО на обучающем наборе: {:.2f}".format(np.sqrt(mean_squared_error(y_train, y_train_pred))))
print("Правильность на тестовом наборе R^2: {:.2f}".format(r2_score(y_test, y_test_pred)))
print("СКО на тестовом наборе: {:.2f}".format(np.sqrt(mean_squared_error(y_test, y_test_pred))))


Все еще плохо. Увеличим альфа

In [None]:
ridge10 = Ridge(alpha=100).fit(X_train_poly, y_train)
ridge10.fit(X_train_poly, y_train)
y_train_pred = ridge10.predict(X_train_poly)
y_test_pred = ridge10.predict(X_test_poly)
print("Правильность на обучающем наборе R^2: {:.2f}".format(r2_score(y_train, y_train_pred)))
print("СКО на обучающем наборе: {:.2f}".format(np.sqrt(mean_squared_error(y_train, y_train_pred))))
print("Правильность на тестовом наборе R^2: {:.2f}".format(r2_score(y_test, y_test_pred)))
print("СКО на тестовом наборе: {:.2f}".format(np.sqrt(mean_squared_error(y_test, y_test_pred))))


In [None]:
ridge10 = Ridge(alpha=10).fit(X_train_poly, y_train)
ridge10.fit(X_train_poly, y_train)
y_train_pred = ridge10.predict(X_train_poly)
y_test_pred = ridge10.predict(X_test_poly)
print("Правильность на обучающем наборе R^2: {:.2f}".format(r2_score(y_train, y_train_pred)))
print("СКО на обучающем наборе: {:.2f}".format(np.sqrt(mean_squared_error(y_train, y_train_pred))))
print("Правильность на тестовом наборе R^2: {:.2f}".format(r2_score(y_test, y_test_pred)))
print("СКО на тестовом наборе: {:.2f}".format(np.sqrt(mean_squared_error(y_test, y_test_pred))))


Все равно плохо. Признаков слишком много. Поэтому есть предложение воспользоваться Lasso регрессией. Одной из ее особенностей как раз является зануление параметров

### 2. Lasso

In [None]:
from sklearn.linear_model import Lasso

lasso = Lasso(alpha = 10) # по умолчанию альфа = 1
lasso.fit(X_train_poly, y_train)
print("Количество использованных признаков: {}".format(np.sum(lasso.coef_ != 0)))

y_train_pred = lasso.predict(X_train_poly)
y_test_pred = lasso.predict(X_test_poly)
print("Правильность на обучающем наборе R^2: {:.2f}".format(r2_score(y_train, y_train_pred)))
print("СКО на обучающем наборе: {:.2f}".format(np.sqrt(mean_squared_error(y_train, y_train_pred))))
print("Правильность на тестовом наборе R^2: {:.2f}".format(r2_score(y_test, y_test_pred)))
print("СКО на тестовом наборе: {:.2f}".format(np.sqrt(mean_squared_error(y_test, y_test_pred))))


#### Попробуем подобрать параметр альфа с помощью метода кросс-валидации

In [None]:
from sklearn.model_selection import cross_val_score, GridSearchCV, KFold

In [None]:
from sklearn.linear_model import Lasso

lasso_params = {
    'alpha': np.arange(1,2000, 10)
}
kf = KFold(random_state = 42, shuffle = True, n_splits = 3)

ls = Lasso()
lasso_grid = GridSearchCV(ls, lasso_params, cv=kf, n_jobs=-1, scoring='r2')
# смотрим, что у нас будет на нашей решетке на тренировочных данных
lasso_grid.fit(X_train_poly, y_train)

print(lasso_grid.best_params_, lasso_grid.best_score_)

**Видим, что ничего хорошего у нас не получается даже при кросс валидации. Поэтому попробуем покопаться в самих данных. Может там особо ничего и нельзя сделать(**

## Задание 1.
### Полное исследование данных.

**0. Выведите основные описательные статистики для наших признаков**

**1. На сколько группы водорослей скоррелированы друг с другом??**

Какие группы водорослей можно было бы использовать при построении модели регресси для группы а1?

In [None]:
# ваш код здесь

In [None]:
# ответ

**2. Постройте матрицу корреляций гидрохимических показателей + переменной a1**

In [None]:
# ваш код здесь

<span style="color:red">Какие из признаков сильнее всего скоррелированы? Возможно, стоит исключать некоторые из них при построении линейной регрессии. Но это не точно</span>

**3. Постройте ящик с усами. Есть ли различия в распределении переменных по сезону, размеру реки, скорости?** 

Так как при применении линейной регрессии данные должны быть однородными, посмотрим, есть ли влияние категориальных признаков на распределения основных признаков.

**a. концентрация фосфатов в зависимости от скорости, размера реки и сезона**

**b. количество хлорофилла в зависимости от скорости, размера реки и сезона**

Для наглядности иллюстрации зависимости от скорости задайте порядок на графике ( order=["low___", "medium", "high__"])

In [None]:
# Ваш код здесь

<span style="color:red">Какие выводы вы можете сделать?</span>

### 4. Связь с целевой переменной. 

1. **Посмотрим, как зависит наша переменная a1 от максимального значения PH.**
2. **Посмотрим, как зависит наша переменная a1 от количества хлорофилла.**
3. **Посмотрим, как зависит наша переменная a1 от концентрации фосфатов.**

Постройте сначала графики для всех наблюдений. (с помощью функции jointplot)

<span style="color:red">Какие выводы вы можете сделать?</span>
    
<span style="color:red">C каким из признаков зависимость выражена сильнее? Каким еще образом это можно проверить?</span>

<span style="color:red">Сохраняется ли эта зависимость по сезонам?</span>
    
<span style="color:red">Посмотрите, если ли интересные особенности в распределении с другими признаками </span>

In [None]:
# Ваш код здесь

## Задание 2.
**Попробуйте улучшить модель.**

**a. Выберите среди наиболее коррелируемых с целевой переменной 3-4 гидрохимических показателя (желательно, чтобы они были независимы, коэффициент корреляции не превосходит 0.5) + можно взять парочку переменных из групп водорослей.**


**Обучите на них модель линейной регресии** 

In [None]:
y = df_first# ваш код здесь
X = df_first# ваш код здесь

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 42)

lr = # ваш код здесь
lr.fit# ваш код здесь

y_train_pred # ваш код здесь
y_test_pred # ваш код здесь

# Вывод результата
print("Правильность на обучающем наборе R^2: {:.2f}".format(r2_score(y_train, y_train_pred)))
print("СКО на обучающем наборе: {:.2f}".format(np.sqrt(mean_squared_error(y_train, y_train_pred))))
print("Правильность на тестовом наборе R^2: {:.2f}".format(r2_score(y_test, y_test_pred)))
print("СКО на тестовом наборе: {:.2f}".format(np.sqrt(mean_squared_error(y_test, y_test_pred))))

**b. теперь попробуем добавить влияние скорости в модель. Для этого перекодируем переменную speed с помощью функции map. Значения сделаем возрастающими по скорости (от 1 до 3)**


Обучите модель с дополнительным признаком. Улучшилось ли качество модели?

In [None]:
df_first['speed_n'] = df_first['speed'].# ваш код здесь
df_first.head()

In [None]:
y = df_first# ваш код здесь
X = df_first# ваш код здесь


X_train, X_test, y_train, y_test = # ваш код здесь

lr = # ваш код здесь
lr.fit# ваш код здесь

y_train_pred = # ваш код здесь
y_test_pred = # ваш код здесь

# Вывод результата
print("Правильность на обучающем наборе R^2: {:.2f}".format(r2_score(y_train, y_train_pred)))
print("СКО на обучающем наборе: {:.2f}".format(np.sqrt(mean_squared_error(y_train, y_train_pred))))
print("Правильность на тестовом наборе R^2: {:.2f}".format(r2_score(y_test, y_test_pred)))
print("СКО на тестовом наборе: {:.2f}".format(np.sqrt(mean_squared_error(y_test, y_test_pred))))

**с. Избавление от выбросов и линеаризация переменных.**

Еще один способ улучшить качество модели - линеаризация переменных.
Посмотрим на примере

In [None]:
# Попробуем предсказать а1 только по двум переменным - самой скоррелированной и по скорости

y = df_first['a1']
X = df_first[['speed_n', 'PO4']]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 42)

lr = LinearRegression()
lr.fit(X_train, y_train)


y_train_pred = lr.predict(X_train)
y_test_pred = lr.predict(X_test)

# Вывод результата
print("Правильность на обучающем наборе R^2: {:.2f}".format(r2_score(y_train, y_train_pred)))
print("СКО на обучающем наборе: {:.2f}".format(np.sqrt(mean_squared_error(y_train, y_train_pred))))
print("Правильность на тестовом наборе R^2: {:.2f}".format(r2_score(y_test, y_test_pred)))
print("СКО на тестовом наборе: {:.2f}".format(np.sqrt(mean_squared_error(y_test, y_test_pred))))

Как выглядит зависимость a1 от PO4?

In [None]:
sns.jointplot(df_first['PO4'], df_first['a1'])

In [None]:
# Теперь попробуем линеаризовать нашу переменную PO4 + избавимся от выбросов и от слишком мааленьких значений PO4
df_first = df_first.query('PO4 <= 400 and PO4 > 1 and a1 < 70 and a1 > 1')
df_first = df_first.query('PO4 < 200 or a1 < 16')
df_first = df_first.query('PO4 < 90 or a1 < 35')
df_first = df_first.query('PO4 < 50 or a1 < 45')
sns.jointplot(df_first['PO4'], df_first['a1'])

**Проверьте, улучшится ли качество модели после удаления выбросов**

In [None]:
# Ваш код здесь

<span style="color:red">Улучшилось ли качество модели? Чем вы это можете объяснить?</span>

In [None]:
# ответ

**А теперь попробуем линеаризовать переменную**

Попробуйте несколько вариантов линеаризации и посмотрите, на каком из них модель будет лучше работать

1. Взятие обратной
2. Логарифмирование
3. отрицательная степень?

In [None]:
df_first['PO4_inv'] = #Ваш код здесь
df_first['PO4_log'] = #Ваш код здесь
df_first['PO4_pow'] = #Ваш код здесь

In [None]:
sns.jointplot(df_first['PO4_inv'], df_first['a1'])

In [None]:
sns.jointplot(df_first['PO4_log'], df_first['a1'])

In [None]:
sns.jointplot(df_first['PO4_pow'], df_first['a1'])

**Выберите наиболее линейный признак и обучите с ним модель**

In [None]:
# ваш код здесь

<span style="color:red">Получилось ли улучшить модель?</span>

In [None]:
#ответ

## Выводы.

Данный набор данных - как раз один из примеров, который показывает, что машинное обучение не панацея для всех задач. И бездумно применять методы нельзя.
Но какие-то выводы о данных всегда можно сделать. 

Что интересного вам удалось заметить?)