In [None]:
# Задание 1
# Ответить на вопрос есть ли связь между жёсткостью воды и средней годовой смертностью?
# Построить точечный график
# Рассчитать коэффициенты корреляции Пирсона и Спирмена
# Построить модель линейной регрессии
# Рассчитать коэффициент детерминации
# Вывести график остатков

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df = pd.read_csv('water.csv')
df = df[['location', 'town', 'mortality', 'hardness']]
df

In [None]:
df.plot(kind='scatter', x='hardness', y='mortality')

In [None]:
# Коэффициент корреляции Пирсона
df[['hardness', 'mortality']].corr()

In [None]:
# Коэффициент корреляции Спирмена
df[['hardness', 'mortality']].corr(method='spearman')

In [None]:
# Коэффициент корреляции Кэнделла
df[['hardness', 'mortality']].corr(method='kendall')

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

x = df[['hardness']]
y = df['mortality']

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.20, random_state=50)

In [None]:
print(x_train.shape, y_train.shape)

In [None]:
y_train.shape

In [None]:
model = LinearRegression()
model.fit(x_train, y_train)

In [None]:
model.coef_
model.intercept_

In [None]:
y_pred = model.predict(x_test)
y_pred

In [None]:
# модель детерминации
model.score(x_test, y_test)

In [None]:
plt.scatter(x_test, y_test)
plt.plot(x_test, y_pred, c='r')

In [None]:
# Наблюдается обратная корреляция. Чем вода жестче, тем меньше смертность и наоборот, чем меньше жестность воды, тем больше 
# смертность. Правда построенная модель далека от идеальной (плюс очень большое количество остатков), 
# следовательно прямой зависимости жесткости воды к смертности нет, явно есть еще параметры, влияющие на смертность.

In [None]:
import statsmodels.api as sm
from statsmodels.sandbox.regression.predstd import wls_prediction_std

In [None]:
x_const = sm.add_constant(x_train) # добавляем константу руками
x_const.shape

In [None]:
model = sm.OLS(y_train, x_const)
results = model.fit()
print(results.summary())

In [None]:
plt.scatter(x_const.iloc[:, 1], results.resid)

In [None]:
# Разброс остатков хаотичен

In [None]:
plt.hist(results.resid)

In [None]:
# Задание 2
# Сохраняется ли аналогичная зависимость для северных и южных городов по отдельности?
# Разделить данные на 2 группы
# Повторить аналогичные шаги из пункта 1 для каждой группы по отдельности

In [None]:
# Юг

In [None]:
filter_south = df['location'] == 'South'
filter_south = df.loc[filter_south].reset_index()
filter_south

In [None]:
filter_south.plot(kind='scatter', x='hardness', y='mortality')

In [None]:
# Коэффициент корреляции Пирсона 
# он уменьшился на 0,05
filter_south[['hardness', 'mortality']].corr()

In [None]:
# Коэффициент корреляции Спирмена 
# также наблюдается снижение коэф. корреляции
filter_south[['hardness', 'mortality']].corr(method='spearman')

In [None]:
# Коэффициент корреляции Кэнделла
filter_south[['hardness', 'mortality']].corr(method='kendall')

In [None]:
xs = filter_south[['hardness']]
ys = filter_south['mortality']

xs_train, xs_test, ys_train, ys_test = train_test_split(x, y, test_size=0.30, random_state=50)

model_s = LinearRegression()
model_s.fit(xs_train, ys_train)
model_s.coef_
model_s.intercept_

ys_pred = model_s.predict(xs_test)

model_s.score(xs_test, ys_test)

In [None]:
plt.scatter(xs_test, ys_test)
plt.plot(xs_test, ys_pred, c='r')

In [None]:
# В первоначальном анализе датасета похожая картина. Остатки также визуально похожи

In [None]:
xs_const = sm.add_constant(xs_train)
model_s = sm.OLS(ys_train, xs_const)
results_s = model_s.fit()

plt.scatter(xs_const.iloc[:, 1], results_s.resid)

In [None]:
plt.hist(results_s.resid)

In [None]:
# Север

In [None]:
filter_North = df['location'] == 'North'
filter_North = df.loc[filter_North].reset_index()
filter_North

In [None]:
filter_North.plot(kind='scatter', x='hardness', y='mortality')

In [None]:
# Коэффициент корреляции Пирсона
filter_North[['hardness', 'mortality']].corr()

In [None]:
# Коэффициент корреляции Спирмена
# также наблюдается уменьшение коэф. корреляции
filter_North[['hardness', 'mortality']].corr(method='spearman')

In [None]:
# Коэффициент корреляции Кэнделла
filter_North[['hardness', 'mortality']].corr(method='kendall')

In [None]:
xn = filter_North[['hardness']]
yn = filter_North['mortality']

xn_train, xn_test, yn_train, yn_test = train_test_split(x, y, test_size=0.30, random_state=50)

model_n = LinearRegression()
model_n.fit(xn_train, yn_train)
model_n.coef_
model_n.intercept_

yn_pred = model_n.predict(xn_test)

model_n.score(xn_test, yn_test)

In [None]:
plt.scatter(xn_test, yn_test)
plt.plot(xn_test, yn_pred, c='r')

In [None]:
xn_const = sm.add_constant(xn_train) 
model_n = sm.OLS(yn_train, xn_const)
results_n = model_n.fit()

plt.scatter(xn_const.iloc[:, 1], results_n.resid)

In [None]:
plt.hist(results_n.resid)

In [None]:
# После разделения данных на две группы, на северные населенные пункты и южные, подтвердился факт зависимости (хоть и не явной) 
# жесткости воды на смертность населения. Корреляция двух групп также повторяет первоначальный вид (обратная).