# Домашнее Задание 2: Метод к-ближайших соседей

## Загружаем библиотеки

In [1]:
import numpy as np
import pandas as pd
import requests
import csv
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.pipeline import make_pipeline

from scipy import stats
from scipy.interpolate import interp1d
from scipy import optimize

import csv

## Загружаем и анализируем датасет о смертности от рака в разных штатах

In [2]:
data_file = "../data/cancer_regr.csv"
df = pd.read_csv(data_file, encoding = "utf-8" , engine='python')
print(df.columns)


Index(['avgAnnCount', 'avgDeathsPerYear', 'TARGET_deathRate', 'incidenceRate',
       'medIncome', 'popEst2015', 'povertyPercent', 'studyPerCap', 'binnedInc',
       'MedianAge', 'MedianAgeMale', 'MedianAgeFemale', 'Geography',
       'AvgHouseholdSize', 'PercentMarried', 'PctNoHS18_24', 'PctHS18_24',
       'PctSomeCol18_24', 'PctBachDeg18_24', 'PctHS25_Over',
       'PctBachDeg25_Over', 'PctEmployed16_Over', 'PctUnemployed16_Over',
       'PctPrivateCoverage', 'PctPrivateCoverageAlone', 'PctEmpPrivCoverage',
       'PctPublicCoverage', 'PctPublicCoverageAlone', 'PctWhite', 'PctBlack',
       'PctAsian', 'PctOtherRace', 'PctMarriedHouseholds', 'BirthRate',
       'Unnamed: 34'],
      dtype='object')


### Объединяем

In [3]:
# и убираем Nans с помощью .dropna()
df_poverty =  df['povertyPercent']
df_incidence = df['incidenceRate']
df_death_rate = df['TARGET_deathRate']
df = pd.concat([df_poverty, df_incidence, df_death_rate], axis=1).dropna()


## Найдем и уберем outlier

In [4]:
# Найти outlier
z = np.abs(stats.zscore(df))
threshold = 3

# Убрать outlier
df = df[(z < threshold).all(axis=1)]

## Нормализируем дата

In [5]:
# Нормализируем данные

# Poverty
mu_poverty = df['povertyPercent'].mean()
sigma_poverty = df['povertyPercent'].std()
scaled_poverty = (df['povertyPercent'].values-mu_poverty)/sigma_poverty

# Incident rate
mu_incident = df['incidenceRate'].mean()
sigma_incident = df['incidenceRate'].std()
scaled_incident = (df['incidenceRate'].values-mu_incident)/sigma_incident

x_data =np.array([scaled_poverty,scaled_incident]).transpose()

# Death Rate
mu_death_r = df['TARGET_deathRate'].mean()
sigma_death_r = df['TARGET_deathRate'].std()
scaled_death_r = (df['TARGET_deathRate'].values-mu_death_r)/sigma_death_r
y_data = np.expand_dims(scaled_death_r, axis=1)

## Разделяем дата на выборки

In [6]:
# 20% данных будем использовать как validation dataset
val_size = 0.2

X_train, X_val, y_train, y_val = train_test_split(x_data, y_data, test_size=val_size, shuffle=True)
print('Data points in train set: {0}.'.format(len(X_train)))
print('Data points in val set: {0}.'.format(len(X_val)))
print("Shape of features in training data: {}".format(X_train.shape))
print("Shape of output in training data: {}".format(y_train.shape))
print("Shape of features in val data: {}".format(X_val.shape))
print("Shape of output in val data: {}".format(y_val.shape))

Data points in train set: 2379.
Data points in val set: 595.
Shape of features in training data: (2379, 2)
Shape of output in training data: (2379, 1)
Shape of features in val data: (595, 2)
Shape of output in val data: (595, 1)


## Применяем метод К-ближайших соседей

In [7]:
# Потроим "модель"
# https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html
K = 29
knn = KNeighborsRegressor(n_neighbors=K, weights = "distance")
knn.fit(X_train, y_train)

# Применяем
y_pred = knn.predict(X_val)

# Посчитаем Коэффициент детерминации
# https://en.wikipedia.org/wiki/Coefficient_of_determination
print('Coefficient of determination: %.2f'
      % r2_score(y_val, y_pred))

Coefficient of determination: 0.36


## Задание 1 : Испольйте дополнительных входные переменные (10 балов)

In [8]:
# Разширить датасет чтобы было больше параметров на вход



In [9]:
# не забудьте нормализовать данные


In [10]:
# разделить датасет на train и val

In [11]:
# применить к-ближайших соседей и оценить результат
# можете ли вы получить результат который лучше чем раньше когды было меньше входных данных

## Задание 2 : Проанализировать оптимальное значение параметра К (15 балов)

In [12]:
# Пробовать разные значения К и сохранить результаты


In [13]:
# Построить график Коэффициент детерминации в зависимости от К


In [14]:
# Наблюдаем ли мы overfitting? почему?

## Задание 3 : Сравнить результат метода К-ближайших соседей и полиномиальной регрессии (25 балов)

In [15]:
# 3.1 Применить полиномиальную регрессию на том же датасете

In [16]:
# 3.2 Найти наилучшую степень полинома


In [11]:
# 3.3 сравнить коефициент детерминации регрессии и метода К-ближайших соседей

In [12]:
# проделать шаги 3.1 3.2 и 3.3 для двух других датасетов:


In [13]:
# Датасет 1 про потребления электричества в Стокгольме
date_start = '2008-01-01'
date_end = '2019-05-18'
area = 'STH'
url_base = 'https://mimer.svk.se/'
url_target = 'ConsumptionProfile/DownloadText?groupByType=0&' + \
             'periodFrom='+date_start+'&' + \
             'periodTo='+date_end+'&' + \
             'networkAreaIdString='+area

# 
url = url_base+url_target
df_load = pd.read_csv(url, sep=';', header=1, decimal=',', usecols=[0,1], names=['Datetime', 'Load'])
df_load = df_load[:-1]
df_load.index = pd.to_datetime(df_load['Datetime'])
df_load = df_load.drop(columns='Datetime')
df_load['Load'] = -df_load['Load']/10**3

location = ('Stockholm A', 98230)
url = 'http://opendata-download-metobs.smhi.se/api/version/1.0/parameter/1/station/' + str(location[1]) + '/period/corrected-archive/data.csv'
r = requests.get(url)
decoded_content = r.content.decode('utf-8')
data = list(csv.reader(decoded_content.splitlines(), delimiter=';'))

header = 10
datetime = []
values = []
for d in data[header:]:
    datetime.append(d[0]+' '+d[1])
    values.append(float(d[2]))
df_temp = pd.DataFrame(data=values, index=pd.to_datetime(datetime), columns=['Temperature'])

df = pd.concat([df_load, df_temp*10], axis=1).dropna()

In [17]:
# Датасет 2: про зарплаты програмистов в Украине 10 лет назад
data_file = "../data/data_salaries_2010.csv"
df = pd.read_csv(data_file, encoding = "utf-8" , engine='python')
print(df.columns)


Index(['Город', 'Years of experience', 'Стаж на текущем месте работы',
       'Специализация', 'Salary', 'Прибавка к зарплате', 'Размер компании',
       'Стаж', 'Стаж на текущем месте работы.1', 'ЗП'],
      dtype='object')


## Задание 4 (20 балов): Проанализировать какой метод лучше работает в каких обстоятельствах

In [21]:
# На основе результатов из задания 3 написать разсуждения на тему "В каких случаях лучше использовать полиномиальную регресию, а когда - метод К-следних"