## Занятие 3. Предварительная обработка данных и отбор признаков

Веберите любые данные из репозитория данных для машинного обучения (UCI Machine learning repository: http://archive.ics.uci.edu/ml/index.php) или возьмите свои данные и проведите предварительную обработку данных и отбор признаков в соответствии со следующей схемой. Комментарии к каждому разделу обязательны.

*Выполнил:* Бронников Егор ПМ-1901

*Последнее изменение:* 29/10/2021

## Импорты

In [1]:
from pandas import read_excel
from numpy import set_printoptions
from sklearn.preprocessing import MinMaxScaler, StandardScaler, Normalizer, Binarizer
from sklearn.feature_selection import SelectKBest, f_classif, RFE
from sklearn.linear_model import LogisticRegression
from sklearn.decomposition import PCA
from sklearn.ensemble import ExtraTreesClassifier

## Данные

*Источник:* http://archive.ics.uci.edu/ml/datasets/Somerville+Happiness+Survey#

*Название:* **Somerville Happiness Survey Data Set**

### Описание данных

Опрос жителей об уровне счатья в каком-то городе

### Описание полей

1. **decision** — атрибут решения со значениями 0 (не счастлив) и 1 (счастлив);
1. **availability of information** — доступность информации о городских службах;
1. **cost of housing** — стоимость жилья;
1. **quality of public schools** — общее качество государственных школ;
1. **trust in police** — ваше доверие к местной полиции;
1. **sidewalks** — содержание улиц и тротуаров;
1. **events** — доступность общественных мероприятий.

In [2]:
filename = 'SomervilleHappinessSurvey2015.xlsx'
names = ['decision', 'availability of information', 'cost of housing', 'quality of public schools ', 'trust in police', 'sidewalks', 'events']
dataframe = read_excel(filename, names=names)

In [3]:
dataframe.head()

Unnamed: 0,decision,availability of information,cost of housing,quality of public schools,trust in police,sidewalks,events
0,0,3,3,3,4,2,4
1,0,3,2,3,5,4,3
2,1,5,3,3,3,3,5
3,0,5,4,3,3,3,5
4,0,5,4,3,3,3,5


In [4]:
array = dataframe.values

In [5]:
X = array[:,1:7]
Y = array[:,0]

## Предварительная обработка данных

### Rescale data

In [6]:
# Rescale data (between 0 and 1)
scaler = MinMaxScaler(feature_range=(0, 1))
rescaledX = scaler.fit_transform(X)
set_printoptions(precision=3)
print(rescaledX[0:5,:])

[[0.5  0.5  0.5  0.75 0.25 0.75]
 [0.5  0.25 0.5  1.   0.75 0.5 ]
 [1.   0.5  0.5  0.5  0.5  1.  ]
 [1.   0.75 0.5  0.5  0.5  1.  ]
 [1.   0.75 0.5  0.5  0.5  1.  ]]


### Standardize data

In [7]:
# Standardize data (0 mean, 1 stdev)
scaler = StandardScaler().fit(X)
rescaledX = scaler.transform(X)
set_printoptions(precision=3)
print(rescaledX[0:5,:])

[[-1.65   0.414 -0.269  0.34  -1.432 -0.256]
 [-1.65  -0.483 -0.269  1.469  0.341 -1.439]
 [ 0.86   0.414 -0.269 -0.79  -0.546  0.926]
 [ 0.86   1.312 -0.269 -0.79  -0.546  0.926]
 [ 0.86   1.312 -0.269 -0.79  -0.546  0.926]]


### Normalize data

In [8]:
scaler = Normalizer().fit(X)
normalizedX = scaler.transform(X)
set_printoptions(precision=3)
print(normalizedX[0:5,:])

[[0.378 0.378 0.378 0.504 0.252 0.504]
 [0.354 0.236 0.354 0.589 0.471 0.354]
 [0.539 0.323 0.323 0.323 0.323 0.539]
 [0.518 0.415 0.311 0.311 0.311 0.518]
 [0.518 0.415 0.311 0.311 0.311 0.518]]


### Binarize data (Make Binary)

In [9]:
binarizer = Binarizer(threshold=0.0).fit(X)
binaryX = binarizer.transform(X)
set_printoptions(precision=3)
print(binaryX[0:5,:])

[[1 1 1 1 1 1]
 [1 1 1 1 1 1]
 [1 1 1 1 1 1]
 [1 1 1 1 1 1]
 [1 1 1 1 1 1]]


## Отбор признаков

### Univariate Selection

In [10]:
test = SelectKBest(score_func=f_classif, k=4)
fit = test.fit(X, Y)
set_printoptions(precision=3)
print(fit.scores_)
features = fit.transform(X)
print(features[0:5,:])

[15.286  0.053  3.88   1.835  6.292  7.222]
[[3 3 2 4]
 [3 3 4 3]
 [5 3 3 5]
 [5 3 3 5]
 [5 3 3 5]]


### Recursive Feature Elimination

In [11]:
model = LogisticRegression(solver='liblinear')
rfe = RFE(model)
fit = rfe.fit(X, Y)
print("Num Features: %d" % fit.n_features_)
print("Selected Features: %s" % fit.support_)
print("Feature Ranking: %s" % fit.ranking_)

Num Features: 3
Selected Features: [ True  True False False  True False]
Feature Ranking: [1 1 2 3 1 4]


### Principle Component Analysis

In [12]:
pca = PCA(n_components=3)
fit = pca.fit(X)
print("Explained Variance: %s" % fit.explained_variance_ratio_)
print(fit.components_)

Explained Variance: [0.359 0.225 0.13 ]
[[-0.342 -0.209 -0.477 -0.317 -0.639 -0.321]
 [-0.064  0.923  0.133  0.044 -0.331 -0.116]
 [ 0.337  0.271 -0.544 -0.595  0.294  0.277]]


### Feature Importance

In [13]:
model = ExtraTreesClassifier(n_estimators=100)
model.fit(X, Y)
print(model.feature_importances_)

[0.19  0.195 0.179 0.157 0.155 0.123]
