### Логистическая регрессия

1. Загрузите данные `load_wine` из `sklearn.datasets`. Из данных исключите объекты класса 2.
 Отмасштабируйте признаки, используя класс `StandardScaler` с гиперпараметрами по умолчанию. Обучите логистическую регрессию и оцените важность признаков. Укажите название признака, который оказался наименее значимым.

Обратите внимание, целевое значение лежит по ключу `'target'`, матрица объекты-признаки лежит по ключу `'data'`



In [15]:
import numpy as np
from sklearn.datasets import load_wine

dataset = load_wine()

data = dataset['data']
target = dataset['target']
feature_names = dataset['feature_names']

count_class2 = (target == 2).sum()
X = data[:-count_class2]
Y = target[:-count_class2]

feature_names

['alcohol',
 'malic_acid',
 'ash',
 'alcalinity_of_ash',
 'magnesium',
 'total_phenols',
 'flavanoids',
 'nonflavanoid_phenols',
 'proanthocyanins',
 'color_intensity',
 'hue',
 'od280/od315_of_diluted_wines',
 'proline']

In [16]:
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

In [17]:
sc = StandardScaler()
sc.fit(X)

X = sc.transform(X)
X

array([[ 1.452455  , -0.29441432,  0.30247764, ..., -0.11242761,
         2.04002469,  0.782868  ],
       [ 0.28906609, -0.21455828, -0.67719651, ..., -0.05291788,
         0.94143735,  0.74015178],
       [ 0.24388594,  0.4471061 ,  1.11324246, ..., -0.17193734,
         0.45552372,  1.12459784],
       ...,
       [-1.30353427,  0.18472195,  1.484843  , ..., -0.52899571,
        -1.0867239 , -0.92293343],
       [-0.64842207, -0.38567837, -0.13668663, ..., -1.00507355,
        -0.36841679, -1.27605426],
       [-1.02115832,  2.66025935,  0.13356831, ..., -1.60017084,
        -0.81207706, -0.59829008]])

In [21]:
clf = LogisticRegression()
clf.fit(X, Y)

w = clf.coef_
most_important_feature_idx = np.argmin(np.abs(w))
most_important_feature = feature_names[most_important_feature_idx]

f'наиболее важный признак: {most_important_feature}, coef={w[0][most_important_feature_idx]}'

'наиболее важный признак: total_phenols, coef=-0.033529878983285986'

2. Загрузите данные `load_wine` из `sklearn.datasets`. Из обучающей части исключите объекты соответствующие классу 2. Не масштабируйте признаки. Обучите логистическую регрессию с гиперпараметрами по умолчанию.
Выберите признак из предложенных, которому соответствует минимальный вес. 


In [40]:
clf = LogisticRegression(max_iter=641)
X = data[:-count_class2]
clf.fit(X, Y)
w = clf.coef_

argmin = np.argmin(np.abs(w))
f'наиболее важный признак: {feature_names[argmin]}, coef={w[0][argmin]}'

'наиболее важный признак: magnesium, coef=0.013889175724309507'

3. Решается задача бинарной классификации. Дана матрица объекты признаки 𝑋 и ответы для объектов  𝑦. Обучите логистическую регрессию и предскажите класс объекта x_new

In [6]:
X = np.array([[1, 1], [0.3, 0.7], [0, 4], [-2, -7], [0, -2], [-1, -1], [-2, 0]])
y = np.array([1, 1, 1, 0, 0, 0, 0])
x_new = np.array([[-5, 1]])

In [7]:
clf = LogisticRegression()

clf.fit(X, y)
pred = clf.predict(x_new)
f'predicted class: {pred[0]}'

'predicted class: 0'

### Классификация текстов

4. Загрузите файл SMSSpamCollection из UCI (https://archive.ics.uci.edu/ml/machine-learning-databases/00228/). Данные содержат текстовую информацию и бинарное целевое значение (‘spam’, ‘ham’), Пусть в обучающую часть попадут первые 4000 объектов из таблицы, в тестовую часть оставшиеся объекты. Обучите `TfidfVectorizer` с гиперпараметрами по умолчанию на текстах из обучающей части и получите векторное представление для объектов обучающей и тестовой части. Укажите полученное число признаков.


Чтобы загрузить данные, скачайте файл по ссылке. Если вы используете google colab, то пример загрузки данных приведен ниже.

In [None]:
# import pandas as pd
# from google.colab import files
# uploder = files.upload()

In [8]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

data = pd.read_csv('SMSSpamCollection', sep='\t', header=None)
train, test = data[:4000], data[4000:]

X_train, y_train = train[1], train[0]
X_test, y_test = test[1], test[0]

In [9]:
def bow(vectorizer, train, test):
    train_bow = vectorizer.fit_transform(train)
    test_bow = vectorizer.transform(test)
    return train_bow, test_bow

In [10]:
vectorizer = TfidfVectorizer()
X_train_bow, X_test_bow = bow(
    vectorizer, 
    X_train, 
    X_test,
)
X_train_bow.shape, X_test_bow.shape

f'число признаков = {X_train_bow.shape[1]}'

'число признаков = 7331'

5.  Загрузите файл SMSSpamCollection из UCI (https://archive.ics.uci.edu/ml/machine-learning-databases/00228/). Данные содержат текстовую информацию и бинарное целевое значение (‘spam’, ‘ham’), Пусть в обучающую часть попадут первые 4000 объектов из таблицы, в тестовую часть оставшиеся объекты. Обучите `TfidfVectorizer`, помимо слов входящих в тексты, учитывайте биграммы (используйте гиперпараметр `ngram_range`). Укажите полученное число признаков.

In [42]:
vectorizer = TfidfVectorizer(ngram_range=(1, 2))
X_train_bow, X_test_bow = bow(
    vectorizer, 
    X_train, 
    X_test,
)
X_train_bow.shape, X_test_bow.shape

f'число признаков = {X_train_bow.shape[1]}'
print(X_train_bow)

  (0, 2730)	0.19361192729085422
  (0, 13828)	0.19361192729085422
  (0, 33136)	0.19361192729085422
  (0, 7543)	0.19361192729085422
  (0, 6015)	0.19361192729085422
  (0, 18694)	0.19361192729085422
  (0, 38401)	0.19361192729085422
  (0, 14075)	0.19361192729085422
  (0, 6021)	0.19361192729085422
  (0, 16643)	0.19361192729085422
  (0, 24743)	0.19361192729085422
  (0, 4331)	0.19361192729085422
  (0, 8511)	0.19361192729085422
  (0, 26406)	0.19361192729085422
  (0, 18104)	0.19361192729085422
  (0, 35479)	0.19361192729085422
  (0, 13537)	0.19361192729085422
  (0, 36661)	0.112028018734126
  (0, 2729)	0.19361192729085422
  (0, 13823)	0.09455436040145929
  (0, 33104)	0.09483226514591052
  (0, 7536)	0.16240644345756752
  (0, 6014)	0.18448490836118772
  (0, 18693)	0.16888216644454437
  (0, 38391)	0.1342067510569277
  :	:
  (3999, 39631)	0.15146071524906626
  (3999, 27338)	0.15426392496529376
  (3999, 39281)	0.11615574401821561
  (3999, 6633)	0.1283976693133361
  (3999, 34069)	0.14898810904411822
  (

6. Загрузите файл SMSSpamCollection из UCI (https://archive.ics.uci.edu/ml/machine-learning-databases/00228/). Данные содержат текстовую информацию и бинарное целевое значение (‘spam’, ‘ham’), Пусть в обучающую часть попадут первые 4000 объектов из таблицы, в тестовую часть оставшиеся объекты. Обучите `TfidfVectorizer`, не учитывайте слова, которые встретились меньше 2 раз в обучающей выборке (используйте гиперпараметр `min_df`). Укажите полученное число признаков.

In [12]:
vectorizer = TfidfVectorizer(min_df=2)
X_train_bow, X_test_bow = bow(
    vectorizer, 
    X_train, 
    X_test,
)
X_train_bow.shape, X_test_bow.shape

f'число признаков = {X_train_bow.shape[1]}'

'число признаков = 3377'

7. Загрузите файл SMSSpamCollection из UCI (https://archive.ics.uci.edu/ml/machine-learning-databases/00228/). Данные содержат текстовую информацию и бинарное целевое значение (‘spam’, ‘ham’), Пусть в обучающую часть попадут первые 4000 объектов из таблицы, в тестовую часть оставшиеся объекты. Обучите `TfidfVectorizer` с гиперпараметрами по умолчанию на текстах из обучающей части и получите векторное представление для объектов обучающей и тестовой части. На полученных векторных представлениях обучите логистическую регрессию и оцените долю правильных ответов на тестовой части. Укажите полученное значение доли правильных ответов.

In [13]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

vectorizer = TfidfVectorizer()
X_train_bow, X_test_bow = bow(
    vectorizer, 
    X_train, 
    X_test,
)

clf = LogisticRegression()
clf.fit(X_train_bow, y_train)

predicted = clf.predict(X_test_bow)
f'accuracy = {accuracy_score(predicted, y_test):.2f}%'

'accuracy = 0.97%'