### Логистическая регрессия

1. Загрузите данные `load_wine` из `sklearn.datasets`. Из данных исключите объекты класса 2
2. Отмасштабируйте признаки, используя класс `StandardScaler` с гиперпараметрами по умолчанию. Обучите логистическую регрессию и оцените важность признаков. Укажите название признака, который оказался наименее значимым.

Обратите внимание, целевое значение лежит по ключу `'target'`, матрица объекты-признаки лежит по ключу `'data'`



In [170]:
from sklearn.datasets import load_wine
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
import pandas as pd
import numpy as np

In [171]:
data = load_wine()
wine, target = data.data, data.target

In [172]:
wine_filtered = wine[target != 2]
target_filtered = target[target != 2]

In [173]:
scaler = StandardScaler()
wine_scaled = scaler.fit_transform(wine_filtered)

logreg = LogisticRegression()
logreg.fit(wine_scaled, target_filtered)

In [174]:
def min_coef_name(coefficients, data):
    min_coef_index = np.argmin(np.abs(coefficients))
    least_significant_feature = data.feature_names[min_coef_index]

    return least_significant_feature, coefficients[min_coef_index]    

In [178]:
min_coef_names_list(logreg.coef_[0], data) 

ValueError: too many values to unpack (expected 2)

2. Загрузите данные `load_wine` из `sklearn.datasets`. Из обучающей части исключите объекты соответствующие классу 2. Не масштабируйте признаки. Обучите логистическую регрессию с гиперпараметрами по умолчанию.
Выберите признак из предложенных, которому соответствует минимальный вес.


In [108]:
logreg = LogisticRegression(max_iter=100000)
logreg.fit(wine_filtered, target_filtered)

In [109]:
min_coef_name(logreg.coef_[0], data) 


('magnesium', np.float64(0.013973637302301676))

In [110]:
def min_coef_names_list(coefficients, data):
    sorted_indices = np.argsort(np.abs(coefficients))
    feature_names = data.feature_names

    return [feature_names[i] for i in sorted_indices]

In [111]:
min_coef_names_list(logreg.coef_[0], data)

['magnesium',
 'proline',
 'total_phenols',
 'hue',
 'nonflavanoid_phenols',
 'proanthocyanins',
 'alcalinity_of_ash',
 'flavanoids',
 'od280/od315_of_diluted_wines',
 'ash',
 'color_intensity',
 'alcohol',
 'malic_acid']

3. Решается задача бинарной классификации. Дана матрица объекты признаки 𝑋 и ответы для объектов  𝑦. Обучите логистическую регрессию и предскажите класс объекта x_new

In [113]:
X = np.array([[1, 1], [0.3, 0.7], [0, 4], [-2, -7], [0, -2], [-1, -1], [-2, 0]])
y = np.array([1, 1, 1, 0, 0, 0, 0])
x_new = np.array([[-5, 1]])

In [114]:
logreg = LogisticRegression().fit(X, y)

In [115]:
logreg.predict(x_new)

array([0])

### Классификация текстов

4. Загрузите файл SMSSpamCollection из UCI (https://archive.ics.uci.edu/dataset/228/sms+spam+collection). Данные содержат текстовую информацию и бинарное целевое значение (‘spam’, ‘ham’), Пусть в обучающую часть попадут первые 4000 объектов из таблицы, в тестовую часть оставшиеся объекты. Обучите `TfidfVectorizer` с гиперпараметрами по умолчанию на текстах из обучающей части и получите векторное представление для объектов обучающей и тестовой части. Укажите полученное число признаков.


In [116]:
import pandas as pd

In [121]:
df = pd.read_table('SMSSpamCollection', header=None)

df.columns = ['label', 'message']
df

Unnamed: 0,label,message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."
...,...,...
5567,spam,This is the 2nd time we have tried 2 contact u...
5568,ham,Will ü b going to esplanade fr home?
5569,ham,"Pity, * was in mood for that. So...any other s..."
5570,ham,The guy did some bitching but I acted like i'd...


In [122]:
X_train,X_test, y_train, y_test = df['message'][:4000], df['message'][4000:], df['label'][:4000], df['label'][4000:]

In [123]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [125]:
tfdfvec = TfidfVectorizer()

In [128]:
tfdfvec.fit_transform(X_train, y_train)
X_train_tfidf = tfdfvec.fit_transform(X_train)
X_train_tfidf.shape[1]

7331

5.  Загрузите файл SMSSpamCollection из UCI (https://archive.ics.uci.edu/dataset/228/sms+spam+collection). Данные содержат текстовую информацию и бинарное целевое значение (‘spam’, ‘ham’), Пусть в обучающую часть попадут первые 4000 объектов из таблицы, в тестовую часть оставшиеся объекты. Обучите `TfidfVectorizer`, помимо слов входящих в тексты, учитывайте биграммы (используйте гиперпараметр `ngram_range`). Укажите полученное число признаков.

In [131]:
tfdfvec = TfidfVectorizer(ngram_range=(1, 2))

In [134]:
tfdfvec.fit_transform(X_train, y_train)
X_train_tfidf = tfdfvec.fit_transform(X_train)
print(X_train_tfidf.shape[1])
X_test_tfidf = tfdfvec.transform(X_test)
print(X_test_tfidf.shape[1])

39805


6. Загрузите файл SMSSpamCollection из UCI (https://archive.ics.uci.edu/dataset/228/sms+spam+collection). Данные содержат текстовую информацию и бинарное целевое значение (‘spam’, ‘ham’), Пусть в обучающую часть попадут первые 4000 объектов из таблицы, в тестовую часть оставшиеся объекты. Обучите `TfidfVectorizer`, не учитывайте слова, которые встретились меньше 2 раз в обучающей выборке (используйте гиперпараметр `min_df`). Укажите полученное число признаков.

In [135]:
tfdfvec = TfidfVectorizer(min_df=2)

In [148]:
tfdfvec.fit_transform(X_train, y_train)
X_train_tfidf = tfdfvec.fit_transform(X_train, y_train)
print(X_train_tfidf.shape[1])

7331


7. Загрузите файл SMSSpamCollection из UCI (https://archive.ics.uci.edu/dataset/228/sms+spam+collection). Данные содержат текстовую информацию и бинарное целевое значение (‘spam’, ‘ham’), Пусть в обучающую часть попадут первые 4000 объектов из таблицы, в тестовую часть оставшиеся объекты. Обучите `TfidfVectorizer` с гиперпараметрами по умолчанию на текстах из обучающей части и получите векторное представление для объектов обучающей и тестовой части. На полученных векторных представлениях обучите логистическую регрессию и оцените долю правильных ответов на тестовой части. Укажите полученное значение доли правильных ответов.

In [159]:
tfdfvec = TfidfVectorizer()

In [160]:
tfdfvec.fit_transform(X_train, y_train)
X_train_tfidf = tfdfvec.fit_transform(X_train)
X_test_tfidf = tfdfvec.transform(X_test)

In [161]:
logreg = LogisticRegression()

In [162]:
X_test_tfidf = tfdfvec.transform(X_test)

In [167]:
logreg.fit(X_train_tfidf, y_train)
pred_proba = logreg.predict(X_test_tfidf)

In [168]:
from sklearn.metrics import accuracy_score

In [169]:
accuracy_score(pred_proba, y_test)

0.9694656488549618