## Задача 1: кластеризация запросов и снижение размерности данных

In [15]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

from collections import defaultdict
from sklearn.decomposition import TruncatedSVD, LatentDirichletAllocation
from sklearn.metrics import silhouette_score, silhouette_samples, rand_score, adjusted_rand_score, homogeneity_completeness_v_measure
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
from sklearn.ensemble import GradientBoostingRegressor, GradientBoostingClassifier

import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
ru_stop_words = stopwords.words('russian')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


**Данные:** датасет amazon_queries.csv

**Основное задание:**



**1.   Выполните предобработку датасета. Подумайте, нужно ли делить данные на тренировочные и тестовые;**

In [7]:
df = pd.read_csv('amazon_queries.csv')
df

Unnamed: 0,query
0,motorcycle camping tent
1,samson wireless microphone system
2,iphone xs max with ring holder
3,justice league blu ray
4,funny golf shirts for men
...,...
97325,bat skeleton
97326,jigsaw puzzles 500 pieces for adults famous pa...
97327,squidward nike shoes
97328,travis scott posters for room


In [13]:
queries = list(set(df['query'].tolist()))

queries

['zip up 3d print hoodie women',
 'adaptador control xbox 360 a pc',
 'parrot cage',
 'pocket waterproof wand massager',
 'pink green dress',
 'womens gift earrings and bracelet',
 'canopy weights',
 'jerimah johnson',
 'usb c headphones s10',
 'lsu',
 'baby fork',
 'guilt sets queens',
 'wall hangers heavy duty',
 'deodorant for men gel',
 'bobath sling',
 'harina gluten free',
 'nfl referee jersey',
 'flexi women',
 'workout loops beachbody',
 "carter's boy shoes velcro",
 'smart tv',
 'spoons for baby self feeding',
 'shippinf label printer',
 'tracys dog',
 'masquerade mask',
 'elvish wedding',
 'light up magnifying glass pocket',
 'baggo board sets',
 'electric fence charger',
 'iphone joystick',
 'plus size club dresses for women party night sexy',
 'cpu intel i5',
 'the heros of olympus series 2',
 'espresso glasses',
 'white extension cord 25 feet',
 'sand casting mold',
 'pcpanel rgb',
 'long velcro strip',
 'hazbin hotel',
 'kitchen mixer',
 'bow dress for women',
 'iced out 

In [14]:
vectors = TfidfVectorizer().fit_transform(queries)

# делить данные на тренировочные и тестовые не требуется, т.к. у нас нет независимой переменной

**2.   Выполните кластеризацию методом К средних**

In [16]:
k_means_ = KMeans(n_clusters=10).fit(vectors)



**3.   Посмотрите на запросы каждого кластера**

In [19]:
texts_ = defaultdict(list)

In [20]:
for text, cluster in zip(queries, k_means_.labels_):
  texts_[cluster].append(text)

In [21]:
texts_

defaultdict(list,
            {1: ['zip up 3d print hoodie women',
              'flexi women',
              'plus size club dresses for women party night sexy',
              'bow dress for women',
              'cool gifts for women',
              'progressive reading glasses for women',
              'bear costume adult women',
              'fossil handbags for women',
              'wool blend sweater women ligbt blue',
              'women necklace',
              'sparkly shorts for women',
              'plus size sailor costume for women',
              'curly hair rollers for women',
              'women’s spence',
              'yellow tank top for women',
              'long sleeve halloween shirts for women',
              'light blue intense dolce and gabbana women',
              'red and white nike shoes women',
              'mini perfumes for women',
              'women sweater poncho',
              'blue stone rings for women',
              'handbags for women o

In [22]:
texts_.keys()


dict_keys([1, 0, 5, 3, 7, 2, 9, 8, 4, 6])

In [23]:
# @title
texts_[6][:5]

['its colombai not columbia',
 'the journey of not knowing',
 '1 hour twist timer not photo electric electrical outlets',
 'do not roll down window stickers',
 'the not a cat cat']

**4.   Снизьте размерность данных при помощи любого известного вам метода (подумайте, какой метод здесь будет наиболее подходящим)**

In [25]:
# наиболее подходящим будет сингулярное разложение

model = TruncatedSVD(n_components=100)

reduced_matrix = model.fit_transform(vectors)

In [26]:
reduced_matrix.shape

(97330, 100)

**5.   Кластеризуйте данные сниженной размерности такой же моделью, как и в шаге 2**

In [27]:
k_means_reduced = KMeans(n_clusters=10).fit(reduced_matrix)



**6.   При помощи метрик, не требующих наличия тестового множества, сравните качество кластеризации на исходных данных и данных сниженной размерности.**

In [29]:
silhouette_ = silhouette_score(vectors, k_means_.labels_)

In [30]:
silhouette_

0.007106701673117446

In [31]:
silhouette_reduced = silhouette_score(vectors, k_means_reduced.labels_)

In [32]:
silhouette_reduced

0.0075320878909118354

## Задача 2: тематическое моделирование методом LDA

**Данные:** АРХИВ лемматизированных русских текстов ruslit_lemmas.zip

**Основное задание:**

**1. Достаньте тексты и (на всякий случай) их названия из архива**

In [2]:
from zipfile import ZipFile

path_to_archive = 'ruslit_lemmas.zip'

def texts_from_zip(path_to_archive):
    texts = []
    with ZipFile(path_to_archive) as zip_archive:
        for name in zip_archive.namelist():
            if '.txt' in name:
                text = zip_archive.read(name)
                text = text.decode('utf-8')
                texts.append(text)
    return texts

def get_filenames(path_to_archive):

    names = []

    with ZipFile(path_to_archive) as zip_archive:
        for name in zip_archive.namelist():
            if '.txt' in name:
                names.append(name.split('/')[1])

    return names

**2.   Векторизуйте тексты. Ограничьте количество используемых признаков до 6000 и используйте стоп-слова**

In [7]:
names = get_filenames(path_to_archive)
texts = texts_from_zip(path_to_archive)

In [9]:
tf_vectorizer = TfidfVectorizer(max_features = 6000,
                                stop_words = ru_stop_words)

In [10]:
vectors = tf_vectorizer.fit_transform(texts)

**3.   Сделайте тематическое моделирование при помощи латентного размещения Дирихле. Число компонент выберите любое**

In [13]:
lda = LatentDirichletAllocation(n_components=100, random_state=0)

In [14]:
topic = lda.fit_transform(vectors)

**4.   Выведите топовые слова каждой компоненты.**

In [16]:
feature_names = tf_vectorizer.get_feature_names_out()

top_features_per_topic = defaultdict(list)
n_top_words = 25

for topic_idx, topic in enumerate(lda.components_):
    top_features_ind = topic.argsort()[:-n_top_words - 1:-1]
    top_features = [feature_names[i] for i in top_features_ind]
    top_features_per_topic[topic_idx] = top_features

In [17]:
for topic, features in top_features_per_topic.items():
    print(f"Topic {topic}: {features}")

Topic 0: ['ивановна', 'елена', 'нехлюдов', 'свобода', 'партия', 'неожиданно', 'рабство', 'матвеич', 'сиятельство', 'крокодил', 'одинаково', 'всеобщий', 'революция', 'обертываться', 'естественно', 'наставать', 'основывать', 'призрак', 'наедине', 'хохот', 'наклоняться', 'освобождаться', 'кофе', 'поведение', 'обходиться']
Topic 1: ['нина', 'библиотека', 'тогдашний', 'весть', 'добиваться', 'юность', 'германия', 'наносить', 'повторяться', 'всматриваться', 'элемент', 'пленный', 'шпага', 'восстанавливать', 'мрамор', 'приготовление', 'строй', 'огорчать', 'комендант', 'окликать', 'владелец', 'прокламация', 'истязание', 'шпион', 'вывозить']
Topic 2: ['германн', 'зеркало', 'весна', 'лизавета', 'графиня', 'ивановна', 'петя', 'седло', 'бурый', 'растопчин', 'румянец', 'чахоточный', 'гостья', 'дабы', 'алпатыч', 'смоленск', 'балашев', 'обоз', 'аптека', 'бородинский', 'дрянь', 'изображение', 'посматривать', 'буквально', 'ростов']
Topic 3: ['дергать', 'употребление', 'тянуть', 'рыбина', 'веселие', 'рват

## Задача 3: ансамблевое обучение

**Датасет:** данные о качестве воды BKB_WaterQualityData_2020084.csv.

**Основное задание:**


1.   **Выполните предобработку датасета.** Ваша зависимая переменная - Site_Id. Ваши независимые переменные: Salinity (ppt), Dissolved Oxygen (mg/L), pH (standard units), Secchi Depth (m), Water Depth (m), Water Temp (?C), AirTemp (C). Подумайте, надо ли что-то кодировать и/или разделять выборку на тренировочное и тестовое множество.

In [2]:
df1 = pd.read_csv('BKB_WaterQualityData_2020084.csv')

df1

Unnamed: 0,Site_Id,Unit_Id,Read_Date,Salinity (ppt),Dissolved Oxygen (mg/L),pH (standard units),Secchi Depth (m),Water Depth (m),Water Temp (?C),Air Temp-Celsius,Air Temp (?F),Time (24:00),Field_Tech,DateVerified,WhoVerified,AirTemp (C),Year
0,Bay,,1/3/1994,1.3,11.7,7.3,0.40,0.40,5.9,8.0,46.40,11:00,,,,8.000000,1994
1,Bay,,1/31/1994,1.5,12.0,7.4,0.20,0.35,3.0,2.6,36.68,11:30,,,,2.600000,1994
2,Bay,,2/7/1994,1.0,10.5,7.2,0.25,0.60,5.9,7.6,45.68,9:45,,,,7.600000,1994
3,Bay,,2/23/1994,1.0,10.1,7.4,0.35,0.50,10.0,2.7,36.86,,,,,2.700000,1994
4,Bay,,2/28/1994,1.0,12.6,7.2,0.20,0.40,1.6,0.0,32.00,10:30,,,,0.000000,1994
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2366,Bay,,10/11/2018,1.9,5.0,7.0,4.00,1.20,25.0,,78.00,09:30,Sue Poe,11/13/2019,Christine Folks,25.555556,2018
2367,Bay,,10/24/2018,0.0,9.0,7.0,0.30,0.60,18.0,,58.00,09:30,Sue Poe,11/13/2019,Christine Folks,14.444444,2018
2368,Bay,,10/28/2018,0.9,2.9,7.0,0.40,0.90,13.0,,49.00,09:20,Sue Poe,11/13/2019,Christine Folks,9.444444,2018
2369,Bay,,11/7/2018,1.7,,7.0,0.45,0.90,20.0,,65.00,09:45,Sue Poe,11/13/2019,Christine Folks,18.333333,2018


In [4]:
water_ = df1.drop(columns=['Unit_Id', 'Read_Date', 'Time (24:00)', 'Air Temp (?F)', 'Air Temp-Celsius', 'Year', 'Field_Tech', 'DateVerified', 'WhoVerified'])

In [5]:
water_ = water_.dropna()

In [7]:
water_.head()

Unnamed: 0,Site_Id,Salinity (ppt),Dissolved Oxygen (mg/L),pH (standard units),Secchi Depth (m),Water Depth (m),Water Temp (?C),AirTemp (C)
0,Bay,1.3,11.7,7.3,0.4,0.4,5.9,8.0
1,Bay,1.5,12.0,7.4,0.2,0.35,3.0,2.6
2,Bay,1.0,10.5,7.2,0.25,0.6,5.9,7.6
3,Bay,1.0,10.1,7.4,0.35,0.5,10.0,2.7
4,Bay,1.0,12.6,7.2,0.2,0.4,1.6,0.0


In [8]:
X_water = water_[[i for i in water_.columns if i != 'Site_Id']]
y_water = water_['Site_Id'].tolist()

In [10]:
X_water_train, X_water_test, y_water_train, y_water_test = train_test_split(X_water, y_water, test_size=0.2, stratify=y_water)

In [12]:
le = LabelEncoder()
le.fit(y_water_train)

In [14]:
y_water_train_enc = le.transform(y_water_train)
y_water_test_enc = le.transform(y_water_test)

**2.   Используйте модели ансамблевого обучения (как минимум, рандомный лес и градиентный бустинг), чтобы по данным о качестве воды предсказать место, откуда был взят образец. Оцените качество предсказаний.**

In [17]:
clf = RandomForestClassifier()
clf.fit(X_water_train, y_water_train_enc)

In [18]:
water_pred = clf.predict(X_water_test)
print(classification_report(y_water_test_enc, water_pred, target_names=le.classes_))

              precision    recall  f1-score   support

           A       0.37      0.22      0.27        32
           B       0.53      0.56      0.54        34
         Bay       0.79      0.89      0.83       136
           C       0.69      0.43      0.53        21
           D       0.81      0.83      0.82        41

    accuracy                           0.72       264
   macro avg       0.64      0.59      0.60       264
weighted avg       0.70      0.72      0.70       264



In [19]:
gr = GradientBoostingClassifier(random_state=0)
gr.fit(X_water_train, y_water_train_enc)

In [21]:
gr_pred = gr.predict(X_water_test)
print(classification_report(y_water_test_enc, gr_pred, target_names=le.classes_))

              precision    recall  f1-score   support

           A       0.57      0.38      0.45        32
           B       0.61      0.50      0.55        34
         Bay       0.84      0.90      0.87       136
           C       0.43      0.57      0.49        21
           D       0.83      0.85      0.84        41

    accuracy                           0.75       264
   macro avg       0.66      0.64      0.64       264
weighted avg       0.74      0.75      0.74       264

