# Grupowanie

## Dane

```
wget https://klejbenchmark.com/static/data/klej_polemo2.0-in.zip
unzip klej_polemo2.0-in.zip -d klej_polemo2.0-in
```

In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
import numpy as np
import spacy

nlp = spacy.load("pl_core_news_md")

In [6]:
df = pd.read_csv("klej_polemo2.0-in/dev.tsv", sep="\t")
df.head()

Unnamed: 0,sentence,target
0,"Pani Doktor bardzo miła , ale szkła dobrane ma...",__label__meta_minus_m
1,"Pani doktor jest rzeczowa , odpowiada na każde...",__label__meta_plus_m
2,Powinno być zero albo nawet - 10 . Najgorszy l...,__label__meta_minus_m
3,Swoje osiągnięcie Mańka zaprezentował podczas ...,__label__meta_zero
4,To wymaga współpracy z instytutami badawczymi...,__label__meta_zero


In [7]:
corpus = df["sentence"].tolist()

In [8]:
len(corpus)

723

In [5]:
doc_corpus = list(nlp.pipe(corpus, disable=["ner"]))

In [9]:
norm_corpus = [[token.lemma_ for token in doc if token.is_alpha and not token.is_stop] for doc in doc_corpus]

In [10]:
vect = TfidfVectorizer(preprocessor=lambda x: x, tokenizer=lambda x: x)

In [11]:
dtm = vect.fit_transform(norm_corpus)

In [12]:
dtm.shape

(723, 11297)

In [13]:
vect.get_feature_names()

['Adamy',
 'Afryka',
 'Agnieszka',
 'Ala',
 'Alberta',
 'Aleksander',
 'Aleksandra',
 'Alf',
 'Alzheimer',
 'Amsterdam',
 'Anglia',
 'Anglik',
 'Anna',
 'Ateny',
 'Australia',
 'Austria',
 'Azja',
 'Bachanek',
 'Badowski',
 'Bara',
 'Barczak',
 'Baron',
 'Bartosz',
 'Bałtyk',
 'Beata',
 'Beer',
 'Belgia',
 'Białystok',
 'Bieniaszewska',
 'Bieńkowski',
 'Bogdany',
 'Boguś',
 'Boho',
 'Bożena',
 'Braki',
 'Brazylia',
 'Brazylijczyk',
 'Bristol',
 'Bronia',
 'Bruksela',
 'Brytania',
 'Brytyjczyk',
 'Bukowsko',
 'Bułgar',
 'Bułgaria',
 'Bułka',
 'Bydgoszcz',
 'Cesarek',
 'Chat',
 'Cichocki',
 'Ciechocinek',
 'Cisz',
 'Conrad',
 'Cywiński',
 'Czechy',
 'Częstochowa',
 'Daab',
 'Dania',
 'Dawidy',
 'Doktór',
 'Dolina',
 'Dominik',
 'Dominika',
 'Dubaj',
 'Dytfeld',
 'Dziedzice',
 'Edwarda',
 'Egipcjanin',
 'El',
 'Ela',
 'Europa',
 'Ewa',
 'Fal',
 'Feliksik',
 'Finlandia',
 'Francja',
 'Gardna',
 'Gdańsk',
 'Gdynia',
 'Golda',
 'Gorzów',
 'Gołębie',
 'Gołębiewski',
 'Grecja',
 'Grek',
 'Grod

In [14]:
norm_corpus = [[token.lemma_.lower() for token in doc if token.is_alpha and not token.is_stop] 
               for doc in doc_corpus]

In [15]:
vect = TfidfVectorizer(preprocessor=lambda x: x, tokenizer=lambda x: x)
dtm = vect.fit_transform(norm_corpus)

In [16]:
dtm.shape

(723, 11220)

In [17]:
vect = TfidfVectorizer(preprocessor=lambda x: x, tokenizer=lambda x: x, 
                       max_df=0.9, min_df=0.05)
dtm = vect.fit_transform(norm_corpus)
dtm.shape

(723, 140)

In [18]:
vect = TfidfVectorizer(preprocessor=lambda x: x, tokenizer=lambda x: x, 
                       max_df=0.95, min_df=0.01)
dtm = vect.fit_transform(norm_corpus)
dtm.shape

(723, 1075)

In [19]:
vect = TfidfVectorizer(preprocessor=lambda x: x, tokenizer=lambda x: x, 
                       max_df=0.95, min_df=0.02)
dtm = vect.fit_transform(norm_corpus)
dtm.shape

(723, 494)

In [20]:
feature_names = vect.get_feature_names()
feature_names

['apartament',
 'atmosfera',
 'atrakcja',
 'badan',
 'badanie',
 'balkon',
 'bar',
 'basen',
 'bliski',
 'blisko',
 'brak',
 'brakować',
 'brudny',
 'budynek',
 'być',
 'ból',
 'cały',
 'cena',
 'centrum',
 'chcieć',
 'chociaż',
 'chodzić',
 'choroba',
 'chory',
 'chwila',
 'chyba',
 'ciekawy',
 'ciepły',
 'ciąża',
 'ciążyć',
 'codziennie',
 'czas',
 'czego',
 'czekać',
 'czuć',
 'czym',
 'czysto',
 'czystość',
 'czysty',
 'część',
 'człowiek',
 'daleki',
 'daleko',
 'danie',
 'dawać',
 'dać',
 'diagnoza',
 'dieta',
 'dobry',
 'dobrze',
 'dodatkowo',
 'dodatkowy',
 'dodać',
 'dojazd',
 'doktor',
 'doktór',
 'dokładnie',
 'dom',
 'dopiero',
 'dostać',
 'dostępny',
 'dowiedzieć',
 'doświadczenie',
 'dr',
 'droga',
 'drogi',
 'drugi',
 'drzwi',
 'duży',
 'dwa',
 'działanie',
 'działać',
 'dziecko',
 'dzienie',
 'dzień',
 'dziwny',
 'dzięki',
 'dziękować',
 'długi',
 'efekt',
 'em',
 'fajny',
 'fakt',
 'firma',
 'gabinet',
 'generalnie',
 'ginekolog',
 'godzina',
 'gorąco',
 'gość',
 'grup