# Python для анализа данных

Валентин Бирюков, НИУ ВШЭ

# Обработка текстов чем-то хитрее регулярок

# Супер краткий экскурс в NLP

## здесь текст!!!

# Шаг 1
### давайте научимся "красиво" считать количество слов

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

In [2]:
doc=["One Cent, Two Cents, Old Cent, New Cent: All About Money"]

In [3]:
cv = CountVectorizer(doc)
count_vector=cv.fit_transform(doc)



In [4]:
# показать полученный словарный запас; числа - не счетчики! это позиция в разреженном векторе.
cv.vocabulary_

{'one': 7,
 'cent': 2,
 'two': 8,
 'cents': 3,
 'old': 6,
 'new': 5,
 'all': 1,
 'about': 0,
 'money': 4}

In [5]:
# matrix shape. 1 documents, 9 unique words
count_vector.shape


(1, 9)

In [6]:
# any words eliminated internally? -- nope
cv.stop_words_

set()

Один текст конечно хорошо, но мы хе хотим работать с текстАМИ?

In [8]:
cat_in_the_hat_docs=[
      "One Cent, Two Cents, Old Cent, New Cent: All About Money (Cat in the Hat's Learning Library",
      "Inside Your Outside: All About the Human Body (Cat in the Hat's Learning Library)",
      "Oh, The Things You Can Do That Are Good for You: All About Staying Healthy (Cat in the Hat's Learning Library)",
      "On Beyond Bugs: All About Insects (Cat in the Hat's Learning Library)",
      "There's No Place Like Space: All About Our Solar System (Cat in the Hat's Learning Library)" 
     ]

In [9]:
cv = CountVectorizer(cat_in_the_hat_docs)
count_vector=cv.fit_transform(cat_in_the_hat_docs)



In [12]:
print(count_vector.shape)
print(cv.vocabulary_)

(5, 43)
{'one': 28, 'cent': 8, 'two': 40, 'cents': 9, 'old': 26, 'new': 23, 'all': 1, 'about': 0, 'money': 22, 'cat': 7, 'in': 16, 'the': 37, 'hat': 13, 'learning': 19, 'library': 20, 'inside': 18, 'your': 42, 'outside': 30, 'human': 15, 'body': 4, 'oh': 25, 'things': 39, 'you': 41, 'can': 6, 'do': 10, 'that': 36, 'are': 2, 'good': 12, 'for': 11, 'staying': 34, 'healthy': 14, 'on': 27, 'beyond': 3, 'bugs': 5, 'insects': 17, 'there': 38, 'no': 24, 'place': 31, 'like': 21, 'space': 33, 'our': 29, 'solar': 32, 'system': 35}


Было что то про стоп слова - это куда?

In [13]:
cv = CountVectorizer(cat_in_the_hat_docs,stop_words=["all","in","the","is","and"])
count_vector=cv.fit_transform(cat_in_the_hat_docs)
count_vector.shape



(5, 40)

Не на память же их все писать?
Встроенный набор слов - английский, остальные надо подсовывать уже руками

In [15]:
cv = CountVectorizer(cat_in_the_hat_docs,stop_words="english") 
count_vector=cv.fit_transform(cat_in_the_hat_docs)



Что делать со "мутными языками"? Наверное же стоп слова должны как-то "статистически" отличаться?

In [20]:
cv = CountVectorizer(cat_in_the_hat_docs,min_df=2)
count_vector=cv.fit_transform(cat_in_the_hat_docs)
print(cv.stop_words_)

{'no', 'body', 'two', 'one', 'good', 'new', 'do', 'money', 'space', 'your', 'beyond', 'cent', 'that', 'are', 'system', 'place', 'on', 'there', 'cents', 'solar', 'can', 'healthy', 'our', 'oh', 'old', 'human', 'things', 'insects', 'staying', 'inside', 'you', 'bugs', 'for', 'like', 'outside'}




In [21]:
cv = CountVectorizer(cat_in_the_hat_docs,min_df=0.25)
count_vector=cv.fit_transform(cat_in_the_hat_docs)
print(cv.stop_words_)

{'no', 'body', 'two', 'one', 'good', 'new', 'do', 'money', 'space', 'your', 'beyond', 'cent', 'that', 'are', 'system', 'place', 'on', 'there', 'cents', 'solar', 'can', 'healthy', 'our', 'oh', 'old', 'human', 'things', 'insects', 'staying', 'inside', 'you', 'bugs', 'for', 'like', 'outside'}




In [22]:
cv = CountVectorizer(cat_in_the_hat_docs,max_df=0.50)
count_vector=cv.fit_transform(cat_in_the_hat_docs)
print(cv.stop_words_)

{'in', 'hat', 'library', 'about', 'the', 'cat', 'all', 'learning'}




# Шаг 2
### Как-то почистим слова. А вдруг связки все же важны?

In [25]:
import re
import nltk
import pandas as pd
from nltk.stem import PorterStemmer

# init stemmer
porter_stemmer=PorterStemmer()

def my_cool_preprocessor(text):
    
    text=text.lower() 
    text=re.sub("\\W"," ",text) # remove special chars
    text=re.sub("\\s+(in|the|all|for|and|on)\\s+"," _connector_ ",text) # normalize certain words
    
    # stem words
    words=re.split("\\s+",text)
    stemmed_words=[porter_stemmer.stem(word=word) for word in words]
    return ' '.join(stemmed_words)

cv = CountVectorizer(cat_in_the_hat_docs,preprocessor=my_cool_preprocessor)
count_vector=cv.fit_transform(cat_in_the_hat_docs)
print(cv.vocabulary_)


{'one': 25, 'cent': 8, 'two': 37, 'old': 23, 'new': 20, '_connector_': 0, 'about': 1, 'money': 19, 'cat': 7, 'the': 34, 'hat': 11, 'learn': 16, 'librari': 17, 'insid': 15, 'your': 39, 'outsid': 27, 'human': 13, 'bodi': 4, 'oh': 22, 'thing': 36, 'you': 38, 'can': 6, 'do': 9, 'that': 33, 'are': 2, 'good': 10, 'stay': 31, 'healthi': 12, 'on': 24, 'beyond': 3, 'bug': 5, 'insect': 14, 'there': 35, 'no': 21, 'place': 28, 'like': 18, 'space': 30, 'our': 26, 'solar': 29, 'system': 32}




# Шаг 3
### Слово - хорошо, но оно же зависит от контекста? Решение есть - ngrams!

In [26]:
cv = CountVectorizer(cat_in_the_hat_docs,ngram_range=(2,2),preprocessor=my_cool_preprocessor)
count_vector=cv.fit_transform(cat_in_the_hat_docs)
print(cv.vocabulary_)

{'one cent': 35, 'cent two': 19, 'two cent': 47, 'cent old': 18, 'old cent': 33, 'cent new': 17, 'new cent': 30, 'cent _connector_': 16, '_connector_ about': 0, 'about money': 7, 'money cat': 29, 'cat _connector_': 15, '_connector_ the': 2, 'the hat': 44, 'hat learn': 22, 'learn librari': 27, 'insid your': 26, 'your outsid': 50, 'outsid _connector_': 37, 'about _connector_': 5, '_connector_ human': 1, 'human bodi': 24, 'bodi cat': 12, 'oh _connector_': 32, '_connector_ thing': 3, 'thing you': 46, 'you can': 49, 'can do': 14, 'do that': 20, 'that are': 43, 'are good': 10, 'good _connector_': 21, '_connector_ you': 4, 'you _connector_': 48, 'about stay': 9, 'stay healthi': 41, 'healthi cat': 23, 'on beyond': 34, 'beyond bug': 11, 'bug _connector_': 13, 'about insect': 6, 'insect cat': 25, 'there no': 45, 'no place': 31, 'place like': 38, 'like space': 28, 'space _connector_': 40, 'about our': 8, 'our solar': 36, 'solar system': 39, 'system cat': 42}




# Шаг 4
#### Смысл в слове - он где то в корнях/суффиксах и тд. то есть в маленьких кусах букв - что если побить так?

In [28]:
cv = CountVectorizer(cat_in_the_hat_docs,ngram_range=(2,2),preprocessor=my_cool_preprocessor,analyzer='char_wb')
count_vector=cv.fit_transform(cat_in_the_hat_docs)
print(cv.vocabulary_)

{' o': 11, 'on': 77, 'ne': 67, 'e ': 36, ' c': 3, 'ce': 30, 'en': 40, 'nt': 72, 't ': 96, ' t': 14, 'tw': 102, 'wo': 109, 'o ': 73, 'ol': 76, 'ld': 58, 'd ': 33, ' n': 10, 'ew': 42, 'w ': 108, ' _': 0, '_c': 17, 'co': 31, 'nn': 69, 'ec': 38, 'ct': 32, 'to': 100, 'or': 79, 'r_': 84, '_ ': 16, ' a': 1, 'ab': 18, 'bo': 26, 'ou': 80, 'ut': 107, ' m': 9, 'mo': 64, 'ey': 43, 'y ': 110, 'ca': 29, 'at': 23, 'th': 99, 'he': 48, ' h': 6, 'ha': 47, ' s': 13, 's ': 89, ' l': 8, 'le': 59, 'ea': 37, 'ar': 22, 'rn': 88, 'n ': 65, 'li': 60, 'ib': 52, 'br': 27, 'ra': 85, 'ri': 87, 'i ': 51, ' i': 7, 'in': 55, 'ns': 71, 'si': 91, 'id': 53, ' y': 15, 'yo': 111, 'ur': 106, 'r ': 83, 'ts': 101, 'hu': 50, 'um': 105, 'ma': 63, 'an': 21, ' b': 2, 'od': 74, 'di': 34, 'oh': 75, 'h ': 46, 'hi': 49, 'ng': 68, 'g ': 44, 'u ': 103, ' d': 4, 'do': 35, 're': 86, ' g': 5, 'go': 45, 'oo': 78, 'st': 94, 'ta': 97, 'ay': 24, 'al': 20, 'lt': 61, 'be': 25, 'nd': 66, 'bu': 28, 'ug': 104, 'se': 90, 'er': 41, 'no': 70, ' p': 1



Частотности-то что как достаем?

In [29]:
def sort_coo(coo_matrix):
    tuples = zip(coo_matrix.col, coo_matrix.data)
    return sorted(tuples, key=lambda x: (x[1], x[0]), reverse=True)
 
def extract_topn_from_vector(feature_names, sorted_items, topn=10):
    """return n-gram counts in descending order of counts"""
    
    #use only topn items from vector
    sorted_items = sorted_items[:topn]
 
    score_vals = []
    feature_vals = []
    results=[]
    
    # word index, count i
    for idx, count in sorted_items:
        
        # get the ngram name
        n_gram=feature_names[idx]
        
        # collect as a list of tuples
        results.append((n_gram,count))
 
    return results

In [30]:
cv = CountVectorizer(cat_in_the_hat_docs,ngram_range=(1,2),preprocessor=my_cool_preprocessor,max_features=100)
count_vector=cv.fit_transform(cat_in_the_hat_docs)

#sort the counts of first book title by descending order of counts
sorted_items=sort_coo(count_vector[0].tocoo())

#Get feature names (words/n-grams). It is sorted by position in sparse matrix
feature_names=cv.get_feature_names()
n_grams=extract_topn_from_vector(feature_names,sorted_items,10)
n_grams



[('cent', 4),
 ('_connector_', 2),
 ('two cent', 1),
 ('two', 1),
 ('the hat', 1),
 ('the', 1),
 ('one cent', 1),
 ('one', 1),
 ('old cent', 1),
 ('old', 1)]

# Шаг 5

#### Слов в корпусе языка - большое количество. Надо как-то аккуратнее работать со словами... хеши!

In [32]:
from sklearn.feature_extraction.text import HashingVectorizer

In [34]:
# Compute raw counts using hashing vectorizer
# Small numbers of n_features can cause hash collisions
hvectorizer = HashingVectorizer(n_features=10000,norm=None,alternate_sign=False)

In [35]:
# compute counts without any term frequency normalization
X = hvectorizer.fit_transform(cat_in_the_hat_docs)

In [36]:
X.shape

(5, 10000)

In [37]:
# print populated columns of first document
# format: (doc id, pos_in_matrix)  raw_count
print(X[0])

  (0, 93)	3.0
  (0, 689)	1.0
  (0, 717)	1.0
  (0, 1664)	1.0
  (0, 2759)	1.0
  (0, 3124)	1.0
  (0, 4212)	1.0
  (0, 4380)	1.0
  (0, 5044)	1.0
  (0, 7353)	1.0
  (0, 8903)	1.0
  (0, 8958)	1.0
  (0, 9376)	1.0
  (0, 9402)	1.0
  (0, 9851)	1.0


# Шаг 6
Язык - штука сложная. Люди пишут не пойми как, разные склонения/спряжения/числа/рода/знаки припинания - что делать и как быть с этим многообразием?

## Lowercasing

In [38]:
texts=["CANADA","Canada","canadA","canada"]
lower_words=[word.lower() for word in texts]
lower_words

['canada', 'canada', 'canada', 'canada']

## Stemming

In [39]:
import nltk
import pandas as pd
from nltk.stem import PorterStemmer

# init stemmer
porter_stemmer=PorterStemmer()

In [40]:
# stem connect variations
words=["connect","connected","connection","connections","connects"]
stemmed_words=[porter_stemmer.stem(word=word) for word in words]

stemdf= pd.DataFrame({'original_word': words,'stemmed_word': stemmed_words})
stemdf

Unnamed: 0,original_word,stemmed_word
0,connect,connect
1,connected,connect
2,connection,connect
3,connections,connect
4,connects,connect


In [41]:
words=["trouble","troubled","troubles","troublemsome"]
stemmed_words=[porter_stemmer.stem(word=word) for word in words]

stemdf= pd.DataFrame({'original_word': words,'stemmed_word': stemmed_words})
stemdf

Unnamed: 0,original_word,stemmed_word
0,trouble,troubl
1,troubled,troubl
2,troubles,troubl
3,troublemsome,troublemsom


## Lemmatization

In [42]:
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')

# init lemmatizer
lemmatizer = WordNetLemmatizer()

[nltk_data] Downloading package wordnet to /Users/biryuk/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [43]:
words=["trouble","troubling","troubled","troubles",]
lemmatized_words=[lemmatizer.lemmatize(word=word,pos='v') for word in words]
lemmatizeddf= pd.DataFrame({'original_word': words,'lemmatized_word': lemmatized_words})
lemmatizeddf=lemmatizeddf[['original_word','lemmatized_word']]
lemmatizeddf

Unnamed: 0,original_word,lemmatized_word
0,trouble,trouble
1,troubling,trouble
2,troubled,trouble
3,troubles,trouble


In [44]:
words=["goose","geese"]
lemmatized_words=[lemmatizer.lemmatize(word=word,pos='n') for word in words]
lemmatizeddf= pd.DataFrame({'original_word': words,'lemmatized_word': lemmatized_words})
lemmatizeddf=lemmatizeddf[['original_word','lemmatized_word']]
lemmatizeddf

Unnamed: 0,original_word,lemmatized_word
0,goose,goose
1,geese,goose


## Stop Word Removal

In [45]:
stopwords=['this','that','and','a','we','it','to','is','of','up','need']
text="this is a text full of content and we need to clean it up"

In [46]:
words=text.split(" ")
shortlisted_words=[]

#remove stop words
for w in words:
    if w not in stopwords:
        shortlisted_words.append(w)
    else:
        shortlisted_words.append("W")

print("original sentence = ",text)    
print("sentence with stop words removed= ",' '.join(shortlisted_words))

original sentence =  this is a text full of content and we need to clean it up
sentence with stop words removed=  W W W text full W content W W W W clean W W


## Noise Removal

In [47]:
raw_words=["..trouble..","trouble<","trouble!","<a>trouble</a>",'1.trouble']
stemmed_words=[porter_stemmer.stem(word=word) for word in raw_words]
stemdf= pd.DataFrame({'raw_word': raw_words,'stemmed_word': stemmed_words})
stemdf

Unnamed: 0,raw_word,stemmed_word
0,..trouble..,..trouble..
1,trouble<,trouble<
2,trouble!,trouble!
3,<a>trouble</a>,<a>trouble</a>
4,1.trouble,1.troubl


In [48]:
def scrub_words(text):
    """Basic cleaning of texts."""
    
    # remove html markup
    text=re.sub("(<.*?>)","",text)
    
    #remove non-ascii and digits
    text=re.sub("(\\W|\\d)"," ",text)
    
    #remove whitespace
    text=text.strip()
    return text

In [49]:
cleaned_words=[scrub_words(w) for w in raw_words]
cleaned_stemmed_words=[porter_stemmer.stem(word=word) for word in cleaned_words]
stemdf= pd.DataFrame({'raw_word': raw_words,'cleaned_word':cleaned_words,'stemmed_word': cleaned_stemmed_words})
stemdf=stemdf[['raw_word','cleaned_word','stemmed_word']]
stemdf

Unnamed: 0,raw_word,cleaned_word,stemmed_word
0,..trouble..,trouble,troubl
1,trouble<,trouble,troubl
2,trouble!,trouble,troubl
3,<a>trouble</a>,trouble,troubl
4,1.trouble,trouble,troubl


# Шаг 7
## Пытаемся понять "смысл"

TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален частоте употребления этого слова в документе и обратно пропорционален частоте употребления слова во всех документах коллекции.

Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры близости документов при кластеризации.

TF (term frequency — частота слова) — отношение числа вхождений некоторого слова к общему числу слов документа. Таким образом, оценивается важность слова $t_{{i}}$ в пределах отдельного документа.

$$\operatorname{tf}(t, d)=\frac{n_{t}}{\sum_{k} n_{k}}$$

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов. Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF.

$$\operatorname{idf}(t, D)=\log \frac{|D|}{\left|\left\{d_{i} \in D \mid t \in d_{i}\right\}\right|}$$

$$\operatorname{tf}{-\mathrm{i}} \mathrm{d} \mathrm{f}(t, d, D)=\mathrm{tf}(t, d) \times \mathrm{idf}(t, D)$$

Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах.

Начнем с того, что напишем вычисление сами "на коленке" чтобы понять как оно работает

In [55]:
docA = "The cat sat on my face"
docB = "The dog sat on my bed"
bowA = docA.split(" ")
bowB = docB.split(" ")
wordSet = set(bowA).union(set(bowB))
wordDictA = dict.fromkeys(wordSet, 0) 
wordDictB = dict.fromkeys(wordSet, 0)

In [56]:
for word in bowA:
    wordDictA[word]+=1
    
for word in bowB:
    wordDictB[word]+=1

In [58]:
import pandas as pd
pd.DataFrame([wordDictA, wordDictB])

Unnamed: 0,The,bed,cat,dog,face,my,on,sat
0,1,0,1,0,1,1,1,1
1,1,1,0,1,0,1,1,1


In [59]:
def computeTF(wordDict, bow):
    tfDict = {}
    bowCount = len(bow)
    for word, count in wordDict.items():
        tfDict[word] = count/float(bowCount)
    return tfDict

In [64]:
tfBowA = computeTF(wordDictA, bowA)
tfBowB = computeTF(wordDictB, bowB)

In [65]:
def computeIDF(docList):
    import math
    idfDict = {}
    N = len(docList)
    
    idfDict = dict.fromkeys(docList[0].keys(), 0)
    for doc in docList:
        for word, val in doc.items():
            if val > 0:
                idfDict[word] += 1
    
    for word, val in idfDict.items():
        idfDict[word] = math.log10(N / float(val))
        
    return idfDict

In [66]:
idfs = computeIDF([wordDictA, wordDictB])
idfs

{'sat': 0.0,
 'face': 0.3010299956639812,
 'The': 0.0,
 'cat': 0.3010299956639812,
 'on': 0.0,
 'bed': 0.3010299956639812,
 'my': 0.0,
 'dog': 0.3010299956639812}

In [67]:
def computeTFIDF(tfBow, idfs):
    tfidf = {}
    for word, val in tfBow.items():
        tfidf[word] = val*idfs[word]
    return tfidf

In [68]:
tfidfBowA = computeTFIDF(tfBowA, idfs)
tfidfBowB = computeTFIDF(tfBowB, idfs)
pd.DataFrame([tfidfBowA, tfidfBowB])

Unnamed: 0,The,bed,cat,dog,face,my,on,sat
0,0.0,0.0,0.050172,0.0,0.050172,0.0,0.0,0.0
1,0.0,0.050172,0.0,0.050172,0.0,0.0,0.0,0.0


# Шаг 8
### Игрушки в сторону, идем в бой!

Давайте применим эту механику к каким нибудь боевым задачам. Например выделить самые характирные для текста слова. Этакий бессвязный краткий пересказ.

Например к постам из stackoverflow

In [69]:
import pandas as pd

# read json into a dataframe
df_idf=pd.read_json("stackoverflow-data-idf.json",lines=True)

# print schema
print("Schema:\n\n",df_idf.dtypes)
print("Number of questions,columns=",df_idf.shape)

Schema:

 accepted_answer_id          float64
answer_count                  int64
body                         object
comment_count                 int64
community_owned_date         object
creation_date                object
favorite_count              float64
id                            int64
last_activity_date           object
last_edit_date               object
last_editor_display_name     object
last_editor_user_id         float64
owner_display_name           object
owner_user_id               float64
post_type_id                  int64
score                         int64
tags                         object
title                        object
view_count                    int64
dtype: object
Number of questions,columns= (20000, 19)


In [70]:
df_idf.head()

Unnamed: 0,accepted_answer_id,answer_count,body,comment_count,community_owned_date,creation_date,favorite_count,id,last_activity_date,last_edit_date,last_editor_display_name,last_editor_user_id,owner_display_name,owner_user_id,post_type_id,score,tags,title,view_count
0,,1,<p>I have a public class that contains a priva...,0,,2011-01-27 20:19:13.563 UTC,,4821394,2011-01-27 20:21:37.59 UTC,,,,,163534.0,1,0,c#|serialization|xml-serialization,Serializing a private struct - Can it be done?,296
1,3367943.0,2,<p>I have the following HTML:</p>\n\n<pre><cod...,2,,2010-07-30 00:01:50.9 UTC,0.0,3367882,2012-05-10 14:16:05.143 UTC,2012-05-10 14:16:05.143 UTC,,44390.0,,1190.0,1,2,css|overflow|css-float|crop,How do I prevent floated-right content from ov...,4121
2,,0,<p>I'm trying to run a shell script with gradl...,2,,2015-07-28 16:30:18.28 UTC,,31682135,2015-07-28 16:32:15.117 UTC,,,,,1299158.0,1,1,bash|shell|android-studio|gradle,Gradle command line,259
3,,1,<p>I have an object with the following form.</...,1,,2013-11-26 13:34:49.957 UTC,1.0,20218536,2013-11-26 15:07:50.8 UTC,2013-11-26 15:02:47.993 UTC,,1333873.0,,642751.0,1,0,javascript|asynchronous|foreach|async.js,Loop variable as parameter in asynchronous fun...,120
4,19941620.0,5,<p>Hi I need to valid the href is empty or not...,1,,2013-11-12 22:41:36.11 UTC,,19941459,2013-11-12 23:48:34.67 UTC,2013-11-12 22:43:42.97 UTC,,21886.0,,819774.0,1,0,javascript,Canot get the href value,97


Хм, выглядит не очень красиво со всем кодом, но в этом все дело. Даже в таком беспорядке мы можем извлечь из этого кое-что замечательное. Хотя вы можете исключить весь код из текста, для простоты мы оставим фрагменты кода для этого руководства.

In [71]:
import re
def pre_process(text):   
    # lowercase
    text=text.lower()
    #remove tags
    text=re.sub("</?.*?>"," <> ",text)
    
    # remove special characters and digits
    text=re.sub("(\\d|\\W)+"," ",text)
    
    return text

df_idf['text'] = df_idf['title'] + df_idf['body']
df_idf['text'] = df_idf['text'].apply(lambda x:pre_process(x))

#show the first 'text'
df_idf['text'][0]

'serializing a private struct can it be done i have a public class that contains a private struct the struct contains properties mostly string that i want to serialize when i attempt to serialize the struct and stream it to disk using xmlserializer i get an error saying only public types can be serialized i don t need and don t want this struct to be public is there a way i can serialize it and keep it private '

Следующий шаг - начать процесс подсчета. Мы можем использовать CountVectorizer для создания словаря из всего текста в нашем df_idf ['text'] и генерировать счетчики для каждой строки в df_idf ['text']. Результатом последних двух строк является разреженное матричное представление счетчиков, означающее, что каждый столбец представляет слово в словаре, а каждая строка представляет документ в нашем наборе данных, где значения являются счетчиками слов. Обратите внимание, что в этом представлении количество слов может быть равно 0, если слово не появилось в соответствующем документе.

In [72]:
from sklearn.feature_extraction.text import CountVectorizer
import re

def get_stop_words(stop_file_path):
    """load stop words """
    
    with open(stop_file_path, 'r', encoding="utf-8") as f:
        stopwords = f.readlines()
        stop_set = set(m.strip() for m in stopwords)
        return frozenset(stop_set)

#load a set of stop words
stopwords=get_stop_words("stopwords.txt")

#get the text column 
docs=df_idf['text'].tolist()

#create a vocabulary of words, 
#ignore words that appear in 85% of documents, 
#eliminate stop words
cv=CountVectorizer(max_df=0.85,stop_words=stopwords)
word_count_vector=cv.fit_transform(docs)

  'stop_words.' % sorted(inconsistent))


Теперь давайте проверим форму полученного вектора. Обратите внимание, что форма ниже (20000, 149391), потому что у нас есть 20 000 документов в нашем наборе данных (строки), а размер словаря равен 149391, что означает, что у нас есть 149391 уникальных слов (столбцов) в нашем наборе данных минус стоп-слова. В некоторых приложениях интеллектуального анализа текста, таких как кластеризация и классификация текста, мы ограничиваем размер словарного запаса.

Что-ж, это легко сделать, установив max_features = vocab_size при создании экземпляра CountVectorizer.

In [74]:
word_count_vector.shape

(20000, 124901)

In [75]:
cv=CountVectorizer(max_df=0.85,stop_words=stopwords,max_features=10000)
word_count_vector=cv.fit_transform(docs)
word_count_vector.shape

  'stop_words.' % sorted(inconsistent))


(20000, 10000)

В приведенном ниже коде мы по существу берем разреженную матрицу из CountVectorizer для генерации IDF при вызове fit. **Чрезвычайно важный момент**, который следует здесь отметить, состоит в том, что IDF должен быть основан на большом корпусе текстов и должен быть репрезентативен к текстам, которые вы будете использовать для извлечения ключевых слов.

In [76]:
from sklearn.feature_extraction.text import TfidfTransformer

tfidf_transformer=TfidfTransformer(smooth_idf=True,use_idf=True)
tfidf_transformer.fit(word_count_vector)

TfidfTransformer()

In [77]:
tfidf_transformer.idf_

array([ 7.37717703,  9.80492526,  9.51724319, ...,  8.82409601,
       10.21039037,  9.51724319])

Как только мы вычислили наш IDF, мы теперь готовы вычислить TF-IDF и извлечь ключевые слова. В этом примере мы извлечем ключевые слова для вопросов в stackoverflow-test.json - новых текстов статистики про которые мы не видели. Этот файл данных содержит 500 вопросов с полями, идентичными полям stackoverflow-data-idf.json, как мы видели выше. Мы начнем с чтения нашего тестового файла, извлечения необходимых полей (заголовок и тело) и получения текстов в список.

In [78]:
# read test docs into a dataframe and concatenate title and body
df_test=pd.read_json("stackoverflow-test.json",lines=True)
df_test['text'] = df_test['title'] + df_test['body']
df_test['text'] =df_test['text'].apply(lambda x:pre_process(x))

# get test docs into a list
docs_test=df_test['text'].tolist()
docs_title=df_test['title'].tolist()
docs_body=df_test['body'].tolist()

In [79]:
def sort_coo(coo_matrix):
    tuples = zip(coo_matrix.col, coo_matrix.data)
    return sorted(tuples, key=lambda x: (x[1], x[0]), reverse=True)

def extract_topn_from_vector(feature_names, sorted_items, topn=10):
    """get the feature names and tf-idf score of top n items"""
    
    #use only topn items from vector
    sorted_items = sorted_items[:topn]

    score_vals = []
    feature_vals = []

    for idx, score in sorted_items:
        fname = feature_names[idx]
        
        #keep track of feature name and its corresponding score
        score_vals.append(round(score, 3))
        feature_vals.append(feature_names[idx])

    #create a tuples of feature,score
    #results = zip(feature_vals,score_vals)
    results= {}
    for idx in range(len(feature_vals)):
        results[feature_vals[idx]]=score_vals[idx]
    
    return results

Следующим шагом является вычисление значения tf-idf для данного документа в нашем тестовом наборе путем вызова tfidf_transformer.transform (...). Эта штука сгенерирует вектор оценок tf-idf. Затем мы сортируем слова в векторе в порядке убывания значений tf-idf, а затем выполняем итерацию, чтобы извлечь элементы top-n с соответствующими именами объектов. В приведенном ниже примере мы извлекаем ключевые слова для первого документа в нашем тесте.

Метод sort_coo (...) по существу сортирует значения в векторе, сохраняя при этом индекс столбца. Если у вас есть индекс столбца, тогда действительно легко найти соответствующее значение слова, как вы увидите в extract_topn_from_vector (...), где мы делаем feature_vals.append (feature_names [idx]).

In [80]:
# you only needs to do this once
feature_names=cv.get_feature_names()

# get the document that we want to extract keywords from
doc=docs_test[0]

#generate tf-idf for the given document
tf_idf_vector=tfidf_transformer.transform(cv.transform([doc]))

#sort the tf-idf vectors by descending order of scores
sorted_items=sort_coo(tf_idf_vector.tocoo())

#extract only the top n; n here is 10
keywords=extract_topn_from_vector(feature_names,sorted_items,10)

# now print the results
print("\n=====Title=====")
print(docs_title[0])
print("\n=====Body=====")
print(docs_body[0])
print("\n===Keywords===")
for k in keywords:
    print(k,keywords[k])


=====Title=====
Integrate War-Plugin for m2eclipse into Eclipse Project

=====Body=====
<p>I set up a small web project with JSF and Maven. Now I want to deploy on a Tomcat server. Is there a possibility to automate that like a button in Eclipse that automatically deploys the project to Tomcat?</p>

<p>I read about a the <a href="http://maven.apache.org/plugins/maven-war-plugin/" rel="nofollow noreferrer">Maven War Plugin</a> but I couldn't find a tutorial how to integrate that into my process (eclipse/m2eclipse).</p>

<p>Can you link me to help or try to explain it. Thanks.</p>

===Keywords===
eclipse 0.593
war 0.317
integrate 0.281
maven 0.273
tomcat 0.27
project 0.239
plugin 0.214
automate 0.157
jsf 0.152
possibility 0.146


Из ключевых слов, приведенных выше, верхние ключевые слова действительно имеют смысл, они говорят о eclipse, maven, integrate, war и tomcat, которые являются уникальными для этого конкретного вопроса. Есть пара ключевых слов, которые можно было бы исключить, например, possibility и, возможно, даже project, и вы можете сделать это, добавив более общие слова в свой список стоп-слов.

А теперь пробежимся по всему документу!

In [81]:
#generate tf-idf for all documents in your list. docs_test has 500 documents
tf_idf_vector=tfidf_transformer.transform(cv.transform(docs_test))

results=[]
for i in range(tf_idf_vector.shape[0]):
    
    # get vector for a single document
    curr_vector=tf_idf_vector[i]
    
    #sort the tf-idf vector by descending order of scores
    sorted_items=sort_coo(curr_vector.tocoo())

    #extract only the top n; n here is 10
    keywords=extract_topn_from_vector(feature_names,sorted_items,10)
    
    
    results.append(keywords)

df=pd.DataFrame(zip(docs,results),columns=['doc','keywords'])
df

Unnamed: 0,doc,keywords
0,serializing a private struct can it be done i ...,"{'eclipse': 0.593, 'war': 0.317, 'integrate': ..."
1,how do i prevent floated right content from ov...,"{'evaluate': 0.472, 'content': 0.403, 'console..."
2,gradle command line i m trying to run a shell ...,"{'appdomain': 0.409, 'dynamic': 0.384, 'perfor..."
3,loop variable as parameter in asynchronous fun...,"{'image': 0.424, 'jpg': 0.412, 'background': 0..."
4,canot get the href value hi i need to valid th...,"{'uri': 0.371, 'bitmap': 0.318, 'intent': 0.30..."
5,how to send values to from android to a html p...,"{'stylesheet': 0.466, 'font': 0.395, 'external..."
6,why is python s weekday different from tm_wday...,"{'word': 0.526, 'getsource': 0.337, 'player': ..."
7,get new inserted id in mvc controller to jquer...,"{'tcpclient': 0.364, 'ctx': 0.289, 'server': 0..."
8,datagridview not showing up in webpage i m usi...,"{'de': 0.585, 'whereclause': 0.317, 'grammar':..."
9,dnn linqtosql object reference not set to an i...,"{'line': 0.654, 'char': 0.2, 'flex': 0.183, 'c..."
