# Przetwarzanie języka naturalnego


Nauczymy się przetwarzania języka naturalnego. Omówimy różne koncepcje, takie jak tokenizacja, wyprowadzanie i lematyzacja w celu przetwarzania tekstu. Następnie omówimy, jak zbudować model Bag of Words i wykorzystać go do klasyfikacji tekstu. Zobaczymy, jak wykorzystać uczenie maszynowe do analizy sentymentu danego zdania. Następnie omówimy modelowanie tematów i wdrożymy system identyfikacji tematów w danym dokumencie.

Pod koniec będziesz wiedział:
- Jak zainstalować odpowiednie pakiety
- Tokenizacja danych tekstowych
- Konwertowanie słów na ich formy podstawowe przy użyciu tematyki konwersyjnej
- Konwertowanie słów na ich formy podstawowe za pomocą lematyzacji Dzielenie danych tekstowych na fragmenty
- Wyodrębnianie macierzy terminów dokumentu za pomocą modelu Bag of Words
- Budowanie predyktora kategorii
- Konstruowanie identyfikatora płci
- Budowanie analizatora nastrojów (sentymentu)
- Modelowanie tematyczne z wykorzystaniem ukrytej alokacji Dirichleta

## Wprowadzenie i instalacja pakietów
Przetwarzanie języka naturalnego (NLP) stało się ważną częścią nowoczesnych systemów. Jest szeroko stosowany w wyszukiwarkach, interfejsach konwersacyjnych, procesorach dokumentów i tak dalej. Maszyny dobrze radzą sobie z danymi strukturalnymi. Ale jeśli chodzi o pracę z tekstem o dowolnej formie, mają trudności. Celem NLP jest opracowanie algorytmów, które umożliwią komputerom zrozumienie dowolnego tekstu i pomogą im zrozumieć język.

Jedną z najtrudniejszych rzeczy w przetwarzaniu dowolnego języka naturalnego jest ogromna liczba jego odmian. Kontekst odgrywa bardzo ważną rolę w zrozumieniu danego zdania. Ludzie są w tym wspaniali, ponieważ byliśmy szkoleni przez wiele lat. Natychmiast wykorzystujemy naszą przeszłą wiedzę, aby zrozumieć kontekst i wiedzieć, o czym mówi druga osoba.

Aby rozwiązać ten problem, badacze NLP zaczęli opracowywać różne aplikacje z wykorzystaniem metod uczenia maszynowego. Aby zbudować takie aplikacje, musimy zebrać duży korpus tekstu, a następnie wyszkolić algorytm do wykonywania różnych zadań, takich jak kategoryzowanie tekstu, analizowanie sentymentów lub modelowanie tematów. Te algorytmy są uczone do wykrywania wzorców w wejściowych danych tekstowych i uzyskiwania z nich szczegółowych informacji.
W tym rozdziale omówimy różne podstawowe pojęcia, które są używane do analizy tekstu i tworzenia aplikacji NLP. To pozwoli nam zrozumieć, jak wydobyć znaczące informacje z podanych danych tekstowych. Do tworzenia tych aplikacji użyjemy pakietu Pythona o nazwie Natural Language Toolkit (NLTK). Upewnij się, że zainstalowałeś.

In [None]:
#conda install nltk

In [None]:
#conda install scikit-learn

In [1]:
import nltk

In [5]:
nltk.download("punkt")
nltk.download('wordnet')
nltk.download('brown')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package brown to /root/nltk_data...
[nltk_data]   Package brown is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

## Tokenizacja danych tekstowych

Kiedy mamy do czynienia z tekstem, musimy podzielić go na mniejsze części do analizy. W tym miejscu pojawia się tokenizacja. Jest to proces dzielenia tekstu wejściowego na zestaw części, takich jak słowa lub zdania. Te elementy nazywane są żetonami. W zależności od tego, co chcemy zrobić, możemy zdefiniować własne metody podziału tekstu na wiele tokenów. Przyjrzyjmy się, jak tokenizować tekst wejściowy za pomocą NLTK.

In [2]:
from nltk.tokenize import sent_tokenize, word_tokenize, WordPunctTokenizer

In [6]:
# Define input text
input_text = "Do you know how tokenization works? It's actually quite interesting! Let's analyze a couple of sentences and figure it out."

# Sentence tokenizer
print("\nSentence tokenizer:")
print(sent_tokenize(text=input_text, language="english"))

# Word tokenizer
print("\nWord tokenizer:")
print(word_tokenize(input_text))

# WordPunct tokenizer
print("\nWord punct tokenizer:")
print(WordPunctTokenizer().tokenize(input_text))



Sentence tokenizer:
['Do you know how tokenization works?', "It's actually quite interesting!", "Let's analyze a couple of sentences and figure it out."]

Word tokenizer:
['Do', 'you', 'know', 'how', 'tokenization', 'works', '?', 'It', "'s", 'actually', 'quite', 'interesting', '!', 'Let', "'s", 'analyze', 'a', 'couple', 'of', 'sentences', 'and', 'figure', 'it', 'out', '.']

Word punct tokenizer:
['Do', 'you', 'know', 'how', 'tokenization', 'works', '?', 'It', "'", 's', 'actually', 'quite', 'interesting', '!', 'Let', "'", 's', 'analyze', 'a', 'couple', 'of', 'sentences', 'and', 'figure', 'it', 'out', '.']


## Konwersja słów do ich form podstawowych

Praca z tekstem ma wiele odmian. Musimy radzić sobie z różnymi formami tego samego słowa i umożliwić komputerowi zrozumienie, że te różne słowa mają tę samą formę podstawową. Na przykład słowo śpiewać może występować w wielu formach, takich jak śpiew, piosenkarz, śpiew, piosenkarz i tak dalej. Właśnie widzieliśmy zestaw słów o podobnym znaczeniu. Ludzie mogą łatwo zidentyfikować te podstawowe formy i wyprowadzić kontekst.

Kiedy analizujemy tekst, warto wyodrębnić te podstawowe formy. Umożliwi nam to uzyskanie przydatnych statystyk do analizy wprowadzonego tekstu. Stemming jest jednym ze sposobów osiągnięcia tego. Celem stemmera jest zredukowanie słów w ich różnych formach do wspólnej formy podstawowej. Jest to w zasadzie proces heurystyczny, który odcina końce słów, aby wyodrębnić ich podstawowe formy. Zobaczmy, jak to zrobić za pomocą NLTK.

In [8]:
from nltk.stem.porter import PorterStemmer
from nltk.stem.lancaster import LancasterStemmer
from nltk.stem.snowball import SnowballStemmer

In [10]:
input_words = ['writing', 'calves', 'be', 'branded', 'horse', 'horses', 'randomize',
        'possibly', 'provision', 'hospital', 'kept', 'scratchy', 'code']

# Create various stemmer objects
porter = PorterStemmer()
lancaster = LancasterStemmer()
snowball = SnowballStemmer('english')

# Create a list of stemmer names for display
stemmer_names = ['PORTER', 'LANCASTER', 'SNOWBALL']
formatted_text = '{:>16}' * (len(stemmer_names) + 1)
print('\n', formatted_text.format('INPUT WORD', *stemmer_names),
        '\n', '='*68)

# Stem each word and display the output
for word in input_words:
    output = [word, porter.stem(word), lancaster.stem(word), snowball.stem(word)]
    print(formatted_text.format(*output))


       INPUT WORD          PORTER       LANCASTER        SNOWBALL 
         writing           write            writ           write
          calves            calv            calv            calv
              be              be              be              be
         branded           brand           brand           brand
           horse            hors            hors            hors
          horses            hors            hors            hors
       randomize          random          random          random
        possibly         possibl            poss         possibl
       provision          provis          provid          provis
        hospital          hospit          hospit          hospit
            kept            kept            kept            kept
        scratchy        scratchi        scratchy        scratchi
            code            code             cod            code


Porozmawiajmy trochę o trzech algorytmach rdzenia, które są tutaj używane. W zasadzie wszyscy starają się osiągnąć ten sam cel. Różnica między nimi polega na poziomie ścisłości, który jest używany do uzyskania formy podstawowej.

Stemmer Porter  jest najmniej rygorystyczna, a Lancaster najsurowsza. Jeśli uważnie przyjrzysz się wynikom, zauważysz różnice. Stemmery zachowują się inaczej, jeśli chodzi o słowa takie jak possibly lub provision. Wyjścia stemplowane, które są uzyskiwane z lancastera Lancaster są nieco zaciemnione, ponieważ bardzo redukują słowa. Jednocześnie algorytm jest naprawdę szybki. Dobrą zasadą jest użycie łodygi Snowball, ponieważ jest to dobry kompromis między szybkością a ścisłością.

## Konwersja słów do ich form podstawowych za pomocą lematyzacji

Lematyzacja to kolejny sposób na zredukowanie słów do ich podstawowych form. W poprzedniej sekcji widzieliśmy, że formy podstawowe, które uzyskano z tych macierzystych, nie miały sensu. Na przykład wszyscy trzej hodowcy powiedzieli, że podstawową formą calves jest calv, co nie jest prawdziwym słowem. Lematyzacja wymaga bardziej uporządkowanego podejścia do rozwiązania tego problemu.
W procesie lematyzacji wykorzystuje się słownictwo i analizę morfologiczną słów. Formy podstawowe uzyskuje poprzez usunięcie końcówek fleksyjnych, takich jak ing czy ed. Ta podstawowa forma dowolnego słowa jest znana jako lemat. Jeśli lemmatyzujesz słowo calves, powinieneś otrzymać calf jako wynik. Należy zauważyć, że wynik zależy od tego, czy słowo jest czasownikiem, czy rzeczownikiem. Przyjrzyjmy się, jak to zrobić za pomocą NLTK.

In [11]:
from nltk.stem import WordNetLemmatizer

input_words = ['writing', 'calves', 'be', 'are', 'is', 'branded', 'horse', 'horses','randomize',
        'possibly', 'provision', 'hospital', 'kept', 'scratchy', 'code']

# Create lemmatizer object
lemmatizer = WordNetLemmatizer()

# Create a list of lemmatizer names for display
lemmatizer_names = ['NOUN LEMMATIZER', 'VERB LEMMATIZER']
formatted_text = '{:>24}' * (len(lemmatizer_names) + 1)
print('\n', formatted_text.format('INPUT WORD', *lemmatizer_names),
        '\n', '='*75)

# Lemmatize each word and display the output
for word in input_words:
    output = [word, lemmatizer.lemmatize(word, pos='n'),
           lemmatizer.lemmatize(word, pos='v')]
    print(formatted_text.format(*output))


               INPUT WORD         NOUN LEMMATIZER         VERB LEMMATIZER 
                 writing                 writing                   write
                  calves                    calf                   calve
                      be                      be                      be
                     are                     are                      be
                      is                      is                      be
                 branded                 branded                   brand
                   horse                   horse                   horse
                  horses                   horse                   horse
               randomize               randomize               randomize
                possibly                possibly                possibly
               provision               provision               provision
                hospital                hospital                hospital
                    kept                    kept

## Dzielenie danych tekstowych na porcje

W celu dalszej analizy dane tekstowe zwykle trzeba podzielić na części. Ten proces jest nazywany fragmentacją. Jest to często używane w analizie tekstu. Warunki używane do podzielenia tekstu na fragmenty mogą się różnić w zależności od problemu. To nie to samo, co tokenizacja, w której również dzielimy tekst na części. Podczas dzielenia na fragmenty nie stosujemy się do żadnych ograniczeń, a fragmenty wyjściowe muszą mieć znaczenie.
Kiedy mamy do czynienia z dużymi dokumentami tekstowymi, ważne staje się podzielenie tekstu na fragmenty, aby wydobyć znaczące informacje. W tej sekcji zobaczymy, jak podzielić tekst wejściowy na kilka części.

In [12]:
import numpy as np
from nltk.corpus import brown

In [13]:
# Split the input text into chunks, where each chunk contains N words
def chunker(input_data, N):
    input_words = input_data.split(' ')
    output = []

    cur_chunk = []
    count = 0
    for word in input_words:
        cur_chunk.append(word)
        count += 1
        if count == N:
            output.append(' '.join(cur_chunk))
            count, cur_chunk = 0, []

    output.append(' '.join(cur_chunk))

    return output

In [14]:
# Read the first 12000 words from the Brown corpus
input_data = ' '.join(brown.words()[:12000])

# Define the number of words in each chunk
chunk_size = 700

chunks = chunker(input_data, chunk_size)
print('\nNumber of text chunks =', len(chunks), '\n')
for i, chunk in enumerate(chunks):
    print('Chunk', i+1, '==>', chunk[:100])


Number of text chunks = 18 

Chunk 1 ==> The Fulton County Grand Jury said Friday an investigation of Atlanta's recent primary election produ
Chunk 2 ==> '' . ( 2 ) Fulton legislators `` work with city officials to pass enabling legislation that will per
Chunk 3 ==> . Construction bonds Meanwhile , it was learned the State Highway Department is very near being read
Chunk 4 ==> , anonymous midnight phone calls and veiled threats of violence . The former county school superinte
Chunk 5 ==> Harris , Bexar , Tarrant and El Paso would be $451,500 , which would be a savings of $157,460 yearly
Chunk 6 ==> set it for public hearing on Feb. 22 . The proposal would have to receive final legislative approval
Chunk 7 ==> College . He has served as a border patrolman and was in the Signal Corps of the U.S. Army . Denton 
Chunk 8 ==> of his staff were doing on the address involved composition and wording , rather than last minute de
Chunk 9 ==> plan alone would boost the base to $5,000 a year and t

In [15]:
chunks[0]

"The Fulton County Grand Jury said Friday an investigation of Atlanta's recent primary election produced `` no evidence '' that any irregularities took place . The jury further said in term-end presentments that the City Executive Committee , which had over-all charge of the election , `` deserves the praise and thanks of the City of Atlanta '' for the manner in which the election was conducted . The September-October term jury had been charged by Fulton Superior Court Judge Durwood Pye to investigate reports of possible `` irregularities '' in the hard-fought primary which was won by Mayor-nominate Ivan Allen Jr. . `` Only a relative handful of such reports was received '' , the jury said , `` considering the widespread interest in the election , the number of voters and the size of this city '' . The jury said it did find that many of Georgia's registration and election laws `` are outmoded or inadequate and often ambiguous '' . It recommended that Fulton legislators act `` to have t

## Wyodrębnianie częstotliwości terminów za pomocą modelu Bag of Words

Jednym z głównych celów analizy tekstu jest konwersja tekstu do postaci numerycznej, abyśmy mogli wykorzystać na nim uczenie maszynowe. Rozważmy dokumenty tekstowe, które zawierają wiele milionów słów. Aby przeanalizować te dokumenty, musimy wyodrębnić tekst i przekształcić go w formę reprezentacji numerycznej.

Algorytmy uczenia maszynowego potrzebują danych liczbowych do pracy, aby móc analizować dane i wyodrębniać znaczące informacje. W tym miejscu pojawia się model Bag of Words. Model ten wyodrębnia słownictwo ze wszystkich słów w dokumentach i buduje model przy użyciu matrycy terminów dokumentu. To pozwala nam przedstawić każdy dokument jako zbiór słów. Po prostu śledzimy liczbę słów i pomijamy szczegóły gramatyczne i kolejność słów.

Zobaczmy, o co chodzi w macierzy terminów dokumentu. Macierz terminów dokumentu to w zasadzie tabela, która podaje liczbę różnych słów występujących w dokumencie. Tak więc dokument tekstowy można przedstawić jako ważoną kombinację różnych słów. Możemy ustawić progi i wybrać słowa, które są bardziej znaczące. W pewnym sensie tworzymy histogram wszystkich słów w dokumencie, który będzie używany jako wektor cech. Ten wektor cech jest używany do klasyfikacji tekstu.

Rozważ następujące zdania:
- Sentence 1: The children are playing in the hall
- Sentence 2: The hall has a lot of space
- Sentence 3: Lots of children like playing in an open space

Jeśli weźmiesz pod uwagę wszystkie trzy zdania, mamy dziewięć niepowtarzalnych słów:
- the
- children
- are
- playing
- in
- hall
- has
- a
- lot
- of
- space
- like
- an
- open

Jest tutaj 14 różnych słów. Skonstruujmy histogram dla każdego zdania, używając liczby słów w każdym zdaniu. Każdy wektor cech będzie 14-wymiarowy, ponieważ w sumie mamy 14 różnych słów:

- Sentence 1: [2, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0]
- Sentence 2: [1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0]
- Sentence 3: [0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1]

Teraz, gdy wyodrębniliśmy te wektory cech, możemy użyć algorytmów uczenia maszynowego do analizy tych danych.
Zobaczmy, jak zbudować model Bag of Words w NLTK.

In [None]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import brown

In [None]:
# Read the data from the Brown corpus
input_data = ' '.join(brown.words()[:5400])

# Number of words in each chunk
chunk_size = 800

text_chunks = chunker(input_data, chunk_size)

# Convert to dict items
chunks = []
for count, chunk in enumerate(text_chunks):
    d = {'index': count,
         'text': chunk}
    chunks.append(d)

In [None]:
len(chunks)

In [None]:
# Extract the document term matrix
# min_df=7 - we ignore words that appear in less than 7 docs
# max_df=20 - we ignore words that appear in more than 20 docs
count_vectorizer = CountVectorizer(min_df=7, max_df=20)
document_term_matrix = count_vectorizer.fit_transform([chunk['text'] for chunk in chunks])

In [None]:
document_term_matrix

In [None]:
# Extract the vocabulary and display it
vocabulary = np.array(count_vectorizer.get_feature_names_out())
print("\nVocabulary:\n", vocabulary)

In [None]:
vocabulary

In [None]:
# Generate names for chunks
chunk_names = []
for i in range(len(text_chunks)):
    chunk_names.append('Chunk-' + str(i+1))

In [None]:
document_term_matrix.data

In [None]:
# Print the document term matrix
print("\nDocument term matrix:")
formatted_text = '{:>12}' * (len(chunk_names) + 1)
print('\n', formatted_text.format('Word', *chunk_names), '\n')
for word, item in zip(vocabulary, document_term_matrix.T):
    # 'item' is a 'csr_matrix' data structure
    output = [word] + [str(freq) for freq in item.data]
    print(formatted_text.format(*output))

## Budowanie predyktora kategorii

**Predyktor kategorii służy do przewidywania kategorii, do której należy dany fragment tekstu**. Jest to często używane w klasyfikacji tekstu do kategoryzowania dokumentów tekstowych. Wyszukiwarki często używają tego narzędzia do porządkowania wyników wyszukiwania według trafności. Załóżmy na przykład, że chcemy przewidzieć, czy dane zdanie należy do sportu, polityki czy nauki. Aby to zrobić, budujemy korpus danych i trenujemy algorytm. Algorytm ten można następnie wykorzystać do wnioskowania o nieznanych danych.

Aby zbudować ten predyktor, użyjemy miary zwanej **TermFrequency - Inverse Document Frequency (tf-idf)**. W zestawie dokumentów musimy zrozumieć znaczenie każdego słowa. Statystyka tf-idf pomaga nam zrozumieć, jak ważne jest dane słowo dla dokumentu w zestawie dokumentów.

Rozważmy pierwszą część tej miary. **tf dla danego terminu $t$ i dokumentu $d$ wyliczmay dzieląc liczbą wystąpień termu $t$ w dokumencie $d$ przez sumę liczby wystąpień wszystkich termów w dokumencie $d$**. Częstotliwość terminu (tf) jest w zasadzie miarą tego, jak często każde słowo pojawia się w danym dokumencie. Ponieważ różne dokumenty mają różną liczbę słów, dokładne liczby na histogramie będą się różnić. Aby mieć równe szanse, musimy znormalizować histogramy. Więc dzielimy liczbę każdego słowa przez całkowitą liczbę słów w danym dokumencie, aby otrzymać **częstotliwość terminu**.

Druga część miary to odwrotna częstotliwość dokumentów (idf). **idf, dla danego terminu $t$ i zbioru dokumentów $D$, obliczmay dzieląc liczbę dokumentów w korpusie przez liczba dokumentów w których ten termin (przynajmniej raz) występuje - wynik logarytmizujemy.** idf jest miarą unikalności słowa w dokumencie w kontekście zestawiu/korpusu dokumentów. Kiedy oblicza się częstotliwość terminu, zakłada się, że wszystkie słowa są jednakowo ważne. Ale nie możemy po prostu polegać na częstotliwości każdego słowa, ponieważ słowa takie jak "i" pojawiają się często. Aby zrównoważyć częstotliwości tych powszechnie występujących słów, musimy zmniejszyć ich wagę i zważyć rzadkie słowa. Pomaga nam to również zidentyfikować słowa, które są unikalne dla każdego dokumentu, co z kolei pomaga nam sformułować charakterystyczny wektor cech. idf jest zasadniczo ułamkiem dokumentów, które zawierają dane słowo.

Następnie łączymy częstotliwość terminów i odwrotną częstotliwość dokumentów, aby sformułować wektor cech do kategoryzacji dokumentów. Zobaczmy, jak zbudować predyktor kategorii.

In [None]:
from nltk.tokenize import sent_tokenize, word_tokenize
from sklearn.feature_extraction.text import CountVectorizer
import math

text = '''A sentence is typically associated with a clause and a clause can be either a clause simplex or a clause complex. A clause is a clause simplex if it represents a single process going on through time and it is a clause complex if it represents a logical relation between two or more processes and is thus composed of two or more clause simplexes.

A clause (simplex) typically contains a predication structure with a subject noun phrase and a finite verb. Although the subject is usually a noun phrase, other kinds of phrases (such as gerund phrases) work as well, and some languages allow subjects to be omitted. In the examples below, the subject of the outmost clause simplex is in italics and the subject of boiling is in square brackets. Notice that there is clause embedding in the second and third examples.

[Water] boils at 100 degrees Celsius.
It is quite interesting that [water] boils at 100 degrees Celsius.
The fact that [water] boils at 100 degrees Celsius is quite interesting.
There are two types of clauses: independent and non-independent/interdependent. An independent clause realises a speech act such as a statement, a question, a command or an offer. A non-independent clause does not realise any act. A non-independent clause (simplex or complex) is usually logically related to other non-independent clauses. Together they usually constitute a single independent clause (complex). For that reason, non-independent clauses are also called interdependent. For instance, the non-independent clause because I have no friends is related to the non-independent clause I don't go out in I don't go out, because I have no friends. The whole clause complex is independent because it realises a statement. What is stated is the causal nexus between having no friend and not going out. When such a statement is acted out, the fact that the speaker doesn't go out is already established, therefore it cannot be stated. What is still open and under negotiation is the reason for that fact. The causal nexus is represented by the independent clause complex and not by the two interdependent clause simplexes.
'''
docs = sent_tokenize(text) # 21 zdań

for index, doc in enumerate(docs):
    print(str(index)+".", doc)

count_vectorizer = CountVectorizer()

doc_term_matrix = count_vectorizer.fit_transform([doc for doc in docs])
vocabulary = count_vectorizer.get_feature_names_out()

def tf(term, doc_nr, vocabulary, doc_term_matrix):
    term = term.lower()
    tf=0
    if term in vocabulary:
        term_index = np.where(vocabulary == term)
        t_number = doc_term_matrix[doc_nr, term_index]
        all_occ = 0
        for position in range(len(vocabulary)):
            all_occ += doc_term_matrix[doc_nr, position]
    return t_number/all_occ

def idf(term, docs, vocabulary, doc_term_matrix):
    term_index = np.where(vocabulary == term)
    number_of_docs = len(docs)
    docs_with_term = 0
    for doc_nr in range(number_of_docs):
        if doc_term_matrix[doc_nr, term_index] > 0:
            docs_with_term += 1
    return math.log(number_of_docs / docs_with_term)

def tfidf(term, doc_nr, docs, vocabulary, doc_term_matrix):
    tf_result = tf(term, doc_nr, vocabulary, doc_term_matrix)
    idf_result = idf(term, docs, vocabulary, doc_term_matrix)
    return tf_result*idf_result

doc_nr = 0
word = "clause"

tf_result = tf(word, doc_nr, vocabulary, doc_term_matrix)
print("tf =",round(tf_result,2))

idf_result = idf(word, docs, vocabulary, doc_term_matrix)
print("idf =",round(idf_result,2))

tfidf_result = tfidf(word, doc_nr, docs, vocabulary, doc_term_matrix)
print("tfidf =",round(tfidf_result,2))

In [None]:
doc_nr = 0
for word in word_tokenize(docs[doc_nr]):
    if len(word) > 1:
        tf_result = tf(word, doc_nr, vocabulary, doc_term_matrix)
        idf_result = idf(word, docs, vocabulary, doc_term_matrix)
        tfidf_result = tfidf(word, doc_nr, docs, vocabulary, doc_term_matrix)
        print(round(tfidf_result,2), "(", round(tf_result,2), round(idf_result,2),")", word)

## 20newsgroups

In [None]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
help(fetch_20newsgroups)

In [None]:
# Define the category map
category_map = {'talk.politics.misc': 'Politics',
                'rec.autos': 'Autos',
                'rec.sport.hockey': 'Hockey',
                'sci.electronics': 'Electronics',
                'sci.med': 'Medicine'}

In [None]:
# Get the training dataset
training_data = fetch_20newsgroups(subset='train',
                                   categories=category_map.keys(),
                                   shuffle=True,
                                   random_state=5)

In [None]:
training_data.data[1]

In [None]:
training_data.target_names

In [None]:
# Build a count vectorizer and extract term counts
count_vectorizer = CountVectorizer()
train_tc = count_vectorizer.fit_transform(training_data.data)
print("\nDimensions of training data:", train_tc.shape)

In [None]:
# Create the tf-idf transformer
tfidf = TfidfTransformer()
train_tfidf = tfidf.fit_transform(train_tc)

In [None]:
# Train a Multinomial Naive Bayes classifier
classifier = MultinomialNB().fit(train_tfidf, training_data.target)

In [None]:
# Define test data
input_data = [
    'You need to be careful with cars when you are driving on slippery roads',
    'A lot of devices can be operated wirelessly',
    'Players need to be careful when they are close to goal posts',
    'Political debates help us understand the perspectives of both sides',
    'Citroën intends to reinforce Berlingo\'s adventurous spirit with this special edition, through an expressive and distinctive version, for a way of life geared towards freedom and action. Based on the core Feel Pack version of the range, the Berlingo Rip Curl has adopted an even more dynamic appearance with specific colour schemes both inside and out, and has been enhanced for the occasion by a number of features for even greater on-board comfort.'
]

# Transform input data using count vectorizer
input_tc = count_vectorizer.transform(input_data)

# Transform vectorized data using tfidf transformer
input_tfidf = tfidf.transform(input_tc)

# Predict the output categories
predictions = classifier.predict(input_tfidf)

# Print the outputs
for sent, category in zip(input_data, predictions):
    print('\nInput:', sent, '\nPredicted category:', \
            category_map[training_data.target_names[category]])

## Konstruowanie identyfikatora płci w oparciu o imiona

Identyfikacja płci jest interesującym problemem. W tym przypadku użyjemy heurystyki do skonstruowania wektora cech i użyjemy go do wytrenowania klasyfikatora. Heurystyka, która zostanie tutaj użyta, to ostatnie N liter danej nazwy. Na przykład, jeśli imię kończy się na "ia", najprawdopodobniej jest to imię żeńskie, na przykład Amelia lub Genelia. Z drugiej strony, jeśli imię kończy się na "rk", prawdopodobnie jest to imię męskie, takie jak Mark lub Clark. Ponieważ nie jesteśmy pewni dokładnej liczby liter, których należy użyć, będziemy bawić się tym parametrem, aby dowiedzieć się, jaka jest najlepsza odpowiedź.

In [None]:
import random
import nltk
from nltk import NaiveBayesClassifier
from nltk.classify import accuracy as nltk_accuracy
from nltk.corpus import names

In [None]:
nltk.download('names')

In [None]:
names.words('male.txt')

In [None]:
# Extract last N letters from the input word and that will act as our "feature"
def extract_features(word, N=2):
    last_n_letters = word[-N:]
    return {'feature': last_n_letters.lower()}

In [None]:
extract_features("Marky", N=1)

In [None]:
# Create training data using labeled names available in NLTK
male_list = [(name, 'male') for name in names.words('male.txt')]
female_list = [(name, 'female') for name in names.words('female.txt')]
data = (male_list + female_list)

# Seed the random number generator
random.seed(5)
# Shuffle the data
random.shuffle(data)

# Create test data
input_names = ['Alexander', 'Danielle', 'David', 'Cheryl', 'Robert']

# Define the number of samples used for train and test
num_train = int(0.8 * len(data))

In [None]:
data[0]

Będziemy używać ostatnich N znaków jako wektora cech do przewidywania płci. Będziemy zmieniać ten parametr, aby zobaczyć, jak zmienia się wydajność. W takim przypadku przejdziemy od 1 do 6:

In [None]:
# Iterate through different lengths to compare the accuracy
for i in range(1, 6):
    print('\nNumber of end letters:', i)
    features = [(extract_features(n, i), gender) for (n, gender) in data]
    train_data, test_data = features[:num_train], features[num_train:]
    classifier = NaiveBayesClassifier.train(train_data)

    # Compute the accuracy of the classifier
    accuracy = round(100 * nltk_accuracy(classifier, test_data), 2)
    print('Accuracy = ' + str(accuracy) + '%')

    # Predict outputs for input names using the trained classifier model
    for name in input_names:
        print(name, '==>', classifier.classify(extract_features(name, i)))

## Budowanie analizatora nastrojów

**Analiza sentymentu** to proces określania nastroju danego fragmentu tekstu. Na przykład może służyć do określenia, czy recenzja filmu jest pozytywna, czy negatywna. Jest to jedno z najpopularniejszych zastosowań przetwarzania języka naturalnego. W zależności od problemu możemy dodać więcej kategorii. **Ta technika jest zwykle używana, aby zorientować się, jak ludzie myślą o określonym produkcie, marce lub temacie. Jest często używany do analizowania kampanii marketingowych, sondaży, obecności w mediach społecznościowych, recenzji produktów w witrynach e-commerce i tak dalej.** Zobaczmy, jak określić sentyment recenzji filmu.

Do zbudowania tego klasyfikatora użyjemy klasyfikatora Naive Bayes. Najpierw musimy wyodrębnić wszystkie unikalne słowa z tekstu. Klasyfikator NLTK wymaga uporządkowania tych danych w postaci słownika, aby mógł je przyswoić. Po podzieleniu danych tekstowych na zestawy danych uczących i testujących, wyszkolimy klasyfikator Naive Bayes, aby klasyfikował recenzje na pozytywne i negatywne. Wydrukujemy również najważniejsze słowa informacyjne, aby wskazać pozytywne i negatywne recenzje. Ta informacja jest interesująca, ponieważ mówi nam, jakie słowa są używane do określenia różnych reakcji.

In [None]:
from nltk.corpus import movie_reviews
from nltk.classify import NaiveBayesClassifier
from nltk.classify.util import accuracy as nltk_accuracy

In [None]:
 # Extract features from the input list of words
def extract_features(words):
    return dict([(word, True) for word in words])

In [None]:
#nltk.download('movie_reviews')

In [None]:
movie_reviews.fileids('pos')

In [None]:
movie_reviews.words(fileids=['pos/cv000_29590.txt'])

In [None]:
# Load the reviews from the corpus
fileids_pos = movie_reviews.fileids('pos')
fileids_neg = movie_reviews.fileids('neg')

# Extract the features from the reviews
features_pos = [(extract_features(movie_reviews.words(fileids=[f])), 'Positive') for f in fileids_pos]
features_neg = [(extract_features(movie_reviews.words(fileids=[f])), 'Negative') for f in fileids_neg]

# Define the train and test split (80% and 20%)
threshold = 0.8
num_pos = int(threshold * len(features_pos))
num_neg = int(threshold * len(features_neg))

# Create training and training datasets
features_train = features_pos[:num_pos] + features_neg[:num_neg]
features_test = features_pos[num_pos:] + features_neg[num_neg:]

# Print the number of datapoints used
print('\nNumber of training datapoints:', len(features_train))
print('Number of test datapoints:', len(features_test))

In [None]:
features_neg[0]

In [None]:
# Train a Naive Bayes classifier
classifier = NaiveBayesClassifier.train(features_train)
print('\nAccuracy of the classifier:', nltk_accuracy(classifier, features_test))


N = 15
print('\nTop ' + str(N) + ' most informative words:')
for i, item in enumerate(classifier.most_informative_features()):
    print(str(i+1) + '. ' + item[0])
    if i == N - 1:
        break

In [None]:
# Test input movie reviews
input_reviews = [
    'The costumes in this movie were great',
    'I think the story was terrible and the characters were very weak',
    'People say that the director of the movie is amazing',
    'This is such an idiotic movie. I will not recommend it to anyone.'
]

print("\nMovie review predictions:")
for review in input_reviews:
    print("\nReview:", review)

    # Compute the probabilities
    probabilities = classifier.prob_classify(extract_features(review.split()))

    # Pick the maximum value
    predicted_sentiment = probabilities.max()

    # Print outputs
    print("Predicted sentiment:", predicted_sentiment)
    print("Probability:", round(probabilities.prob(predicted_sentiment), 2))

## Modelowanie tematyczne z wykorzystaniem ukrytej alokacji Dirichleta (Latent Dirichlet Allocation, LDA, LDiA)
**Modelowanie tematyczne to proces identyfikowania wzorców w danych tekstowych, które odpowiadają tematowi**. Jeśli tekst zawiera wiele tematów, można użyć tej techniki do zidentyfikowania i oddzielenia tych tematów w tekście wejściowym. Robimy to, aby odkryć ukrytą strukturę tematyczną w danym zestawie dokumentów.

Modelowanie tematyczne pomaga nam w optymalnym organizowaniu naszych dokumentów, które można następnie wykorzystać do analizy. Jedną rzeczą, na którą należy zwrócić uwagę w przypadku algorytmów modelowania tematycznego, jest to, że nie potrzebujemy żadnych oznaczonych danych. Jest to jak **uczenie się bez nadzoru**, w którym algorytm samodzielnie identyfikuje wzorce. Biorąc pod uwagę ogromną ilość danych tekstowych generowanych w Internecie, modelowanie tematyczne staje się bardzo ważne, ponieważ umożliwia podsumowanie wszystkich tych danych, co w innym przypadku nie byłoby możliwe.

**Utajona alokacja Dirichleta** to technika modelowania tematycznego, w której podstawową intuicją jest to, że dany fragment tekstu jest połączeniem wielu tematów. Rozważmy następujące zdanie

- "Wizualizacja danych jest ważnym narzędziem w analizie finansowej".

To zdanie zawiera wiele tematów, takich jak "dane", "wizualizacja", "finanse" i tak dalej. Ta szczególna kombinacja pomaga nam zidentyfikować ten tekst w dużym dokumencie. W istocie jest to model statystyczny, który próbuje uchwycić tę ideę i stworzyć na jej podstawie model.

Model ten zakłada, że dokumenty są generowane z losowego procesu na podstawie tych tematów. **Temat to po prostu podział na ustalony zbiór słów.**

In [None]:
#conda install gensim

In [None]:
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer
from gensim import models, corpora

In [None]:
# Load input data
def load_data(input_file):
    data = []
    with open(input_file, 'r') as f:
        for line in f.readlines():
            data.append(line[:-1])

    return data

In [None]:
#from nltk.stem import WordNetLemmatizer

# Processor function for tokenizing, removing stop words, and stemming
def process(input_text):
    # Create a regular expression tokenizer
    tokenizer = RegexpTokenizer(r'\w+')

    # Create a Snowball stemmer
    stemmer = SnowballStemmer('english')

    # Create lemmatizer object
    lemmatizer = WordNetLemmatizer()

    # Get the list of stop words
    stop_words = stopwords.words('english')

    # Tokenize the input string
    tokens = tokenizer.tokenize(input_text.lower())

    # Remove the stop words
    tokens = [x for x in tokens if not x in stop_words]

    # Perform stemming on the tokenized words
    tokens_stemmed = [stemmer.stem(x) for x in tokens]

#     # Perform stemming on the tokenized words
#     tokens_lemmatized = [lemmatizer.lemmatize(x) for x in tokens]

    return tokens_stemmed

In [None]:
#conda install train

In [None]:
# Load input data
data = load_data('data.txt')
print(len(data))
data[0]

In [None]:
# Create training data using labeled names available in NLTK
male_list = [(name, 'male') for name in names.words('male.txt')]
female_list = [(name, 'female') for name in names.words('female.txt')]
data = (male_list + female_list)
data

In [None]:
#nltk.download('stopwords')

In [None]:
# Create a list for sentence tokens
tokens = [process(sentence) for sentence in data]
tokens[0]

In [None]:
# Create a dictionary based on the sentence tokens
dict_tokens = corpora.Dictionary(documents=tokens)

In [None]:
dict_tokens[1]

In [None]:
# Create a document-term matrix
doc_term_mat = [dict_tokens.doc2bow(token) for token in tokens]
doc_term_mat[0]

In [None]:
# Define the number of topics for the LDA model
num_topics = 2

# Generate the LDA model
ldamodel = models.ldamodel.LdaModel(doc_term_mat,
                                    num_topics=num_topics,
                                    id2word=dict_tokens,
                                    passes=30)

num_words = 5
print('\nTop ' + str(num_words) + ' contributing words to each topic:')
for item in ldamodel.print_topics(num_topics=num_topics, num_words=num_words):
    print('\nTopic', item[0])

    # Print the contributing words along with their relative contributions
    list_of_strings = item[1].split(' + ')
    for text in list_of_strings:
        weight = text.split('*')[0]
        word = text.split('*')[1]
        print(word, '==>', str(round(float(weight) * 100, 2)) + '%')

Widzimy, że dość dobrze rozdziela dwa tematy - matematykę i historię. Jeśli przyjrzysz się tekstowi, możesz sprawdzić, czy każde zdanie dotyczy matematyki lub historii.

## Podsumowanie

Poznaliśmy różne koncepcje leżące u podstaw przetwarzania języka naturalnego. Omówiliśmy tokenizację i sposób rozdzielania tekstu wejściowego na wiele tokenów. Dowiedzieliśmy się, jak zredukować słowa do ich podstawowych form, używając tematyki i lematyzacji. Zaimplementowaliśmy fragment tekstu, aby podzielić tekst wejściowy na porcje w oparciu o predefiniowane warunki.

Omówiliśmy model Bag of Words i stworzyliśmy macierz terminów dokumentu dla tekstu wejściowego. Następnie nauczyliśmy się kategoryzować tekst za pomocą uczenia maszynowego. Skonstruowaliśmy identyfikator płci za pomocą heurystyki. Wykorzystaliśmy uczenie maszynowe do analizy nastrojów recenzji filmów. Omówiliśmy modelowanie tematów i wdrożyliśmy system identyfikacji tematów w danym dokumencie.