<img src="../data/UniBIT_Logo_5.jpeg">
<center>

# **Анализ и обработка на данни с Python**

<img src="../data/Lecture_Logo_2.webp">
    
## **УниБИТ**

</center>
Лекциите са базирани на публикуван в kaggle материал - https://www.kaggle.com/code/prashant111/a-beginners-guide-to-dealing-with-text-data

<a class="anchor" id="0"></a>
# **Work with Text Data**

# **Работа с текстови данни**

Тук са изложени някои често срещани начина за работа с текстови данни. Ще обсъдим различни методи за извличане на признаци. Ще започнем с някои основни техники, които ще доведат до напреднали техники за обработка на естествен език. Ще научим и за предварителната обработка на текстовите данни, за да извлечем по-добри характеристики от чисти данни.

<a class="anchor" id="0.1"></a>
# **Table of Contents** 

1.	[Introduction to Natural Language Processing](#1)
2.	[Basic feature extraction using text data](#2)
   - 2.1 [Count number of words](#2.1)
   - 2.2 [Count number of characters](#2.2)
   - 2.3 [Average word length](#2.3)
   - 2.4 [Number of stopwords](#2.4)
   - 2.5 [Number of special characters](#2.5)
   - 2.6 [Number of numerics](#2.6)
   - 2.7 [Number of uppercase words](#2.7)
3.	[Basic Text Pre-processing of text data](#3)
   - 3.1 [CountVectorization](#3.1)
   - 3.2 [HashingVectorizer](#3.2)
   - 3.3 [Lower casing](#3.3)
   - 3.4 [Punctuation removal](#3.4)
   - 3.5 [Stopwords removal](#3.5)
   - 3.6 [Frequent words removal](#3.6)
   - 3.7 [Rare words removal](#3.7)
   - 3.8 [Spelling correction](#3.8)
   - 3.9 [Tokenization](#3.9)
   - 3.10 [Stemming](#3.10)
   - 3.11 [Lemmatization](#3.11)
4.	[Advance Text Processing](#4)
   - 4.1 [N-grams](#4.1)
   - 4.2 [Term Frequency](#4.2)
   - 4.3 [Inverse Document Frequency](#4.3)
   - 4.4 [Term Frequency-Inverse Document Frequency (TF-IDF)](#4.4)
   - 4.5 [Bag of Words](#4.5)
   - 4.6 [Sentiment Analysis](#4.6)
5.  [References](#5)



# **1. Introduction to Natural Language Processing** <a class="anchor" id="1"></a>


[Съдържание](#0.1)


Ние често се сблъскваме с термина **Natural Language Processing (NLP)**- или **Натурална Езикова Обработка (НЕО)**. Но замисляли ли сте се някога какво разбираме под обработка на естествен език. Накратко, NLP е изкуството да се разбира значението и влиянието на думите - 


[Обработката на естествен език](https://en.wikipedia.org/wiki/Natural_language_processing) е подобласт на лингвистиката, компютърните науки, информационното инженерство и изкуствения интелект, която се занимава с взаимодействието между компютрите и човешките (естествените) езици, по-специално как да се програмират компютри за обработка и анализ на големи количества данни от естествен език.

Предизвикателствата при обработката на естествен език често включват [разпознаване на реч](https://en.wikipedia.org/wiki/Speech_recognition), [разбиране на естествен език](https://en.wikipedia.org/wiki/Natural-language_understanding) и [генериране на естествен език](https://en.wikipedia.org/wiki/Natural-language_generation).

Някои от най-полезните NLP техники, използващи се в практиката са:

- **CountVectorization**, 
- **Hashing Vectorization**, 
- **Term Frequency-Inverse Document Frequency (TF-IDF)**, 
- **Lemmatization**, 
- **Stemming**, 
- **Parsing**, and 
- **Sentiment Analysis**.

# **2. Извличане на характеристики от текстови данни** <a class="anchor" id="2"></a>


[Съдържание](#0.1)


- Да предположим, че нямаме достатъчно познания по обработка на естествен език.

- Все пак можем да използваме някои основни техники за извличане на признаци, за да извлечем признаци от текстови данни.

- В този раздел ще разгледаме някои основни техники за извличане на признаци.

- Но първо нека импортираме данните.

- За тази тетрадка използвахме данните от [Twitter Sentiment Analysis](https://www.kaggle.com/arkhoshghalb/twitter-sentiment-analysis-hatred-speech).

### **Load necessary libraries**

In [1]:
# Тази среда на Python 3 идва с много, предварително инсталирани, полезни библиотеки за анализ
# It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python
# Например, ето няколко полезни пакета за зареждане 

import numpy as np # линейна алгебра
import pandas as pd # обработка на данни, CSV файл I/O (напр. pd.read_csv)

# Файловете с входящи данни са налични в директорията "../input/".
# Например, стартирането на това (чрез щракване върху "run" или натискане на Shift+Enter) ще изведе всички файлове във входящата директория



### **Прочит на dataset**

In [88]:
%%time
#train = pd.read_csv('../data/train_text.csv')
train = pd.read_csv('../data/Train_Smirnenski.csv')
test = pd.read_csv('../data/Test_Smirnenski.csv')

CPU times: total: 0 ns
Wall time: 14.3 ms


### **Преглед на dataset**

In [89]:
train.head()

Unnamed: 0,ID,Text
0,0,Христо Смирненски
1,1,Да бъде ден
2,2,Том първи. Стихотворения
3,3,
4,4,I. Да бъде ден!


In [111]:
train.dtypes

ID              int64
Text           object
word_count      int64
char_count    float64
dtype: object

In [90]:
test.head()

Unnamed: 0,ID,Text
0,0,Христо Смирненски
1,1,
2,2,"Прости му, господи!*"
3,3,
4,4,[* _Публикация:_ Българан. Седмично хумористич...


In [112]:
test.dtypes

ID              int64
Text           object
word_count      int64
char_count    float64
dtype: object

## **2.1 Преброяване на думи** <a class="anchor" id="2.1"></a>


[Table of Contents](#0.1)


- Едно от най-основните изисквания в НЛП анализа е да преброите броя на думите във всеки tweet. Идеята зад това е, че          **негативните коментари съдържат по-малко думи от положителните**.

- Можем да изпълним горната задача (да преброим броя на думите), като използваме функцията **split** в python по следния начин-

In [113]:
def num_of_words(df):
    df['word_count'] = df['Text'].apply(lambda x : len(str(x).split(" ")))
    print(df[['Text','word_count']].head())

In [114]:
num_of_words(train)

                       Text  word_count
0         Христо Смирненски           2
1               Да бъде ден           3
2  Том първи. Стихотворения           3
3                       NaN           1
4           I. Да бъде ден!           4


In [115]:
num_of_words(test)

                                                Text  word_count
0                                  Христо Смирненски           2
1                                                NaN           1
2                               Прости му, господи!*           3
3                                                NaN           1
4  [* _Публикация:_ Българан. Седмично хумористич...          19


- Виждаме, че броят на думите във всеки туит е изчислен по-горе.

##  **2.2 Преброяване на броя знаци**  <a class="anchor" id="2.2"></a>


[Table of Contents](#0.1)


- Можем също така да изчислим броя знаци във всеки tweet. Начина е много подобен на предния.

- Това може да се постигне чрез изчисляване на дължината на tweet-а по следния начин -

In [6]:
def num_of_chars(df):
    df['char_count'] = df['Text'].str.len() ## това също включва интервали
    print(df[['Text','char_count']].head())

In [117]:
num_of_chars(train)

                       Text  char_count
0         Христо Смирненски        17.0
1               Да бъде ден        11.0
2  Том първи. Стихотворения        24.0
3                       NaN         NaN
4           I. Да бъде ден!        15.0


In [118]:
num_of_chars(test)

                                                Text  char_count
0                                  Христо Смирненски        17.0
1                                                NaN         NaN
2                               Прости му, господи!*        20.0
3                                                NaN         NaN
4  [* _Публикация:_ Българан. Седмично хумористич...       122.0


- Можем да видим, че броят на символите във всеки tweet е изчислен по-горе.

- Горното изчисление ще включва и броя на интервалите, които можем да премахнем, ако е необходимо.

## **2.3 Средна дължина на думата** <a class="anchor" id="2.3"></a>


[Table of Contents](#0.1)


- Сега броят на думите и броят на знаците са важни. Но има друга особеност, която също е важна, е **средната дължина на думата** на всеки туит. Тази функция може да ни помогне да подобрим нашия модел.

- Можем да изпълним горната задача, като просто вземем сумата от дължината на всички думи и я разделим на общата дължина на туита.

In [8]:
def avg_word(sentence):
    words = sentence.split()    
    return (sum(len(word) for word in words)/len(words))

In [9]:
def avg_word_length(df):
    df['avg_word'] = df['Text'].apply(lambda x: avg_word(x))
    print(df[['Text','avg_word']].head())

In [18]:
avg_word_length(train)

AttributeError: 'float' object has no attribute 'split'

In [123]:
avg_word_length(test)

AttributeError: 'float' object has no attribute 'split'

## **2.4 Брой стоп думи** <a class="anchor" id="2.4"></a>


[Table of Contents](#0.1)


- Като цяло, когато решаваме всеки НЛП проблем, първото нещо, което правим, е да премахнем стоп думите. Но какво са стоп думите?

- **Stop words**: Стоп думата е често използвана дума като `the`, `a`, `an`, `in`, които се филтрират преди или след обработката на данни на естествен език (текст). Понякога изчисляването на броя на спиращите думи може също да ни даде допълнителна информация, която може да сме загубили преди.

- За повече информация относно стоп думите, моля, посетете следните връзки-

- https://en.wikipedia.org/wiki/Stop_words

- https://www.geeksforgeeks.org/removing-stop-words-nltk-python/

- https://kavita-ganesan.com/what-are-stop-words/#.XowrncgzbIU


- За да проверим списъка със стоп думи, можем да напишем следните команди.

In [15]:
import nltk
#from nltk.corpus import stopwords
#set(stopwords.words('english'))

stopwords = pd.read_csv('../data/stopwords_bulgarian.txt')

- Можем да преброим броя на стоп думите, по следния начин-

In [125]:
#from nltk.corpus import stopwords
#stop = stopwords.words('english')

In [126]:
def stop_words(df):
    df['stopwords'] = df['Text'].apply(lambda x: len([x for x in x.split() if x in stop]))
    print(df[['Text','stopwords']].head())

In [127]:
stop_words(train)

AttributeError: 'float' object has no attribute 'split'

In [128]:
stop_words(test)

AttributeError: 'float' object has no attribute 'split'

## **2.5 Брой специални знаци** <a class="anchor" id="2.5"></a>


[Table of Contents](#0.1)


- Още една интересна функция, която можем да извлечем от един туит, е да изчислим броя на хаштаговете в него. Той също така помага при извличането на допълнителна информация от нашите текстови данни.

- Тук използваме функцията „startswith“, тъй като хаштаговете винаги се появяват в началото на думата.

In [129]:
def hash_tags(df):
    df['hashtags'] = df['Text'].apply(lambda x: len([x for x in x.split() if x.startswith('#')]))
    print(df[['Text','hashtags']].head())

In [130]:
hash_tags(train)

AttributeError: 'float' object has no attribute 'split'

In [23]:
hash_tags(test)

                                               tweet  hashtags
0  #studiolife #aislife #requires #passion #dedic...         7
1   @user #white #supremacists want everyone to s...         4
2  safe ways to heal your #acne!!    #altwaystohe...         4
3  is the hp and the cursed child book up for res...         3
4    3rd #bihday to my amazing, hilarious #nephew...         2


## **2.6 Брой числа** <a class="anchor" id="2.6"></a>


[Table of Contents](#0.1)


- Точно както изчислихме броя на думите, можем да изчислим и броя на числата, които присъстват в туитовете. Това е полезна функция, която трябва да се изпълнява, докато правите подобни упражнения. Например -

In [24]:
def num_numerics(df):
    df['numerics'] = df['tweet'].apply(lambda x: len([x for x in x.split() if x.isdigit()]))
    print(df[['tweet','numerics']].head())

In [25]:
num_numerics(train)

                                               tweet  numerics
0   @user when a father is dysfunctional and is s...         0
1  @user @user thanks for #lyft credit i can't us...         0
2                                bihday your majesty         0
3  #model   i love u take with u all the time in ...         0
4             factsguide: society now    #motivation         0


In [26]:
num_numerics(test)

                                               tweet  numerics
0  #studiolife #aislife #requires #passion #dedic...         0
1   @user #white #supremacists want everyone to s...         0
2  safe ways to heal your #acne!!    #altwaystohe...         0
3  is the hp and the cursed child book up for res...         0
4    3rd #bihday to my amazing, hilarious #nephew...         0


## **2.7 Брой думи с главни букви**  <a class="anchor" id="2.7"></a>


[Table of Contents](#0.1)


- Гневът или яростта често се изразяват чрез писане с ГЛАВНИ БУКВИ, което прави това необходима операция за идентифициране на тези думи.

In [27]:
def num_uppercase(df):
    df['upper_case'] = df['tweet'].apply(lambda x: len([x for x in x.split() if x.isupper()]))
    print(df[['tweet','upper_case']].head())

In [28]:
num_uppercase(train)

                                               tweet  upper_case
0   @user when a father is dysfunctional and is s...           0
1  @user @user thanks for #lyft credit i can't us...           0
2                                bihday your majesty           0
3  #model   i love u take with u all the time in ...           0
4             factsguide: society now    #motivation           0


In [29]:
num_uppercase(test)

                                               tweet  upper_case
0  #studiolife #aislife #requires #passion #dedic...           0
1   @user #white #supremacists want everyone to s...           0
2  safe ways to heal your #acne!!    #altwaystohe...           0
3  is the hp and the cursed child book up for res...           0
4    3rd #bihday to my amazing, hilarious #nephew...           0


# **3. Основна обработка на текст** <a class="anchor" id="3"></a>


[Table of Contents](#0.1)


- Досега се научихме как да извличаме основни характеристики от текстови данни.

- Сега преминаваме към извличане на текст и характеристики. 

- Първата ни стъпка трябва да бъде да изчистим данните, за да получим по-добри характеристики.

- Ще постигнем това, като извършим някои от основните стъпки за предварителна обработка на нашите данни за обучение.

- И така, нека да се запознаем с това.

## **3.1 CountVectorization** <a class="anchor" id="3.1"></a>


[Table of Contents](#0.1)


- **[CounterVectorization](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html)** е библиотека SciKitLearn, която приема всеки текстов документ и връща всяка уникална дума като характеристика с броя на срещанията на тази дума.
 
- Tова може да генерира много функции с някои изключително полезни параметри, които помагат да се избегне това, включително stop_words, n_grams и max_features.

- **Stop words** генерира списък с думи, които няма да бъдат включени като функция. Основната употреба на това е „английският“ речник, където ще се отърве от незначителни думи като „is, the, a, it“, като „които могат да се появяват доста често, но имат малко или никакво влияние върху нашата крайна цел.

- **ngrams_range** избира как можете да групирате думите заедно. Вместо NLP да връща всяка дума поотделно, можем да получим резултати като „Здравей отново“, ако е равно на 2 или „Ще се видим по-късно“, ако е равно на 3.

- **max_features** е колко функции сте избрали да създадете. Ако изберем да е равно на нито една, това означава, че ще получим всички и всички думи като характеристики, но ако го зададем равно на 50, ще получите само 50-те най-често използвани думи.




In [32]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
          'This is the first document.',
          'This document is the second document.',
          'And this is the third one.',
          'Is this the first document?',
         ]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())

AttributeError: 'CountVectorizer' object has no attribute 'get_feature_names'

In [33]:
print(X.toarray())

[[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 0 0 1 1 0 1 1 1]
 [0 1 1 1 0 0 1 0 1]]


In [34]:
vectorizer2 = CountVectorizer(analyzer='word', ngram_range=(2, 2))
X2 = vectorizer2.fit_transform(corpus)
print(vectorizer2.get_feature_names())

AttributeError: 'CountVectorizer' object has no attribute 'get_feature_names'

In [35]:
print(X2.toarray())

[[0 0 1 1 0 0 1 0 0 0 0 1 0]
 [0 1 0 1 0 1 0 1 0 0 1 0 0]
 [1 0 0 1 0 0 0 0 1 1 0 1 0]
 [0 0 1 0 1 0 1 0 0 0 0 0 1]]


## **3.2 HashingVectorizer** <a class="anchor" id="3.2"></a>


[Table of Contents](#0.1)


- [Hashing Vectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.HashingVectorizer.html) преобразува текста в матрица от събития, използвайки „hashing trick“.


- Преобразува колекция от текстови документи в матрица от срещания на токени.

- Превръща колекция от текстови документи в scipy.sparse матрица, съдържаща броя на срещанията на токени (или двоична информация за срещанията), евентуално нормализирани като честоти на токени, ако norm=’l1’ или проектирани върху сферата на евклидовата единица, ако norm=’l2’.

- Това внедряване на векторизатор на текст използва трика за хеширане, за да намери името на низа на токена, за да включва съпоставяне на целочислен индекс.

- Всяка дума е съпоставена с функция и използването на хеш функцията я преобразува в хеш.

- Ако думата се появи отново в тялото на текста, тя се преобразува в същата функция, която ни позволява да я броим в същата функция, без да запазваме речник в паметта.

In [36]:
from sklearn.feature_extraction.text import HashingVectorizer
corpus = [
          'This is the first document.',
          'This document is the second document.',
          'And this is the third one.',
          'Is this the first document?',
         ]
vectorizer = HashingVectorizer(n_features=2**4)
X = vectorizer.fit_transform(corpus)
print(X.shape)

(4, 16)


## **3.3 Lower Casing(Малки букви)** <a class="anchor" id="3.3"></a>


[Table of Contents](#0.1)


- Друга стъпка на предварителна обработка, която ще направим, е да трансформираме нашите туитове в малки букви.
- Това избягва наличието на множество копия на едни и същи думи.
- Например, докато изчислявате броя на думите, „Аналитика“ и „аналитика“ ще се приемат като различни думи.

In [37]:
def lower_case(df):
    df['tweet'] = df['tweet'].apply(lambda x: " ".join(x.lower() for x in x.split()))
    print(df['tweet'].head())

In [38]:
lower_case(train)

0    @user when a father is dysfunctional and is so...
1    @user @user thanks for #lyft credit i can't us...
2                                  bihday your majesty
3    #model i love u take with u all the time in ur...
4                  factsguide: society now #motivation
Name: tweet, dtype: object


In [39]:
lower_case(test)

0    #studiolife #aislife #requires #passion #dedic...
1    @user #white #supremacists want everyone to se...
2    safe ways to heal your #acne!! #altwaystoheal ...
3    is the hp and the cursed child book up for res...
4    3rd #bihday to my amazing, hilarious #nephew e...
Name: tweet, dtype: object


## **3.4 Punctuation Removal(Премахване на пунктуацията)** <a class="anchor" id="3.4"></a>


[Table of Contents](#0.1)


- Следващата стъпка е да премахнете препинателните знаци, тъй като не добавя допълнителна информация, докато обработва текстови данни.

- Следователно премахването на всички негови екземпляри ще ни помогне да намалим размера на данните за обучение.

In [40]:
def punctuation_removal(df):
    df['tweet'] = df['tweet'].str.replace('[^\w\s]','')
    print(df['tweet'].head())

In [41]:
punctuation_removal(train)

0    @user when a father is dysfunctional and is so...
1    @user @user thanks for #lyft credit i can't us...
2                                  bihday your majesty
3    #model i love u take with u all the time in ur...
4                  factsguide: society now #motivation
Name: tweet, dtype: object


In [42]:
punctuation_removal(test)

0    #studiolife #aislife #requires #passion #dedic...
1    @user #white #supremacists want everyone to se...
2    safe ways to heal your #acne!! #altwaystoheal ...
3    is the hp and the cursed child book up for res...
4    3rd #bihday to my amazing, hilarious #nephew e...
Name: tweet, dtype: object


- Виждаме, че всички препинателни знаци, включително „#“ и „@“, са премахнати от данните за обучението.

## **3.5 Stop Words Removal(Спиране на премахването на думи)**  <a class="anchor" id="3.5"></a>


[Table of Contents](#0.1)


- Както обсъдихме по-рано, спиращите думи (или често срещаните думи) трябва да бъдат премахнати от текстовите данни.
- За тази цел можем или сами да създадем списък със стоп думи, или можем да използваме предварително дефинирани библиотеки.

In [43]:
from nltk.corpus import stopwords
stop = stopwords.words('english')

In [44]:
def stop_words_removal(df):
    df['tweet'] = df['tweet'].apply(lambda x: " ".join(x for x in x.split() if x not in stop))
    print(df['tweet'].head())

In [45]:
stop_words_removal(train)

0    @user father dysfunctional selfish drags kids ...
1    @user @user thanks #lyft credit can't use caus...
2                                       bihday majesty
3    #model love u take u time urð±!!! ððð...
4                      factsguide: society #motivation
Name: tweet, dtype: object


In [46]:
stop_words_removal(test)

0    #studiolife #aislife #requires #passion #dedic...
1    @user #white #supremacists want everyone see n...
2    safe ways heal #acne!! #altwaystoheal #healthy...
3    hp cursed child book reservations already? yes...
4    3rd #bihday amazing, hilarious #nephew eli ahm...
Name: tweet, dtype: object


## **3.6 Frequent Words Removal**  <a class="anchor" id="3.6"></a>


[Table of Contents](#0.1)


- Можем също така да премахваме често срещани думи от нашите текстови данни.

- Първо, нека проверим 10-те най-често срещани думи в нашите текстови данни, след което приемем повикване, за да премахнем или запазим.

In [47]:
freq = pd.Series(' '.join(train['tweet']).split()).value_counts()[:10]
freq

@user    17291
&amp;     1574
day       1454
#love     1449
happy     1328
-         1244
u         1116
love      1112
i'm        992
like       920
Name: count, dtype: int64

Сега ще премахнем тези думи, тъй като тяхното присъствие няма да е от полза при класифицирането на нашите текстови данни.

In [None]:
freq = list(freq.index)

In [None]:
def frequent_words_removal(df):    
    df['tweet'] = df['tweet'].apply(lambda x: " ".join(x for x in x.split() if x not in freq))
    print(df['tweet'].head())

In [None]:
frequent_words_removal(train)

In [None]:
frequent_words_removal(test)

## **3.7 Rare Words Removal**  <a class="anchor" id="3.7"></a>


[Table of Contents](#0.1)


- Сега ще премахнем рядко срещаните думи от текста.
- Тъй като са толкова редки, връзката между тях и други думи е доминирана от шум.
- Можем да заменим редки думи с по-обща форма и тогава това ще има по-висок брой.

In [None]:
freq = pd.Series(' '.join(train['tweet']).split()).value_counts()[-10:]
freq

In [None]:
freq = list(freq.index)

In [None]:
def rare_words_removal(df):
    df['tweet'] = df['tweet'].apply(lambda x: " ".join(x for x in x.split() if x not in freq))
    print(df['tweet'].head())

In [None]:
rare_words_removal(train)

In [None]:
rare_words_removal(test)

- Всички тези стъпки на предварителна обработка са от съществено значение и ни помагат да намалим бъркотията в нашия речник, така че създадените в крайна сметка характеристики да са по-ефективни.

## **3.8 Spelling Correction**  <a class="anchor" id="3.8"></a>


[Table of Contents](#0.1)



- Сега туитовете могат да бъдат пълни с множество правописни грешки. Нашата задача е да поправим тези правописни грешки.

- В този контекст корекцията на правописа е полезна стъпка за предварителна обработка, защото това също ще ни помогне да намалим множеството копия на думи. Например „Analytics“ и „analytcs“ ще се третират като различни думи, дори ако се използват в същия смисъл.

- За да изпълним горната задача, ще използваме библиотеката на текстови блокове, както следва-

In [None]:
from textblob import TextBlob

In [None]:
def spell_correction(df):
    return df['tweet'][:5].apply(lambda x: str(TextBlob(x).correct()))

In [None]:
spell_correction(train)

In [None]:
spell_correction(test)

## **3.9 Tokenization** <a class="anchor" id="3.9"></a>


[Table of Contents](#0.1)


- [Tokenization](https://www.geeksforgeeks.org/nlp-how-tokenizing-text-sentence-words-works/) се отнася до разделяне на текста на поредица от думи или изречения.

- В нашия пример използвахме библиотеката с текстови блокове, за да трансформираме първо нашите туитове в петно ​​и след това да ги преобразуваме в поредица от думи.

In [None]:
def tokens(df):
    return TextBlob(df['tweet'][1]).words

In [None]:
tokens(train)

In [None]:
tokens(test)

## **3.10 Stemming** <a class="anchor" id="3.10"></a>


[Table of Contents](#0.1)


- [Stemming](https://www.geeksforgeeks.org/introduction-to-stemming/) се отнася до премахването на достатъчно, като "ing", "ly", "s" и т.н. чрез прост подход, базиран на правила.

- И така, произходът взема дума и я препраща обратно към нейната основа или коренна форма. **Stems**, **Stemming**, **Stemmed** и **Stemtization** се базират на една дума **stemming**.

- За целта ще използваме *PorterStemmer* от NLTK библиотеката.

In [None]:
from nltk.stem import PorterStemmer
st = PorterStemmer()

In [None]:
def stemming(df):
    return df['tweet'][:5].apply(lambda x: " ".join([st.stem(word) for word in x.split()]))

In [None]:
stemming(train)

In [None]:
stemming(test)

- We can see that *dysfunctional* has been transformed into *dysfunct*, among other changes.

## **3.11 Лематизацията** <a class="anchor" id="3.11"></a>


[Table of Contents](#0.1)


- [Лематизацията](https://www.geeksforgeeks.org/python-lemmatization-with-nltk/) е процес на преобразуване на дума в нейната основна форма. Разликата между корена и лематизацията е, че лематизацията взема предвид контекста и преобразува думата в нейната смислена основна форма, докато коренът просто премахва последните няколко знака, което често води до неправилни значения и правописни грешки.

- Лематизацията е по-ефективен вариант от произтичането, защото преобразува думата в нейната коренна дума, а не просто премахва суфициите.

- Лематизацията използва речника и прави морфологичен анализ, за ​​да получи корена на думата. Затова обикновено предпочитаме да използваме лематизацията пред stemming.

In [None]:
from textblob import Word

In [None]:
def lemmatization(df):
    df['tweet'] = df['tweet'].apply(lambda x: " ".join([Word(word).lemmatize() for word in x.split()]))
    print(df['tweet'].head())

In [None]:
lemmatization(train)

In [None]:
lemmatization(test)

# **4. Advanced Text Processing** <a class="anchor" id="4"></a>


[Table of Contents](#0.1)


- Until now, we have covered all the basic pre-processing steps which are helpful in order to clean our data.

- Now,we will move on and focus on advanced text-processing or NLP techniques.

## **4.1 N-grams** <a class="anchor" id="4.1"></a>


[Table of Contents](#0.1)


- [N-grams](https://kavita-ganesan.com/what-are-n-grams/#.Xo3jccgzbIU) са комбинация от няколко думи, използвани заедно. Ngrams с N=1 се наричат ​​**униграми**. По същия начин, **биграми (N=2)**, **триграми (N=3)** и т.н.

- **Униграмите** обикновено не съдържат толкова много информация в сравнение с **биграмите** и **триграмите**. Основният принцип зад n-грамите е, че те улавят езиковата структура, като например коя буква или дума е вероятно да последва дадената.

- Колкото по-дълъг е n-gram (колкото по-високо е n), с толкова повече контекст трябва да работите. Оптималната дължина наистина зависи от приложението – ако вашите n-грамове са твърде къси, може да не успеете да уловите важни разлики. От друга страна, ако са твърде дълги, може да не успеете да уловите „общите знания“ и да се придържате само към конкретни случаи.

- Сега ще извлечем биграми от нашите туитове с помощта на функцията ngrams на библиотеката textblob.

In [None]:
from textblob import TextBlob

In [None]:
def combination_of_words(df):
    return (TextBlob(df['tweet'][0]).ngrams(2))

In [None]:
combination_of_words(train)

In [None]:
combination_of_words(test)

## **4.2 Term Frequency**  <a class="anchor" id="4.2"></a>


[Table of Contents](#0.1)


- Честотата на термина е просто съотношението на броя на думата, присъстваща в изречението, към дължината на изречението.

- Следователно можем да обобщим термина честота като:

- TF = (Брой пъти, когато термин T се появява в конкретния ред) / (брой термини в този ред)

- Ще създадем таблица с термини и честоти на туит, както следва-

In [None]:
def term_frequency(df):
    tf1 = (df['tweet'][1:2]).apply(lambda x: pd.value_counts(x.split(" "))).sum(axis = 0).reset_index()
    tf1.columns = ['words','tf']
    return tf1.head()

In [None]:
term_frequency(train)

In [None]:
term_frequency(test)

## **4.3 Inverse Document Frequency (IDF)** <a class="anchor" id="4.3"></a>


[Table of Contents](#0.1)


- Интуитивността зад обратната честота на документа (IDF) е, че една дума не ни е много полезна, ако се появява във всички документи.

- Следователно IDF на всяка дума е логаритъм на съотношението на общия брой редове към броя редове, в които тази дума присъства.

- IDF може да се изчисли, както следва -

   **IDF = log(N/n)**,
   
 където N е общият брой редове, а n е броят редове, в които думата присъства.

- Сега ще изчислим IDF за същите туитове, за които изчислихме честотата на термина.

In [None]:
tf1 = (train['tweet'][1:2]).apply(lambda x: pd.value_counts(x.split(" "))).sum(axis = 0).reset_index()
tf1.columns = ['words','tf']
tf1.head()

In [None]:
tf2 = (test['tweet'][1:2]).apply(lambda x: pd.value_counts(x.split(" "))).sum(axis = 0).reset_index()
tf2.columns = ['words','tf']
tf2.head()

Колкото по-голяма е стойността на IDF, толкова по-уникална е думата.

## **4.4 Term Frequency – Inverse Document Frequency (TF-IDF)** <a class="anchor" id="4.4"></a>

[Table of Contents](#0.1)


- **TF-IDF** е умножението на TF и ​​IDF, което изчислихме отново по-долу за удобство.

In [None]:
tf1 = (train['tweet'][1:2]).apply(lambda x: pd.value_counts(x.split(" "))).sum(axis = 0).reset_index()
tf1.columns = ['words','tf']

In [None]:
for i,word in enumerate(tf1['words']):
    tf1.loc[i, 'idf'] = np.log(train.shape[0]/(len(train[train['tweet'].str.contains(word)])))

In [None]:
tf1['tfidf'] = tf1['tf'] * tf1['idf']
tf1

- Можем да видим, че TF-IDF е наказал думи като „не“, „не мога“ и „използвайте“, защото те са често срещани думи. Въпреки това, той даде голяма тежест на „разочарован“, тъй като това ще бъде много полезно при определяне на настроението на туита.

- Не е нужно да изчисляваме TF и ​​IDF всеки път предварително и след това да ги умножаваме, за да получим TF-IDF. Вместо това sklearn има отделна функция за директно получаване:

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(max_features=1000, lowercase=True, analyzer='word',
 stop_words= 'english',ngram_range=(1,1))
train_vect = tfidf.fit_transform(train['tweet'])
train_vect

## **4.5 Bag of Words** <a class="anchor" id="4.5"></a>

[Table of Contents](#0.1)


- [Bag of Words (BoW)](https://machinelearningmastery.com/gentle-introduction-bag-words-model/) се отнася до представянето на текст, което описва присъствието на думи в текстовите данни. Интуитивността зад това е, че две подобни текстови полета ще съдържат подобен вид думи и следователно ще имат подобен пакет от думи. Освен това, че само от текста можем да научим нещо за значението на документа.

- За изпълнение sklearn предоставя отделна функция за него, както е показано по-долу:

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
bow = CountVectorizer(max_features=1000, lowercase=True, ngram_range=(1,1),analyzer = "word")
train_bow = bow.fit_transform(train['tweet'])
train_bow

## **4.6 Sentiment Analysis**  <a class="anchor" id="4.6"></a>

[Table of Contents](#0.1)


- Сега стигаме до нашия проблем, който беше да открием настроението на туита. Така че, преди да приложите каквито и да е ML/DL модели (които могат да имат отделна функция, откриваща настроението с помощта на библиотеката на текстови блокове).

- Ще проверим настроението на първите няколко туита, както следва -

In [None]:
def polarity_subjectivity(df):
    return df['tweet'][:5].apply(lambda x: TextBlob(x).sentiment)

In [None]:
polarity_subjectivity(train)

In [None]:
polarity_subjectivity(test)

Можем да видим, че връща tuple, представляващ полярността и субективността на всеки туит. Тук извличаме само полярността, тъй като тя показва настроението, тъй като стойността, по-близка до 1, означава положителна нагласа, а стойностите, по-близки до -1, означават отрицателна нагласа. Това може да работи и като функция за изграждане на модел за машинно обучение.

In [None]:
def sentiment_analysis(df):
    df['sentiment'] = df['tweet'].apply(lambda x: TextBlob(x).sentiment[0] )
    return df[['tweet','sentiment']].head()

In [None]:
sentiment_analysis(train)

In [None]:
sentiment_analysis(test)

# **5. References** <a class="anchor" id="5"></a>


[Table of Contents](#0.1)


Този бележник е базиран на отлична статия от Shubham Jain -

- [Ultimate Guide to deal with Text Data](https://www.analyticsvidhya.com/blog/2018/02/the-different-methods-deal-text-data-predictive-python/)

Обсъдихме няколко общи начина за работа с текстови данни в този бележник. Тези методи ще ни дадат основно разбиране за това как да се справяме с текстови данни при прогнозно моделиране.

Надявам се да намерите тази тетрадка за полезна и приятна. Вашите коментари и отзиви са добре дошли.

Благодаря ви

[Go to Top](#0)	