## Text search with Russian example
### Import libraries 

In [1]:
!pip install openpyxl



In [2]:
import textblob
import nltk
nltk.download('punkt')
import glob
import pandas as pd
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

[nltk_data] Downloading package punkt to
[nltk_data]     /datasets/home/72/872/sgeiger/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


### Scan and load all text files

In [3]:
glob.glob("documents/ru*.txt")

['documents/ru-1.txt',
 'documents/ru-2.txt',
 'documents/ru-3.txt',
 'documents/ru-4.txt']

In [4]:
all_texts = {}

for filename in glob.glob("documents/ru*.txt"):
    with open(filename) as file:
        all_texts[filename] = file.read().lower()

### Examine texts

In [5]:
all_texts

{'documents/ru-1.txt': 'алексей навальный: допрос в фашист-комендатуре очень напоминает это заседание суда. […] все документы от первого до последнего подделаны. а вы все используете несчастного деда как куклу. […] особенно омерзительны родственники этого человека, которые торгуют своим дедом, который ничего не соображает. вы будете гореть в аду за то, что вы взяли деда 95-летнего, нацепили на него эти медали и используете здесь для того, чтобы делать этот отвратительный, гнусный процесс. следователи фабрикуют дела, прокуроры — бессовестные люди, суды продажные! ',
 'documents/ru-2.txt': 'ну вот все говорят все время – ну, мы же сами, мы же не хотим, от нас требуют. ну, в общем, я скажу может быть страшную вещь – не все немцы участвовали в репрессиях против евреев, да. это то, что называется банальность зла. ну вот сначала здесь, уступим здесь немножко, уступим здесь немножко, ничего страшного, а потом смотрим, и режим уже совершенно другой. согласны со мной? ',
 'documents/ru-3.txt': 

In [6]:
all_texts['documents/ru-1.txt']

'алексей навальный: допрос в фашист-комендатуре очень напоминает это заседание суда. […] все документы от первого до последнего подделаны. а вы все используете несчастного деда как куклу. […] особенно омерзительны родственники этого человека, которые торгуют своим дедом, который ничего не соображает. вы будете гореть в аду за то, что вы взяли деда 95-летнего, нацепили на него эти медали и используете здесь для того, чтобы делать этот отвратительный, гнусный процесс. следователи фабрикуют дела, прокуроры — бессовестные люди, суды продажные! '

### Convert to pandas dataframe

In [7]:
all_texts_df = pd.DataFrame(all_texts,index=[0]).T
all_texts_df.columns = ["text"]
all_texts_df

Unnamed: 0,text
documents/ru-1.txt,"алексей навальный: допрос в фашист-комендатуре очень напоминает это заседание суда. […] все документы от первого до последнего подделаны. а вы все используете несчастного деда как куклу. […] особенно омерзительны родственники этого человека, которые торгуют своим дедом, который ничего не соображает. вы будете гореть в аду за то, что вы взяли деда 95-летнего, нацепили на него эти медали и используете здесь для того, чтобы делать этот отвратительный, гнусный процесс. следователи фабрикуют дела, прокуроры — бессовестные люди, суды продажные!"
documents/ru-2.txt,"ну вот все говорят все время – ну, мы же сами, мы же не хотим, от нас требуют. ну, в общем, я скажу может быть страшную вещь – не все немцы участвовали в репрессиях против евреев, да. это то, что называется банальность зла. ну вот сначала здесь, уступим здесь немножко, уступим здесь немножко, ничего страшного, а потом смотрим, и режим уже совершенно другой. согласны со мной?"
documents/ru-3.txt,"даже дарт вейдер выступил в поддержку навального.\n14 февраля по всей россии и в некоторых городах за рубежом прошли акции в поддержку алексея навального под лозунгом «любовь сильнее страха». участники выходили на улицы с включенными фонариками, делали фотографии и выкладывали их в соцсети. некоторые приходили на акцию в костюме дарта вейдера, другие запускали фейерверки или устраивали аквадискотеку с танцами. \n"
documents/ru-4.txt,страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и


### Calculate word counts

In [8]:
def word_count(text):
    return len(text.split(" "))

In [9]:
all_texts_df['text'].apply(word_count)

documents/ru-1.txt    78
documents/ru-2.txt    67
documents/ru-3.txt    59
documents/ru-4.txt    99
Name: text, dtype: int64

In [10]:
all_texts_df['word count'] = all_texts_df['text'].apply(word_count)
all_texts_df

Unnamed: 0,text,word count
documents/ru-1.txt,"алексей навальный: допрос в фашист-комендатуре очень напоминает это заседание суда. […] все документы от первого до последнего подделаны. а вы все используете несчастного деда как куклу. […] особенно омерзительны родственники этого человека, которые торгуют своим дедом, который ничего не соображает. вы будете гореть в аду за то, что вы взяли деда 95-летнего, нацепили на него эти медали и используете здесь для того, чтобы делать этот отвратительный, гнусный процесс. следователи фабрикуют дела, прокуроры — бессовестные люди, суды продажные!",78
documents/ru-2.txt,"ну вот все говорят все время – ну, мы же сами, мы же не хотим, от нас требуют. ну, в общем, я скажу может быть страшную вещь – не все немцы участвовали в репрессиях против евреев, да. это то, что называется банальность зла. ну вот сначала здесь, уступим здесь немножко, уступим здесь немножко, ничего страшного, а потом смотрим, и режим уже совершенно другой. согласны со мной?",67
documents/ru-3.txt,"даже дарт вейдер выступил в поддержку навального.\n14 февраля по всей россии и в некоторых городах за рубежом прошли акции в поддержку алексея навального под лозунгом «любовь сильнее страха». участники выходили на улицы с включенными фонариками, делали фотографии и выкладывали их в соцсети. некоторые приходили на акцию в костюме дарта вейдера, другие запускали фейерверки или устраивали аквадискотеку с танцами. \n",59
documents/ru-4.txt,страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и,99


### Calculate counts for search terms

In [11]:
search_terms = ["аду", "страха", "страх", " страх "]


In [12]:
for term in search_terms:
    all_texts_df[term] = ""
    
all_texts_df

Unnamed: 0,text,word count,аду,страха,страх,страх.1
documents/ru-1.txt,"алексей навальный: допрос в фашист-комендатуре очень напоминает это заседание суда. […] все документы от первого до последнего подделаны. а вы все используете несчастного деда как куклу. […] особенно омерзительны родственники этого человека, которые торгуют своим дедом, который ничего не соображает. вы будете гореть в аду за то, что вы взяли деда 95-летнего, нацепили на него эти медали и используете здесь для того, чтобы делать этот отвратительный, гнусный процесс. следователи фабрикуют дела, прокуроры — бессовестные люди, суды продажные!",78,,,,
documents/ru-2.txt,"ну вот все говорят все время – ну, мы же сами, мы же не хотим, от нас требуют. ну, в общем, я скажу может быть страшную вещь – не все немцы участвовали в репрессиях против евреев, да. это то, что называется банальность зла. ну вот сначала здесь, уступим здесь немножко, уступим здесь немножко, ничего страшного, а потом смотрим, и режим уже совершенно другой. согласны со мной?",67,,,,
documents/ru-3.txt,"даже дарт вейдер выступил в поддержку навального.\n14 февраля по всей россии и в некоторых городах за рубежом прошли акции в поддержку алексея навального под лозунгом «любовь сильнее страха». участники выходили на улицы с включенными фонариками, делали фотографии и выкладывали их в соцсети. некоторые приходили на акцию в костюме дарта вейдера, другие запускали фейерверки или устраивали аквадискотеку с танцами. \n",59,,,,
documents/ru-4.txt,страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и,99,,,,


In [13]:
for filename, text in all_texts_df.iterrows():
    #print(filename)
    for term in search_terms:
        #print(term, text[0].count(term))
        all_texts_df.loc[filename,term] = text[0].count(term)

In [14]:
all_texts_df

Unnamed: 0,text,word count,аду,страха,страх,страх.1
documents/ru-1.txt,"алексей навальный: допрос в фашист-комендатуре очень напоминает это заседание суда. […] все документы от первого до последнего подделаны. а вы все используете несчастного деда как куклу. […] особенно омерзительны родственники этого человека, которые торгуют своим дедом, который ничего не соображает. вы будете гореть в аду за то, что вы взяли деда 95-летнего, нацепили на него эти медали и используете здесь для того, чтобы делать этот отвратительный, гнусный процесс. следователи фабрикуют дела, прокуроры — бессовестные люди, суды продажные!",78,1,0,0,0
documents/ru-2.txt,"ну вот все говорят все время – ну, мы же сами, мы же не хотим, от нас требуют. ну, в общем, я скажу может быть страшную вещь – не все немцы участвовали в репрессиях против евреев, да. это то, что называется банальность зла. ну вот сначала здесь, уступим здесь немножко, уступим здесь немножко, ничего страшного, а потом смотрим, и режим уже совершенно другой. согласны со мной?",67,0,0,0,0
documents/ru-3.txt,"даже дарт вейдер выступил в поддержку навального.\n14 февраля по всей россии и в некоторых городах за рубежом прошли акции в поддержку алексея навального под лозунгом «любовь сильнее страха». участники выходили на улицы с включенными фонариками, делали фотографии и выкладывали их в соцсети. некоторые приходили на акцию в костюме дарта вейдера, другие запускали фейерверки или устраивали аквадискотеку с танцами. \n",59,0,1,1,0
documents/ru-4.txt,страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и,99,0,49,49,0


### Counts of all keywords

In [15]:
all_texts_df.iloc[:,2:]

Unnamed: 0,аду,страха,страх,страх.1
documents/ru-1.txt,1,0,0,0
documents/ru-2.txt,0,0,0,0
documents/ru-3.txt,0,1,1,0
documents/ru-4.txt,0,49,49,0


In [16]:
all_texts_df.iloc[:,2:].apply(sum,axis=1)

documents/ru-1.txt     1
documents/ru-2.txt     0
documents/ru-3.txt     2
documents/ru-4.txt    98
dtype: int64

In [17]:
all_texts_df['all keyword count'] = all_texts_df.iloc[:,2:].apply(sum,axis=1)
all_texts_df

Unnamed: 0,text,word count,аду,страха,страх,страх.1,all keyword count
documents/ru-1.txt,"алексей навальный: допрос в фашист-комендатуре очень напоминает это заседание суда. […] все документы от первого до последнего подделаны. а вы все используете несчастного деда как куклу. […] особенно омерзительны родственники этого человека, которые торгуют своим дедом, который ничего не соображает. вы будете гореть в аду за то, что вы взяли деда 95-летнего, нацепили на него эти медали и используете здесь для того, чтобы делать этот отвратительный, гнусный процесс. следователи фабрикуют дела, прокуроры — бессовестные люди, суды продажные!",78,1,0,0,0,1
documents/ru-2.txt,"ну вот все говорят все время – ну, мы же сами, мы же не хотим, от нас требуют. ну, в общем, я скажу может быть страшную вещь – не все немцы участвовали в репрессиях против евреев, да. это то, что называется банальность зла. ну вот сначала здесь, уступим здесь немножко, уступим здесь немножко, ничего страшного, а потом смотрим, и режим уже совершенно другой. согласны со мной?",67,0,0,0,0,0
documents/ru-3.txt,"даже дарт вейдер выступил в поддержку навального.\n14 февраля по всей россии и в некоторых городах за рубежом прошли акции в поддержку алексея навального под лозунгом «любовь сильнее страха». участники выходили на улицы с включенными фонариками, делали фотографии и выкладывали их в соцсети. некоторые приходили на акцию в костюме дарта вейдера, другие запускали фейерверки или устраивали аквадискотеку с танцами. \n",59,0,1,1,0,2
documents/ru-4.txt,страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и,99,0,49,49,0,98


### Counts of any keywords (1 if any, 0 if none)

In [18]:
def not_zero(number):
    if number == 0:
        return 0
    else:
        return 1

In [19]:
all_texts_df['all keyword count'].apply(not_zero)

documents/ru-1.txt    1
documents/ru-2.txt    0
documents/ru-3.txt    1
documents/ru-4.txt    1
Name: all keyword count, dtype: int64

In [20]:
all_texts_df['has any keyword'] = all_texts_df['all keyword count'].apply(not_zero)
all_texts_df

Unnamed: 0,text,word count,аду,страха,страх,страх.1,all keyword count,has any keyword
documents/ru-1.txt,"алексей навальный: допрос в фашист-комендатуре очень напоминает это заседание суда. […] все документы от первого до последнего подделаны. а вы все используете несчастного деда как куклу. […] особенно омерзительны родственники этого человека, которые торгуют своим дедом, который ничего не соображает. вы будете гореть в аду за то, что вы взяли деда 95-летнего, нацепили на него эти медали и используете здесь для того, чтобы делать этот отвратительный, гнусный процесс. следователи фабрикуют дела, прокуроры — бессовестные люди, суды продажные!",78,1,0,0,0,1,1
documents/ru-2.txt,"ну вот все говорят все время – ну, мы же сами, мы же не хотим, от нас требуют. ну, в общем, я скажу может быть страшную вещь – не все немцы участвовали в репрессиях против евреев, да. это то, что называется банальность зла. ну вот сначала здесь, уступим здесь немножко, уступим здесь немножко, ничего страшного, а потом смотрим, и режим уже совершенно другой. согласны со мной?",67,0,0,0,0,0,0
documents/ru-3.txt,"даже дарт вейдер выступил в поддержку навального.\n14 февраля по всей россии и в некоторых городах за рубежом прошли акции в поддержку алексея навального под лозунгом «любовь сильнее страха». участники выходили на улицы с включенными фонариками, делали фотографии и выкладывали их в соцсети. некоторые приходили на акцию в костюме дарта вейдера, другие запускали фейерверки или устраивали аквадискотеку с танцами. \n",59,0,1,1,0,2,1
documents/ru-4.txt,страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и страха и,99,0,49,49,0,98,1


### Export to Excel

In [21]:
all_texts_df.to_excel("results.xlsx")