# Basic usage

The package is designed to provide search functionality in structured corpora or collections of textual data in dataframe compatible formats. 

Consider for example the collected works of an author. This collection could be divided in volumes, pages, paragraphs and sentences, such that each sentence has a multi-level index. Another example would be a collection of metadata on publications for one specific topic. This collection could contain additional information on printers, geographical information, and so on.

Searching for specific words in the main textual column can then be reduced by adding search terms for different columns.

## Import module

In [1]:
from corpussearch import search

## Initalize

In [2]:
search1 = search(
                '../corpussearch/tests/data/dfTest.csv',
                dataType='csv',
                dataIndex='single'
                )

## Usage

After initialization, the dataframe is loaded and accessible as `.dataframe`

In [3]:
search1.dataframe

Unnamed: 0,volume,part,page,paragraph,sentence,text
0,Band_1,Einleitung,1,1,1,JOHANNES KEPLER\nG ESAMMEL T...
1,Band_1,Einleitung,1,3,1,HERAUSGEGEBEN 1M AUFTRAG
2,Band_1,Einleitung,1,4,1,DER DEUTSCHEN FORSCHUNGSGEMEINSCHAFT\n ...
3,Band_1,Einleitung,1,5,1,UNTER DER LEITUNG VON
4,Band_1,Einleitung,1,6,1,WALTHER VON DYCK t UNO MA CASPAR
5,Band_1,Einleitung,1,8,1,\nC
6,Band_1,Einleitung,1,8,2,H
7,Band_1,Einleitung,1,8,3,BECK'SCHE VERLAGSBUCHHANDLUNG\n ...
8,Band_1,Einleitung,10,1,1,EINLEITUNG ...
9,Band_1,Einleitung,10,2,1,die Edition des Briefwechse1s bei Frisch beson...


### Search vs Reduce

The `Search` class contains functionality to search and reduce. The search determines whether a string is contained in the main textual column, which can be set during initialization by `colname=COLUMN NAME`. The routine for reduction finds exact matches for a value in the desired column and uses the `difflib` package to enable fuzzy searches. 

Reductions and searches can be chained. The result can be displayed using `.results()`.

Take for example the search for all sentences with the number 1. 

In [4]:
search1.reduce('sentence','1').results()

Unnamed: 0,volume,part,page,paragraph,sentence,text
0,Band_1,Einleitung,1,1,1,JOHANNES KEPLER\nG ESAMMEL TE WERKE
1,Band_1,Einleitung,1,3,1,HERAUSGEGEBEN 1M AUFTRAG
2,Band_1,Einleitung,1,4,1,DER DEUTSCHEN FORSCHUNGSGEMEINSCHAFT\n UND DER\nBAYERISCHEN AKADEMIE DER WISSE SCHAFTEN
3,Band_1,Einleitung,1,5,1,UNTER DER LEITUNG VON
4,Band_1,Einleitung,1,6,1,WALTHER VON DYCK t UNO MA CASPAR
5,Band_1,Einleitung,1,8,1,\nC
8,Band_1,Einleitung,10,1,1,EINLEITUNG XI
9,Band_1,Einleitung,10,2,1,"die Edition des Briefwechse1s bei Frisch besonders unglucklich ausgefal-\nlen ist, insofern er die Briefe an Kepler nur auszugsweise wiedergab\nund die einze1nen Briefe von Kepler zumeist auseinandergerissen hat,\num die einze1nen Stellen und Teile in seinen Einleitungen zu den betref-\nfenden Werken unterzubringen, wird die neue Ausgabe zum erstenmal\neine moglichst hickenlose chronologische Darstellung des ungemein\nreichen Briefmaterials bringen, worin sich der Ablauf von Keplers so\nbewegtem auBeren Leben und die Entwicklung seines gesamten geisti-\ngen Schaffens widerspiegelt"


This can be chained to reduce the results to a certain page.

In [5]:
search1.reduce('sentence',1).reduce('page',10).results()

Unnamed: 0,volume,part,page,paragraph,sentence,text
8,Band_1,Einleitung,10,1,1,EINLEITUNG XI
9,Band_1,Einleitung,10,2,1,"die Edition des Briefwechse1s bei Frisch besonders unglucklich ausgefal-\nlen ist, insofern er die Briefe an Kepler nur auszugsweise wiedergab\nund die einze1nen Briefe von Kepler zumeist auseinandergerissen hat,\num die einze1nen Stellen und Teile in seinen Einleitungen zu den betref-\nfenden Werken unterzubringen, wird die neue Ausgabe zum erstenmal\neine moglichst hickenlose chronologische Darstellung des ungemein\nreichen Briefmaterials bringen, worin sich der Ablauf von Keplers so\nbewegtem auBeren Leben und die Entwicklung seines gesamten geisti-\ngen Schaffens widerspiegelt"


To reset the search use

In [6]:
search1.resetSearch()

One can then obtain results for sentences with different numbers.

In [7]:
search1.reduce('paragraph',8).results()

Unnamed: 0,volume,part,page,paragraph,sentence,text
5,Band_1,Einleitung,1,8,1,\nC
6,Band_1,Einleitung,1,8,2,H
7,Band_1,Einleitung,1,8,3,BECK'SCHE VERLAGSBUCHHANDLUNG\n MÙNCHEN\n


In [8]:
search1.resetSearch()

The search functionality is able to process regular expressions.

In [9]:
search1.search('A[a-z]{2,}').results()

Unnamed: 0,volume,part,page,paragraph,sentence,text
9,Band_1,Einleitung,10,2,1,"die Edition des Briefwechse1s bei Frisch besonders unglucklich ausgefal-\nlen ist, insofern er die Briefe an Kepler nur auszugsweise wiedergab\nund die einze1nen Briefe von Kepler zumeist auseinandergerissen hat,\num die einze1nen Stellen und Teile in seinen Einleitungen zu den betref-\nfenden Werken unterzubringen, wird die neue Ausgabe zum erstenmal\neine moglichst hickenlose chronologische Darstellung des ungemein\nreichen Briefmaterials bringen, worin sich der Ablauf von Keplers so\nbewegtem auBeren Leben und die Entwicklung seines gesamten geisti-\ngen Schaffens widerspiegelt"


To display the full text of a search result, the column width of the dataframe is set to be unlimited. This setting affects the full notebook and can be reverted by using 

In [10]:
search1.resetColWidth()

Dataframes now again use the standard formating. 

In [11]:
search1.dataframe

Unnamed: 0,volume,part,page,paragraph,sentence,text
0,Band_1,Einleitung,1,1,1,JOHANNES KEPLER\nG ESAMMEL T...
1,Band_1,Einleitung,1,3,1,HERAUSGEGEBEN 1M AUFTRAG
2,Band_1,Einleitung,1,4,1,DER DEUTSCHEN FORSCHUNGSGEMEINSCHAFT\n ...
3,Band_1,Einleitung,1,5,1,UNTER DER LEITUNG VON
4,Band_1,Einleitung,1,6,1,WALTHER VON DYCK t UNO MA CASPAR
5,Band_1,Einleitung,1,8,1,\nC
6,Band_1,Einleitung,1,8,2,H
7,Band_1,Einleitung,1,8,3,BECK'SCHE VERLAGSBUCHHANDLUNG\n ...
8,Band_1,Einleitung,10,1,1,EINLEITUNG ...
9,Band_1,Einleitung,10,2,1,die Edition des Briefwechse1s bei Frisch beson...


### Logical searches

The search and reduce functionality follow a linear fashion. To enable more complex searches, one can use the `.logicReduce()` module. The search is initiated with a list of tuples and logic operators. 

To search, for example, for all pages with number 10 OR sentences with number 3, use the expression `[("page",10),"|",("sentence",3)]`, as shown below.

In [14]:
search1.resetSearch()

In [15]:
search1.logicReduce([('page',10),'|',('sentence',3)]).results()

Unnamed: 0,volume,part,page,paragraph,sentence,text
7,Band_1,Einleitung,1,8,3,BECK'SCHE VERLAGSBUCHHANDLUNG\n MÙNCHEN\n
8,Band_1,Einleitung,10,1,1,EINLEITUNG XI
9,Band_1,Einleitung,10,2,1,"die Edition des Briefwechse1s bei Frisch besonders unglucklich ausgefal-\nlen ist, insofern er die Briefe an Kepler nur auszugsweise wiedergab\nund die einze1nen Briefe von Kepler zumeist auseinandergerissen hat,\num die einze1nen Stellen und Teile in seinen Einleitungen zu den betref-\nfenden Werken unterzubringen, wird die neue Ausgabe zum erstenmal\neine moglichst hickenlose chronologische Darstellung des ungemein\nreichen Briefmaterials bringen, worin sich der Ablauf von Keplers so\nbewegtem auBeren Leben und die Entwicklung seines gesamten geisti-\ngen Schaffens widerspiegelt"


## Additional statistics

**Currently for multiindex dataframe only**

Additional information, e.g., the number of pages, words or paragraphs in a volume, can be obtained by using `.extResults(level=COLUMN NAME)`, where the level should be a column different from the main search column. This calculates the statistics once for the full dataset at first call. The metadata is then displayed along with the search results. 

In [20]:
search2 = search(
                '../corpussearch/tests/data/dfTest.pickle',
                )

In [22]:
search2.reduce('page',10).extResults('part')

Unnamed: 0,volume,part,page,paragraph,sentence,Num_page,Num_paragraph,Num_sentence,words,text
0,Band_1,Einleitung,10,1,1,2,7,3,117,EINLEITUNG XI
1,Band_1,Einleitung,10,2,1,2,7,3,117,"die Edition des Briefwechse1s bei Frisch besonders unglucklich ausgefal-\nlen ist, insofern er die Briefe an Kepler nur auszugsweise wiedergab\nund die einze1nen Briefe von Kepler zumeist auseinandergerissen hat,\num die einze1nen Stellen und Teile in seinen Einleitungen zu den betref-\nfenden Werken unterzubringen, wird die neue Ausgabe zum erstenmal\neine moglichst hickenlose chronologische Darstellung des ungemein\nreichen Briefmaterials bringen, worin sich der Ablauf von Keplers so\nbewegtem auBeren Leben und die Entwicklung seines gesamten geisti-\ngen Schaffens widerspiegelt"
