## Data driven preprocessing

In this lecture, we are showing how you can process your text data, and how you can parse them in order to have the best input for topic modelling. As you will learn, you have automatic ways to do this provided by some low level programming utilities which are -- at least for the major part of them -- natively implemented in the linux ecosystem and, therefore, are available directly out of your usb-stick.

Even if these utilities are useful, it is rarely the case that they do all the job for you, so that some handwork might be necessary in case of texts that are difficult to parse. Take these tools as a way to speed up your work on the preprocessing of texts, nothing more (but also nothing less).

## Basics

Software for data science like the MTA software that we will use in our lecture mostly work on the basis of simple text files (* .txt data), which are light-weight and which you can modify in several ways. The first challenge that you meet when you get some text data is then to convert them into * .txt data. You can get you data in the following formats: 

  - **image data and * .pdf image-data**: in this case, you have to ocerise your data by using an ocr which extracts the text out of the data. In the Linux ecosystem, you have a very powerfull tool to do that which is called tesseract-ocr; using your terminal in Linux, you can easily install tesseract and its languages files (for the ocerisation in several languages) with the following command (cf. our lecture 2): 

sudo apt-get install tesseract-ocr tesseract-ocr-all

After that, you can use tesseract-ocr to ocerise your data -- do pay attention that you need to write a script for tesseract-ocr to work as you would like (beyond of this tutorial), as f.ex. to ocerise texts in several languages at once, or to ocerise texts printed in several columns.

  - **sandwich pdf data**: these are a specific case of pdf data which you can extract the text by copy/paste from; I don't recommand this, because you would also copy non visible elements from the pdf data that you would have to hunt down and delete afterwards. Instead, you can use a powerful utility called pdftotext to extract the text out of these data. You can install this software, which is part of the package poppler-utils, using the command line like this:

sudo apt-get install poppler-utils

Let us take a sandwich pdf data like SandwichPDF.pdf, and let us convert it into txt: 

In [10]:
#!pdftotext SandwichPDF.pdf # will save the data as SandwichPDF.txt
# pdftotext SandwichPDF.pdf mytext.txt -- would save the data SandwichPDF.pdf as mytext.txt

As you can see in the resulting data, we have made out of this sandwich pdf is a text data without layout -- and I recommand to do it like this, because here we have a text on several columns. If you would like to retain the layout, you could do: 

In [11]:
#!pdftotext -layout SandwichPDF.pdf

You would get a text data preserving (more or less) the layout of the sandwich pdf -- but you would get problems major difficulties with your analysis. The reason of that is the following. Let us see a sample of the resulting text data with the layout:  

```
      D     ietrich Bonhoeffer ist umstritten.
            Dieses Phänomen zieht sich als roter
      Faden durch Leben und Rezeption des
                                                      von akademischem, sondern auch von
                                                      populärem Interesse.
                                                          Dass Rezeption immer auch Deutung
      Pfarrers, Theologen und Widerständlers.         im Sinne je eigener Auffassungen bis hin   <---- One line == one sentence
      Man kann hier nicht nur an die Entfernung       zur Aneignung bedeuten kann, ist eine
      Bonhoeffers aus dem Lehrkörper der Theo-        Binsenweisheit. Der amerikanische The-  <---- Next difficulty: dash to cut lines will remain
      logischen Fakultät der Berliner Universität,    ologe Stephen R. Haynes hat in seinem
      sondern auch an die problematische Stel-        sehr lesenswerten Buch The Bonhoeffer
      lung im Umfeld der Bekennenden Kirche,          Phenomenon. Portraits of a Protestant Saint
      die Beurteilung des Widerstands im Kon-         gezeigt, in welchem Maße die globale Re-
      text der westdeutschen Nachkriegsgerichts-      zeption Bonhoeffers Elemente klassischer
      barkeit, die umstandslose Vereinnahmung         Hagiografien aufnimmt, warum Bonhoef-
      im Zusammenhang der offiziellen Theolo-         fers Biografie für diese Art der Deutung
      gie der DDR oder den Streit um die liberale     offen ist und welche Chancen und Ge-
      und konservative Deutung in den 1980er-         fahren damit verbunden sind. Zentral ist
      und 1990er-Jahren des 20. Jahrhunderts          der religiös motivierte, entschiedene, bis
      denken.                                         zum Verlust des eigenen Lebens gehende
          Auch der Ansatz von Eric Metaxas,           Einsatz für etwas, das als richtig erkannt
      der Bonhoeffer als Paradigma des kon-           worden ist und – wie im Fall des Wider-
      servativen Evangelikalen zu skizzieren          stands gegen den Nationalsozialismus –
      sucht, ist nicht ganz ohne Vorbilder, hat-      auch allgemein als richtig anerkannt wird.
      te doch Georg Huntemann schon in den            Bedeutsam ist weiterhin der Kontrast zwi-
      1990er-Jahren den „anderen Bonhoeffer“          schen glücklicher Kindheit, erfolgreicher
      verkündet.                                      Jugend und dem konsequenten Dasein als
          Was also ist neu an der Diskussion,         Märtyrer und Zeuge. Zentral ist aber auch
      wer war er wirklich, und was lässt sich von     die Fragmentarität und damit Interpreta-
      ihm für die Gegenwart lernen? Um diese          tionsoffenheit des hinterlassenen Werks.
      Fragen beantworten zu können, lohnt –               Die Chance solcher Deutung liegt in
      gerade angesichts des 75. Jahrestags seiner     der religiösen und moralischen Orientie-
      staatlich angeordneten Ermordung – ein          rungsfunktion, die – weit über den akade-
      Blick auf die Eigenart gegenwärtiger Bon-       mischen Kontext hinaus – gesellschaftlich
      hoeffer-Rezeption und zentrale Aspekte
      seiner theologischen Biografie.                         Gefängniszelle in Berlin-Tegel,
          1. Der „protestantische Heilige“ und sei-      in der Bonhoeffer von 1943 bis 1944
      ne gegenwärtige Rezeption: Es ist nicht zu                              inhaftiert war.
```

If you pass this text to a learning programm, this programm will read the data line by line, and it will interprete these lines as sentences on which it will compute a model for you. This is clearly something that we don't want here, because we would have sentences which do not reflect the content of our text. Therefore, do not use the layout option of pdftotext. 

We know how to deal with pdf data as image or as sandwich pdf. But we have other types of data, as for example: 

  - **doc(x)** data;
  - **rtf** data;
  - **odt(s)** data;
  - **htm(l)** data;
  - **x(h)tml** data.
  
In order to convert such data, we can use the LibreOffice --headless flag, like this:

In [14]:
#!soffice --headless --convert-to txt:Text CP-Abstracts.doc  #<-- replace .doc with .rtf or .odt or .html etc for corresponding files