# Files schreiben

Mit Python kann man auf einface Art und Weise Textfiles erstellen und/oder lesen. Das kann hilfreich sein, wenn man z. B. Variablen die ein Python Skript aus dem Web "scrapped" speichern mag. In diesem Beispielen verwende ich die [Markdown](https://daringfireball.net/projects/markdown/syntax) Syntax. Das ist eine Markup Sprache (keine Programmiersprache) und macht das Formatieren von reinen Textdokumenten einfach. Aber zunächst erstellen wir einmal ein File. In den Klammern sind zwei "Argumente", erstens der Filename und zweites ein Parameter wie man dass File öffnen mag (w steht für write, a steht für append d.h. es öffnet ein File und hängt was neues dran). Mehr zum File Input/Output schreiben [hier](https://docs.python.org/2/tutorial/inputoutput.html)

In [2]:
datei = open("test.md","w")

Mit der Funktion öffnet man ein File Objekt, dass wir in der Variable "datei" abspeichern. Um jetzt einen Text im File abzuspeichern, kann man die Funktion write() aufrufen. Das sieht so aus:

In [3]:
datei.write("# Erste überschrift")

Danach müssen wir die Datei schliessen.

In [4]:
datei.close()

Seht mal im Ordner nach, ob ihr ein neues File habt. Ihr könnt auch im Terminal einfach mal folgendes ausprobieren:

~~~~
cat test.md
~~~~


Oft wird ein Loop verwendet, um etwas in eine Datei zu schreiben. Nehmen wir mal an, wir möchten 10 Zeilen mit unterschiedlichem Text in die Datei schreiben

In [5]:
# zuerst datei oeffnen
datei = open("test.md","w")

# erstelle den for loop, welcher 10 mal die nächste zeile ausführen wird
for i in range(10):
    # das str(i) braucht man um die Variable i in einen Text zu konvertieren
    datei.write("# " + str(i) + " überschrift")
    
# nach dem Loop schliessen wir die Datei
datei.close()
    

Seht euch das File an. Was bemerkt ihr? Es wird alles in eine einzige Zeile geschrieben. Einen Zeilenumbruch bewirkt man mit dem Zeichen "\n" \n steht für newline.

In [7]:
datei = open("test.md","w")
for i in range(10):
    datei.write("# " + str(i) + " überschrift\n")
datei.close()

Mit dem Markdown Textdokument kann man einfach ein PDF generieren. Stellt sicher, dass ihr das Kommandozeilen Programm [pandoc](http://pandoc.org/) installiert habt. Pandoc ist das Swiss-knife um Textformate zu konvertieren (von txt zu html, von html zu pdf, von pdf zu text, von markdown zu pdf, etc...) Im Terminal gebt ein:
~~~~
pandoc --version
~~~~
Seht ihr einen Text mit der Versionsnummer? Bestens!

Oder seht ihr:
~~~~
command not found: pandoc
~~~~


**Linux** user müssen folgendes installieren
~~~~
sudo apt-get install pandoc texlive-base texlive-latex-recommended texlive-fonts-recommended
~~~~

**Mac OS X User**
Ihr habt auch kein brew? Das installiert man so:
~~~~~
/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
~~~~~

Ihr müsst Pandoc installieren mit brew:
~~~~~
brew install pandoc
~~~~~

Bevor wir mit Pandoc ein PDF generieren können, müssen wir noch sicherstellen, dass wir Latex installiert haben. Hier ist der Link zum [Package](http://tug.org/cgi-bin/mactex-download/BasicTeX.pkg)

Man kann nun pandoc aufrufen (der -o Parameter steht für Output, d.h. in welches File der Output (=PDF) geschrieben werden soll.
~~~~
pandoc test.md -o test.pdf
~~~~

Voila. Ihr habt ein Python Programm erstellt welches automatisch ein PDF erzeugt. Der Text ist jetzt noch statisch, aber wir können uns bereits vorstellen, dass der Text aus dem Web, aus einem Chat, aus einem Twitter Feed kommen kann. 

Wir haben bisher gesehen wie man einen Zeilenumbruch bewirken kann. Interessant wäre noch wie wir einen Seitenumbruch bezwingt. Dafür muss man eine LaTex Formatierung anwenden, da die Markdown Sprache eigentlich keine Seitenumbrüche vorgesehen hat, da es rein als Screen-Markup Sprache gedacht war. In unserem kleinen Python Skript fügen wir nun noch ein weitere Textformatierung hinzu:

In [11]:
datei = open("test.md","w")
for i in range(10):
    datei.write("# " + str(i) + " überschrift\n")
    # Achtung: Wir sehen ein kleines r vor dem Text: Warum? Da Python sonst das |n
    # von |newpage als Zeilenumbruch interpretieren würde. r steht für RAW
    datei.write(r"\newpage")
datei.close()

### Bilder in Markdown

Man kann in die Markdown Syntax auch Bilder einfügen. Die Markdown Syntax ist


In [20]:
datei = open("test.md","w")
datei.write("![Image caption](img/code.jpg)")
datei.close()

Wenn ihr nun das PDF wieder in der Kommandozeile generiert, dann seht ihr das unter dem Bild eine Legende steht. Das kann man aber ausblenden lassen, indem man das pandoc Kommando ein wenig verändert:
~~~~
pandoc test.md -fmarkdown-implicit_figures -o test.pdf
~~~~

Man kann aber noch andere Parameter dem pandoc übergeben, wie z.B. Margins, Ausgabeformat etc... Hier ein paar Beispiele:

Grössere Margins/Seitenrand
~~~~
pandoc test.md -V geometry:margin=2in -o test.pdf
~~~~

Oder das Papierformat definieren
~~~~
pandoc test.md -V geometry:a5paper -o test.pdf
~~~~

## Files lesen

Man kann Textfiles in Python leicht öffnen. Nehmen wir an wir haben ein txt File, welches wir Zeile für Zeile auslesen möchten. Zunächst müssen wir das File öffnen. In den Klammern definieren wir den Filenamen (+Pfad) und mit "r" definieren wir, dass wir das File nur "r"eaden wollen. Also nur lesen.

In [3]:
datei = open("./txt/trump.txt","r")

In [4]:
print datei

<open file './txt/trump.txt', mode 'r' at 0x10f367810>


Falls ihr "<open file './txt/trump.txt', mode 'r' at 0x10f367810>" das hier seht, dann scheint es erfolgreich gewesen zu sein. Legt mal ein anderes Textfile in den txt Ordner und versucht das in Python zu laden.

Nun möchten wir alle Zeilen von dem Textdokument einlesen und in einer Variablen speichern. Dazu gibt es die Funktion readlines(). Wir speichern also alle Zeilen in der Variable zeilen:

In [5]:
zeilen = datei.readlines()

Hat das geklappt? Wir überprüfen das mit dem Befehl "print"

In [6]:
print zeilen


['Friends, delegates and fellow Americans: I humbly and gratefully accept your nomination for the presidency of the United States.\n', 'Together, we will lead our party back to the White House, and we will lead our country back to safety, prosperity, and peace. We will be a country of generosity and warmth. But we will also be a country of law and order.\n', 'Our Convention occurs at a moment of crisis for our nation. The attacks on our police, and the terrorism in our cities, threaten our very way of life. Any politician who does not grasp this danger is not fit to lead our country.\n', 'Americans watching this address tonight have seen the recent images of violence in our streets and the chaos in our communities. Many have witnessed this violence personally, some have even been its victims.\n', 'I have a message for all of you: the crime and violence that today afflicts our nation will soon come to an end. Beginning on January 20th 2017, safety will be restored.\n', 'The most basic d

Wenn man sich den Output genauer ansieht, dann sehen wir es zunächst mit einer eckigen Klammer beginnt und dann das jeder Satz mit den Anführungsstrichen umschlossen ist. Um welchen Datentypen handelt es sich hier? Genau, um eine Liste! Womit können wir die Liste am besten auslesen?

In [10]:
for zeile in zeilen:
    print zeile[0:160]

Friends, delegates and fellow Americans: I humbly and gratefully accept your nomination for the presidency of the United States.

Together, we will lead our party back to the White House, and we will lead our country back to safety, prosperity, and peace. We will be a country of generosity
Our Convention occurs at a moment of crisis for our nation. The attacks on our police, and the terrorism in our cities, threaten our very way of life. Any polit
Americans watching this address tonight have seen the recent images of violence in our streets and the chaos in our communities. Many have witnessed this violen
I have a message for all of you: the crime and violence that today afflicts our nation will soon come to an end. Beginning on January 20th 2017, safety will be 
The most basic duty of government is to defend the lives of its own citizens. Any government that fails to do so is a government unworthy to lead.

It is finally time for a straightforward assessment of the state of our nation

Nun möchten wir nur die ersten 160 Charaktere einer Zeile ausgeben lassen. Dafür kann man in Python die eckigen Klammern nach einem Text-Objekt anwenden [0:160] z.B. Gibt alle Zeichen aus von dem 0ten bis zum 160ten Charakter: 

In [None]:
for zeile in zeilen:
    print zeile[0:160]

**Challenge** Versucht diese Schleife nun mit dem Tweepy zu kombinieren. D. h. jede Zeile soll getweeted werden. Aber Achtung: baut ein delay (sleep(5)) zwischen den einzelnen Tweet uploads ein!