# Repräsentation von reinen Text-Korpora (à la `gutenberg.org`)

Das Objekt `gutenberg` kann Text-Korpora einlesen mit verschiedenen Methoden.

In [1]:
from nltk.corpus import gutenberg

filename = 'austen-emma.txt' # oder absoluter Pfad einer Textdatei

### Dokument als eine lange Zeichenkette: Methode `raw()`

In [2]:
emma_chars = gutenberg.raw(filename)
emma_chars[:100]

u'[Emma by Jane Austen 1816]\n\nVOLUME I\n\nCHAPTER I\n\n\nEmma Woodhouse, handsome, clever, and rich, with a'

### Dokument als Liste von Wörtern: Methode `words()`
Wort = Zeichenkette

In [3]:
emma_words = gutenberg.words(filename)
print emma_words[11:40]

[u'Emma', u'Woodhouse', u',', u'handsome', u',', u'clever', u',', u'and', u'rich', u',', u'with', u'a', u'comfortable', u'home', u'and', u'happy', u'disposition', u',', u'seemed', u'to', u'unite', u'some', u'of', u'the', u'best', u'blessings', u'of', u'existence', u';']


### Dokument als Liste von Sätzen: Methode `sents()`
Satz = Liste von Wörten

In [4]:
emma_sents = gutenberg.sents(filename)
emma_sents[:6]

[[u'[', u'Emma', u'by', u'Jane', u'Austen', u'1816', u']'],
 [u'VOLUME', u'I'],
 [u'CHAPTER', u'I'],
 [u'Emma',
  u'Woodhouse',
  u',',
  u'handsome',
  u',',
  u'clever',
  u',',
  u'and',
  u'rich',
  u',',
  u'with',
  u'a',
  u'comfortable',
  u'home',
  u'and',
  u'happy',
  u'disposition',
  u',',
  u'seemed',
  u'to',
  u'unite',
  u'some',
  u'of',
  u'the',
  u'best',
  u'blessings',
  u'of',
  u'existence',
  u';',
  u'and',
  u'had',
  u'lived',
  u'nearly',
  u'twenty',
  u'-',
  u'one',
  u'years',
  u'in',
  u'the',
  u'world',
  u'with',
  u'very',
  u'little',
  u'to',
  u'distress',
  u'or',
  u'vex',
  u'her',
  u'.'],
 [u'She',
  u'was',
  u'the',
  u'youngest',
  u'of',
  u'the',
  u'two',
  u'daughters',
  u'of',
  u'a',
  u'most',
  u'affectionate',
  u',',
  u'indulgent',
  u'father',
  u';',
  u'and',
  u'had',
  u',',
  u'in',
  u'consequence',
  u'of',
  u'her',
  u'sister',
  u"'",
  u's',
  u'marriage',
  u',',
  u'been',
  u'mistress',
  u'of',
  u'his',
  

### Dokument als Liste von Paragraphen: Methode `paras()`
Paragraph = Liste von Sätzen

In [5]:
emma_paras = gutenberg.paras(filename)
#for s in emma_paras[20]:
#    print s
emma_paras

[[[u'[', u'Emma', u'by', u'Jane', u'Austen', u'1816', u']']], [[u'VOLUME', u'I']], ...]

## Typische Berechnungen
- Wie viele Paragraphen?
- Wie viele Sätze pro Paragraph im Schnitt?
- Wie viele Wörter pro Satz im Schnitt?
- ...


In [6]:
from __future__ import division
# Anzahl Paragraphen
# Durchschnittliche Anzahl Sätze pro Paragraph?
len(emma_paras)
len(emma_sents)/len(emma_paras)

3.2695065373260226

## Was für ein Objekt ist `emma_paras`?
Eine Liste von Listen von Zeichenketten?

In [7]:
type(emma_paras)

nltk.corpus.reader.util.StreamBackedCorpusView

Nein, scheinbar was ganz Anderes

Frage: Weshalb funktioniert dann die __Indexnotation__ `[n]` oder __Slicing__ `[n:m]`?

Antwort: Diese Notationen sind allgemein für Sequenzen benützbar.

<hr/></hr><h2>Häufigkeitsverteilungen</h2>

In [8]:
import nltk
emma_fd = nltk.FreqDist(emma_words)

In [9]:
sorted([w for w in emma_fd.keys()
            if len(w)>10 and emma_fd[w]> 7])

[u'accomplished',
 u'acknowledge',
 u'acknowledged',
 u'acquaintance',
 u'affectionate',
 u'approbation',
 u'arrangement',
 u'circumstance',
 u'circumstances',
 u'comfortable',
 u'comfortably',
 u'communicated',
 u'communication',
 u'compliments',
 u'concealment',
 u'consciousness',
 u'consequence',
 u'considerable',
 u'consideration',
 u'considering',
 u'consolation',
 u'conversation',
 u'countenance',
 u'delightfully',
 u'differently',
 u'difficulties',
 u'disagreeable',
 u'disappointed',
 u'disappointment',
 u'disposition',
 u'distinction',
 u'encouragement',
 u'encouraging',
 u'engagements',
 u'exceedingly',
 u'excessively',
 u'expectation',
 u'explanation',
 u'expressions',
 u'extraordinary',
 u'forbearance',
 u'grandmother',
 u'housekeeper',
 u'imagination',
 u'immediately',
 u'improvement',
 u'inclination',
 u'inconvenience',
 u'independence',
 u'independent',
 u'indifference',
 u'indifferent',
 u'information',
 u'intelligence',
 u'intelligible',
 u'intercourse',
 u'interesting'