# Automatisierte Textanalyse

Nachdem mittels Webscraping der Textkorpus für die Analyse erstellt wurde, müssen diese Informationen nun verarbeitet werden.

Alle für die Textanalyse benötigten Bibliotheken installieren

In [1]:
#pip install spacy

In [2]:
#pip install nltk # nltk = natural language processing tool kit

In [3]:
#pip install gensim

In [4]:
import spacy

Englisches Sprachpaket installieren

In [5]:
#! python -m spacy download en_core_web_sm

Deutsches Sprachpaket installieren

In [6]:
#! python -m spacy download de_core_news_sm

Englisches Sprachpaket aktivieren

In [7]:
nlp = spacy.load("en_core_web_sm")

In [8]:
import nltk

nltk-Datensätze aus dem Internet laden

In [9]:
#nltk.download('all')

Beispieltext wird der Variable doc zugewiesen

In [10]:
text = "I've been 2 times to New York in 2011, but did not have the constitution for it. It DIDN'T appeal to me. I preferred Los Angeles."

In [11]:
text = text.lower() # alles in Kleinbuchstaben umwandeln

In [12]:
doc = nlp(text)

Für die automatisierte Textverarbeitung müssen Texte häufig vorverarbeitet werden. Texte sind ersteinmal sehr lange Zeichenketten. Zur Strukturierung können diese Zeichenketten in einzelne Sätze oder einzelne Wörter zerlegt werden.
<dl>
<dt>Sentence splitting</dt>
<dd>Ein Dokument in einzelne Sätze zerlegen und Liste der einzelnen Sätze erstellt.</dd>

<dt>Tokenisierung</dt>
<dd>Satz in seine Bestandteile zerlegen.</dd>
</dl>
Mit der Tokenisierung wird eine Liste (bzw. bei satzweiser Tokenisierung mehrere Listen) von Untersuchungseinheiten (Wörter) erstellt.

Sentence splitting

In [13]:
for sent in doc.sents:
    print(sent.text)

i've been 2 times to new york in 2011, but did not have the constitution for it.
it didn't appeal to me.
i preferred los angeles.


In den folgenden Code-Beispielen wird häufig [List Comprehension](https://www.w3schools.com/python/python_lists_comprehension.asp) eingesetzt. *List Comprehension* ist eine elegante Möglichkeit, Python-Listen zu erzeugen. Ein hilfreiches Erklärvideo zu diesem Konzept findet sich [hier](https://www.youtube.com/watch?v=3dt4OGnU5sM).

In [14]:
sentences = [sentence.text for sentence in doc.sents] # Sätze in Anführungszeichen

In [15]:
print(sentences)

["i've been 2 times to new york in 2011, but did not have the constitution for it.", "it didn't appeal to me.", 'i preferred los angeles.']


In [16]:
doc_sents = [sent for sent in doc.sents] # Sätze ohne Anführungszeichen

In [17]:
print(doc_sents)

[i've been 2 times to new york in 2011, but did not have the constitution for it., it didn't appeal to me., i preferred los angeles.]


Tokenisierung für das gesamte Dokument

In [18]:
words = [token.text for token in doc] # ohne .text werden Wörter ohne Anführungzeichen aufgelistet

In [19]:
print(words)

['i', "'ve", 'been', '2', 'times', 'to', 'new', 'york', 'in', '2011', ',', 'but', 'did', 'not', 'have', 'the', 'constitution', 'for', 'it', '.', 'it', 'did', "n't", 'appeal', 'to', 'me', '.', 'i', 'preferred', 'los', 'angeles', '.']


Satzweise Tokenisierung

In [20]:
tokens = [[token.text for token in sentence] for sentence in doc.sents]

In [21]:
print(tokens)

[['i', "'ve", 'been', '2', 'times', 'to', 'new', 'york', 'in', '2011', ',', 'but', 'did', 'not', 'have', 'the', 'constitution', 'for', 'it', '.'], ['it', 'did', "n't", 'appeal', 'to', 'me', '.'], ['i', 'preferred', 'los', 'angeles', '.']]


In [22]:
for t in tokens:
    print(t)
    print()

['i', "'ve", 'been', '2', 'times', 'to', 'new', 'york', 'in', '2011', ',', 'but', 'did', 'not', 'have', 'the', 'constitution', 'for', 'it', '.']

['it', 'did', "n't", 'appeal', 'to', 'me', '.']

['i', 'preferred', 'los', 'angeles', '.']



Bedeutungsgleiche Wörter kommen häufig in verschiedenen Varianten vor. Die einzelnen Wörter können auch vereinfacht werden, indem sie auf eine gemeinsame Grundform oder einen gemeinsamen Wortstamm reduziert werden. Somit lässt sich die Anzahl von Untersuchungseinheiten (Wörtern) gleicher Bedeutung reduzieren.

Hier gibt es grundsätzlich zwei Möglichkeiten, auf die man Variationen von Wörtern reduzieren kann:
- [Lemma](https://de.wikipedia.org/wiki/Lemma_(Lexikographie)) - Die Grundform des Wortes, wie sie in einem Wörterbuch steht. Z.B.: Haus, laufen, begründen

- [Stamm](https://de.wikipedia.org/wiki/Wortstamm) - Das Wort ohne Flexionsendungen (Prefixe und Suffixe). Z.B.: Haus, lauf, begründ

<dl>
<dt>Lemmatisierung</dt>
<dd>Jede Variation eines Wortes in Bezug auf Zeit oder Menge wird unter zur Hilfenahme eines elektronsichen Wörterbuches duch die Grundform ersetzt.</dd>
<dt>Stemming</dt>
<dd>Durch regelbasiertes Abschneiden oder Ersetzen von Suffixen entsteht ein künstlicher Wortstamm. Dieser Vorgang beruht ausschließlich auf einem Algorithmus ohne zur Hilfenahme eines Wörterbuchs.</dd>
</dl>

Lemmatisierung

In [23]:
lemmas = [[token.lemma_ for token in sentence] for sentence in doc.sents]

In [24]:
print(lemmas)

[['I', "'ve", 'be', '2', 'time', 'to', 'new', 'york', 'in', '2011', ',', 'but', 'do', 'not', 'have', 'the', 'constitution', 'for', 'it', '.'], ['it', 'do', "n't", 'appeal', 'to', 'I', '.'], ['I', 'prefer', 'los', 'angeles', '.']]


Stemming

In [25]:
from nltk import SnowballStemmer

In [26]:
stemmer = SnowballStemmer('english')

In [27]:
stems = [[stemmer.stem(token) for token in sentence] for sentence in tokens]

In [28]:
print(stems)

[['i', 've', 'been', '2', 'time', 'to', 'new', 'york', 'in', '2011', ',', 'but', 'did', 'not', 'have', 'the', 'constitut', 'for', 'it', '.'], ['it', 'did', "n't", 'appeal', 'to', 'me', '.'], ['i', 'prefer', 'los', 'angel', '.']]


Wenn nicht nur einzelne Wörter sondern auch den unmitterbaren Kontext untersuchen möchte, kann man ein gleitendes Fenster von *n* Wörtern verwenden, um den Text zu untersuchen. Ein derartiges Fenster wird *n-gram* genannt. 

n-grams

In [29]:
from nltk import ngrams

In [30]:
bigrams = [gram for gram in ngrams(tokens[0], 2)]

In [31]:
print(bigrams)

[('i', "'ve"), ("'ve", 'been'), ('been', '2'), ('2', 'times'), ('times', 'to'), ('to', 'new'), ('new', 'york'), ('york', 'in'), ('in', '2011'), ('2011', ','), (',', 'but'), ('but', 'did'), ('did', 'not'), ('not', 'have'), ('have', 'the'), ('the', 'constitution'), ('constitution', 'for'), ('for', 'it'), ('it', '.')]


In [32]:
trigrams = [gram for gram in ngrams(tokens[0], 3)]

In [33]:
print(trigrams)

[('i', "'ve", 'been'), ("'ve", 'been', '2'), ('been', '2', 'times'), ('2', 'times', 'to'), ('times', 'to', 'new'), ('to', 'new', 'york'), ('new', 'york', 'in'), ('york', 'in', '2011'), ('in', '2011', ','), ('2011', ',', 'but'), (',', 'but', 'did'), ('but', 'did', 'not'), ('did', 'not', 'have'), ('not', 'have', 'the'), ('have', 'the', 'constitution'), ('the', 'constitution', 'for'), ('constitution', 'for', 'it'), ('for', 'it', '.')]


## Wortartenerkennung

Man kann die einzelnen Wörter eines Textes verschiedenen [Wortarten](https://de.wikipedia.org/wiki/Wortart) zuordnen. Im Englischen werden die Wortarten *parts of speech* (POS) genannt. Die automatische Zuordnung von Wörtern und Satzzeichen eines Textes zu Wortarten firmiert entsprechend unter [part of speech bzw. POS tagging](https://de.wikipedia.org/wiki/Part-of-speech-Tagging).

Folgende Wortarten werden in *spacy*'s POS tagger unterschieden:

| POS   |        DESCRIPTION        |
|:------|:--------------------------|
| ADJ   | adjective                 |
| ADP   | adposition                |
| ADV   | adverb                    |
| AUX   | auxiliary                 |
| CONJ  | conjunction               |
| CCONJ | coordinating conjunction  |
| DET   | determiner                |
| INTJ  | interjection              |
| NOUN  | noun                      |
| NUM   | numeral                   |
| PART  | particle                  |
| PRON  | pronoun                   |
| PROPN | proper noun               |
| PUNCT | punctuation               |
| SCONJ | subordinating conjunction |
| SYM   | symbol                    |
| VERB  | verb                      |
| X     | other                     |

In [34]:
pos = [token.pos_ for token in doc] # Wichtig: Tokenisierung muss schon durchgeführt worden sein

In [35]:
print(pos)

['PRON', 'AUX', 'VERB', 'NUM', 'NOUN', 'ADP', 'PROPN', 'PROPN', 'ADP', 'NUM', 'PUNCT', 'CCONJ', 'AUX', 'PART', 'VERB', 'DET', 'NOUN', 'ADP', 'PRON', 'PUNCT', 'PRON', 'AUX', 'PART', 'VERB', 'ADP', 'PRON', 'PUNCT', 'PRON', 'VERB', 'PROPN', 'PROPN', 'PUNCT']


In [36]:
pos_sents = [[token.pos_ for token in sentence] for sentence in doc.sents] # satzweise

In [37]:
print(pos_sents)

[['PRON', 'AUX', 'VERB', 'NUM', 'NOUN', 'ADP', 'PROPN', 'PROPN', 'ADP', 'NUM', 'PUNCT', 'CCONJ', 'AUX', 'PART', 'VERB', 'DET', 'NOUN', 'ADP', 'PRON', 'PUNCT'], ['PRON', 'AUX', 'PART', 'VERB', 'ADP', 'PRON', 'PUNCT'], ['PRON', 'VERB', 'PROPN', 'PROPN', 'PUNCT']]


In [38]:
word_pos_tuples = list(zip(words, pos))

Die beiden Listen *words* und *pos* werden zu einer Liste von Tupeln kombiniert:

In [39]:
word_pos_tuples

[('i', 'PRON'),
 ("'ve", 'AUX'),
 ('been', 'VERB'),
 ('2', 'NUM'),
 ('times', 'NOUN'),
 ('to', 'ADP'),
 ('new', 'PROPN'),
 ('york', 'PROPN'),
 ('in', 'ADP'),
 ('2011', 'NUM'),
 (',', 'PUNCT'),
 ('but', 'CCONJ'),
 ('did', 'AUX'),
 ('not', 'PART'),
 ('have', 'VERB'),
 ('the', 'DET'),
 ('constitution', 'NOUN'),
 ('for', 'ADP'),
 ('it', 'PRON'),
 ('.', 'PUNCT'),
 ('it', 'PRON'),
 ('did', 'AUX'),
 ("n't", 'PART'),
 ('appeal', 'VERB'),
 ('to', 'ADP'),
 ('me', 'PRON'),
 ('.', 'PUNCT'),
 ('i', 'PRON'),
 ('preferred', 'VERB'),
 ('los', 'PROPN'),
 ('angeles', 'PROPN'),
 ('.', 'PUNCT')]

## Stoppwörter

[Stoppwörter](https://de.wikipedia.org/wiki/Stoppwort) sind Wörter, die ausschließlich grammatikalische/syntaktische Funktionen im Satz übernehmen und somit keine Bedeutung für die Erfassung des Dokumentinhalts besitzen, wie etwa: 
- bestimmte Artikel (der, die, das)
- unbestimmte Artikel (einer, eine)
- Konjunktionen (und, oder, doch, weil, ...)
- Präpositionen (an, in, von, ...)

Aufgrund ihrer inhaltlichen Bedeutungslosigkeit und der großen Häufigkeit, mit der sie in Texten vorkommen, ist es meist sinnvoll, sie bei der Textanalyse zu ignorieren.
Der Ausschluss von Stoppwörtern erfolgt über die Wortart (s.o.) oder über Stoppwort-Listen.

Ausschluss von Stoppwörtern aus dem Beispieltext:

In [40]:
content = [[token.text for token in sentence if token.pos_ in {'NOUN', 'VERB', 'PROPN', 'ADJ', 'ADV'} and not token.is_stop] for sentence in doc.sents]

In [41]:
print(content)

[['times', 'new', 'york', 'constitution'], ['appeal'], ['preferred', 'los', 'angeles']]


## Eigennamenerkennung

In Texten kommen auch [Eigennamen](https://de.wikipedia.org/wiki/Eigenname) vor. Eigennamenerkennung (Named-entity recognition, NER) von spacy kann - zumindest im Englischen - folgende Kategorien unterscheiden:

| Label       | Beschreibung                                                |
|:------------|:------------------------------------------------------------|
| PERSON      | Person                                                      |
| NORP        | Nationality Or Religious or Political group                 |
| FAC         | facility                                                    |
| ORG         | organisation                                                |
| GPE         | GeoPolitical Entity                                         |
| LOC         | locations (wie etwa Seen oder Gebirge)                      |
| PRODUCT     | Produkt                                                     |
| EVENT       | Ereignis (etwa im Sport, in der Politik, in der Geschichte) |
| WORK_OF_ART | Kunstwerk                                                   |
| LAW         | Gesetz                                                      |
| LANGUAGE    | Sprache                                                     |
| DATE        | Datum                                                       |
| TIME        | Zeitangabe                                                  |
| PERCENT     | Prozentwert                                                 |
| MONEY       | Geldbetrag                                                  |
| QUANTITY    | Häufigkeit                                                  |
| ORDINAL     | Ordinalzahl (erste, zweite, dritte, ...)                    |
| CARDINAL    | Kardinalzahl (1, 2, 3, ...)                                 |

In [42]:
entities = [[(entity.text, entity.label_) for entity in nlp(sentence.text).ents] for sentence in doc.sents]

In [43]:
print(entities)

[[('2', 'CARDINAL'), ('new york', 'GPE'), ('2011', 'DATE')], [], [('los angeles', 'GPE')]]


Grafische Darstellung der Eigennamen im Satzzusammenhang:

In [44]:
spacy.displacy.render(doc, style = "ent", jupyter = True)

## Syntaktische Analyse des Textes (Dependenzgrammatik)

Die inhaltliche Bedeutung eines Wortes im Satzzusammenhang kann nicht immer über die Wortart (POS) bestimmt werden. Sie hängt auch von der grammatischen Funktion des Worts im Satz ab. Die [Dependenzgrammatik](https://de.wikipedia.org/wiki/Dependenzgrammatik) analysiert die Beziehungen der Wörter untereinander durch ihre Beziehung zum Hauptverb des jeweiligen Satzes. Folgende syntaktische Kategorien werden unterschieden:

| Label      | Beschreibung                                     |
|:-----------|:-------------------------------------------------|
| acl        | clausal modifier of a noun (adjectival clause)   |
| advcl      | adverbial clause modifier                        |
| advmod     | adverbial modifier                               |
| amod       | adjectival modifier                              |
| appos      | appositional modifier                            |
| aux        | auxiliary verb                                   |
| case       | case marker                                      |
| cc         | coordinating conjunction                         |
| ccomp      | clausal complement                               |
| clf        | classifier                                       |
| compound   | compound                                         |
| conj       | conjunction                                      |
| cop        | copula                                           |
| csubj      | clausal subject                                  |
| dep        | unspecified dependency                           |
| det        | determiner                                       |
| discourse  | discourse element                                |
| dislocated | dislocated elements                              |
| dobj       | direct object                                    |
| expl       | expletive                                        |
| fixed      | fixed multiword expression                       |
| flat       | flat multiword expression                        |
| goeswith   | goes with                                        |
| iobj       | indirect object                                  |
| list       | list                                             |
| mark       | marker                                           |
| nmod       | nominal modifier                                 |
| nsubj      | nominal subject                                  |
| nummod     | numeric modifier                                 |
| obj        | object                                           |
| obl        | oblique nominal                                  |
| orphan     | orphan                                           |
| parataxis  | parataxis                                        |
| pobj       | prepositional object                             |
| punct      | punctuation                                      |
| reparandum | overridden disfluency                            |
| root       | the root of the sentence, usually a verb         |
| vocative   | vocative                                         |
| xcomp      | open clausal complement                          |

In [45]:
[[(c.text, c.head.text, c.dep_) for c in nlp(sentence.text)] for sentence in doc.sents]

[[('i', 'been', 'nsubj'),
  ("'ve", 'been', 'aux'),
  ('been', 'been', 'ROOT'),
  ('2', 'times', 'nummod'),
  ('times', 'been', 'attr'),
  ('to', 'been', 'prep'),
  ('new', 'york', 'compound'),
  ('york', 'to', 'pobj'),
  ('in', 'been', 'prep'),
  ('2011', 'in', 'pobj'),
  (',', 'been', 'punct'),
  ('but', 'been', 'cc'),
  ('did', 'have', 'aux'),
  ('not', 'have', 'neg'),
  ('have', 'been', 'conj'),
  ('the', 'constitution', 'det'),
  ('constitution', 'have', 'dobj'),
  ('for', 'constitution', 'prep'),
  ('it', 'for', 'pobj'),
  ('.', 'been', 'punct')],
 [('it', 'appeal', 'nsubj'),
  ('did', 'appeal', 'aux'),
  ("n't", 'appeal', 'neg'),
  ('appeal', 'appeal', 'ROOT'),
  ('to', 'appeal', 'prep'),
  ('me', 'to', 'pobj'),
  ('.', 'appeal', 'punct')],
 [('i', 'preferred', 'nsubj'),
  ('preferred', 'preferred', 'ROOT'),
  ('los', 'angeles', 'compound'),
  ('angeles', 'preferred', 'dobj'),
  ('.', 'preferred', 'punct')]]

Grafische Darstellung der syntaktischen Abhängigkeiten im Text:

In [46]:
from spacy import displacy
displacy.render(doc, style="dep", jupyter = True)

## Reguläre Ausdrücke

In [47]:
import re

In [48]:
pattern = re.compile('at')

In [49]:
print(re.search(pattern, 'later'))
print(re.match(pattern, 'later'))

<re.Match object; span=(1, 3), match='at'>
None


## Pointwise Mutual Information

In [58]:
from nltk.collocations import BigramCollocationFinder, BigramAssocMeasures
from nltk.corpus import stopwords
from nltk.book import text1 as moby_dick

*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908


In [59]:
stopwords_ = set(stopwords.words('english'))

In [60]:
documents = moby_dick
words = words = [word.lower() for document in documents for word in document.split() if len(word) > 2 and word not in stopwords_]

In [61]:
finder = BigramCollocationFinder.from_words(words)
bgm = BigramAssocMeasures ()
collocations = {bigram: pmi for bigram , pmi in finder.score_ngrams(bgm.mi_like)}
collocations

{('moby', 'dick'): 84.0,
 ('sperm', 'whale'): 20.152729120423608,
 ('mrs', 'hussey'): 9.941176470588236,
 ('mast', 'heads'): 4.565801334054444,
 ('sag', 'harbor'): 4.0,
 ('vinegar', 'cruet'): 4.0,
 ('dough', 'boy'): 3.7067873303167422,
 ('try', 'works'): 3.4838709677419355,
 ('caw', 'caw'): 3.4722222222222223,
 ('white', 'whale'): 3.457170557261702,
 ('cape', 'horn'): 3.4133333333333336,
 ('new', 'bedford'): 3.272727272727273,
 ('quarter', 'deck'): 3.2339339991315676,
 ('deacon', 'deuteronomy'): 3.2,
 ('edmund', 'burke'): 3.0,
 ('father', 'mapple'): 3.0,
 ('gamy', 'jesty'): 3.0,
 ('hoky', 'poky'): 3.0,
 ('jesty', 'joky'): 3.0,
 ('joky', 'hoky'): 3.0,
 ('sperma', 'ceti'): 3.0,
 ('sporty', 'gamy'): 3.0,
 ('sulk', 'pout'): 3.0,
 ('twos', 'threes'): 3.0,
 ('samuel', 'enderby'): 2.8051948051948052,
 ('mast', 'head'): 2.6435007302550275,
 ('000', 'lbs'): 2.45,
 ('chief', 'mate'): 2.3465617516250425,
 ('straits', 'sunda'): 2.25,
 ('old', 'man'): 2.2409487666034154,
 ('crow', 'nest'): 2.227272

## Bag of Words-Darstellung von Text

*Bag of Words* ist eine Form der Textdarstellung, die eine mathematische Weiterverarbeitung erlaubt. Für den zu analysierden Textkorpus werden die darin vorkommenden Wörter aufgelistet.

In [73]:
print(sentences)

["i've been 2 times to new york in 2011, but did not have the constitution for it.", "it didn't appeal to me.", 'i preferred los angeles.']


In [63]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(analyzer = 'word') #analyzer = 'word'

In [64]:
X = vectorizer.fit_transform(sentences)

In [65]:
print(X)

  (0, 20)	1
  (0, 3)	1
  (0, 18)	1
  (0, 19)	1
  (0, 14)	1
  (0, 21)	1
  (0, 10)	1
  (0, 0)	1
  (0, 4)	1
  (0, 6)	1
  (0, 15)	1
  (0, 9)	1
  (0, 17)	1
  (0, 5)	1
  (0, 8)	1
  (0, 11)	1
  (1, 19)	1
  (1, 11)	1
  (1, 7)	1
  (1, 2)	1
  (1, 13)	1
  (2, 16)	1
  (2, 12)	1
  (2, 1)	1


In [66]:
dense_X = X.todense()

In [67]:
print(dense_X)

[[1 0 0 1 1 1 1 0 1 1 1 1 0 0 1 1 0 1 1 1 1 1]
 [0 0 1 0 0 0 0 1 0 0 0 1 0 1 0 0 0 0 0 1 0 0]
 [0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0]]


In [68]:
print(vectorizer.get_feature_names())

['2011', 'angeles', 'appeal', 'been', 'but', 'constitution', 'did', 'didn', 'for', 'have', 'in', 'it', 'los', 'me', 'new', 'not', 'preferred', 'the', 'times', 'to', 've', 'york']


## n-gram Features

Wörter

In [89]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(analyzer = 'word', ngram_range = (1, 3), stop_words = 'english') #min_df = 10, max_df = 0.75,

In [90]:
X = vectorizer.fit_transform(sentences)

In [91]:
print(X)

  (0, 21)	1
  (0, 18)	1
  (0, 12)	1
  (0, 24)	1
  (0, 0)	1
  (0, 6)	1
  (0, 5)	1
  (0, 22)	1
  (0, 19)	1
  (0, 13)	1
  (0, 25)	1
  (0, 1)	1
  (0, 7)	1
  (0, 23)	1
  (0, 20)	1
  (0, 14)	1
  (0, 26)	1
  (0, 2)	1
  (1, 8)	1
  (1, 4)	1
  (1, 9)	1
  (2, 15)	1
  (2, 10)	1
  (2, 3)	1
  (2, 16)	1
  (2, 11)	1
  (2, 17)	1


In [92]:
dense_X = X.todense()

In [93]:
print(dense_X)

[[1 1 1 0 0 1 1 1 0 0 0 0 1 1 1 0 0 0 1 1 1 1 1 1 1 1 1]
 [0 0 0 0 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 1 0 0 0 0 0 0 1 1 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0]]


In [94]:
print(vectorizer.get_feature_names())

['2011', '2011 did', '2011 did constitution', 'angeles', 'appeal', 'constitution', 'did', 'did constitution', 'didn', 'didn appeal', 'los', 'los angeles', 'new', 'new york', 'new york 2011', 'preferred', 'preferred los', 'preferred los angeles', 'times', 'times new', 'times new york', 've', 've times', 've times new', 'york', 'york 2011', 'york 2011 did']


Zeichen

In [95]:
char_ngrams = CountVectorizer(analyzer = 'char', ngram_range = (2, 6))

In [96]:
X = char_ngrams.fit_transform(sentences)

In [97]:
print(X)

  (0, 284)	1
  (0, 103)	1
  (0, 528)	2
  (0, 195)	3
  (0, 18)	2
  (0, 158)	1
  (0, 219)	1
  (0, 233)	1
  (0, 347)	3
  (0, 0)	2
  (0, 128)	1
  (0, 78)	3
  (0, 493)	3
  (0, 298)	1
  (0, 341)	1
  (0, 243)	1
  (0, 458)	1
  (0, 506)	1
  (0, 384)	1
  (0, 64)	2
  (0, 364)	1
  (0, 249)	1
  (0, 536)	1
  (0, 93)	1
  (0, 541)	1
  :	:
  (2, 461)	1
  (2, 12)	1
  (2, 146)	1
  (2, 372)	1
  (2, 267)	1
  (2, 232)	1
  (2, 283)	1
  (2, 77)	1
  (2, 434)	1
  (2, 447)	1
  (2, 228)	1
  (2, 258)	1
  (2, 242)	1
  (2, 457)	1
  (2, 443)	1
  (2, 218)	1
  (2, 177)	1
  (2, 60)	1
  (2, 340)	1
  (2, 414)	1
  (2, 462)	1
  (2, 13)	1
  (2, 147)	1
  (2, 373)	1
  (2, 268)	1


In [98]:
denseX = X.todense()

In [99]:
print(denseX)

[[2 1 1 ... 1 1 1]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


In [88]:
print(char_ngrams.get_feature_names())

[' 2', ' 2 ', ' 2 t', ' 2 ti', ' 2 tim', ' 20', ' 201', ' 2011', ' 2011,', ' a', ' an', ' ang', ' ange', ' angel', ' ap', ' app', ' appe', ' appea', ' b', ' be', ' bee', ' been', ' been ', ' bu', ' but', ' but ', ' but d', ' c', ' co', ' con', ' cons', ' const', ' d', ' di', ' did', ' did ', ' did n', ' didn', " didn'", ' f', ' fo', ' for', ' for ', ' for i', ' h', ' ha', ' hav', ' have', ' have ', ' i', ' in', ' in ', ' in 2', ' in 20', ' it', ' it.', ' l', ' lo', ' los', ' los ', ' los a', ' m', ' me', ' me.', ' n', ' ne', ' new', ' new ', ' new y', ' no', ' not', ' not ', ' not h', ' p', ' pr', ' pre', ' pref', ' prefe', ' t', ' th', ' the', ' the ', ' the c', ' ti', ' tim', ' time', ' times', ' to', ' to ', ' to m', ' to me', ' to n', ' to ne', ' y', ' yo', ' yor', ' york', ' york ', "'t", "'t ", "'t a", "'t ap", "'t app", "'v", "'ve", "'ve ", "'ve b", "'ve be", ', ', ', b', ', bu', ', but', ', but ', '01', '011', '011,', '011, ', '011, b', '1,', '1, ', '1, b', '1, bu', '1, but', '