# Textblob 
= Text Preprocessing Libary

`pip install -U textblob-de`

`python -m textblob.download_corpora`

In [1]:
from textblob_de import TextBlobDE as TextBlob #deutsche Version

In [3]:
text = "Das ist aber schön schlechtes Essen! Ich liebe das Essen 0.5 jedoch trotzdem oder? St. Petersburg ist nicht schön"
blob = TextBlob(text)

In [34]:
blob.sentences[0].sentiment #falsch klassifiziert!!!

Sentiment(polarity=1.0, subjectivity=0.0)

In [39]:
negexamples = "Keine schöne Stadt. Er ist nicht böse. Es ist nie gut im Restaurant!"
blobneg = TextBlob(negexamples)

In [40]:
for s in blobneg.sentences:
    print(("{} - {}").format(s, s.sentiment))

Keine schöne Stadt. - Sentiment(polarity=-0.5, subjectivity=0.0)
Er ist nicht böse. - Sentiment(polarity=0.5, subjectivity=0.0)
Es ist nie gut im Restaurant! - Sentiment(polarity=-0.5, subjectivity=0.0)


### Aufspalten des Textes in Sätze

In [18]:
blob.sentences

[Sentence("Das ist aber schön schlechtes Essen!"),
 Sentence("Ich liebe das Essen 0.5 jedoch trotzdem oder?"),
 Sentence("St. Petersburg ist nicht schön")]

In [16]:
print(blob.tags)

[('Das', 'DT'), ('Essen', 'NNS'), ('ist', 'VB'), ('schlecht', 'JJ'), ('Ich', 'PRP'), ('liebe', 'VB'), ('es', 'PRP'), ('jedoch', 'RB'), ('trotzdem', 'RP')]


### Sentiment
1 = positiv

-1 = negativ

In [34]:
s = ["er ist schön","<link>"]

In [35]:
for sentence in s:
    blob = TextBlob(sentence)
    print(blob.sentiment.polarity)

er ist schön
1.0
<link>
-0.7


### Übersetzung

In [26]:
blob.translate(to="en")

TextBlobDE("The food is bad. I still love it anyway.")

### Spracherkennung

In [37]:
TextBlob("Bonjour le monde").detect_language()

'fr'

In [3]:
TextBlob("Yo My Phone Need To Die Already").detect_language()

'en'

### N-Gramms

In [39]:
blob.ngrams(n=3)

[WordList(['Das', 'Essen', 'ist']),
 WordList(['Essen', 'ist', 'schlecht']),
 WordList(['ist', 'schlecht', 'Ich']),
 WordList(['schlecht', 'Ich', 'liebe']),
 WordList(['Ich', 'liebe', 'es']),
 WordList(['liebe', 'es', 'jedoch']),
 WordList(['es', 'jedoch', 'trotzdem'])]

In [47]:
blob.np_counts

defaultdict(int, {})

### Objektivität eine Textes
0 = Objektiv, 1 = Subjektiv

In [48]:
blob.subjectivity

0.0

### Anzahl der Wörter

In [7]:
blob = TextBlob(["Hallo", "Hallo", "Wie", "gehts", "dir"])

TypeError: The `text` argument passed to `__init__(text)` must be a string, not <class 'list'>

In [6]:
blob.word_counts

defaultdict(int, {'dir': 1, 'gehts': 1, 'hallo': 2, 'wie': 1})

### Vorkommende Wörter im Text

In [56]:
blob.words

WordList(['Das', 'Essen', 'ist', 'schlecht', 'Ich', 'liebe', 'das', 'Essen', 'jedoch', 'trotzdem'])

### Lemmatizer

In [33]:
from textblob_de.lemmatizers import PatternParserLemmatizer
_lemmatizer = PatternParserLemmatizer()
#_lemmatizer.lemmatize("Das ist ein hässliches Auto.")
# l = _lemmatizer.lemmatize("Das ist lief hässliches finde ich in den Häuser. Autos Hunde Männer Bauchnabel")
l = _lemmatizer.lemmatize([['Das','ist','hässliches'],['finde','ich',]])
print(l)
print([i[0] for i in l])

['das', 'sein', 'laufen', 'hässlich', 'finde', 'ich', 'in', 'den', 'Häuser', 'Auto', 'Hunde', 'Männer', 'Bauchnabel']
